حتی می توان آن را کثیف، درخواست غنی می تواند قدرتمند.
یک رویکرد متفاوت به خرید و فروش با نبودن اطلاعات ردیابی دیجیتال است که آن را غنی سازی به طور مستقیم با داده های نظر سنجی، یک فرایند است که من درخواست غنی است. یک نمونه از درخواست غنی مطالعه است Burke and Kraut (2014) ، که من در این فصل، در مورد اینکه آیا تعامل در فیس بوک باعث افزایش قدرت دوستی توصیف (بخش 3.2). در آن صورت، برک و کرات و ترکیب داده های نظر سنجی با اطلاعات ورود به سیستم فیس بوک.
تنظیمات که برک و کرات و در کار می کردند، با این حال، بدان معنی است که آنها مجبور به مقابله با دو مشکل بزرگ است که محققان انجام غنی چهره پرسیدن. اول، در واقع با هم ارتباط مجموعه-داده فرآیند به نام ارتباط رکورد، تطبیق یک رکورد در یک مجموعه داده با سابقه مناسب در دیگر نمونه مجموعه داده-می تواند مشکل باشد و مستعد خطا (خواهیم دید که این مشکل زیر ). دومین مشکل اصلی از این پرسش غنی است که کیفیت آثار دیجیتال اغلب دشوار برای محققان به ارزیابی خواهد بود. برای مثال، گاهی روند که از طریق آن جمع آوری شده است اختصاصی است و می تواند مستعد ابتلا به بسیاری از مشکلات در فصل 2. به عبارت دیگر، درخواست غنی غالبا شامل ارتباط مستعد خطا از بررسی های به منابع داده جعبه سیاه ناشناخته با کیفیت. با وجود نگرانی هایی است که این دو مشکل معرفی، ممکن است به انجام تحقیقات مهم با این استراتژی به عنوان توسط استفان آنسولابهره و ایتان هرش نشان داده شد (2012) در پژوهش خود را در الگوهای رای گیری در ایالات متحده. این ارزشمند است که بیش از این مطالعه به در برخی از جزئیات زیرا بسیاری از استراتژی است که آنسولابهره و هرش توسعه یافته در برنامه های کاربردی دیگر از این پرسش غنی مفید باشد.
تعداد رای دهندگان شده است، موضوع تحقیقات گسترده در علوم سیاسی بوده است، و در گذشته، درک محققان از که آرا و چرا به طور کلی شده است در تجزیه و تحلیل داده های نظر سنجی است. رای دادن در ایالات متحده، با این حال، یک رفتار غیر عادی در آن سوابق دولت که آیا هر شهروند رای است (البته، دولت که هر رای شهروندان برای ضبط کنید). برای سال های بسیاری، این پرونده رای گیری دولتی موجود در فرم های کاغذی بودند، پراکنده در دفاتر مختلف دولت های محلی در سراسر کشور. این آن دشوار است، اما غیر ممکن نیست، برای دانشمندان علوم سیاسی به یک تصویر کامل از رای دهندگان و مقایسه آنچه که مردم در نظرسنجی می گویند در مورد رای گیری رای دادن واقعی خود را ساخته شده (Ansolabehere and Hersh 2012) .
اما، در حال حاضر این پرونده رای دیجیتالی شده اند، و تعدادی از شرکت های خصوصی به طور سیستماتیک جمع آوری شده و این پرونده رای هم ادغام شدند برای تولید فایل های جامع کارشناسی ارشد رای گیری که رفتار رای گیری از همه آمریکایی ها را ضبط کنید. آنسولابهره و هرش با یکی از این شرکت های کاتالیست [ii LCC-به منظور استفاده از استاد فایل رای دادن خود را برای کمک به توسعه یک تصویر بهتر از رای دهندگان همکاری. علاوه بر این، به دلیل آن را در پرونده دیجیتال جمع آوری شده و به سرپرستی یک شرکت متکی بود، آن را ارائه تعدادی از مزایای بیش از تلاش های قبلی توسط محققان که بدون کمک از شرکت ها و با استفاده از پرونده های آنالوگ انجام شده بود.
مانند بسیاری از منابع کمیاب دیجیتال در فصل 2، فایل های کارشناسی ارشد کاتالیست [ii چیز زیادی از اطلاعات دموگرافیک، نگرشی و رفتاری که آنسولابهره و هرش مورد نیاز شامل نمی شود. علاوه بر این اطلاعات، آنسولابهره و هرش به ویژه در مقایسه رای دادن گزارش به رای دادن اعتبار (به عنوان مثال، اطلاعات در پایگاه داده کاتالیست [ii) علاقه مند بودند. بنابراین، محققان اطلاعات که آنها به عنوان بخشی از مطالعه تعاونی کنگره انتخابات (CCES)، یک نظرسنجی بزرگ اجتماعی می خواستند جمع آوری شده. سپس این محققان این اطلاعات را به کاتالیست [ii داد، و کاتالیست [ii] را به پژوهشگران یک فایل ادغام شده داده هایی را که معتبر شامل رفتار انتخاباتی (از کاتالیست [ii)، رفتار رای خود گزارش (از CCES) و جمعیتی و نگرش پاسخ دهندگان (از CCES ). به عبارت دیگر، آنسولابهره و هرش غنی داده رای با بررسی داده ها و فایل ادغام شده و در نتیجه آنها را قادر به انجام کاری که نه فایل به صورت جداگانه فعال کنید.
توسط غنی سازی استاد فایل داده کاتالیست [ii] با بررسی داده ها، آنسولابهره و هرش به سه نتیجه مهم بود. نخست، بیش از گزارش از رای گیری شایع است: تقریبا نیمی از رای دهندگان رای غیر گزارش شده است. یا، یکی دیگر از راه نگاه کردن به آن است اگر کسی گزارش رای گیری، تنها به احتمال 80 درصد که آنها در واقع رای دادند. دوم، بیش از گزارش است تصادفی نیست؛ بیش از گزارش در میان با درآمد بالا شایع تر است، به خوبی آموزش، پارتیزان که در امور عمومی مشغول اند. به عبارت دیگر، افرادی که به احتمال زیاد برای رای دادن نیز به احتمال زیاد به در مورد رای گیری دروغ است. سوم، و بحرانی ترین، به دلیل ماهیت سیستماتیک بیش از گزارش، تفاوت واقعی بین رای دهندگان و رای دهندگان غیر کوچکتر از آنها فقط از بررسی های به نظر می رسد. برای مثال، کسانی با مدرک کارشناسی 22 درصد امتیازات به احتمال زیاد به گزارش رای گیری، اما تنها 10 درصد بیشتر احتمال دارد به رای واقعی. علاوه بر این، نظریه مبتنی بر منابع موجود از رای گیری در پیش بینی خواهد شد که رای گیری از که در واقع آرا، یافته های تجربی که خواستار نظریه های جدید به درک و پیش بینی رای گیری گزارش بسیار بهتر است.
اما، چقدر باید ما این نتایج اعتماد کرد؟ به یاد داشته باشید این نتایج در ارتباط مستعد خطا بستگی دارد به داده جعبه سیاه با مقادیر ناشناخته از خطا. بیشتر به طور خاص، نتایج در دو گام اساسی لولا: 1) توانایی کاتالیست [ii] به ترکیب بسیاری از منابع داده متفاوت برای تولید یک فایل داده استاد دقیق و 2) توانایی کاتالیست [ii] به لینک داده های نظر سنجی به فایل داده استاد آن است. هر کدام از این مراحل بسیار دشوار است و اشتباهات در هر دو مرحله می تواند به محققان به نتایج غلط منجر شود. با این حال، هر دو پردازش داده ها و تطبیق به ادامه وجود کاتالیست [ii] به عنوان یک شرکت مهم است بنابراین می تواند منابع در حل این مشکلات سرمایه گذاری، اغلب در یک مقیاس است که هیچ محقق دانشگاهی فرد یا گروهی از محققان تواند هماهنگ باشد. در مطالعه بیشتر در پایان فصل، من این مشکلات را با جزئیات بیشتر و چگونه آنسولابهره و هرش ایجاد اعتماد به نفس در نتایج خود را توضیح دهید. اگر چه این جزئیات این مطالعه خاص، مسائل شبیه به این برای محققان دیگر که مایل به لینک به جعبه سیاه اثری دیجیتال منابع داده بوجود می آیند.
درس عمومی محققان می توانند از این مطالعه به منظور جلب چیست؟ اول، ارزش فوق العاده ای از غنی سازی آثار دیجیتال با بررسی داده ها وجود دارد. دوم اینکه حتی اگر این جمع، منابع داده های تجاری باید در نظر گرفته شود "حقیقت زمین"، در برخی موارد آنها می تواند مفید باشد. در واقع، بهتر است که به مقایسه این منابع داده به حقیقت مطلق (که از آنها همیشه سقوط خواهد کرد کوتاه). در عوض، آن بهتر است آنها را در مقایسه با دیگر منابع داده موجود است، که همواره خطا نیز هست.