Мада то може бити неуредан, обогаћен пита може бити моћан.
Другачији приступ раду са непотпуности дигиталне трагова података је да се обогати директно са подацима истраживања, што је процес који ћу назвати обогаћен питам. Један пример обогаћеног питам је проучавање Burke and Kraut (2014) , који сам описао раније у поглављу (поглавље 3.2), о томе да ли интеракције на Фацебоок повећава пријатељство снагу. У том случају, Бурк и Швабо у комбинацији податке из анкете са Фацебоока подацима дневника.
Поставка који су радили у Бурке и Швабо, међутим, значило да нису имали да се баве два велика проблема са којима истраживачи раде обогаћеног пита лице. Прво, у ствари повезује на скупови података-а процес се зове рекордан везу, за усклађивање рекорд у једној података са одговарајућим записа у другој скуп података-може бити тешко и склон грешкама (Видећемо пример овог проблема у наставку ). Други главни проблем обогаћеног тражим је да ће квалитет дигиталних трагова често бити тешко истраживачи проценити. На пример, понекад је процес кроз који се прикупљају је власништво и могу бити подложни многи проблеми који су описани у Поглављу 2. Другим речима, обогаћен пита се често укључују склон грешкама повезивање истраживања на црно-бок изворима података непознатог квалитет. Упркос забринутости да ова два проблема увести, могуће је спровести важно истраживање са овом стратегијом као што је показано Степхен Ансолабехере и Еитан Херсх (2012) свом истраживању о узорку гласања у САД. Вреди да се преко ове студије у неким детаљима, јер многи од стратегија које Ансолабехере и Херш развијених ће бити од користи у другим апликацијама обогаћеног просидбу.
Излазност је била предмет опсежних истраживања у политичке науке, а у прошлости, разумевање истраживача ко гласа и зашто је генерално на основу анализе података из анкете о. Гласање у САД, међутим, није необично понашање у да је Влада евиденције да сваки грађанин гласао (наравно, влада не снима ко сваки грађанин гласова за). Већ дуги низ година, те владине гласања записи су доступни на папирним обрасцима, разбацане у разним канцеларијама локалних власти широм земље. То је отежавало, али не и немогуће, јер политички научници имати комплетну слику бирачког тела и да се упореде шта људи говоре у истраживањима о гласању за њиховог стварног понашања гласања (Ansolabehere and Hersh 2012) .
Али, сада су ови са правом гласа евиденције су дигитализовано, а велики број приватних компанија је систематски прикупљају и спојио ове гласа евиденције за производњу свеобухватне мајстор гласања датотека које бележе понашање гласања свих Американаца. Ансолабехере и Херш удружио са једним од ових компанија-Цаталист ЛЦЦ-у како би се користе свој мастер гласања фајл да помогну развој бољу слику о бирачког тела. Даље, зато што се ослањао на дигиталних записа прикупљених и кустос компаније, понудио низ предности у односу на претходних напора истраживача који су радили без помоћи предузећа и користећи аналогне евиденције.
Као и многи од дигиталних извора траг у поглављу 2, Цаталист мајстор фајл није укључивао много демографске, ставова, и података који Ансолабехере и Херш потребна. Поред ових информација, Ансолабехере и Херш су посебно заинтересовани у поређењу пријавили за гласање понашање на провереним гласање понашања (односно информација у бази података катализатор). Дакле, истраживачи су прикупљени подаци који су хтели као део задруге Конгресне изборне студије (ЦЦЕС), великог друштвеног истраживања. Следеће, истраживачи су дали ове податке на катализатор, а Цаталист дали истраживачи подржати спојени датотеке са подацима које је обухватило потврђен гласа понашање (од цаталист), Селф-пријавио гласа понашање (од ЦЦЕС) је и демографске и ставове испитаника (од ЦЦЕС ). Другим речима, Ансолабехере и Херш обогаћен податке за гласање са подацима из анкете, а добијени стопљен фајл им омогућава да уради нешто што ни фајл омогућен појединачно.
Би обогаћивање цаталист Основни подаци датотеку са подацима анкете, Ансолабехере и Херш дошао до три важне закључке. Прво, повећања броја гласања је раширена: скоро половина не гласају пријавио гласање. Или, још један начин гледања на то је ако неко пријавио гласање, постоји само 80% шансе да они заправо гласали. Друго, превише извештавања није случајан; над-извештавање је чешћи међу високим приходима, добро образовани, партизани који се баве јавним пословима. Другим речима, људи који су највероватније гласати су такође највероватније да лажу о гласању. Треће, и најважније, због систематске природе превише извештавања, стварни разлике између бирача и оних који нису гласали су мањи него они само појавити из истраживања. На пример, оне са диплому око 22 процентних поена већа вероватноћа да пријаве гласање, али су само 10 процентних поена више шансе да стварне гласање. Даље, постојеће теорије гласања заснована на ресурсима су много бољи у предвиђању ко ће извештавати гласање него ко је заправо гласова, емпиријски налаз који позива на нове теорије да схвате и предвиде гласање.
Али, колико би требало да верујемо ове резултате? Не заборавите ови резултати зависе-грешке повезивања у црно-бок података са непознатим количинама грешке. Прецизније, резултати зависе од два кључна корака: 1) способност цаталист да се комбинују многе различите изворе података да произведе тачну мастер ДатаФиле и 2) способност цаталист да повежу податке анкете своје мастер ДатаФиле. Сваки од ових корака је прилично тешко и грешке у обе фазе може да доведе истраживача на погрешне закључке. Међутим, како обрада података и усклађивање су од кључног значаја за даље постојање катализатор као компанија тако да може инвестирати средства у решавању тих проблема, често на скали да ниједан појединац академски истраживач или група истраживача може да одговарају. У даљем читању на крају поглавља, ја описати те проблеме у више детаља и како Ансолабехере и Херш изградњи поверења у њиховим резултатима. Иако ови детаљи су специфичне за ове студије, питања као они ће се појавити на другим истраживачима који желе да се повежете са црно-бок дигитални траговима извора података.
Које су опште лекције истраживачи могу извући из ове студије? Прво, постоји велика вредност од обогаћивање дигиталне трагове са подацима из анкете. Друго, иако су обједињени, комерцијални извори података не треба сматрати "тло истина", у неким случајевима могу бити од користи. У ствари, најбоље је упоредити ове изворе података не апсолутне истине (од којих ће увек не успевају). Уместо тога, боље је да се упореди са другим доступним изворима података, који увек имају грешке као добро.