Iako to može biti neuredan, obogaćen pitam može biti moćan.
A drugačiji pristup koji se bave nepotpunost digitalnih podataka trag je da se obogati direktno sa podacima iz ankete, što je proces koji ću nazvati obogaćen pitam. Jedan primjer obogaćenog pitam je proučavanje Burke and Kraut (2014) , koji sam ranije opisao u poglavlju (Poglavlje 3.2), o tome da li interakciju na Facebook povećava prijateljstvo snagu. U tom slučaju, Burke i Kraut kombinaciji podataka ankete sa podacima Facebook dnevnik.
Postavka da Burke i Kraut su radili u, međutim, znači da oni nisu imali da se bavi dva velika problema koji istraživači rade obogatila tražeći lice. Prvo, zapravo povezuje zajedno setovi-a podataka proces koji se zove rekord spoj, odgovarajući na rekord u jednoj skup s odgovarajućim rekord u drugi skup-može biti teško i podložan greškama (videćemo primjer ovog problema ispod ). Drugi glavni problem obogaćenog pitam je da je kvalitet digitalne tragova će često biti teško za istraživače procijeniti. Na primjer, ponekad je proces kroz koji se prikupljaju je vlasnički i može biti podložan mnoge probleme opisane u poglavlju 2. Drugim riječima, obogaćen pitam se često uključuju podložan greškama povezivanje istraživanja u crno-box izvora podataka nepoznatog kvalitete. Uprkos zabrinutosti da ova dva problema uvesti, moguće je provesti važno istraživanje sa ovom strategijom kao što je pokazano Stephen Ansolabehere i Eitan Hersh (2012) u svojim istraživanjima o glasanju obrasce u SAD-u. To se isplati ići preko ove studije u nekim detaljima, jer mnogi od strategija koje Ansolabehere i Hersh razvio će biti koristan u drugim aplikacijama obogaćenog pitam.
Odziv birača bio je predmet opsežnog istraživanja u političke nauke, i u prošlosti, razumijevanje istraživači 'ko glasa i zašto je generalno na osnovu analize podataka ankete. Glasanje u SAD-u, međutim, je neobično ponašanje u toj vladi evidenciju da li svaki građanin glasao (naravno, vlada ne snima ko svaki građanin glasova za). Već dugi niz godina, te vladinih glasanja evidencije su dostupni na papiru oblicima, razbacane u različitim uredima lokalne samouprave širom zemlje. To je teško, ali ne i nemoguće, za politikologe imati kompletnu sliku biračkog tijela i da se uporediti ono što ljudi kažu u anketama o glasanje na njihove stvarne glasanja ponašanje (Ansolabehere and Hersh 2012) .
Ali, sada su digitalizovana ovih glasa Records, a broj privatnih firmi su sistematski prikupljaju i spojili te evidencije glasanje za proizvodnju sveobuhvatna master glasanja datoteke koje snimanje glasa ponašanje svih Amerikanaca. Ansolabehere i Hersh udružio sa jednom od ovih firmi-Catalist LCC-u kako bi mogli koristiti svoje master glasanja datoteku za pomoć razvoju bolju sliku o biračkog tijela. Nadalje, zbog toga što se oslanjao na digitalni zapisi prikupljeni i kustosi kompanija, ponudio niz prednosti u odnosu na prethodne napore istraživača koji je to učinjeno bez pomoći kompanijama i pomoću analognog zapisa.
Kao i mnogi od digitalnih izvora trag u Poglavlju 2, majstor datoteku Catalist nije uključivala mnogo demografskih, stavovima, i ponašanja informacije koje Ansolabehere i Hersh potrebno. Osim ovih informacija, Ansolabehere i Hersh je posebno zanimao u odnosu prijavili za glasanje ponašanje potvrđeni ponašanje glasanje (odnosno, informacije u bazi podataka Catalist). Dakle, istraživači su prikupili podatke koji žele u sklopu Kongresa izborne Studije zadruga (CCES), velika socijalna istraživanja. Dalje, istraživači su dali ove podatke Catalist, i Catalist dali istraživači podržati stopljen datoteku podataka To je uključivalo potvrđeni glasanje ponašanje (od Catalist), glasanje ponašanje samih ispitanika (od CCES) i demografiju i stavovi ispitanika (od CCES ). Drugim riječima, Ansolabehere i Hersh obogaćen podatke glasanja sa podacima istraživanja, a rezultat stopljen fajl im omogućava da uradi nešto što ni datoteka omogućeno pojedinačno.
Do obogaćivanje Catalist majstor datoteku podataka sa podacima ankete, Ansolabehere i Hersh je došao do tri važna zaključka. Prvo, više-izvještavanje glasanja je bijesan: gotovo polovina bez birača prijavljenih glasanje. Ili, još jedan način gledanja na to da li je neko prijavio za glasanje, postoji samo 80% šanse da oni zapravo glasali. Drugo, više-izvještavanje nije slučajan; nad-izvještavanje je češći među visokim prihodima, dobro obrazovani, partizani koji se bave javnim poslovima. Drugim riječima, ljudi koji su najvjerojatnije da glasaju su najčešće lažu o glasanju. Treće, i najbitnije, zbog sistematske prirode nad-izvještavanje, stvarna razlika između glasača i ne-glasači su manji nego što se pojaviti samo iz istraživanja. Na primjer, one sa diplomu oko 22 odsto veće šanse da prijave za glasanje, ali su samo 10 odsto veće šanse da stvarni glas. Nadalje, postojeće teorije zasnovana na resursima glasanja su mnogo bolji u predviđanju koje će prijaviti za glasanje nego ko je zapravo glasova, empirijski nalaz koji poziva na nove teorije da razumiju i predvide glasanja.
Ali, koliko treba da verujemo ove rezultate? Zapamtite ovi rezultati ovise o greškama sklone povezivanje u crno-kutija podataka sa nepoznatim količinama greške. Konkretnije, rezultati ovise o dva ključna koraka: 1) sposobnost Catalist kombinirati više različitih izvora podataka za izradu precizne majstor datafile i 2) sposobnost Catalist za povezivanje podataka ankete svom gospodaru datafile. Svaki od ovih koraka je prilično teško i greške na bilo koraku moglo dovesti istraživača do pogrešnih zaključaka. Međutim, i za obradu podataka i usklađivanje su od ključnog značaja za nastavak postojanja Catalist kao kompanija, tako da mogu ulagati sredstva u rješavanju tih problema, često na skali da nijedan pojedinac akademski istraživač ili grupa istraživača može mjeriti. U daljem čitanju na kraju poglavlja, opisujem ti problemi više detalja i kako Ansolabehere i Hersh izgraditi povjerenje u njihove rezultate u. Iako su ovi detalji su specifične za ovu studiju, pitanja slična ovim će nastati za druge istraživače koji žele da se povežu u crno-box digitalni trag izvora podataka.
Koje su opće lekcije istraživači mogu izvući iz ove studije? Prvo, tu je ogromna vrijednost od obogaćivanja digitalnih tragova sa podacima ankete. Drugo, iako je ove agregirane, komercijalnih izvora podataka ne bi trebalo smatrati "zemlju istine", u nekim slučajevima mogu biti korisna. U stvari, to je najbolje za usporedbu ovih izvora podataka ne apsolutnu istinu (od kojih će oni uvijek podbace). Umjesto toga, bolje je da ih uporedi sa drugih dostupnih izvora podataka, koji uvijek imaju greške kao dobro.