U obogaćenom pitanju, podaci ankete grade kontekst oko velikog izvora podataka koji sadrži neka važna mjerenja, ali ih nema.
Jedan od načina kombiniranja podataka ankete i velikih izvora podataka jest proces koji ću nazvati obogaćenim pitanjem . U obogaćenom pitanju, veliki izvor podataka sadrži neka važna mjerenja, ali nema drugih mjerenja pa istraživač prikuplja ove nedostajuće mjerenja u anketi, a zatim povezuje dva izvora podataka zajedno. Jedan od primjera obogaćenih pitanja je istraživanje Burke and Kraut (2014) o tome da li interakcija na Facebooku povećava snagu prijateljstva, koju sam opisao u dijelu 3.2). U tom slučaju, Burke i Kraut kombinirali su podatke o anketi s podacima Facebook log.
Postavka u kojoj su Burke i Kraut radili, međutim, značilo je da se nisu morali nositi s dva velika problema koji su istraživači obogaćivali i tražeći obično lice. Prvo, zapravo povezivanje skupova podataka na pojedinoj razini, proces koji se naziva rekordna povezanost , može biti teško ako ne postoji jedinstveni identifikator u oba izvora podataka koji se mogu koristiti kako bi se osiguralo da se ispravan rekord u jednom skupu podataka podudara s ispravnim zapisom u drugom skupu podataka. Drugi glavni problem s obogaćenim pitanjem je da će kvaliteta velikog izvora podataka često biti teška za istraživače da procijene jer proces kroz koji se stvaraju podaci može biti vlasnički i mogao bi biti osjetljiv na mnoge probleme opisane u 2. poglavlju. Drugim riječima, obogaćena molba će često uključivati povezivanje anketama s pogreškama na izvore podataka nepoznate crne kutije. Unatoč tim problemima, obogaćena molba može se upotrijebiti za provođenje važnih istraživanja, što su pokazali Stephen Ansolabehere i Eitan Hersh (2012) u svojim istraživanjima o uzorkovanju glasova u Sjedinjenim Državama.
Odaziv birača bio je predmet opsežnog istraživanja u političkoj znanosti i, u prošlosti, istraživačima koji razumiju tko glasa i zašto je općenito baziran na analizi podataka ankete. Glasanje u Sjedinjenim Državama, međutim, je neobičan ponašanje u tome što vlada zapisuje je li svaki građanin glasovao (naravno, vlada ne bilježi tko za svakog građanina glasuje). Već dugi niz godina ove vladine evidencije o glasovanju bile su dostupne na papirnatom obliku, razbacane u različitim uredima lokalne uprave širom zemlje. To je vrlo teško, ali ne i nemoguće, da politički znanstvenici imaju potpunu sliku biračkog tijela i usporediti ono što ljudi govore u anketi o glasovanju sa svojim stvarnim ponašanjem u glasa (Ansolabehere and Hersh 2012) .
No, ovi se glasacki zapisi sada digitaliziraju, a niz privatnih tvrtki sustavno ih je sakupio i spojio kako bi stvorili sveobuhvatne glavne datoteke glasovanja koje sadrže ponašanje glasovanja svih Amerikanaca. Ansolabehere i Hersh su se udružili s jednom od tih tvrtki - Catalist LCC - kako bi upotrijebili svoju glavnu datoteku glasanja kako bi pomogli u razvijanju boljeg prikaza elektorata. Nadalje, budući da se njihova studija oslanjala na digitalne zapise prikupljene i obrađene od strane tvrtke koja je uložila znatne resurse u prikupljanje i usklađivanje podataka, ponudila je brojne prednosti pred prethodnim naporima koji su učinjeni bez potpore tvrtki i pomoću analognih zapisa.
Poput mnogih velikih izvora podataka u 2. poglavlju, katalizatorna glavna datoteka nije uključila mnogo demografskih, stavovnih i ponašanja koje su trebale Ansolabehere i Hersh. Zapravo, bili su posebno zainteresirani za uspoređivanje prijavljenog ponašanja glasa u anketama s provjerenim ponašanjem glasovanja (tj. Informacije u katalizatoru). Tako su Ansolabehere i Hersh prikupili podatke koje su htjeli kao veliku društvenu anketu, CCES, spomenutu ranije u ovom poglavlju. Tada su dali podatke katalizatoru, a katalizator ih vratio spojljenoj podatkovnoj datoteci koja je uključivala provjereno ponašanje glasovanja (iz katalizatora), ponašanje glasovanja o samoodređenju (iz CCES-a) i demografiju i stavove ispitanika (iz CCES-a) (slika 3,13). Drugim riječima, Ansolabehere i Hersh su kombinirali podatke o glasačkim listićima s podacima ankete, kako bi istraživanja koja nisu bila moguća s bilo kojim izvorom podataka pojedinačno.
Sa svojim kombiniranim datotekama, Ansolabehere i Hersh došli su do tri važna zaključka. Prvo, prekomjerno izvješćivanje o glasovanju je zastrašujuće: gotovo polovica nevladinih udruga izvijestila je o glasovanju, a ako netko prijavi glasanje, postoji samo 80% šanse da su zapravo glasali. Drugo, prekomjerno izvješćivanje nije slučajno: prekomjerno izvješćivanje je češća među visokokvalificiranim, dobro obrazovanim, partizanima koji se bave javnim poslovima. Drugim riječima, najvjerojatnije će ljudi koji najvjerojatnije glasaju glase oko glasanja. Treće, i najkritičnije, zbog sustavne prirode prekomjernog izvještavanja, stvarne razlike između birača i neživota manja su nego što se pojavljuju samo iz anketa. Na primjer, oni s prvostupnikom imaju oko 22 postotnih bodova veću vjerojatnost da će glasovati, ali su samo 10 postotnih bodova više vjerojatno da će zapravo glasati. Ispostavlja se, možda ne i iznenađujuće, da postojeće teorije glasovanja na temelju resursa puno bolje predviđaju tko će prijaviti glasanje (što su podaci koje su istraživači koristili u prošlosti) nego što predviđaju tko zapravo glasuje. Dakle, empirijski nalaz Ansolabehere and Hersh (2012) pozivaju nove teorije da razumiju i predviđaju glasovanje.
Ali koliko trebamo imati povjerenja u te rezultate? Imajte na umu da ovi rezultati ovise o pogreškama koje su povezane s podacima crne kutije s nepoznatim količinama pogreške. Točnije, rezultati se razlikuju po dva ključna koraka: (1) sposobnost katalizatora da kombinira mnoge različite izvore podataka kako bi se stvorila točna glavna podatkovna datoteka i (2) sposobnost Catalista da povezuje podatke ankete s glavnim podatkovnim datotekama. Svaki od ovih koraka je težak, a pogreške u bilo kojem koraku mogu dovesti istraživače na pogrešne zaključke. Međutim, i obrada podataka i povezivanje ključni su za nastavak postojanja katalizatora kao tvrtke, tako da može uložiti resurse u rješavanje tih problema, često u mjerilu koje akademski istraživači ne mogu podudarati. Ansolabehere i Hersh u svom su radu proveli nekoliko koraka kako bi provjerili rezultate tih dvaju koraka - iako su neki od njih vlasnički - a ove provjere mogu biti korisne i za druge istraživače koji žele povezati podatke ankete s velikim podacima crne kutije izvori.
Koje su opće lekcije koje istraživači mogu izvući iz ove studije? Prvo, postoji velika vrijednost od obogaćivanja velikih izvora podataka s podacima ankete i obogaćivanja podataka ankete s velikim izvorima podataka (možete vidjeti ovu studiju bilo kako). Kombiniranjem ovih dvaju izvora podataka, istraživači su mogli učiniti nešto što je nemoguće s bilo pojedinačno. Druga opća lekcija je da iako se agregirani, komercijalni izvori podataka, kao što su podaci katalizatora, ne smiju smatrati "istinom temelja", u nekim slučajevima mogu biti korisni. Skeptici ponekad uspoređuju te agregirani, komercijalni izvor podataka s apsolutnom Istinom i ukazuju na to da ti izvori podataka nisu dostupni. Međutim, u ovom slučaju, skeptici rade pogrešnu usporedbu: svi podaci koje istraživači koriste nedostaju od apsolutne Istine. Umjesto toga, bolje je usporediti agregirane, komercijalne izvore podataka s ostalim dostupnim izvorima podataka (npr. Samoprograma ponašanja glasanja), koji također imaju pogreške. Konačno, treća opća pouka Ansolabehere i Hershove studije je da u nekim situacijama istraživači mogu imati koristi od ogromnih ulaganja koje mnoge privatne tvrtke čine u prikupljanju i usklađivanju složenih skupova društvenih podataka.