V obogatenem vprašanju podatki o raziskavah gradijo kontekst okoli velikega vira podatkov, ki vsebuje nekaj pomembnih meritev, vendar manjkajo drugi.
Eden od načinov za združevanje podatkov iz raziskav in velikih podatkovnih virov je proces, ki ga bom poklical, obogateno . V obogatenem vprašanju velik vir podatkov vsebuje nekaj pomembnih meritev, vendar nima drugih meritev, tako da raziskovalec zbira te manjkajoče meritve v raziskavi in nato poveže oba vira podatkov skupaj. Eden od primerov obogatenega spraševanja je študija Burke and Kraut (2014) o tem, ali interakcija na Facebook poveča moč prijateljstva, ki sem jo opisal v poglavju 3.2). V tem primeru sta Burke in Kraut združila podatke iz ankete s podatki dnevnika Facebook.
Postavitev, v kateri sta delala Burke in Kraut, je pomenila, da se jim ni treba ukvarjati z dvema velikima težavama, ki jih raziskovalci, ki se počnejo obogatiti, običajno spopadajo. Prvič, lahko dejansko povezovanje podatkovnih nizov posameznih ravni, procesa, imenovanega povezava z zapisi , je lahko težavno, če v obeh virih podatkov ni nobenega posebnega identifikatorja, ki bi se lahko uporabil za zagotovitev, da se pravilni zapis v enem naboru podatkov uskladi s pravilnim zapisom v drugem naboru podatkov. Druga glavna težava z obogatenim vprašanjem je, da bo kakovost velikega vira podatkov pogosto težko oceniti raziskovalcem, ker je proces, s katerim se ustvarijo podatki, lahko zaščiten in bi lahko bil dovzeten za številne težave, opisane v 2. poglavju. Z drugimi besedami, obogateno povpraševanje bo pogosto vključevalo napake, povezano z anketami, v črnokranske podatkovne vire neznane kakovosti. Kljub tem težavam pa lahko obogateno zaprosilo uporabite za izvedbo pomembnih raziskav, kot so pokazali Stephen Ansolabehere in Eitan Hersh (2012) v raziskavi o vzorcih glasovanja v ZDA.
Odziv volivcev je bil predmet obsežnih raziskav politoloških znanosti, v preteklosti pa so raziskovalci razumeli, kdo je glasoval in zakaj na splošno temelji na analizi podatkov anket. Glasovanje v Združenih državah pa je nenavadno obnašanje, saj vlada ugotavlja, ali je glasoval vsak državljan (seveda vlada ne zapisuje, za koga vsak državljan glasuje). Veliko let so bili ti vladni zapisi glasovanja dostopni na papirnih obrazcih, raztresenih v različnih lokalnih vladnih uradih po vsej državi. To je zelo otežilo, vendar ne nemogoče, da imajo politologi popolno sliko volivcev in primerjajo, kaj ljudje pravijo v anketah o glasovanju z njihovim dejanskim volilnim vedenjem (Ansolabehere and Hersh 2012) .
Toda ta glasovna evidenca je zdaj digitalizirana, številna zasebna podjetja pa jih sistematično zbirajo in združujejo, da izdelujejo izčrpne glasbene datoteke, ki vsebujejo glasovalno vedenje vseh Američanov. Ansolabehere in Hersh sta sodelovala z eno od teh družb-katalistične LCC, da bi uporabili svojo datoteko z glasovnim glasovanjem, da bi pomagali razviti boljšo sliko volivcev. Poleg tega, ker se je njihova študija oprla na digitalne zapise, ki jih je zbiralo in kuriralo podjetje, ki je vložilo precejšnje vire pri zbiranju in usklajevanju podatkov, je ponujalo številne prednosti pred prejšnjimi prizadevanji, ki so bila opravljena brez pomoči podjetij in z uporabo analognih zapisov.
Kot mnogi veliki viri podatkov v 2. poglavju, glavna datoteka Catalista ni vključevala večine demografskih, vedenjskih in vedenjskih informacij, ki sta jih potrebovala Ansolabehere in Hersh. Pravzaprav so jih posebej zanimali primerjanje poročanih glasovalnih navad v anketah s potrjenim glasovalnim vedenjem (tj. Podatki v podatkovni bazi Catalist). Torej sta Ansolabehere in Hersh zbirali podatke, ki so jih želeli kot veliko družbeno raziskavo, CCES, omenjeno že v tem poglavju. Potem so svoje podatke dali Catalistu, Catalist pa jim je vrnil združeno podatkovno datoteko, ki je vključevala potrjeno glasovalno vedenje (iz katalizatorja), samoprijavljeno glasovalno vedenje (od CCES) ter demografske podatke in stališča anketirancev (od CCES) (slika 3.13). Z drugimi besedami, Ansolabehere in Hersh sta združila podatke o glasovalnih podatkih z anketnimi podatki, da bi raziskovanje, ki ni bilo možno s posameznim virom podatkov, individualno.
S svojo kombinirano podatkovno datoteko sta Ansolabehere in Hersh prišla do treh pomembnih zaključkov. Prvo, glasovanje je prekomerno poročano: skoraj polovica neodgovornih je poročala o glasovanju in če je nekdo prijavil glasovanje, je le 80-odstotna možnost, da so dejansko glasovali. Drugič, prekomerno poročanje ni naključno: prekomerno poročanje je bolj pogosto med visokimi dohodki, dobro izobraženimi, partizani, ki se ukvarjajo z javnimi zadevami. Z drugimi besedami, ljudje, ki najverjetneje glasujejo, najverjetneje ležijo o glasovanju. Tretjič, in najbolj kritično, zaradi sistematične narave preveč poročanja, so dejanske razlike med volivci in brezplačniki manjše, kot se pojavljajo samo iz anket. Na primer, tisti z diplomo imajo približno 22 odstotnih točk večjo verjetnost, da bodo poročali o glasovanju, vendar je verjetneje, da bodo dejansko glasovali le za 10 odstotnih točk. Izkazalo se je, morda ni presenetljivo, da so obstoječe teorije glasovanja na podlagi virov veliko boljše pri napovedovanju, kdo bo poročal o glasovanju (kar so podatki, ki so jih raziskovalci uporabili v preteklosti), kot pa na napovedovanju, kdo dejansko glasuje. Tako empirična ugotovitev Ansolabehere and Hersh (2012) zahteva nove teorije za razumevanje in napovedovanje glasovanja.
Toda koliko bi morali zaupati tem rezultatom? Ne pozabite, da so ti rezultati odvisni od napak, povezanih s podatki črne kode z neznano količino napake. Natančneje, rezultati so odvisni od dveh ključnih korakov: (1) zmožnost Catalista, da združi veliko različnih virov podatkov, da bi ustvaril točno glavno podatkovno datoteko, in (2) sposobnost Catalista, da povezuje podatke raziskave z glavno podatkovno datoteko. Vsak od teh korakov je težak in napake v enem koraku bi lahko vodile raziskovalce v napačne sklepe. Obdelava podatkov in povezovanje sta ključnega pomena za nadaljevanje obstoja Catalista kot podjetja, zato lahko vlaga sredstva za reševanje teh težav, pogosto v obsegu, ki ga akademski raziskovalec ne more ujemati. V svojem članku Ansolabehere in Hersh opravita številne korake za preverjanje rezultatov teh dveh korakov - čeprav so nekateri od njih lastniški - in ti pregledi bi lahko bili koristni za druge raziskovalce, ki želijo povezati podatke raziskave z velikimi podatki v črni škatli virov.
Katere so splošne lekcije, ki jih lahko raziskovalci pridobijo iz te študije? Prvič, ogromna je vrednost obogatitve velikih podatkovnih virov z anketnimi podatki in obogatitvijo podatkov iz raziskav z velikimi viri podatkov (to študijo lahko vidite tudi v vsakem primeru). S kombiniranjem teh dveh podatkovnih virov so raziskovalci lahko naredili nekaj, kar je bilo nemogoče bodisi posamično. Druga splošna lekcija je, da čeprav zbirni, komercialni viri podatkov, kot so podatki iz katalista, ne smemo obravnavati kot "zemeljska resnica", so lahko v nekaterih primerih koristni. Skeptiki včasih primerjajo ta zbirni, komercialni vir podatkov z absolutno resnico in opozarjajo, da ti viri podatkov ne sodijo kratek. Vendar v tem primeru skeptiki napačno primerjajo: vse podatke, ki jih raziskovalci uporabljajo, ne spadajo v absolutno resnico. Namesto tega je bolje primerjati agregirane, komercialne podatkovne vire z drugimi razpoložljivimi viri podatkov (npr. Samoregulirano glasovalno vedenje), ki imajo tudi vedno napake. Nazadnje, tretja splošna lekcija Ansolabehere in Hershove študije je, da lahko raziskovalci v nekaterih situacijah izkoristijo ogromne naložbe, ki jih mnoga zasebna podjetja opravljajo pri zbiranju in usklajevanju kompleksnih zbirk družabnih podatkov.