Pārlūkotajos jautājumos aptaujas dati veido kontekstu ap lielu datu avotu, kas satur dažus svarīgus mērījumus, bet trūkst citu.
Viens no veidiem, kā apvienot aptaujas datus un lielus datu avotus, ir process, kuru es aicināšu bagātinātā jautājumā . Bagātināts jautā, liels datu avots satur dažus svarīgus mērījumus, bet trūkst citu mērījumu, tāpēc pētnieks apkopo šos trūkstošos mērījumus apsekojumā un pēc tam saista abus datu avotus kopā. Viens no bagātināto jautājumu veidiem ir Burke and Kraut (2014) pētījums par to, vai saziņa ar Facebook palielina draudzības spēku, ko es aprakstīju 3.2. Sadaļā). Šajā gadījumā Burke un Kraut apvienoja aptaujas datus ar Facebook žurnāla datiem.
Tomēr tas, ka Burke un Krauts strādāja, nozīmēja, ka viņiem nebija jācīnās ar divām lielām problēmām, kuras pētnieki, kas veic bagātināšanu, parasti vēlas saskarties. Pirmkārt, faktiski saistot atsevišķu līmeņu datu kopas, process, ko sauc par ierakstu saikni , var būt grūti, ja abos datu avotos nav unikāla identifikatora, kuru var izmantot, lai nodrošinātu pareizu ierakstu vienā datu kopā ar pareizo ierakstu citā datu kopā. Otrā galvenā problēma ar bagātinātu jautāšanu ir tāda, ka liela datu avota kvalitāte pētniekiem bieži būs sarežģīta, jo process, ar kuru izveidoti dati, var būt patentēts un varētu būt jutīgs pret daudzām problēmām, kas aprakstītas 2. nodaļā. Citiem vārdiem sakot, bagātināts jautājums bieži vien ietver apsekojumu saistību ar kļūdām, kas saistītas ar nezināmas kvalitātes melnās kastes datu avotiem. Neskatoties uz šīm problēmām, tomēr bagātināto jautājumu var izmantot, lai veiktu nozīmīgus pētījumus, kā to demonstrēja Stephen Ansolabehere un Eitan Hersh (2012) , pētot balsošanas modeļus Amerikas Savienotajās Valstīs.
Vēlētāju aktivitāte ir bijusi plaša pētniecība politikas zinātnē, un agrāk pētnieku izpratne par to, kas ir balsojis un kāpēc parasti ir balstīta uz aptaujas datu analīzi. Tomēr vēlēšanās Amerikas Savienotajās Valstīs ir neparasta rīcība, jo valdība reģistrē, vai katrs pilsonis ir balsojis (protams, valdība neieraksta, par ko katrs pilsonis balso par). Daudzus gadus šie valdības balsojuma ieraksti bija pieejami papīra formās, izkaisīti dažādās vietējās pārvaldes iestādēs visā valstī. Tas politiskajiem zinātniekiem bija ļoti grūti, bet ne neiespējami, lai iegūtu pilnīgu priekšstatu par vēlētājiem un salīdzinātu to, ko cilvēki saka aptaujās par balsošanu ar viņu faktisko uzvedību (Ansolabehere and Hersh 2012) .
Taču šie balsošanas ieraksti tagad ir digitalizēti, un vairāki privāti uzņēmumi sistemātiski vāc un apvieno tos, lai iegūtu visaptverošus galvenos balsošanas dokumentus, kuros ir visu amerikāņu balsošanas izturēšanās. Ansolabehere un Hersh sadarbojās ar vienu no šiem uzņēmumiem - Katalizatora LCC, lai izmantotu viņu galveno balsošanas failu, lai palīdzētu veidot labāku priekšstatu par vēlētājiem. Turklāt, tā kā viņu pētījums balstījās uz digitālajiem ierakstiem, kurus vāca un kuroritēja uzņēmums, kas bija ieguldījis ievērojamus līdzekļus datu vākšanā un saskaņošanā, tas piedāvāja vairākas priekšrocības salīdzinājumā ar iepriekšējiem centieniem, kas tika veikti bez uzņēmumu atbalsta un izmantojot analogos ierakstus.
Tāpat kā daudzi lielie datu avoti 2. nodaļā, katalizatora galvenajā datnē netika iekļauta liela demogrāfiskā, attieksmes un uzvedības informācija, kas nepieciešama Ansolabehere un Hersh. Patiesībā viņus īpaši interesēja salīdzināt ziņoto balsojumu uzskatus ar apstiprinātu balss attieksmi (ti, informāciju katalizatora datubāzē). Tātad Ansolabehere un Hersh savāc datus, kurus viņi gribēja, kā lielu sociālo aptauju, CCES, kas iepriekš minēts šajā nodaļā. Pēc tam viņi sniedza savus datus katalizatoram, un Katalistes atdeva viņiem atpakaļ apvienotu datu failu, kas ietvēra validētu balsošanas uzvedību (no Katalistes), pašu ziņoto balsošanas izturēšanos (no CCES) un respondentu demogrāfisko situāciju un attieksmi (no CCES) (skaitlis 3.13.) Citiem vārdiem sakot, Ansolabehere un Hersh apvienoja balsošanas ierakstu datus ar apsekojuma datiem, lai veiktu pētījumus, kas nebija iespējami, ja viens no datu avotiem būtu individuāls.
Ar viņu apvienoto datu failu Ansolabehere un Hersh nonāca pie trim svarīgiem secinājumiem. Pirmkārt, balsošana ir pārāk zināma: gandrīz puse no nepiederošajiem iedzīvotājiem ir paziņojuši par balsošanu, un, ja kāds ziņo par balsošanu, ir tikai 80% iespēja, ka viņi patiešām balsoja. Otrkārt, pārāk ziĦošana nav nejaušība: pārspīlēti ziĦojumi ir biežāk sastopami ar augstiem ienākumiem, labi izglītotiem, partizāniem, kuri nodarbojas ar sabiedriskām lietām. Citiem vārdiem sakot, cilvēki, kuri, visticamāk, vēlēsies balsot, visticamāk, lems par balsošanu. Treškārt, un visvairāk kritiski, pārsnieguma ziņošanas sistemātiskas būtības dēļ faktiskās atšķirības starp vēlētājiem un nepiederošajiem ir mazāks, nekā tie parādās tikai no apsekojumiem. Piemēram, tie, kuriem ir bakalaura grāds, ir apmēram 22 procentpunkti vairāk vēlēšanās ziņot par balsošanu, bet tikai 10 procentu punktus varbūt faktiski balso. Izrādās, varbūt nav pārsteidzoši, ka pašreizējās uz resursu balstītās balsošanas teorijas ir daudz labāk prognozēt, kas balso ziņojumus (kas ir dati, ko pētnieki ir izmantojuši agrāk) ir daudz labāk, nekā prognozē, kas faktiski balsos. Tādējādi Ansolabehere and Hersh (2012) empīriskā atziņa prasa jaunas teorijas, lai saprastu un prognozētu balsošanu.
Bet cik mums vajadzētu uzticēties šiem rezultātiem? Atcerieties, ka šie rezultāti ir atkarīgi no kļūdām, kas saistās ar melnā lodziņa datiem ar nezināmiem kļūdu apjomiem. Konkrētāk, rezultāti balstās uz diviem galvenajiem soļiem: (1) Katalizatora spēja apvienot daudzus atšķirīgus datu avotus, lai iegūtu precīzu galveno datu failu un (2) Katalistes spēju saistīt aptaujas datus ar galveno datu failu. Katrs no šiem posmiem ir sarežģīts, un kļūdas abos posmos var radīt pētniekiem nepareizus secinājumus. Tomēr gan datu apstrāde, gan saikne ir būtiska, lai Katalizators turpinātu pastāvēt kā uzņēmums, tāpēc viņš var ieguldīt līdzekļus šo problēmu risināšanā, bieži vien tādā apjomā, ka neviens akadēmiskais pētnieks to nevar. Savā darbā Ansolabehere un Hersh veic vairākus soļus, lai pārbaudītu šo divu darbību rezultātus - lai arī daži no tiem ir patentēti, un šīs pārbaudes var būt noderīgas citiem pētniekiem, kuri vēlas saistīt aptaujas datus ar melnādaino datu lielajiem datiem avotiem.
Kādas ir vispārējās mācības, ko pētnieki var izdarīt no šī pētījuma? Pirmkārt, ir milzīga vērtība gan no bagātināt lielu datu avotu ar apsekojumu datiem, gan no aptaujas datu bagātināšanas ar lieliem datu avotiem (jūs varat redzēt šo pētījumu vai nu). Apvienojot šos divus datu avotus, pētnieki varēja kaut ko darīt neiespējami vai nu atsevišķi. Otra vispārējā nodarbība ir tā, ka, lai gan apkopotie komerciālie datu avoti, piemēram, Katalistes dati, nevajadzētu uzskatīt par "zemes patiesību", dažos gadījumos tie var būt noderīgi. Skeptiski dažreiz salīdzina šo apkopoto, komerciālo datu avotu ar absolūtu patiesību, un norāda, ka šiem datu avotiem trūkst. Tomēr šajā gadījumā skeptiķi veic nepareizu salīdzinājumu: visi dati, kurus pētnieki izmanto, nepārsniedz absolūtu Patiesību. Tā vietā labāk ir salīdzināt apkopotos, komerciālos datu avotus ar citiem pieejamiem datu avotiem (piemēram, par pašreglamentētu balsošanas darbību), kam vienmēr ir kļūdas. Visbeidzot, Ansolabehere un Hersh pētījuma trešā vispārējā mācība ir tā, ka dažās situācijās pētnieki var gūt labumu no lielajām investīcijām, ko daudzi privātie uzņēmumi veic, apkopojot un saskaņojot sarežģītas sociālās datu kopas.