I beriket spør, bygger undersøkelsesdata sammenheng rundt en stor datakilde som inneholder noen viktige målinger, men mangler andre.
En måte å kombinere undersøkelsesdata og store datakilder til er en prosess som jeg vil kalle beriket og spør . I beriket spør, inneholder en stor datakilde noen viktige målinger, men mangler andre målinger, slik at forskeren samler disse manglende målene i en undersøkelse og sammenkobler de to datakildene sammen. Et eksempel på beriket spør er studien av Burke and Kraut (2014) om interaksjon på Facebook øker vennskapsstyrken, som jeg beskrev i avsnitt 3.2). I så fall kombinerte Burke og Kraut undersøkelsesdata med Facebook loggdata.
Innstillingen der Burke og Kraut jobbet, betydde imidlertid at de ikke behøvde å håndtere to store problemer som forskere som beriket ber, blir vanligvis ansiktet. For det første kan det faktisk være vanskelig å koble sammen de individuelle datasettene, en prosess som heter rekordkobling , hvis det ikke finnes noen unik identifikator i begge datakilder som kan brukes til å sikre at den korrekte posten i en datasett samsvarer med riktig plate i den andre datasettet. Det andre hovedproblemet med beriket spør er at kvaliteten på den store datakilden ofte vil være vanskelig for forskerne å vurdere fordi prosessen som dataene er opprettet til, kan være proprietære og kunne være utsatt for mange av problemene beskrevet i kapittel 2. Med andre ord, beriket spør vil ofte involvere feilkrevende kobling av undersøkelser til svart-boks datakilder av ukjent kvalitet. Til tross for disse problemene, kan beriket spørre imidlertid brukes til å utføre viktig forskning, slik det ble demonstrert av Stephen Ansolabehere og Eitan Hersh (2012) i sin forskning om stemme mønstre i USA.
Voteroppslag har vært gjenstand for omfattende forskning innen statsvitenskap, og tidligere har forskernes forståelse av hvem som stemmer og hvorfor generelt vært basert på analysen av undersøkelsesdata. Stemmer i USA er imidlertid en uvanlig oppførsel ved at regjeringen registrerer om hver borger har stemt (selvfølgelig registrerer regjeringen ikke hvem hver borger stemmer for). I mange år var disse regjeringsstemplene tilgjengelige på papirformularer, spredt i ulike lokalkontorer rundt om i landet. Dette gjorde det svært vanskelig, men ikke umulig, for politiske forskere å få et komplett bilde av velgerne og å sammenligne hva folk sier i spørreundersøkelser om å stemme med sin faktiske stemmeoppførsel (Ansolabehere and Hersh 2012) .
Men disse avstemningsrekordene er nå digitalisert, og en rekke private selskaper har systematisk samlet inn og slått sammen dem for å produsere omfattende master-stemmefiler som inneholder stemmerettene for alle amerikanere. Ansolabehere og Hersh samarbeider med en av disse selskapene-Catalyst LCC-for å kunne bruke sin hovedstemningsfil for å bidra til å utvikle et bedre bilde av velgerne. Videre fordi deres studie stod på digitale arkiver samlet og kurert av et selskap som hadde investert betydelige ressurser i datainnsamling og harmonisering, tilbød det en rekke fordeler i forhold til tidligere innsats som hadde blitt gjort uten hjelp av selskaper og ved å bruke analoge poster.
I likhet med mange av de store datakildene i kapittel 2 inneholdt katalansk mesterfil ikke mye av demografisk, holdnings og atferdsdata som Ansolabehere og Hersh trengte. Faktisk var de spesielt interessert i å sammenligne rapportert stemmeoppførsel i undersøkelser med validert stemmeoppførsel (dvs. informasjonen i katalansk databasen). Så Ansolabehere og Hersh samlet dataene de ønsket som en stor sosial undersøkelse, CCES, nevnt tidligere i dette kapitlet. Deretter ga de dataene sine til katalisten, og katalisten ga dem tilbake en sammenslåtte datafil som inkluderte validerte avstemningsadferd (fra katalist), den selvrapporterte stemmeoppførelsen (fra CCES) og demografien og holdningen til respondentene (fra CCES) (figur 3,13). Med andre ord kombinerte Ansolabehere og Hersh stemmerettdataene med undersøkelsesdata for å gjøre forskning som ikke var mulig med hver enkelt datakilde individuelt.
Med deres kombinerte datafil kom Ansolabehere og Hersh til tre viktige konklusjoner. For det første er overrapportering av avstemning voldsom: nesten halvparten av ikke-stemmeberettigede rapporterte å stemme, og hvis noen rapporterte å stemme, er det bare en 80% sjanse for at de faktisk stemte. For det andre er overrapportering ikke tilfeldig: Overrapportering er vanlig blant høyinntektsutdannede, velutdannede, partisanere som er engasjert i offentlige anliggender. Med andre ord, de som mest sannsynlig vil stemme, er også mest sannsynlig å lyve om å stemme. For det tredje, og mest kritisk, på grunn av systematisk karakter av overrapportering, er de faktiske forskjellene mellom velgere og nonvoters mindre enn de fremkommer bare fra undersøkelser. For eksempel er de med bachelorgrad omtrent 22 prosentpoeng mer sannsynlig å rapportere avstemning, men er bare 10 prosentpoeng mer sannsynlig å faktisk stemme. Det viser seg, kanskje ikke overraskende, at eksisterende ressursbaserte teorier om avstemning er mye bedre å forutsi hvem som skal rapportere stemme (hvilke data er forskere har brukt tidligere) enn de forutsier hvem som faktisk stemmer. Således Ansolabehere and Hersh (2012) empirisk funn av Ansolabehere and Hersh (2012) nye teorier for å forstå og forutsi at de stemmer.
Men hvor mye skal vi stole på disse resultatene? Husk at disse resultatene er avhengig av feilkrevende kobling til svartboksdata med ukjente feilmengder. Nærmere bestemt er resultatene avhengige av to hovedtrinn: (1) Catalistens evne til å kombinere mange forskjellige datakilder for å produsere en nøyaktig masterdatafile og (2) Catalistens evne til å koble undersøkelsesdataene til sin masterdatafile. Hver av disse trinnene er vanskelig, og feil i begge trinn kan føre forskere til feil konklusjoner. Imidlertid er både databehandling og kobling avgjørende for den fortsatte eksistensen av katalist som et selskap, så det kan investere ressurser i å løse disse problemene, ofte på en skala som ingen akademisk forsker kan matche. I deres papir går Ansolabehere og Hersh gjennom en rekke trinn for å sjekke resultatene av disse to trinnene - selv om noen av dem er proprietære - og disse kontrollene kan være nyttige for andre forskere som ønsker å koble undersøkelsesdata til store boks store data kilder.
Hva er de generelle leksjonene forskere kan trekke fra denne studien? For det første er det enorm verdi både fra berikelse av store datakilder med undersøkelsesdata og fra berikende undersøkelsesdata med store datakilder (du kan se denne studien uansett). Ved å kombinere disse to datakildene var forskerne i stand til å gjøre noe som var umulig med enten individuelt. Den andre generelle leksjonen er at selv om aggregerte, kommersielle datakilder, for eksempel dataene fra katalisten, ikke bør betraktes som "grunn sannhet", kan de i noen tilfeller være nyttige. Skeptikere sammenligner noen ganger denne aggregerte, kommersielle datakilden med absolutt sannhet, og påpeker at disse datakilder er kort. Men i dette tilfellet gjør skeptikerne feil sammenligning: alle dataene som forskere bruker, mangler absolutt sannhet. I stedet er det bedre å sammenligne aggregerte, kommersielle datakilder med andre tilgjengelige datakilder (f.eks. Selvrapportert stemmeadferd), som alltid har feil. Endelig er den tredje generelle leksjonen i Ansolabehere og Hershs studie at i noen situasjoner kan forskere dra nytte av de store investeringene mange private selskaper gjør for å samle og harmonisere komplekse sosiale datasett.