I beriget spørgsmålet opbygger undersøgelsesdata sammenhæng omkring en stor datakilde, der indeholder nogle vigtige målinger, men mangler andre.
En måde at kombinere undersøgelsesdata og store datakilder til er en proces, som jeg kalder beriget spørger . I beriget spørger indeholder en stor datakilde nogle vigtige målinger, men mangler andre målinger, så forskeren indsamler disse manglende målinger i en undersøgelse og sammenkobler de to datakilder sammen. Et eksempel på beriget spørg er Burke and Kraut (2014) om, hvorvidt interaktion på Facebook øger venskabsstyrken, som jeg beskrevet i afsnit 3.2). I så fald kombinerede Burke og Kraut undersøgelsesdata med Facebook log data.
Indstillingen, som Burke og Kraut arbejdede på, betød dog, at de ikke behøvede at beskæftige sig med to store problemer, som forskere, der berigede, beder, typisk stod overfor. For det første kan det faktisk være svært at forbinde de individuelle datasæt, en proces kaldet record linkage , hvis der ikke findes nogen unik identifikator i begge datakilder, der kan bruges til at sikre, at den korrekte post i et datasæt er matchet med den korrekte post i det andet datasæt. Det andet hovedproblem med beriget spørgsmålet er, at kvaliteten af den store datakilde ofte vil være vanskelig for forskerne at vurdere, fordi processen, hvorved dataene oprettes, kan være proprietære og kunne modtage mange af de problemer, der er beskrevet i kapitel 2. Med andre ord vil beriget spørgsmiljø ofte medføre fejlsynlig sammenkobling af undersøgelser til sorte boks datakilder af ukendt kvalitet. På trods af disse problemer kan beriget spørgsmålet imidlertid bruges til at udføre vigtig forskning, som det blev demonstreret af Stephen Ansolabehere og Eitan Hersh (2012) i deres forskning om stemningsmønstre i USA.
Voter valgdeltagelse har været genstand for omfattende forskning inden for statsvidenskab, og tidligere har forskernes forståelse af hvem der stemmer og hvorfor generelt været baseret på analysen af undersøgelsesdata. Stemme i USA er imidlertid en usædvanlig opførsel, fordi regeringen registrerer, om hver borger har stemt (selvfølgelig registrerer regeringen ikke, hvem hver borger stemmer for). I mange år var disse statslige stemmeberettigelser tilgængelige på papirformularer, spredt i forskellige kommunale kontorer rundt om i landet. Det gjorde det meget vanskeligt, men ikke umuligt, for de politiske forskere at få et komplet billede af vælgerne og at sammenligne, hvad folk siger i undersøgelser om at stemme med deres faktiske stemmeafvikling (Ansolabehere and Hersh 2012) .
Men disse afstemningsrekorder er nu digitaliseret, og en række private virksomheder har systematisk indsamlet og fusioneret dem til at producere omfattende master-stemmefiler, der indeholder alle amerikaners stemmeopførsel. Ansolabehere og Hersh samarbejdede med et af disse selskaber-Catalyst LCC-for at kunne bruge deres stammeafstemning for at hjælpe med at udvikle et bedre billede af vælgerne. Da deres undersøgelse var baseret på digitale optegnelser indsamlet og kureret af et firma, der havde investeret betydelige ressourcer i dataindsamling og harmonisering, gav den en række fordele frem for tidligere bestræbelser, der var blevet foretaget uden hjælp fra virksomheder og ved brug af analoge optegnelser.
Ligesom mange af de store datakilder i kapitel 2 indeholdt den katalanske hovedfil ikke meget af demografiske, holdningsmæssige og adfærdsmæssige oplysninger, som Ansolabehere og Hersh havde brug for. Faktisk var de særligt interesserede i at sammenligne rapporteret stemmeafvikling i undersøgelser med valideret afstemningsadfærd (dvs. oplysningerne i den catalistiske database). Så Ansolabehere og Hersh indsamlede de data, de ønskede som en stor social undersøgelse, CCES, nævnt tidligere i dette kapitel. Derefter gav de deres data til Catalyst, og Catalist gav dem tilbage en fusioneret datafil, der omfattede valideret afstemningsadfærd (fra Catalist), den selvrapporterede stemmeafvikling (fra CCES) og demografien og holdningerne hos respondenterne (fra CCES) (figur 3.13). Med andre ord kombinerede Ansolabehere og Hersh stemmeret data med undersøgelsesdata for at gøre forskning, der ikke var muligt med hver enkelt datakilde individuelt.
Med deres kombinerede datafil kom Ansolabehere og Hersh til tre vigtige konklusioner. For det første er overrapportering af afstemningen voldsom: næsten halvdelen af de nonvoters rapporterede at stemme, og hvis nogen rapporterede at stemme, er der kun 80% chance for, at de rent faktisk stemte. For det andet er overrapportering ikke tilfældig: Overrapportering er mere almindelig blandt højtindkomne, veluddannede, partisaner, der er involveret i offentlige anliggender. Med andre ord er de personer, der mest sandsynligt vil stemme, ligeledes mest tilbøjelige til at lyve om at stemme. For det tredje og mest kritisk på grund af den systematiske karakter af overrapportering er de faktiske forskelle mellem vælgere og nonvoters mindre end de fremgår af undersøgelser. For eksempel er de med en bachelorgrad cirka 22 procentpoint mere tilbøjelige til at rapportere afstemning, men er kun 10 procentpoint mere tilbøjelige til at stemme. Det viser sig måske ikke overraskende, at eksisterende ressourcebaserede teorier om afstemning er meget bedre til at forudsige, hvem der vil rapportere afstemning (hvilket er de data, som forskere har brugt tidligere), end de forudser, hvem der rent faktisk stemmer. Således opfordrer empiriske fund af Ansolabehere and Hersh (2012) til nye teorier til at forstå og forudsige at stemme.
Men hvor meget skal vi stole på disse resultater? Husk, at disse resultater afhænger af fejlagtige link til black box-data med ukendte fejlmængder. Nærmere bestemt afhænger resultaterne af to centrale trin: (1) Catalistens evne til at kombinere mange forskellige datakilder for at producere en præcis masterdatafile og (2) Catalysens evne til at forbinde undersøgelsesdataene til dets master datafile. Hvert af disse trin er svært, og fejl i begge trin kan føre forskere til de forkerte konklusioner. Imidlertid er både databehandling og sammenkobling afgørende for Catalysts fortsatte eksistens som en virksomhed, så det kan investere ressourcer i at løse disse problemer, ofte i en skala, som ingen akademisk forsker kan matche. I deres papir går Ansolabehere og Hersh igennem en række trin for at kontrollere resultaterne af disse to trin - selv om nogle af dem er proprietære - og disse checks kan være nyttige for andre forskere, der ønsker at forbinde undersøgelsesdata til blackbox-store data kilder.
Hvad er de generelle lektioner, forskere kan trække fra denne undersøgelse? For det første er der enorm værdi både fra berigelse af store datakilder med undersøgelsesdata og af berigende undersøgelsesdata med store datakilder (du kan se denne undersøgelse på begge måder). Ved at kombinere disse to datakilder var forskerne i stand til at gøre noget, der var umuligt med enten individuelt. Den anden generelle lektion er, at selvom aggregerede kommercielle datakilder, som f.eks. Catalistiske data, ikke bør betragtes som "sandhed", kan de i nogle tilfælde være nyttige. Skeptikere sammenligner nogle gange disse aggregerede, kommercielle datakilder med absolut sandhed og påpeger, at disse datakilder er kortfattede. Men i dette tilfælde gør skeptikerne den forkerte sammenligning: alle data, som forskere bruger, mangler absolut sandhed. I stedet er det bedre at sammenligne aggregerede, kommercielle datakilder med andre tilgængelige datakilder (f.eks. Selvrapporteret stemmeafvikling), som altid har fejl. Endelig er den tredje generelle lektion af Ansolabehere og Hershs undersøgelse, at forskere i nogle situationer kan drage fordel af de enorme investeringer, som mange private virksomheder gør ved at indsamle og harmonisere komplekse sociale datasæt.