Selvom det kan være rodet, kan beriges spørger være kraftfuld.
En anden tilgang til at håndtere ufuldstændige digitale spor data er at berige det direkte med undersøgelsesdata, en proces, som jeg vil kalde beriget spørge. Et eksempel på beriget spørger er studiet af Burke and Kraut (2014) , som jeg beskrev tidligere i kapitlet (afsnit 3.2), om, hvorvidt interagere på Facebook øger venskab styrke. I så fald Burke og Kraut kombineret undersøgelsesdata med Facebook logdata.
Den indstilling, der Burke og Kraut arbejdede i, men betød, at de ikke behøver at beskæftige sig med to store problemer, som forskerne gør beriget spørge ansigt. Først faktisk forbinder det datasæt-en proces kaldet rekord kobling, matchning af en post i en datasæt med den passende post i anden datasæt-kan være svært og fejlbehæftet (vi vil se et eksempel på dette problem nedenfor ). Det andet hovedproblem af beriget spørger er, at kvaliteten af de digitale spor ofte vil være vanskeligt for forskerne at vurdere. For eksempel undertiden den proces, hvorigennem det indsamles er beskyttede og kan være modtagelige for mange af de problemer, der er beskrevet i kapitel 2. Med andre ord vil beriget spørger ofte involvere fejlbehæftet sammenkædning af undersøgelser til sort-box datakilder med ukendt kvalitet. På trods af de bekymringer, som disse to problemer indføre, er det muligt at udføre vigtige forskning med denne strategi, som blev demonstreret af Stephen Ansolabehere og Eitan Hersh (2012) i deres forskning om afstemningsmønstrene i USA. Det er værd at gå over denne undersøgelse i nogle detaljer, fordi mange af de strategier, Ansolabehere og Hersh udviklede vil være nyttige i andre anvendelser af beriget spørge.
Valgdeltagelsen har været genstand for omfattende forskning i statskundskab, og i fortiden, forskernes forståelse af, hvem stemmer, og hvorfor har generelt været baseret på en analyse af data fra undersøgelsen. Afstemning i USA, dog er en usædvanlig adfærd i, at offentlige registre, om hver borger har er (selvfølgelig, at regeringen ikke registrerer som hver især borger stemmer for). I mange år, disse statslige afstemningsresultaterne var tilgængelige på papirblanketter, spredt i forskellige lokale regeringskontorer rundt om i landet. Dette gjorde det vanskeligt, men ikke umuligt, for politologer at få et fuldstændigt billede af vælgerne og at sammenligne, hvad folk siger i undersøgelser om at stemme til deres faktiske stemmeadfærd (Ansolabehere and Hersh 2012) .
Men nu er disse afstemningsresultaterne er blevet digitaliseret, og en række private selskaber har systematisk indsamlet og fusionerede disse afstemningsresultater at producere omfattende mester stemmeret filer, der registrerer stemmeadfærd af alle amerikanere. Ansolabehere og Hersh indgået partnerskab med et af disse selskaber-Catalyst LCC-for at kunne bruge deres herre stemme fil til at udvikle et bedre billede af vælgerne. Endvidere fordi den var baseret på digitale optegnelser indsamlet og kurateret af et selskab, det tilbød en række fordele i forhold til tidligere indsats fra forskere, der var blevet gjort uden hjælp af selskaber og bruge analoge plader.
Ligesom mange af de digitale spor kilder i kapitel 2, har Catalyst master file omfatter ikke meget af den demografiske, holdningsmæssige og adfærdsmæssige oplysninger, som Ansolabehere og Hersh behov. Ud over disse oplysninger, Ansolabehere og Hersh var især interesseret i at sammenligne rapporterede vælgeradfærd til validerede vælgeradfærd (dvs. oplysningerne i Catalyst-databasen). Så samlet forskerne de data, de ønskede som en del af Cooperative Congressional Election Study (CCES), en stor social undersøgelse. Dernæst gav forskerne disse data til Catalyst, og Catalyst gav forskerne bakke en fusioneret datafil, som omfattede valideret vælgeradfærd (fra Catalyst), den selvrapporterede vælgeradfærd (fra CCES) og demografi og holdninger respondenterne (fra CCES ). Med andre ord, Ansolabehere og Hersh beriget de stemmeberettigede data med undersøgelsens data, og den resulterende fusionerede fil gør dem i stand til at gøre noget, som hverken fil aktiveret individuelt.
Ved at berige Catalyst stamdata fil med undersøgelsens data, Ansolabehere og Hersh kom til tre vigtige konklusioner. Først over-rapportering af afstemningen er grasserende: næsten halvdelen af de ikke-vælgerne rapporterede stemme. Eller en anden måde at se på det er, hvis nogen rapporterede stemme, er der kun en 80% chance for, at de rent faktisk har stemt. For det andet, over-rapportering er ikke tilfældigt; over-rapportering er mere udbredt blandt høj indkomst, veluddannet, partisaner, der er beskæftiget i offentlige anliggender. Med andre ord, de mennesker, der er mest tilbøjelige til at stemme er også mest tilbøjelige til at lyve om at stemme. For det tredje, og mest kritisk, på grund af den systematiske karakter af over-rapportering, de faktiske forskelle mellem vælgere og ikke-vælgere er mindre end de ser ud lige fra undersøgelser. For eksempel dem med en bachelorgrad er omkring 22 procentpoint mere tilbøjelige til at rapportere afstemningen, men er kun 10 procentpoint mere tilbøjelige til faktisk stemme. Endvidere eksisterende ressource-baserede teorier om afstemningen er meget bedre til at forudsige der refererer stemme end der rent faktisk stemmer, en empirisk konstatering af, at opfordrer til nye teorier til at forstå og forudsige stemme.
Men, hvor meget skal vi tillid til disse resultater? Husk disse resultater afhænger af fejlbehæftet sammenkædning til sort-box data med ukendte mængder af fejl. Mere specifikt resultaterne afhænge to centrale trin: 1) evne Catalyst til at kombinere mange forskellige datakilder til at producere en præcis mester datafil og 2) evne Catalyst at sammenkæde undersøgelsens data til sin herre datafil. Hvert af disse trin er ganske vanskeligt og fejl på enten trin kunne føre forskere til de forkerte konklusioner. Men både databehandling og matching er afgørende for den fortsatte eksistens af Catalyst som virksomhed, så det kan investere ressourcer i at løse disse problemer, ofte på en skala, at ingen enkelt akademisk forsker eller gruppe af forskere kan matche. I den videre læsning i slutningen af kapitlet, jeg beskrive disse problemer i flere detaljer og hvordan Ansolabehere og Hersh opbygge tillid i deres resultater. Selv om disse oplysninger er specifikke for denne undersøgelse, vil spørgsmål, der svarer til disse opstår for andre forskere, der ønsker at linke til sort-box digital spor datakilder.
Hvad er de generelle erfaringer forskerne kan drage af denne undersøgelse? Først er der enorm værdi fra berige digitale spor med undersøgelsesdata. For det andet, selv om disse aggregerede, kommercielle datakilder bør ikke betragtes som "ground truth", i visse tilfælde kan være nyttige. Faktisk er det bedst at sammenligne disse datakilder ikke absolut sandhed (hvorfra de altid vil fejle). Det er snarere bedre at sammenligne dem med andre tilgængelige datakilder, som uvægerligt har fejl så godt.