Även om det kan vara rörigt, kan berikas frågar vara kraftfull.
Ett annat sätt att ta itu med det ofullständiga digital spårningsdata är att berika det direkt med enkätdata, en process som jag ringer berikad fråga. Ett exempel av anrikat frågar är studiet av Burke and Kraut (2014) , som jag beskrev tidigare i kapitlet (avsnitt 3.2), om huruvida interagera på Facebook ökar vänskap styrka. I så fall, Burke och Kraut kombinerade mätdata med Facebook loggdata.
Inställningen att Burke och Kraut arbetade i, dock inneburit att de inte har att göra med två stora problem som forskarna gör anrikat frågar ansikte. Först faktiskt länka samman datamängder, en process som kallas rekord koppling, matchningen av en post i ett dataset med lämplig post i den andra dataset-kan vara svårt och felbenägna (vi får se ett exempel på detta problem nedan ). Det andra stora problemet av anrikat frågar är att kvaliteten på de digitala spår ofta kommer att bli svårt för forskarna att bedöma. Till exempel, ibland den process genom vilken det samlas in är patentskyddad och kan vara mottagliga för många av de problem som beskrivs i kapitel 2. Med andra ord, kommer berikat frågar ofta involverar felbenägna bindning av undersökningar till black-box datakällor av okänd kvalitet. Trots den oro som dessa två problem införa, är det möjligt att genomföra viktig forskning med denna strategi som visades av Stephen Ansolabehere och Eitan Hersh (2012) i sin forskning om röstmönster i USA. Det är värt att gå över denna studie i detalj, eftersom många av de strategier som Ansolabehere och Hersh utvecklat kommer att vara användbara i andra tillämpningar av anrikat fråga.
Valdeltagandet har varit föremål för omfattande forskning inom statsvetenskap och tidigare forskare förståelse av som röstar och varför har i allmänhet baserats på analysen av mätdata. Röstning i USA, dock är en ovanligt beteende i att det offentliga register om varje medborgare har röstat (naturligtvis regeringen inte spela som vardera medborgare röstar för). Under många år, dessa statliga omröstningar fanns på pappersblankett, utspridda i olika kommunala kontor runt om i landet. Detta gjorde det svårt, men inte omöjligt, för statsvetare att ha en fullständig bild av väljarna och jämföra vad folk säger i undersökningar om att rösta deras faktiska röstningsbeteende (Ansolabehere and Hersh 2012) .
Men nu dessa rösta register har digitaliserats, och ett antal privata företag har systematiskt samlat in och samman dessa omröstningar för att producera omfattande mästare röstfiler som registrerar röstningsbeteende alla amerikaner. Ansolabehere och Hersh samarbetar med en av dessa företag-Catalist LCC-in för att kunna använda sin herre rösta fil för att bidra till att utveckla en bättre bild av väljarna. Vidare, eftersom det förlitade sig på digitala register som samlats in och sammanställt av ett företag, erbjöd det ett antal fördelar jämfört med tidigare insatser av forskare som hade gjorts utan hjälp av företag och med hjälp av analoga skivor.
Liksom många av de digitala spår källor i kapitel 2, gjorde Catalist masterfilen inte omfatta en stor del av den demografiska, attityd och beteende information som Ansolabehere och Hersh behövs. Utöver denna information Ansolabehere och Hersh var särskilt intresserade av att jämföra rapporterade röstningsbeteende till validerade väljarbeteende (dvs informationen i Catalist databasen). Så forskarna samlat in uppgifterna som de ville som en del av samarbets Congressional valundersökning (CCES), ett stort socialt undersökning. Därefter forskarna gav denna data till Catalist och Catalist gav forskarna tillbaka en sammanslagen datafil som ingår validerade röstningsbeteende (från Catalist), den självrapporterade röstningsbeteende (från CCES) och demografi och attityder av de svarande (från CCES ). Med andra ord, Ansolabehere och Hersh berikat data röst med enkätdata, och den resulterande sammanslagna filen ger dem möjlighet att göra något som varken fil aktiverat sig.
Genom att berika Catalist huvuddatafilen med enkätdata, Ansolabehere och Hersh kom till tre viktiga slutsatser. Först överrapportering av röstningen frodas: nästan hälften av de icke-väljarna rapporterade röstning. Eller, är ett annat sätt att se på det, om någon rapporterade att rösta, det är bara en 80% chans att de faktiskt har röstat. För det andra, är inte slumpmässigt överrapportering; överrapportering är vanligare bland höga inkomster, välutbildade, partisaner som är engagerade i offentliga angelägenheter. Med andra ord, de människor som är mest benägna att rösta är också mest sannolikt att ljuga om röstning. För det tredje, och mest kritiskt, på grund av den systematiska karaktären av överrapportering, de faktiska skillnaderna mellan väljare och icke-väljare är mindre än de verkar bara från undersökningar. Till exempel de med en kandidatexamen är cirka 22 procentenheter mer benägna att rapportera röstning, men är bara 10 procentenheter mer benägna att själva rösta. Vidare befintliga resursbaserade teorier om röstning är mycket bättre på att förutsäga vem som kommer att rapportera att rösta än som faktiskt röster, en empirisk slutsats som efterlyser nya teorier för att förstå och förutsäga röstning.
Men, hur mycket ska vi lita på dessa resultat? Kom ihåg dessa resultat beror på felbenägen länkning till black-box data med okända mängder av fel. Närmare bestämt resultaten gångjärn på två viktiga steg: 1) förmåga Catalist att kombinera många olika datakällor för att producera en riktig mästare datafil och 2) förmåga Catalist länka undersökningen data till sin herre datafil. Vart och ett av dessa steg är ganska svårt och fel på antingen steg kan leda forskare till felaktiga slutsatser. Men både databehandling och matchning är avgörande för den fortsatta existensen av Catalist som ett företag så det kan satsa resurser på att lösa dessa problem, ofta på en skala som ingen enskild akademisk forskare eller forskargrupp kan matcha. I ytterligare behandlingen i slutet av kapitlet beskriver jag dessa problem mer i detalj och hur Ansolabehere och Hersh bygga upp förtroendet för sina resultat. Även om dessa uppgifter är specifika för denna studie kommer frågor som liknar dessa uppstå för andra forskare som vill länka till black-box digital spårdatakällor.
Vilka är de allmänna lärdomar forskarna kan dra av denna undersökning? För det första finns det enormt värde från berika digitala spår med mätdata. För det andra, trots att dessa aggregerade, kommersiella datakällor ska inte betraktas som "mark sanning", i vissa fall kan vara användbart. I själva verket är det bäst att jämföra dessa datakällor inte absolut sanning (som de alltid kommer att falla kort). Snarare är det bättre att jämföra dem med andra tillgängliga datakällor, som alltid har fel också.