I berikad fråga bygger konstruktionsdata kontext kring en stor datakälla som innehåller några viktiga mätningar men saknar andra.
Ett sätt att kombinera undersökningsdata och stora datakällor är en process som jag kallar berikad frågar . I berikad fråga innehåller en stor datakälla några viktiga mätningar men saknar andra mätningar så forskaren samlar in dessa saknade mätningar i en undersökning och kopplar sedan samman de två datakällorna tillsammans. Ett exempel på berikad frågar är Burke and Kraut (2014) studie om huruvida interaktion på Facebook ökar vänskapsstyrkan, som jag beskrivit i avsnitt 3.2). I så fall kombinerade Burke och Kraut undersökningsdata med Facebook-loggdata.
Inställningen där Burke och Kraut arbetade menade emellertid att de inte behövde ta itu med två stora problem som forskare som berikade ber, stod vanligtvis inför. För det första kan det vara svårt att länka samman de enskilda dataseten, en process som kallas rekordlänk , om det inte finns någon unik identifierare i båda datakällorna som kan användas för att säkerställa att den korrekta posten i en dataset matchas med rätt skiva i det andra datasetet. Det andra huvudproblemet med berikad fråga är att kvaliteten hos den stora datakällan ofta blir svår för forskare att bedöma eftersom processen genom vilken data skapas kan vara proprietär och kan vara mottaglig för många av de problem som beskrivs i kapitel 2. Med andra ord kommer berikad frågar ofta att medföra felaktiga kopplingar av undersökningar till svarta låddatakällor av okänd kvalitet. Trots dessa problem kan berikad frågar dock användas för att utföra en viktig forskning, vilket demonstrerats av Stephen Ansolabehere och Eitan Hersh (2012) i sin forskning om röstmönster i USA.
Voterutslaget har varit föremål för omfattande forskning inom statsvetenskapen, och tidigare har forskarnas förståelse av vem som röster och varför i allmänhet varit baserad på analysen av undersökningsdata. Röstning i USA är emellertid ett ovanligt beteende genom att regeringen registrerar om varje medborgare har röstat (naturligtvis registrerar regeringen inte vem varje medborgare rösta för). I många år var dessa röstningsrekord tillgängliga på pappersblanketter, spridda i olika kommuner runt om i landet. Det gjorde det väldigt svårt, men inte omöjligt, för de politiska vetenskaperna att få en fullständig bild av väljarna och att jämföra vad folk säger i enkäter om att rösta med deras faktiska röstbeteende (Ansolabehere and Hersh 2012) .
Men dessa röstningsrekord har nu digitaliserats och ett antal privata företag har systematiskt samlat in och slog samman dem för att producera omfattande huvudröstningsfiler som innehåller alla amerikaners röstbeteende. Ansolabehere och Hersh samarbetade med ett av dessa företag-Catalyst LCC-för att kunna använda sin huvudröstningsfil för att hjälpa till att utveckla en bättre bild av väljarna. Eftersom deras studie förlitar sig på digitala register som samlats in och kuratiserats av ett företag som hade investerat betydande resurser inom datainsamling och harmonisering, erbjöd den ett antal fördelar jämfört med tidigare ansträngningar som hade gjorts utan stöd av företag och genom att använda analoga register.
I likhet med många av de stora datakällorna i kapitel 2 inkluderade katalistiska huvudfilen inte mycket av demografiska, attityd- och beteendeinformation som Ansolabehere och Hersh behövde. I själva verket var de särskilt intresserade av att jämföra rapporterat röstbeteende i undersökningar med validerat röstbeteende (dvs. informationen i katalistdatabasen). Så Ansolabehere och Hersh samlade in de uppgifter som de ville ha som en stor social undersökning, CCES, som nämnts tidigare i detta kapitel. Sedan gav de sina uppgifter till katalisten, och katalisten gav dem tillbaka en sammanslagen datafil som inkluderade validerat röstbeteende (från katalist), det självrapporterade röstbeteendet (från CCES) och demografiska och attityder respondenterna (från CCES) (figur 3,13). Med andra ord kombinerade Ansolabehere och Hersh röstningsuppgifterna med undersökningsdata för att göra forskning som inte var möjlig med enskilda datakällor individuellt.
Med sin kombinerade datafil kom Ansolabehere och Hersh till tre viktiga slutsatser. För det första är överrapporteringen av omröstningen enorm: nästan hälften av de icke-röstade anmälde rösterna, och om någon rapporterade att rösta, finns det bara 80% chans att de faktiskt röstade. För det andra är överrapportering inte slumpmässig: Överrapportering är vanligare bland höginkomsttagare, välutbildade, partisaner som är engagerade i offentliga angelägenheter. Med andra ord är de personer som mest sannolikt kommer att rösta sannolikt att ljuga om att rösta. För det tredje, och mest kritiskt, på grund av den systematiska karaktären av överrapportering är de faktiska skillnaderna mellan väljare och nonvoters mindre än de bara framgår av undersökningar. Till exempel är de med kandidatexamen cirka 22 procentenheter mer benägna att rapportera omröstning, men är bara 10 procentenheter mer benägna att faktiskt rösta. Det visar sig kanske inte överraskande att befintliga resursbaserade teorier om röstning är mycket bättre för att förutsäga vem som ska rapportera röstning (vilket är de data som forskare har använt tidigare) än de förutspår vem som faktiskt rösta. Således kräver det empiriska resultatet av Ansolabehere and Hersh (2012) nya teorier att förstå och förutse röstning.
Men hur mycket borde vi lita på dessa resultat? Kom ihåg att dessa resultat beror på felaktig koppling till svart boxdata med okända felmängder. Mer specifikt hänger resultaten på två viktiga steg: (1) Katalysers förmåga att kombinera många olika datakällor för att skapa en exakt masterdatafil och (2) Katalysers förmåga att länka undersökningsdata till dess masterdatafil. Vart och ett av dessa steg är svårt, och fel i båda stegen kan leda forskare till felaktiga slutsatser. Både databehandling och länkning är dock avgörande för katalisternas fortsatta existens som ett företag, så det kan investera resurser för att lösa dessa problem, ofta i en skala som ingen akademisk forskare kan matcha. I sitt papper går Ansolabehere och Hersh igenom ett antal steg för att kontrollera resultaten av dessa två steg - även om vissa av dem är proprietära - och dessa kontroller kan vara till hjälp för andra forskare som vill koppla undersökningsdata till svarta boxas stora data källor.
Vilka är de allmänna lektionerna som forskare kan dra av denna studie? För det första är det enormt värde både från att berika stora datakällor med undersökningsdata och från berikande undersökningsdata med stora datakällor (du kan se denna studie på något sätt). Genom att kombinera dessa två datakällor kunde forskarna göra något som var omöjligt med antingen individuellt. Den andra generella lektionen är att även om aggregerade kommersiella datakällor, såsom data från katalistiska, inte borde betraktas som "grund sanning", kan de i vissa fall vara användbara. Skeptiker jämför ibland dessa aggregerade, kommersiella datakällor med absolut sanning och påpekar att dessa datakällor är korta. Men i det här fallet gör skeptikerna fel jämförelse: alla data som forskare använder saknar absolut absoluta sanning. Istället är det bättre att jämföra aggregerade, kommersiella datakällor med andra tillgängliga datakällor (t.ex. självrapporterat röstbeteende), som alltid har fel. Slutligen är den tredje generella lektionen i Ansolabehere och Hershs studie att i vissa situationer kan forskare dra nytta av de stora investeringar som många privata företag gör för att samla in och harmonisera komplexa sociala dataset.