Hoewel het slordig kan zijn, kan verrijkt vraag- krachtig zijn.
Een andere benadering van het omgaan met de onvolledigheid van digitale trace data is om het rechtstreeks verrijken met enquêtegegevens, een proces dat ik verrijkt vragen bel. Een voorbeeld van verrijkt vragen is de studie van Burke and Kraut (2014) , die ik eerder beschreven in het hoofdstuk (paragraaf 3.2), over de vraag of de interactie op Facebook verhoogt vriendschap kracht. In dat geval, Burke en Kraut gecombineerd enquêtegegevens met Facebook loggegevens.
De instelling die Burke en Kraut in het werk waren, echter, betekende dat ze niet te maken hebben met twee grote problemen die onderzoekers doen verrijkt vragen gezicht. Eerst, eigenlijk koppelen samen de gegevensverzamelingen-een proces genaamd recordkoppeling, de aanpassing van een record in een gegevensset met de gewenste gegevens in het andere dataset-moeilijk en foutgevoelig (zien we een voorbeeld van onderstaande probleem ). Het tweede probleem verrijkt vraag- is dat de kwaliteit van de digitale sporen vaak moeilijk voor onderzoekers, die zal zijn. Bijvoorbeeld, soms de procedure die wordt verzameld is eigendom en vatbaar voor vele van de in hoofdstuk 2 beschreven Met andere woorden problemen zouden kunnen worden verrijkt vraag- vaak tot foutgevoelige koppeling van enquêtes black-box gegevensbronnen onbekende kwaliteit. Ondanks de problemen die deze twee problemen introduceren, is het mogelijk om belangrijke onderzoek met deze strategie werd aangetoond door Stephen Ansolabehere en Eitan Hersh (2012) in hun onderzoek naar stemgedrag in de Verenigde Staten. Het is de moeite waard om te gaan over dit onderzoek in detail, omdat veel van de strategieën die Ansolabehere en Hersh ontwikkeld zal nuttig zijn in andere toepassingen van verrijkt vragen zijn.
Opkomst is het onderwerp van uitgebreid onderzoek in de politieke wetenschappen, en in het verleden, onderzoekers begrip van wie stemt en waarom is over het algemeen gebaseerd op de analyse van de onderzoeksgegevens. Stemmen in de VS, echter, is een ongewoon gedrag in dat de overheid administratie of elke burger heeft gestemd (natuurlijk, de overheid niet op te nemen die elke burger stemmen voor). Al vele jaren zijn deze gouvernementele stemverslagen waren beschikbaar in de papieren formulieren, verspreid in diverse lokale overheid kantoren in het hele land. Dit maakte het moeilijk, maar niet onmogelijk, om politieke wetenschappers om een compleet beeld van de kiezers te hebben en te vergelijken wat mensen zeggen in enquêtes over de stemming om hun feitelijke stemgedrag (Ansolabehere and Hersh 2012) .
Maar nu deze stemming records zijn gedigitaliseerd, en een aantal particuliere bedrijven systematisch verzameld en samengevoegd deze stemverslagen uitgebreide meester stemming bestanden die het stemgedrag van alle Amerikanen te nemen produceren. Ansolabehere en Hersh een partnerschap aangegaan met een van deze bedrijven-Catalist LCC-om hun meester stemrecht dossier gebruiken om te helpen een beter beeld van het electoraat te ontwikkelen. Verder, omdat het zich op digitale documenten verzameld en samengesteld door een bedrijf, bood een aantal voordelen ten opzichte van eerdere inspanningen van onderzoekers die zonder de hulp van bedrijven en het gebruik van analoge platen had gedaan.
Net als veel van de digitale sporen bronnen in hoofdstuk 2, heeft de Catalist master file niet onder een groot deel van de demografische, attitudes, en gedragsmatige informatie die Ansolabehere en Hersh nodig. In aanvulling op deze informatie, Ansolabehere en Hersh waren vooral geïnteresseerd in het vergelijken gemeld stemgedrag tot gevalideerde stemgedrag (dwz de informatie in de Catalist database). Dus, de onderzoekers verzamelde de gegevens die ze wilden, als onderdeel van de Coöperatieve Congressional Election Study (CCES), een groot sociaal onderzoek. Next, de onderzoekers gaven deze gegevens om Catalist, en Catalist gaf de onderzoekers een samengevoegde databestand dat opgenomen gevalideerde stemgedrag (van Catalist), de zelf-gerapporteerde stemgedrag (van CCES) en de demografie en attitudes van de respondenten terug (van CCES ). Met andere woorden, Ansolabehere en Hersh verrijkt de stemming gegevens met enquêtegegevens, en het resulterende samengevoegde bestand stelt hen in staat om iets dat noch bestand afzonderlijk ingeschakeld te doen.
Door het verrijken van de Catalist master data bestand met onderzoeksgegevens, Ansolabehere en Hersh kwamen tot drie belangrijke conclusies. Ten eerste, over-rapportage van de stemming tiert welig: bijna de helft van de niet-stemmers gemeld stemming. Of, een andere manier van kijken naar het is als iemand gemeld stemmen, is er slechts een kans van 80% dat ze eigenlijk gestemd. Ten tweede, over-rapportage is niet willekeurig; over-rapportage komt vaker voor bij een hoog inkomen, goed opgeleide, partizanen die betrokken zijn bij publieke aangelegenheden. Met andere woorden, de mensen die de meeste kans om te stemmen ook waarschijnlijk over stemming te liggen. Ten derde, en meest kritisch, vanwege het systematische karakter van overrapportage de werkelijke verschillen tussen stemmers en niet-stemmers kleiner dan z alleen van onderzoeken. Bijvoorbeeld, mensen met een HBO-opleiding zijn ongeveer 22 procentpunten meer kans om de stemming te melden, maar zijn slechts 10 procentpunten meer kans op daadwerkelijke stemming. Verder, bestaande resource-based theorieën van stemming zijn veel beter in het voorspellen van die stemming zullen rapporteren dan die daadwerkelijk stemmen, een empirische bevinding dat vraagt om nieuwe theorieën te begrijpen en stemming te voorspellen.
Maar hoeveel moeten we deze resultaten vertrouwen? Onthoud deze resultaten hangen af van foutgevoelige linking to black-box data met onbekende hoeveelheden fout. Meer specifiek, de resultaten afhangen van twee belangrijke stappen: 1) het vermogen van Catalist vele ongelijksoortige gegevensbronnen combineren om een nauwkeurige meester datafile en 2) het vermogen van Catalist de onderzoeksgegevens verbinden met zijn baas datafile produceren. Elk van deze stappen is zeer moeilijk en fouten aan beide stap zou kunnen onderzoekers verkeerde conclusies leiden. Echter, zowel de gegevensverwerking en bijpassende zijn cruciaal voor het voortbestaan van Catalist als bedrijf dus het middelen kunnen investeren in het oplossen van deze problemen, vaak op een schaal die geen enkele individuele wetenschappelijk onderzoeker of groep van onderzoekers aan kunnen tippen. In de verdere lezing op het einde van het hoofdstuk beschrijf ik deze problemen in meer detail hoe Ansolabehere en Hersh bouwen vertrouwen in de resultaten. Hoewel deze gegevens zijn specifiek voor deze studie, zal kwesties vergelijkbaar met die ontstaan voor andere onderzoekers die willen koppelen aan black-box digitale trace gegevensbronnen.
Wat zijn de algemene lessen onderzoekers kunnen putten uit deze studie? Ten eerste is er enorme waarde van het verrijken van digitale sporen met onderzoeksgegevens. Ten tweede, hoewel deze geaggregeerde commerciële bronnen moeten niet worden beschouwd als "ground truth", in sommige gevallen nuttig zijn. In feite is het het beste om deze gegevens bronnen niet absolute Waarheid (van waaruit ze altijd kort zullen vallen) te vergelijken. Integendeel, het is beter om ze te vergelijken met andere beschikbare gegevensbronnen die steevast hebben fouten ook.