In verrijkt vragen, bouwen enquêtegegevens de context rond een grote gegevensbron die enkele belangrijke metingen bevat, maar andere ontbreekt.
Eén manier om onderzoeksgegevens en big data-bronnen te combineren is een proces dat ik verrijkt met vragen zal noemen. Bij verrijkte vragen bevat een grote gegevensbron enkele belangrijke metingen maar mist andere metingen, zodat de onderzoeker deze ontbrekende metingen verzamelt in een enquête en vervolgens de twee gegevensbronnen aan elkaar koppelt. Een voorbeeld van verrijkt vragen is de studie van Burke and Kraut (2014) over de vraag of interactie op Facebook de vriendschapskracht verhoogt, die ik heb beschreven in paragraaf 3.2). In dat geval combineerden Burke en Kraut onderzoeksgegevens met Facebook-loggegevens.
De omgeving waarin Burke en Kraut aan het werk waren, betekende echter dat ze niet te maken hadden met twee grote problemen die onderzoekers deden die verrijkt waren met het stellen van vragen. Ten eerste, het daadwerkelijk koppelen van de individuele datasets, een proces genaamd record linkage , kan moeilijk zijn als er geen unieke identifier in beide gegevensbronnen is die gebruikt kan worden om ervoor te zorgen dat de juiste record in één dataset overeenkomt met de juiste record in de andere dataset. Het tweede hoofdprobleem met verrijkte vragen is dat de kwaliteit van de big data vaak moeilijk zal zijn voor onderzoekers om te beoordelen, omdat het proces waardoor de data wordt gemaakt, mogelijk eigen is en gevoelig kan zijn voor veel van de problemen die worden beschreven in hoofdstuk 2. Met andere woorden, verrijkt vragen zal vaak betrekking hebben op foutgevoelige koppeling van enquêtes aan black-box-gegevensbronnen van onbekende kwaliteit. Ondanks deze problemen kan verrijkt vragen echter worden gebruikt om belangrijk onderzoek uit te voeren, zoals Stephen Ansolabehere en Eitan Hersh (2012) aantoonden in hun onderzoek naar stempatronen in de Verenigde Staten.
Opkomst van de kiezer is het onderwerp geweest van uitgebreid onderzoek in de politieke wetenschappen, en in het verleden was het inzicht van onderzoekers in wie stemt en waarom in het algemeen gebaseerd was op de analyse van onderzoeksgegevens. Stemmen in de Verenigde Staten is echter een ongewoon gedrag, omdat de regering registreert of elke burger heeft gestemd (de regering registreert natuurlijk niet voor elke burger waar hij voor stemt). Gedurende vele jaren waren deze regeringsstemmen beschikbaar op papieren formulieren, verspreid over verschillende lokale regeringskantoren in het hele land. Dit maakte het erg moeilijk, maar niet onmogelijk, voor politicologen om een volledig beeld te hebben van het electoraat en om te vergelijken wat mensen zeggen in enquêtes over stemmen met hun daadwerkelijke stemgedrag (Ansolabehere and Hersh 2012) .
Maar deze stemregisters zijn nu gedigitaliseerd en een aantal particuliere bedrijven hebben deze systematisch verzameld en samengevoegd tot uitgebreide stembestanden met stemgedrag van alle Amerikanen. Ansolabehere en Hersh zijn een samenwerking aangegaan met een van deze bedrijven, een Catalaans LCC, om hun hoofdstembestand te gebruiken om een beter beeld van het electoraat te krijgen. Omdat hun onderzoek gebaseerd was op digitale gegevens die werden verzameld en samengesteld door een bedrijf dat aanzienlijke middelen had geïnvesteerd in gegevensverzameling en harmonisatie, bood het bovendien een aantal voordelen ten opzichte van eerdere inspanningen die zonder de hulp van bedrijven en met behulp van analoge records waren gedaan.
Net als veel van de big data-bronnen in hoofdstuk 2 bevatte het Catalist-hoofdbestand niet veel van de demografische, attitude- en gedragsinformatie die Ansolabehere en Hersh nodig hadden. Ze waren zelfs bijzonder geïnteresseerd in het vergelijken van gerapporteerd stemgedrag in enquêtes met gevalideerd stemgedrag (dwz de informatie in de Catalist-database). Dus verzamelden Ansolabehere en Hersh de gegevens die ze wilden, als een grote sociale enquête, de CCES, eerder genoemd in dit hoofdstuk. Vervolgens gaven ze hun gegevens aan Catalist en gaf Catalist ze een samengevoegd databestand terug, inclusief gevalideerd stemgedrag (van de Cataloog), het zelfgerapporteerde stemgedrag (van CCES) en de demografie en attitudes van respondenten (van CCES) (figuur 3.13). Met andere woorden, Ansolabehere en Hersh combineerden de stemgegevens met enquêtegegevens om onderzoek uit te voeren dat niet mogelijk was met elke gegevensbron afzonderlijk.
Met hun gecombineerde gegevensbestand kwamen Ansolabehere en Hersh tot drie belangrijke conclusies. Ten eerste is het overdreven melden van stemmen ongebreideld: bijna de helft van de niet-stemmers gaf aan te stemmen, en als iemand meldde te stemmen, is er maar 80% kans dat ze daadwerkelijk hebben gestemd. Ten tweede is overrapportage niet willekeurig: overrapportage komt vaker voor bij hoogbetaalde, goed opgeleide partizanen die zich bezighouden met public affairs. Met andere woorden, de meest waarschijnlijke personen zullen waarschijnlijk ook liegen over stemmen. Ten derde, en zeer kritisch, vanwege de systematische aard van overrapportage, zijn de werkelijke verschillen tussen kiezers en niet-stemmers kleiner dan ze alleen uit enquêtes blijken. Bijvoorbeeld, degenen met een bachelordiploma hebben ongeveer 22 procentpunten meer kans om te stemmen, maar hebben slechts 10 procentpunten meer kans om daadwerkelijk te stemmen. Het blijkt, misschien niet verrassend, dat bestaande bronnengerelateerde theorieën over stemmen veel beter zijn in het voorspellen van wie de stemrapportage zal rapporteren (wat de gegevens zijn die onderzoekers in het verleden hebben gebruikt) dan dat ze voorspellen wie daadwerkelijk stemt. De empirische bevinding van Ansolabehere and Hersh (2012) roept daarom op tot nieuwe theorieën om stemmingen te begrijpen en te voorspellen.
Maar hoeveel moeten we deze resultaten vertrouwen? Onthoud dat deze resultaten afhankelijk zijn van foutgevoelige koppelingen naar black-box-gegevens met onbekende hoeveelheden fouten. Meer specifiek hangen de resultaten af van twee belangrijke stappen: (1) het vermogen van de Cataloog om veel verschillende gegevensbronnen te combineren om een nauwkeurig master-gegevensbestand te produceren en (2) het vermogen van de Cataloog om de onderzoeksgegevens te koppelen aan zijn hoofdgegevensbestand. Elk van deze stappen is moeilijk en fouten in beide stappen kunnen ertoe leiden dat onderzoekers de verkeerde conclusies trekken. Zowel gegevensverwerking als linken zijn echter van cruciaal belang voor het voortbestaan van Catalist als bedrijf, zodat het middelen kan investeren in het oplossen van deze problemen, vaak op een schaal die geen academisch onderzoeker kan evenaren. In hun paper doorlopen Ansolabehere en Hersh een aantal stappen om de resultaten van deze twee stappen te controleren, ook al zijn sommige van die accounts eigendom van Google en deze controles kunnen nuttig zijn voor andere onderzoekers die onderzoeksgegevens willen koppelen aan black-box big data bronnen.
Wat zijn de algemene lessen die onderzoekers uit dit onderzoek kunnen trekken? Ten eerste is er enorme waarde, zowel door het verrijken van big data-bronnen met enquêtegegevens als door het verrijken van onderzoeksgegevens met big data-bronnen (u kunt deze studie in beide gevallen bekijken). Door deze twee gegevensbronnen te combineren, konden de onderzoekers iets doen wat onmogelijk was, hetzij individueel. De tweede algemene les is dat geaggregeerde, commerciële gegevensbronnen, zoals de gegevens van de Catalist, niet als 'ground truth' moeten worden beschouwd, maar in sommige gevallen kunnen ze nuttig zijn. Sceptici vergelijken deze geaggregeerde, commerciële gegevensbron soms met absolute Waarheid en wijzen erop dat deze gegevensbronnen tekortschieten. In dit geval maken de sceptici echter een verkeerde vergelijking: alle gegevens die onderzoekers gebruiken, schieten tekort voor de absolute waarheid. In plaats daarvan is het beter om geaggregeerde, commerciële gegevensbronnen te vergelijken met andere beschikbare gegevensbronnen (bijv. Zelfgerapporteerd stemgedrag), die ook altijd fouten bevatten. Ten slotte is de derde algemene les van het onderzoek van Ansolabehere en Hersh dat in sommige situaties onderzoekers kunnen profiteren van de enorme investeringen die veel particuliere bedrijven doen bij het verzamelen en harmoniseren van complexe sets van sociale gegevens.