Amplified met het gebruik van een voorspellend model om enquêtegegevens van een paar mensen met een grote gegevensbron van veel mensen te combineren.
Een andere manier om enquête en big data-bronnen te combineren is een proces dat ik geamplificeerd vragen zal noemen. Bij versterkt vragen gebruikt een onderzoeker een voorspellend model om een klein aantal onderzoeksgegevens te combineren met een grote gegevensbron om schattingen te maken op een schaal of granulariteit die niet mogelijk zou zijn met elke gegevensbron afzonderlijk. Een belangrijk voorbeeld van versterkt vragen komt van het werk van Joshua Blumenstock, die data wilde verzamelen die de ontwikkeling in arme landen zou kunnen helpen sturen. In het verleden moesten onderzoekers die dit soort gegevens verzamelden over het algemeen een van de twee benaderingen gebruiken: steekproevenquêtes of tellingen. Steekproefenquêtes, waarbij onderzoekers een klein aantal mensen interviewen, kunnen flexibel, tijdig en relatief goedkoop zijn. Deze enquêtes zijn echter vaak beperkt in hun resolutie omdat ze op een steekproef zijn gebaseerd. Met een steekproefenquête is het vaak moeilijk om schattingen te maken over specifieke geografische regio's of voor specifieke demografische groepen. Tellingen proberen daarentegen iedereen te interviewen en kunnen dus worden gebruikt om schattingen te maken voor kleine geografische regio's of demografische groepen. Maar volkstellingen zijn over het algemeen duur, beperkt in focus (ze bevatten slechts een klein aantal vragen) en niet op tijd (ze gebeuren volgens een vast schema, zoals elke 10 jaar) (Kish 1979) . In plaats van vast te zitten aan steekproefenquêtes of tellingen, stel je dan voor dat onderzoekers de beste eigenschappen van beide zouden kunnen combineren. Stel je voor dat onderzoekers elke vraag elke dag aan iedereen zouden kunnen stellen. Het is duidelijk dat dit alomtegenwoordige, altijd-aan-onderzoek een soort van sociale wetenschapsfantasie is. Maar het lijkt dat we kunnen beginnen om dit te harmoniseren door enquêtevragen het combineren van een klein aantal mensen met digitale sporen van vele mensen.
Het onderzoek van Blumenstock begon toen hij samenwerkte met de grootste mobiele telefoonprovider in Rwanda en het bedrijf geanonimiseerde transactierecords leverde van ongeveer 1,5 miljoen klanten tussen 2005 en 2009. Deze records bevatten informatie over elke oproep en sms, zoals de starttijd, duur en geschatte geografische locatie van de beller en ontvanger. Voordat ik het heb over de statistische problemen, is het de moeite waard erop te wijzen dat deze eerste stap een van de moeilijkste is voor veel onderzoekers. Zoals ik in hoofdstuk 2 heb beschreven, zijn de meeste big data-bronnen ontoegankelijk voor onderzoekers. Met name telefonische metadata is vooral ontoegankelijk omdat het in principe onmogelijk is om te anonimiseren en het bevat vrijwel zeker informatie die deelnemers als gevoelig beschouwen (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . In dit specifieke geval waren de onderzoekers voorzichtig om de gegevens te beschermen en werd hun werk gecontroleerd door een derde partij (dwz hun IRB). Ik zal in hoofdstuk 6 meer gedetailleerd op deze ethische kwesties ingaan.
Blumenstock was geïnteresseerd in het meten van rijkdom en welzijn. Maar deze eigenschappen zijn niet direct in de oproeprecords. Met andere woorden, deze oproeprecords zijn onvolledig voor dit onderzoek - een veel voorkomend kenmerk van big data-bronnen dat in hoofdstuk 2 uitvoerig werd besproken. Het lijkt echter waarschijnlijk dat de oproeprecords waarschijnlijk enige informatie bevatten die indirect informatie over rijkdom en informatie zou kunnen verschaffen. welzijn. Gezien deze mogelijkheid vroeg Blumenstock of het mogelijk was om een machine-leermodel te trainen om te voorspellen hoe iemand zal reageren op een enquête op basis van hun oproeprecords. Als dit mogelijk was, kon Blumenstock dit model gebruiken om de antwoorden van alle 1,5 miljoen klanten te voorspellen.
Om een dergelijk model te bouwen en te trainen, noemden Blumenstock en onderzoeksmedewerkers van het Kigali Institute of Science and Technology een willekeurige steekproef van ongeveer duizend klanten. De onderzoekers legden de doelstellingen van het project uit aan de deelnemers, vroegen hun toestemming om de antwoorden van het onderzoek op de gespreksrecords te koppelen en stelden hen vervolgens een reeks vragen om hun welvaart en welzijn te meten, zoals "Heb je een radio? "en" Heb je een fiets? "(zie figuur 3.14 voor een gedeeltelijke lijst). Alle deelnemers aan het onderzoek werden financieel gecompenseerd.
Vervolgens gebruikte Blumenstock een tweestaps-procedure die veel voorkomt in machine learning: feature-engineering gevolgd door gesuperviseerd leren. Ten eerste heeft Blumenstock in de feature engineering- stap voor iedereen die werd geïnterviewd de gespreksrecords omgezet in een reeks kenmerken over elke persoon; data scientists zouden deze kenmerken 'kenmerken' kunnen noemen en sociale wetenschappers zouden ze 'variabelen' kunnen noemen. Blumenstock berekende bijvoorbeeld voor elke persoon het totale aantal dagen met activiteit, het aantal verschillende mensen waarmee een persoon in contact was geweest, de hoeveelheid geld besteed aan zendtijd, enzovoort. Kritiek is dat goede feature-engineering kennis van de onderzoeksomgeving vereist. Als het bijvoorbeeld belangrijk is om een onderscheid te maken tussen binnenlandse en internationale gesprekken (we mogen verwachten dat mensen die internationaal bellen om rijker te zijn), dan moet dit worden gedaan tijdens de feature engineering-stap. Een onderzoeker met weinig kennis van Rwanda zou deze functie misschien niet kunnen gebruiken, en dan zou de voorspellende prestatie van het model hieronder lijden.
Vervolgens bouwde Blumenstock in de begeleide leerstap een model om de enquêtereactie voor elke persoon te voorspellen op basis van hun kenmerken. In dit geval gebruikte Blumenstock logistische regressie, maar hij had verschillende andere statistische of machinale leerbenaderingen kunnen gebruiken.
Dus hoe goed werkte het? Was Blumenstock in staat antwoorden te voorspellen op enquêtevragen als "Bezit je een radio?" En "Heb je een fiets?" Met functies die zijn afgeleid van oproeprecords? Om de prestaties van zijn voorspellende model te evalueren, gebruikte Blumenstock cross-validatie , een techniek die veel wordt gebruikt in de data science maar zelden in de sociale wetenschappen. Het doel van kruisvalidatie is om een eerlijke beoordeling te geven van de voorspellende prestaties van een model door deze te trainen en te testen op verschillende subsets van gegevens. In het bijzonder heeft Blumenstock zijn gegevens in 10 brokken van 100 mensen verdeeld. Vervolgens gebruikte hij negen van de stukjes om zijn model te trainen, en de voorspellende prestaties van het getrainde model werden geëvalueerd op de resterende brok. Hij herhaalde deze procedure tien keer - waarbij elk stuk gegevens één beurt kreeg als de validatiegegevens - en de resultaten gemiddeld.
De nauwkeurigheid van de voorspellingen was hoog voor sommige kenmerken (figuur 3.14); Blumenstock kon bijvoorbeeld voorspellen met 97,6% nauwkeurigheid als iemand een radio bezat. Dit klinkt misschien indrukwekkend, maar het is altijd belangrijk om een complexe voorspellingsmethode te vergelijken met een eenvoudig alternatief. In dit geval is een eenvoudig alternatief om te voorspellen dat iedereen het meest algemene antwoord zal geven. Zo gaf 97,3% van de respondenten aan een radio te bezitten, dus als Blumenstock had voorspeld dat iedereen zou melden dat hij een radio bezit, zou hij een nauwkeurigheid van 97,3% hebben gehad, wat verrassend lijkt op de uitvoering van zijn meer complexe procedure (97,6% nauwkeurigheid) . Met andere woorden, alle fraaie gegevens en modellering verhoogden de nauwkeurigheid van de voorspelling van 97,3% naar 97,6%. Voor andere vragen, zoals "Heb je een fiets?", Verbeterden de voorspellingen van 54,4% naar 67,6%. Meer in het algemeen laat figuur 3.15 zien dat Blumenstock voor sommige eigenschappen niet veel verder verbeterde dan alleen het maken van de eenvoudige basislijnvoorspelling, maar dat voor andere eigenschappen er enige verbetering was. Als u alleen naar deze resultaten kijkt, denkt u misschien niet dat deze aanpak bijzonder veelbelovend is.
Slechts een jaar later publiceerden Blumenstock en twee collega's - Gabriel Cadamuro en Robert On - een paper in Science met aanzienlijk betere resultaten (Blumenstock, Cadamuro, and On 2015) . Er waren twee belangrijke technische redenen voor deze verbetering: (1) ze gebruikten meer geavanceerde methoden (dwz een nieuwe benadering van feature-engineering en een geavanceerder model om reacties van functies te voorspellen) en (2) in plaats van te proberen om antwoorden op individuele antwoorden af te leiden enquêtevragen (bijv. "Heeft u een radio?"), probeerden zij een samengestelde welvaartsindex af te leiden. Deze technische verbeteringen betekenden dat ze een redelijk beroep konden doen op het gebruik van belgegevens om de welvaart van de mensen in hun steekproef te voorspellen.
Het voorspellen van de rijkdom van mensen in de steekproef was echter niet het uiteindelijke doel van het onderzoek. Vergeet niet dat het uiteindelijke doel was om enkele van de beste kenmerken van steekproefenquêtes en tellingen te combineren om nauwkeurige, hoge resolutieramingen van armoede in ontwikkelingslanden te produceren. Om hun vermogen om dit doel te bereiken te beoordelen, gebruikten Blumenstock en collega's hun model en hun gegevens om de rijkdom van alle 1,5 miljoen mensen in de gespreksrecords te voorspellen. En ze gebruikten de georuimtelijke informatie die is ingebed in de oproeprecords (herinner eraan dat de gegevens de locatie van de dichtstbijzijnde celtoren voor elke oproep bevatten) om de geschatte woonplaats van elke persoon te schatten (figuur 3.17). Door deze twee schattingen samen te stellen, produceerden Blumenstock en zijn collega's een schatting van de geografische verdeling van het vermogen van abonnees bij extreem fijne ruimtelijke granulariteit. Ze konden bijvoorbeeld de gemiddelde rijkdom schatten in elk van de 2.148 cellen van Rwanda (de kleinste administratieve eenheid in het land).
Hoe goed kwamen deze schattingen overeen met het feitelijke niveau van armoede in deze regio's? Voordat ik die vraag beantwoord, wil ik benadrukken dat er veel redenen zijn om sceptisch te zijn. Het vermogen om voorspellingen te doen op individueel niveau was bijvoorbeeld behoorlijk luidruchtig (figuur 3.17). En, misschien nog belangrijker, mensen met mobiele telefoons kunnen systematisch anders zijn dan mensen zonder mobiele telefoons. Blumenstock en collega's kunnen dus last hebben van de soorten dekkingsfouten die de 1936 Literary Digest- enquête beïnvloedden die ik eerder beschreef.
Om een idee te krijgen van de kwaliteit van hun schattingen, moesten Blumenstock en collega's ze vergelijken met iets anders. Gelukkig liep rond dezelfde tijd als hun studie een andere groep onderzoekers een traditionelere sociale enquête in Rwanda. Deze andere enquête, die deel uitmaakte van het alom gerespecteerde programma Demografie en Gezondheidsenquête, had een groot budget en gebruikte traditionele methoden van hoge kwaliteit. Daarom kunnen de schattingen van de demografische en gezondheidsenquête redelijkerwijs als goudstandaardschattingen worden beschouwd. Toen de twee schattingen werden vergeleken, waren ze vrij gelijkaardig (figuur 3.17). Met andere woorden, door een klein aantal enquêtegegevens te combineren met de oproeprecords, konden Blumenstock en collega's schattingen produceren die vergelijkbaar zijn met die van gouden standaardbenaderingen.
Een scepticus ziet deze resultaten misschien als een teleurstelling. Een manier om ze te bekijken is immers om te zeggen dat Blumenstock en zijn collega's met behulp van big data en machine learning schattingen konden maken die betrouwbaarder konden worden gemaakt met bestaande methoden. Maar ik denk niet dat dit de juiste manier is om over dit onderzoek na te denken om twee redenen. Ten eerste waren de schattingen van Blumenstock en collega's ongeveer 10 keer sneller en 50 keer goedkoper (als de kosten worden gemeten in termen van variabele kosten). Zoals ik eerder in dit hoofdstuk heb betoogd, negeren onderzoekers de kosten op eigen risico. In dit geval betekent de dramatische kostendaling dat, in plaats van om de paar jaar te worden uitgevoerd - zoals standaard is voor demografische en gezondheidsonderzoeken - dit soort enquêtes elke maand zou kunnen worden uitgevoerd, wat voor onderzoekers en beleid tal van voordelen zou opleveren makers. De tweede reden om de mening van de scepticus niet te nemen, is dat deze studie een basisrecept biedt dat op veel verschillende onderzoekssituaties kan worden afgestemd. Dit recept heeft slechts twee ingrediënten en twee stappen. De ingrediënten zijn (1) een grote gegevensbron die breed maar dun is (dat wil zeggen, het heeft veel mensen maar niet de informatie die je nodig hebt over elke persoon) en (2) een onderzoek dat smal maar dik is (dat wil zeggen, het heeft alleen een paar mensen, maar het heeft de informatie die je nodig hebt over die mensen). Deze ingrediënten worden vervolgens in twee stappen gecombineerd. Eerst, voor de mensen in beide gegevensbronnen, bouw je een machine-leermodel dat de grote gegevensbron gebruikt om enquête-antwoorden te voorspellen. Gebruik vervolgens dat model om de enquête-antwoorden van iedereen in de big data-bron te impoteren. Dus, als er een vraag is die je veel mensen wilt stellen, zoek dan een grote gegevensbron van die mensen die kunnen worden gebruikt om hun antwoord te voorspellen, zelfs als je niet om de grote gegevensbron geeft . Dat wil zeggen dat Blumenstock en collega's zich niet inherent zorgen maakten over oproeprecords; ze hielden alleen rekening met oproeprecords omdat ze konden worden gebruikt om enquête-antwoorden te voorspellen waar ze om gaven. Deze karakteristiek-alleen indirecte interesse in de big data-bron maakt geamplificeerd vragen anders dan embedded vragen, die ik eerder beschreef.
Tot slot combineerden Blumenstock's gevraagde vraagbenadering gecombineerde onderzoeksgegevens met een grote gegevensbron om schattingen te produceren die vergelijkbaar zijn met die van een goudstandaardonderzoek. Dit specifieke voorbeeld verduidelijkt ook enkele van de compromissen tussen versterkte vragen en traditionele enquêtemethoden. De gevraagde vraagschattingen waren actueler, aanzienlijk goedkoper en gedetailleerder. Maar aan de andere kant is er nog geen sterke theoretische basis voor dit soort versterkte vragen. Dit enkele voorbeeld laat niet zien wanneer deze aanpak werkt en wanneer dat niet het geval is, en onderzoekers die deze benadering gebruiken, moeten zich vooral zorgen maken over mogelijke vertekeningen veroorzaakt door wie is opgenomen en wie niet is opgenomen in hun grote gegevensbron. Verder heeft de versterkte benadering van vragen nog geen goede manier om de onzekerheid rond zijn schattingen te kwantificeren. Gelukkig heeft amplified asking diepe connecties met drie grote gebieden in de statistiek - kleinschalige schatting (Rao and Molina 2015) , imputatie (Rubin 2004) en modelgebaseerde poststratificatie (die zelf nauw verwant is met de heer P., de methode die ik eerder in het hoofdstuk beschreef) (Little 1993) . Vanwege deze diepe verbanden verwacht ik dat veel van de methodologische basis van versterkt vragen snel verbeterd zal worden.
Ten slotte illustreert het vergelijken van de eerste en tweede pogingen van Blumenstock ook een belangrijke les over sociaal-maatschappelijk onderzoek: het begin is niet het einde. Dat wil zeggen dat de eerste aanpak vaak niet de beste is, maar als onderzoekers blijven werken, kunnen dingen beter worden. Meer in het algemeen is het bij het evalueren van nieuwe benaderingen van sociaal onderzoek in het digitale tijdperk belangrijk om twee afzonderlijke evaluaties te maken: (1) Hoe goed werkt dit nu? en (2) Hoe goed zal dit in de toekomst werken naarmate het datalandschap verandert en naarmate onderzoekers meer aandacht besteden aan het probleem? Hoewel onderzoekers zijn opgeleid om de eerste vorm van evaluatie te maken, is de tweede vaak belangrijker.