Amplified spør om å bruke en prediktiv modell for å kombinere undersøkelsesdata fra noen få personer med en stor datakilde fra mange mennesker.
En annen måte å kombinere undersøkelse og store datakilder på er en prosess som jeg vil ringe forsterket spør . I forsterket spør, bruker en forsker en prediktiv modell for å kombinere en liten mengde undersøkelsesdata med en stor datakilde for å produsere estimater på en skala eller granularitet som ikke ville være mulig med hver enkelt datakilde individuelt. Et viktig eksempel på forsterket spørring kommer fra Joshua Blumenstocks arbeid, som ønsket å samle inn data som kunne bidra til å guide utviklingen i fattige land. Tidligere måtte forskere som samler denne typen data generelt ta en av to tilnærminger: prøveundersøkelser eller censuser. Eksempelundersøkelser, hvor forskere intervjuer et lite antall mennesker, kan være fleksible, rettidige og relativt billige. Imidlertid er disse undersøkelsene, fordi de er basert på en prøve, ofte begrenset i deres oppløsning. Med en prøveundersøkelse er det ofte vanskelig å lage estimater om bestemte geografiske områder eller for bestemte demografiske grupper. Sensusene derimot forsøker å intervjue alle, og de kan derfor brukes til å produsere estimater for små geografiske regioner eller demografiske grupper. Men censuses er generelt dyre, smale i fokus (de inneholder bare et lite antall spørsmål), og ikke rettidig (de skjer på en fast plan, som hvert 10. år) (Kish 1979) . Snarere enn å bli sittende fast med prøveundersøkelser eller sensur, tenk på om forskerne kunne kombinere de beste egenskapene til begge. Tenk deg om forskere kan stille hvert spørsmål til hver person hver dag. Denne allestedsnærværende, kontinuerlige undersøkelsen er åpenbart en slags samfunnsvitenskapelig fantasi. Men det ser ut til at vi kan begynne å tilnærme dette ved å kombinere spørreskjema fra et lite antall mennesker med digitale spor fra mange mennesker.
Blumenstocks forskning begynte da han samarbeide med den største mobilleverandøren i Rwanda, og selskapet ga anonymiserte transaksjonsoppføringer fra ca 1,5 millioner kunder mellom 2005 og 2009. Disse postene inneholdt informasjon om hver samtale og tekstmelding, for eksempel starttid, varighet , og omtrentlig geografisk plassering til den som ringer og mottaker. Før jeg snakker om de statistiske problemene, er det verdt å påpeke at dette første trinnet kan være en av de vanskeligste for mange forskere. Som jeg beskrev i kapittel 2, er de fleste store datakilder utilgjengelige for forskere. Spesielt telefonmålinger er spesielt utilgjengelige fordi det i utgangspunktet er umulig å anonymisere, og det inneholder nesten absolutt opplysninger som deltakerne vil vurdere følsomme (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . I dette tilfellet var forskerne forsiktig med å beskytte dataene, og deres arbeid ble overvåket av en tredjepart (dvs. deres IRB). Jeg kommer tilbake til disse etiske problemene mer detaljert i kapittel 6.
Blumenstock var interessert i å måle rikdom og trivsel. Men disse egenskapene er ikke direkte i anropsrekordene. Med andre ord, disse anropsrekordene er ufullstendige for denne undersøkelsen - et felles trekk ved store datakilder som ble diskutert i detalj i kapittel 2. Det ser imidlertid ut som at anropsregistrene sannsynligvis har noen informasjon som indirekte kunne gi informasjon om rikdom og velvære. Gitt denne muligheten spurte Blumenstock om det var mulig å trene en maskinlæringsmodell for å forutsi hvordan noen vil svare på en undersøkelse basert på deres anropsrekord. Hvis dette var mulig, kunne Blumenstock bruke denne modellen til å forutsi undersøkelsesresponsene til alle 1,5 millioner kunder.
For å bygge og trene en slik modell, kalte Blumenstock og forskningsassistenter fra Kigali Institute of Science and Technology et tilfeldig utvalg av rundt tusen kunder. Forskerne forklarte målene for prosjektet til deltakerne, ba om samtykke til å koble undersøkelsesresponsene til anropsrekordene og spurte dem en rekke spørsmål for å måle deres rikdom og trivsel, for eksempel "Eier du en radio? "og" Eier du en sykkel? "(se figur 3.14 for en delvis liste). Alle deltakerne i undersøkelsen ble kompensert økonomisk.
Deretter brukte Blumenstock en to-trinns prosedyre som er vanlig i maskinlæring: funksjonsteknikk etterfulgt av veiledet læring. For det første, i funksjonsteknikkstrinnet , for alle som ble intervjuet, konverterte Blumenstock anropsrekordene til et sett av egenskaper for hver person; Dataforskere kan kalle disse egenskapene "egenskaper" og samfunnsvitenskapsmenn ville kalle dem "variabler". For eksempel beregner Blumenstock totalt antall dager med aktivitet, antall forskjellige personer en person har vært i kontakt med, den mengde penger brukt på lufttid, og så videre. Kritisk krever god funksjonsteknologi kunnskap om forskningsinnstillingen. For eksempel, hvis det er viktig å skille mellom innenlandske og utenlandske samtaler (vi kan forvente at folk som ringer internasjonalt for å være rikere), må dette gjøres ved funksjonsteknikkstrinnet. En forsker med liten forståelse av Rwanda kan ikke inkludere denne funksjonen, og da vil prediktiv ytelse av modellen lide.
Deretter bygget Blumenstock i en veiledet læringstrinn en modell for å forutsi undersøkelsesresponsen for hver person basert på deres egenskaper. I dette tilfellet brukte Blumenstock logistisk regresjon, men han kunne ha brukt en rekke andre statistiske eller maskininnlæringsmetoder.
Så hvor bra fungerte det? Var Blumenstock i stand til å forutsi svar på spørreundersøkelser som "Har du en radio?" Og "Eier du en sykkel?" Ved hjelp av funksjoner som er avledet fra samtaleoppføringer? For å evaluere ytelsen til sin prediktive modell brukte Blumenstock kryssvalidering , en teknikk som ofte brukes i datavitenskap, men sjelden i samfunnsvitenskap. Målet med kryssvalidering er å gi en rettferdig vurdering av modellens prediktive ytelse ved å trene den og teste den på ulike delsett av data. Spesielt delte Blumenstock sine data inn i 10 biter på 100 personer hver. Deretter brukte han ni av biter til å trene sin modell, og den prediktive ytelsen til den trente modellen ble evaluert på den resterende bunken. Han gjentok denne prosedyren 10 ganger - hver bit av data får en sving som valideringsdata - og gjennomsnittet resultatene.
Nøyaktigheten av spådommene var høy for noen egenskaper (figur 3.14); for eksempel kan Blumenstock forutsi med 97,6% nøyaktighet hvis noen eide en radio. Dette kan hende imponerende, men det er alltid viktig å sammenligne en kompleks prediksjonsmetode mot et enkelt alternativ. I dette tilfellet er et enkelt alternativ å forutse at alle vil gi det mest vanlige svaret. For eksempel rapporterte 97,3% av respondentene å ha en radio, så hvis Blumenstock hadde spådd at alle ville rapportere å eie en radio, ville han ha en nøyaktighet på 97,3%, noe som overraskende ligner på ytelsen til hans mer komplekse prosedyre (97,6% nøyaktighet) . Med andre ord økte alle fancy data og modellering nøyaktigheten av prediksjonen fra 97,3% til 97,6%. Men for andre spørsmål, for eksempel "Eier du en sykkel?", Forbedret prognosene fra 54,4% til 67,6%. Mer generelt viser figur 3.15 at for noen trekk ikke Blumenstock forbedret seg langt utover bare å lage den enkle baseline prediksjonen, men for andre egenskaper var det noe forbedring. Ser bare på disse resultatene, men du tror kanskje ikke at denne tilnærmingen er spesielt lovende.
Men bare et år senere, Blumenstock og to kolleger-Gabriel Cadamuro og Robert On - publiserte et papir i Science med vesentlig bedre resultater (Blumenstock, Cadamuro, and On 2015) . Det var to viktigste tekniske årsaker til denne forbedringen: (1) de brukte mer sofistikerte metoder (dvs. en ny tilnærming til funksjonsteknologi og en mer sofistikert modell for å forutsi responser fra funksjoner) og (2) i stedet for å forsøke å avlede svar på individuelle spørreundersøkelser (f.eks. "Har du en radio?"), forsøkte de å utlede en sammensatt rikdomsindeks. Disse tekniske forbedringene betydde at de kunne gjøre en rimelig jobb med å bruke samtaleoppføringer for å forutsi rikdom for folket i deres utvalg.
Forutsi rikdom av mennesker i prøven var imidlertid ikke det endelige målet med forskningen. Husk at det endelige målet var å kombinere noen av de beste funksjonene i utvalgsundersøkelser og -spesifikasjoner for å produsere nøyaktige estimater av fattigdom i utviklingsland med høy oppløsning. For å vurdere deres evne til å nå dette målet, brukte Blumenstock og kollegaer sin modell og deres data til å forutsi rikdom av alle 1,5 millioner mennesker i anropsrekordene. Og de brukte geospatial informasjonen innebygd i anropsrekordene (husk at dataene inneholdt plasseringen av nærmeste celletårn for hvert anrop) for å beregne omtrentlig bostedssted for hver person (figur 3.17). Ved å sette disse to estimatene sammen, produserte Blumenstock og kollegaer et estimat av den geografiske fordeling av abonnentenes rikdom ved ekstremt fin romlig granularitet. For eksempel kunne de anslå gjennomsnittlig formue i hver av Rwandas 2,148 celler (den minste administrative enheten i landet).
Hvor godt var disse estimatene i forhold til det faktiske fattigdomsnivået i disse regionene? Før jeg svarer på det spørsmålet, vil jeg understreke det faktum at det er mange grunner til å være skeptisk. For eksempel var evnen til å gjøre spådommer på det enkelte nivå ganske støyende (figur 3.17). Og kanskje enda viktigere, folk med mobiltelefoner kan være systematisk forskjellig fra folk uten mobiltelefoner. Derfor kan Blumenstock og kolleger lide av dekkene som dekker de 1936 Literary Digest- undersøkelsen som jeg tidligere beskrev.
For å få en følelse av kvaliteten på sine estimater, behøvde Blumenstock og kolleger å sammenligne dem med noe annet. Heldigvis, rundt samme tid som studiet, dro en annen gruppe forskere en mer tradisjonell sosial undersøkelse i Rwanda. Denne andre undersøkelsen - som var en del av det allment respekterte demografiske og helseundersøkelsesprogrammet - hadde et stort budsjett og brukte høye kvalitet, tradisjonelle metoder. Derfor kan estimatene fra Demografisk og Helseundersøkelse rimelig betraktes som gullstandardestimater. Når de to estimatene ble sammenlignet, var de ganske liknende (figur 3.17). Med andre ord, ved å kombinere en liten mengde undersøkelsesdata med anropsrekordene, kunne Blumenstock og kollegaer produsere estimater som var sammenlignbare med de fra standardiserte tilnærminger.
En skeptiker kan se disse resultatene som en skuffelse. En måte å vise dem på er å si at ved hjelp av stor data- og maskinlæring kunne Blumenstock og kollegaer produsere estimater som kunne gjøres mer pålitelig ved allerede eksisterende metoder. Men jeg tror ikke det er den riktige måten å tenke på denne studien av to grunner. For det første var estimatene fra Blumenstock og kolleger omtrent 10 ganger raskere og 50 ganger billigere (når kostnadene måles i form av variable kostnader). Som jeg hevdet tidligere i dette kapittelet, ignorerte forskere at de var i fare. I dette tilfellet betyr for eksempel den dramatiske kostnadsreduksjonen at i stedet for å kjøre på noen få år - som det er standard for demografiske og helsemessige undersøkelser - kan denne undersøkelsen gjennomføres hver måned, noe som vil gi mange fordeler for forskere og politikk maskin. Den andre grunnen til ikke å ta skeptikerens syn er at denne studien gir en grunnleggende oppskrift som kan skreddersys for mange forskjellige forsknings situasjoner. Denne oppskriften har bare to ingredienser og to trinn. Ingrediensene er (1) en stor datakilde som er bred, men tynn (det har mange, men ikke informasjonen du trenger om hver person) og (2) en undersøkelse som er smal, men tykk (dvs. den har bare noen få mennesker, men det har informasjonen du trenger om disse menneskene). Disse ingrediensene kombineres deretter i to trinn. For det første for folk i begge datakilder, bygg en maskinlæringsmodell som bruker den store datakilden til å forutsi spørreskjema. Deretter bruker du denne modellen til å pålegge undersøkelsen svarene til alle i den store datakilden. Dermed, hvis det er noen spørsmål du vil spørre mange mennesker, ser du etter en stor datakilde fra de menneskene som kan være vant til å forutsi svaret deres, selv om du ikke bryr deg om den store datakilden . Det er, Blumenstock og kolleger bryr seg ikke iboende om samtaleopptak; de brydde seg bare om anropsoppføringer fordi de kunne brukes til å forutsi spørreundersøkelser som de brydde seg om. Denne karakteristiske, bare indirekte interessen i den store datakilden, gjør forsterket spør forskjellig fra innebygd spør, som jeg tidligere beskrev.
Til slutt kombinerte Blumenstocks forsterkede spørsmålsstrategi undersøkelsesdata med en stor datakilde for å produsere estimater som er sammenlignbare med dem fra en gullstandardundersøkelse. Dette spesielle eksempelet forklarer også noen av avvikene mellom forsterkede spør og tradisjonelle undersøkelsesmetoder. De forsterkede spørsestimatene var mer rettidige, vesentlig billigere og mer granulære. Men på den annen side er det ennå ikke et sterkt teoretisk grunnlag for denne typen forsterkede spør. Dette enkle eksempelet viser ikke når denne tilnærmingen vil fungere, og når det ikke vil, og forskere som bruker denne tilnærmingen, må være spesielt opptatt av mulige forstyrrelser forårsaket av hvem som er inkludert - og som ikke er inkludert i deres store datakilde. Videre har den forsterkede spørsmålet ikke ennå gode måter å kvantifisere usikkerhet rundt sine estimater. Heldigvis har forsterket spørre dype forbindelser til tre store områder i statistikk-litenarealestimering (Rao and Molina 2015) , imputation (Rubin 2004) og modellbasert etterlagring (som i seg selv er nært knyttet til Mr. P., Metoden jeg beskrev tidligere i kapitlet) (Little 1993) . På grunn av disse dype forbindelsene forventer jeg at mange av metodologiske grunnlag for forsterket spør snart vil bli forbedret.
Til slutt illustrerer Blumenstocks første og andre forsøk også en viktig leksjon om samfunnsforskning med digital tidsalder: Begynnelsen er ikke slutten. Det er mange ganger, den første tilnærmingen vil ikke være best, men hvis forskerne fortsetter å jobbe, kan det bli bedre. Mer generelt, når man vurderer nye tilnærminger til sosial forskning i den digitale tidsalderen, er det viktig å lage to forskjellige vurderinger: (1) Hvor bra fungerer dette nå? og (2) Hvor godt vil dette fungere i fremtiden etter hvert som data landskapet endrer seg og som forskere legger større vekt på problemet? Selv om forskere er opplært til å gjøre den første typen evaluering, er den andre ofte viktigere.