I løpet av sommeren 2009 ringte mobiltelefoner over hele Rwanda. I tillegg til de millioner av samtaler fra familie, venner og forretningsforbindelser, mottok omtrent 1000 rwandere en samtale fra Joshua Blumenstock og hans kolleger. Disse forskerne studerte rikdom og fattigdom ved å gjennomføre en undersøkelse av et tilfeldig utvalg av mennesker fra en database med 1,5 millioner kunder fra Rwanda største mobilleverandør. Blumenstock og kollegaer spurte tilfeldig utvalgte personer om de ønsket å delta i en undersøkelse, forklarte arten av forskningen til dem og spurte deretter en rekke spørsmål om deres demografiske, sosiale og økonomiske egenskaper.
Alt jeg har sagt så langt, gjør dette som en tradisjonell samfunnsvitenskapelig undersøkelse. Men det som kommer neste er ikke tradisjonelt - i hvert fall ikke ennå. I tillegg til undersøkelsesdataene hadde Blumenstock og kolleger også fullstendig anropsrekord for alle 1,5 millioner mennesker. Kombinere disse to kildene til data, brukte de undersøkelsesdataene til å trene en maskininnlæringsmodell for å forutsi en persons verdier basert på deres anropsrekord. Deretter brukte de denne modellen til å estimere rikdom av alle 1,5 millioner kunder i databasen. De estimerte også bostedsstedene til alle 1,5 millioner kunder ved hjelp av den geografiske informasjonen som er innebygd i anropsrekordene. Ved å legge alt dette sammen - den anslåtte formuen og det beregnede bostedet - de kunne produsere kart med høy oppløsning på den geografiske fordeling av rikdom i Rwanda. Spesielt kan de produsere en estimert formue for hver av Rwandas 2.148 celler, den minste administrative enheten i landet.
Dessverre var det umulig å validere nøyaktigheten disse estimatene fordi ingen noen gang hadde produsert estimater for slike små geografiske områder i Rwanda. Men da Blumenstock og kolleger samlet sine estimater til Rwandas 30 distrikter, fant de at deres estimater var svært lik estimater fra Demografisk og helseundersøkelse, som allment anses å være gullstandarden for undersøkelser i utviklingsland. Selv om disse to tilnærmingene produserte lignende estimater i dette tilfellet, var tilgangen til Blumenstock og kolleger omtrent 10 ganger raskere og 50 ganger billigere enn de tradisjonelle demografiske og helseundersøkelsene. Disse dramatisk raskere og lavere kostnadsestimatene skaper nye muligheter for forskere, myndigheter og bedrifter (Blumenstock, Cadamuro, and On 2015) .
Denne studien er som en Rorschach inkblot test: hva folk ser, avhenger av bakgrunnen deres. Mange sosialforskere ser et nytt måleverktøy som kan brukes til å teste teorier om økonomisk utvikling. Mange datavitenskapere ser et kult nytt maskinlæringsproblem. Mange forretningsfolk ser en kraftig tilnærming til å låse opp verdien i de store dataene de allerede har samlet. Mange personvernforesatte ser en skummel påminnelse om at vi lever i en tid med massovervåkning. Og til slutt ser mange politiske beslutningstakere en måte at ny teknologi kan bidra til å skape en bedre verden. Faktisk er denne studien alle disse tingene, og fordi den har denne blandingen av egenskaper, ser jeg det som et vindu inn i fremtiden for samfunnsforskning.