No verão de 2009, telefones celulares estavam tocando em todo o Ruanda. Além dos milhões de ligações de familiares, amigos e colegas de trabalho, cerca de mil ruandeses receberam uma ligação de Joshua Blumenstock e seus colegas. Esses pesquisadores estavam estudando riqueza e pobreza, realizando uma pesquisa com uma amostra aleatória de pessoas de um banco de dados de 1,5 milhão de clientes da maior operadora de telefonia móvel de Ruanda. Blumenstock e seus colegas perguntaram às pessoas selecionadas aleatoriamente se queriam participar de uma pesquisa, explicaram a natureza da pesquisa para elas, e então fizeram uma série de perguntas sobre suas características demográficas, sociais e econômicas.
Tudo o que eu disse até agora faz soar como uma pesquisa tradicional de ciências sociais. Mas o que vem a seguir não é tradicional - pelo menos não ainda. Além dos dados da pesquisa, Blumenstock e seus colegas também tiveram os registros completos de chamadas para todos os 1,5 milhão de pessoas. Combinando essas duas fontes de dados, eles usaram os dados da pesquisa para treinar um modelo de aprendizado de máquina para prever a riqueza de uma pessoa com base em seus registros de chamadas. Em seguida, eles usaram esse modelo para estimar a riqueza de todos os 1,5 milhão de clientes no banco de dados. Eles também estimaram os locais de residência de todos os 1,5 milhão de clientes usando as informações geográficas incorporadas nos registros de chamadas. Juntando tudo isso - a riqueza estimada e o local estimado de residência - eles conseguiram produzir mapas de alta resolução da distribuição geográfica da riqueza em Ruanda. Em particular, eles poderiam produzir uma riqueza estimada para cada uma das 2.148 celas de Ruanda, a menor unidade administrativa do país.
Infelizmente, era impossível validar a precisão dessas estimativas, porque ninguém jamais produziu estimativas para essas áreas geográficas pequenas em Ruanda. Mas quando Blumenstock e seus colegas agregaram suas estimativas aos 30 distritos de Ruanda, eles descobriram que suas estimativas eram muito semelhantes às estimativas da Pesquisa Demográfica e de Saúde, que é amplamente considerada o padrão-ouro das pesquisas nos países em desenvolvimento. Embora essas duas abordagens tenham produzido estimativas semelhantes neste caso, a abordagem de Blumenstock e colegas foi cerca de 10 vezes mais rápida e 50 vezes mais barata que as pesquisas demográficas e de saúde tradicionais. Essas estimativas de custo dramaticamente mais rápidas e mais baixas criam novas possibilidades para pesquisadores, governos e empresas (Blumenstock, Cadamuro, and On 2015) .
Este estudo é como um teste de mancha de tinta do Rorschach: o que as pessoas vêem depende do seu background. Muitos cientistas sociais veem uma nova ferramenta de medição que pode ser usada para testar teorias sobre o desenvolvimento econômico. Muitos cientistas de dados veem um novo problema de aprendizado de máquina. Muitos executivos veem uma abordagem poderosa para liberar valor nos grandes dados que já coletaram. Muitos defensores da privacidade veem um lembrete assustador de que vivemos em um momento de vigilância em massa. E, finalmente, muitos formuladores de políticas veem uma maneira de a nova tecnologia ajudar a criar um mundo melhor. De fato, este estudo é tudo isso e, por ter esse conjunto de características, vejo-o como uma janela para o futuro da pesquisa social.