Amplificou pedindo usando um modelo preditivo para combinar dados de pesquisa de algumas pessoas com uma grande fonte de dados de muitas pessoas.
Uma maneira diferente de combinar pesquisas e fontes de big data é um processo que eu chamarei de amplified ask . Na pergunta amplificada, um pesquisador usa um modelo preditivo para combinar uma pequena quantidade de dados de pesquisa com uma grande fonte de dados, a fim de produzir estimativas em uma escala ou granularidade que não seriam possíveis com qualquer fonte de dados individualmente. Um exemplo importante de perguntas amplificadas vem do trabalho de Joshua Blumenstock, que queria coletar dados que pudessem ajudar a orientar o desenvolvimento nos países pobres. No passado, os pesquisadores que coletavam esse tipo de dados geralmente tinham que seguir uma de duas abordagens: pesquisas por amostragem ou censos. Pesquisas por amostragem, em que os pesquisadores entrevistam um pequeno número de pessoas, podem ser flexíveis, oportunas e relativamente baratas. No entanto, essas pesquisas, porque são baseadas em uma amostra, são geralmente limitadas em sua resolução. Com uma pesquisa por amostragem, muitas vezes é difícil fazer estimativas sobre regiões geográficas específicas ou para grupos demográficos específicos. Os censos, por outro lado, tentam entrevistar todos e, assim, podem ser usados para produzir estimativas para pequenas regiões geográficas ou grupos demográficos. Mas os censos geralmente são caros, estreitos de foco (eles incluem apenas um pequeno número de perguntas) e não são oportunos (eles acontecem em um horário fixo, como a cada 10 anos) (Kish 1979) . Em vez de ficar preso a pesquisas por amostragem ou censos, imagine se os pesquisadores pudessem combinar as melhores características de ambos. Imagine se os pesquisadores pudessem fazer perguntas a todas as pessoas todos os dias. Obviamente, essa pesquisa onipresente e sempre ativa é uma espécie de fantasia das ciências sociais. Mas parece que podemos começar a aproximar isso combinando perguntas de pesquisa de um pequeno número de pessoas com traços digitais de muitas pessoas.
A pesquisa da Blumenstock começou quando ele fez parceria com a maior operadora de telefonia móvel em Ruanda, e a empresa forneceu registros anônimos de transações de cerca de 1,5 milhão de clientes entre 2005 e 2009. Esses registros continham informações sobre cada chamada e mensagem de texto, como a hora de início, duração e localização geográfica aproximada do chamador e receptor. Antes de falar sobre as questões estatísticas, vale ressaltar que este primeiro passo pode ser um dos mais difíceis para muitos pesquisadores. Como descrevi no capítulo 2, a maioria das fontes de big data é inacessível aos pesquisadores. Os metadados telefônicos, em particular, são especialmente inacessíveis porque é basicamente impossível se anonimizar e quase com certeza contém informações que os participantes considerariam sensíveis (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Neste caso em particular, os pesquisadores tiveram o cuidado de proteger os dados e seu trabalho foi supervisionado por terceiros (ou seja, seu IRB). Voltarei a essas questões éticas com mais detalhes no capítulo 6.
Blumenstock estava interessado em medir a riqueza e o bem-estar. Mas essas características não estão diretamente nos registros de chamadas. Em outras palavras, esses registros de chamadas são incompletos para esta pesquisa - uma característica comum de fontes de big data que foi discutida em detalhes no capítulo 2. No entanto, parece provável que os registros de chamadas provavelmente tenham alguma informação que possa indiretamente fornecer informações sobre riqueza e bem-estar. Dada essa possibilidade, a Blumenstock perguntou se era possível treinar um modelo de aprendizado de máquina para prever como alguém responderia a uma pesquisa com base em seus registros de chamadas. Se isso fosse possível, a Blumenstock poderia usar esse modelo para prever as respostas da pesquisa de todos os 1,5 milhão de clientes.
Para construir e treinar esse modelo, a Blumenstock e os assistentes de pesquisa do Instituto Kigali de Ciência e Tecnologia chamaram uma amostra aleatória de cerca de mil clientes. Os pesquisadores explicaram os objetivos do projeto aos participantes, solicitaram seu consentimento para vincular as respostas da pesquisa aos registros de chamadas e, em seguida, fizeram-lhes uma série de perguntas para medir sua riqueza e bem-estar, como “Você possui um rádio? ”e“ Você possui uma bicicleta? ”(veja a figura 3.14 para uma lista parcial). Todos os participantes da pesquisa foram compensados financeiramente.
Em seguida, a Blumenstock usou um procedimento em duas etapas, comum em aprendizado de máquina: engenharia de recursos seguida de aprendizado supervisionado. Primeiro, na etapa de engenharia de recursos , para todos que foram entrevistados, a Blumenstock converteu os registros de chamadas em um conjunto de características sobre cada pessoa; os cientistas de dados poderiam chamar essas características de “recursos” e os cientistas sociais os chamariam de “variáveis”. Por exemplo, para cada pessoa, Blumenstock calculou o número total de dias com atividade, o número de pessoas distintas com quem a pessoa entrou em contato, quantidade de dinheiro gasto em tempo de transmissão e assim por diante. Criticamente, uma boa engenharia de recursos requer conhecimento do cenário de pesquisa. Por exemplo, se é importante distinguir entre chamadas domésticas e internacionais (podemos esperar que as pessoas que chamam internacionalmente sejam mais ricas), isso deve ser feito na etapa de engenharia de recursos. Um pesquisador com pouca compreensão sobre Ruanda pode não incluir esse recurso, e então o desempenho preditivo do modelo seria prejudicado.
Em seguida, na etapa de aprendizado supervisionado , a Blumenstock criou um modelo para prever a resposta da pesquisa para cada pessoa com base em seus recursos. Nesse caso, Blumenstock usou a regressão logística, mas ele poderia ter usado uma variedade de outras abordagens estatísticas ou de aprendizado de máquina.
Então, como isso funcionou? Blumenstock foi capaz de prever respostas para perguntas como “Você possui um rádio?” E “Você possui uma bicicleta?” Usando recursos derivados de registros de chamadas? A fim de avaliar o desempenho de seu modelo preditivo, Blumenstock usou a validação cruzada , uma técnica comumente usada na ciência de dados, mas raramente na ciência social. O objetivo da validação cruzada é fornecer uma avaliação justa do desempenho preditivo de um modelo treinando-o e testando-o em diferentes subconjuntos de dados. Em particular, a Blumenstock dividiu seus dados em 10 partes de 100 pessoas cada. Então, ele usou nove dos pedaços para treinar seu modelo, e o desempenho preditivo do modelo treinado foi avaliado no pedaço restante. Ele repetiu esse procedimento 10 vezes - com cada pedaço de dados obtendo um turno como dados de validação - e calculou a média dos resultados.
A precisão das previsões foi alta para algumas características (figura 3.14); por exemplo, a Blumenstock poderia prever com 97,6% de precisão se alguém possuísse um rádio. Isso pode parecer impressionante, mas é sempre importante comparar um método de previsão complexo com uma alternativa simples. Nesse caso, uma alternativa simples é prever que todos darão a resposta mais comum. Por exemplo, 97,3% dos entrevistados relataram possuir um rádio, então se Blumenstock tivesse previsto que todos relatariam possuir um rádio, ele teria uma precisão de 97,3%, o que é surpreendentemente semelhante ao desempenho de seu procedimento mais complexo (97,6% de precisão) . Em outras palavras, todos os dados e modelos sofisticados aumentaram a precisão da previsão de 97,3% para 97,6%. No entanto, para outras questões, como "Você possui uma bicicleta?", As previsões melhoraram de 54,4% para 67,6%. Mais geralmente, a figura 3.15 mostra que, para algumas características, a Blumenstock não melhorou muito além de apenas fazer a previsão básica simples, mas para outras características houve alguma melhoria. Olhando apenas para esses resultados, no entanto, você pode não achar que essa abordagem seja particularmente promissora.
No entanto, apenas um ano depois, Blumenstock e dois colegas - Gabriel Cadamuro e Robert On - publicaram um artigo na Science com resultados substancialmente melhores (Blumenstock, Cadamuro, and On 2015) . Havia duas razões técnicas principais para essa melhoria: (1) eles usavam métodos mais sofisticados (isto é, uma nova abordagem para engenharia de recursos e um modelo mais sofisticado para prever respostas de recursos) e (2) em vez de tentar inferir respostas a indivíduos questões de pesquisa (por exemplo, "Você possui um rádio?"), eles tentaram inferir um índice de riqueza composto. Essas melhorias técnicas significaram que eles poderiam fazer um trabalho razoável usando registros de chamadas para prever riqueza para as pessoas em sua amostra.
Prever a riqueza de pessoas na amostra, no entanto, não era o objetivo final da pesquisa. Lembre-se de que o objetivo final era combinar algumas das melhores características dos levantamentos de amostras e censos para produzir estimativas precisas e de alta resolução da pobreza nos países em desenvolvimento. Para avaliar sua capacidade de atingir esse objetivo, Blumenstock e colegas usaram seu modelo e seus dados para prever a riqueza de todos os 1,5 milhão de pessoas nos registros de chamadas. E usaram as informações geoespaciais incorporadas nos registros de chamadas (lembre-se de que os dados incluíam a localização da torre de celular mais próxima para cada chamada) para estimar o local aproximado de residência de cada pessoa (figura 3.17). Juntando essas duas estimativas, Blumenstock e colegas produziram uma estimativa da distribuição geográfica da riqueza de assinantes com granularidade espacial extremamente fina. Por exemplo, eles poderiam estimar a riqueza média em cada uma das 2.148 celas de Ruanda (a menor unidade administrativa do país).
Até que ponto essas estimativas correspondem ao nível real de pobreza nessas regiões? Antes de responder a essa pergunta, quero enfatizar o fato de que há muitos motivos para ser cético. Por exemplo, a capacidade de fazer previsões no nível individual era bastante barulhenta (figura 3.17). E, talvez mais importante, as pessoas com telefones celulares podem ser sistematicamente diferentes das pessoas sem telefones celulares. Assim, Blumenstock e seus colegas podem sofrer com os tipos de erros de cobertura que influenciaram a pesquisa da Literary Digest, de 1936, que descrevi anteriormente.
Para ter uma noção da qualidade de suas estimativas, Blumenstock e seus colegas precisaram compará-las com outra coisa. Felizmente, mais ou menos ao mesmo tempo que seu estudo, outro grupo de pesquisadores estava realizando uma pesquisa social mais tradicional em Ruanda. Esta outra pesquisa - que fazia parte do amplamente respeitado programa de Pesquisa Demográfica e de Saúde - tinha um grande orçamento e usava métodos tradicionais de alta qualidade. Portanto, as estimativas da Pesquisa de Demografia e Saúde poderiam ser razoavelmente consideradas estimativas padrão-ouro. Quando as duas estimativas foram comparadas, elas foram bastante semelhantes (figura 3.17). Em outras palavras, combinando uma pequena quantidade de dados de pesquisa com os registros de chamadas, a Blumenstock e seus colegas conseguiram produzir estimativas comparáveis às das abordagens padrão-ouro.
Um cético pode ver esses resultados como uma decepção. Afinal, uma maneira de visualizá-los é dizer que, usando big data e aprendizado de máquina, Blumenstock e seus colegas conseguiram produzir estimativas que poderiam ser feitas de maneira mais confiável pelos métodos já existentes. Mas eu não acho que seja o caminho certo para pensar sobre este estudo por duas razões. Primeiro, as estimativas da Blumenstock e dos colegas foram cerca de 10 vezes mais rápidas e 50 vezes mais baratas (quando o custo é medido em termos de custos variáveis). Como argumentei anteriormente neste capítulo, os pesquisadores ignoram o custo por sua conta e risco. Nesse caso, por exemplo, a redução dramática no custo significa que, em vez de ser administrado a cada poucos anos - como é padrão para Pesquisas Demográficas e de Saúde - esse tipo de pesquisa poderia ser realizado mensalmente, o que traria inúmeras vantagens para pesquisadores e autoridades. fabricantes. A segunda razão para não tomar a visão do cético é que este estudo fornece uma receita básica que pode ser adaptada para muitas situações de pesquisa diferentes. Esta receita tem apenas dois ingredientes e duas etapas. Os ingredientes são (1) uma grande fonte de dados que é ampla mas fina (ou seja, tem muitas pessoas, mas não a informação que você precisa sobre cada pessoa) e (2) uma pesquisa estreita mas espessa (ou seja, algumas pessoas, mas tem a informação que você precisa sobre essas pessoas). Estes ingredientes são então combinados em duas etapas. Primeiro, para as pessoas em ambas as fontes de dados, crie um modelo de aprendizado de máquina que use a grande fonte de dados para prever as respostas da pesquisa. Em seguida, use esse modelo para imputar as respostas de pesquisa de todos na grande fonte de dados. Assim, se houver alguma pergunta que você queira fazer a muitas pessoas, procure uma grande fonte de dados dessas pessoas que possa ser usada para prever sua resposta, mesmo que você não se importe com a grande fonte de dados . Ou seja, Blumenstock e seus colegas não se importavam com os registros de chamadas; eles só se importavam com os registros de chamadas porque podiam ser usados para prever respostas de pesquisas com as quais eles se importavam. Essa característica - apenas interesse indireto na grande fonte de dados - torna o pedido amplificado diferente do pedido embutido, que descrevi anteriormente.
Em conclusão, a abordagem de perguntas amplificadas da Blumenstock combinou dados de pesquisas com uma grande fonte de dados para produzir estimativas comparáveis às de uma pesquisa padrão-ouro. Esse exemplo específico também esclarece alguns dos trade-offs entre os métodos de pesquisa amplificada e tradicional. As estimativas amplificadas foram mais oportunas, substancialmente mais baratas e mais granulares. Mas, por outro lado, ainda não há uma base teórica forte para esse tipo de solicitação amplificada. Esse único exemplo não mostra quando essa abordagem funcionará e quando não funcionará, e os pesquisadores que usam essa abordagem precisam estar especialmente preocupados com possíveis vieses causados por quem está incluído - e quem não está incluído - em sua grande fonte de dados. Além disso, a abordagem de solicitação amplificada ainda não apresenta boas maneiras de quantificar a incerteza em torno de suas estimativas. Felizmente, o pedido amplificado tem conexões profundas com três grandes áreas da estatística - estimativa de pequena área (Rao and Molina 2015) , imputação (Rubin 2004) e pós-estratificação baseada em modelo (que em si está intimamente relacionada ao sr. o método que descrevi anteriormente no capítulo) (Little 1993) . Por causa dessas conexões profundas, espero que muitos dos fundamentos metodológicos da amplificação de pedidos em breve serão melhorados.
Finalmente, comparar as primeiras e segundas tentativas de Blumenstock também ilustra uma lição importante sobre pesquisa social da era digital: o começo não é o fim. Isto é, muitas vezes, a primeira abordagem não será a melhor, mas se os pesquisadores continuarem trabalhando, as coisas podem melhorar. De maneira mais geral, ao avaliar novas abordagens de pesquisa social na era digital, é importante fazer duas avaliações distintas: (1) Como isso funciona bem agora? e (2) Quão bem isso funcionará no futuro à medida que o cenário de dados muda e os pesquisadores dedicam mais atenção ao problema? Embora os pesquisadores sejam treinados para fazer o primeiro tipo de avaliação, o segundo é freqüentemente mais importante.