Amplificado preguntando usando un modelo predictivo para combinar datos de enquisas de algunhas persoas cunha gran fonte de datos de moitas persoas.
Unha forma diferente de combinar a enquisa e as grandes fontes de datos é un proceso que eu chamaré amplificado preguntándolle . En pregunta amplificada, un investigador usa un modelo predictivo para combinar unha pequena cantidade de datos de enquisa cunha gran fonte de datos para producir estimacións a escala ou granularidade que non serían posibles con ningunha fonte de datos individualmente. Un exemplo importante de solicitude amplificada procede do traballo de Joshua Blumenstock, que quería recoller datos que puidesen axudar a orientar o desenvolvemento nos países pobres. No pasado, os investigadores que recollían este tipo de datos xeralmente debían tomar un dos dous enfoques: mostra de enquisas ou censos. Enquisas de mostra, onde os investigadores entrevisten un pequeno número de persoas, poden ser flexibles, oportunas e relativamente baratas. Non obstante, estas enquisas, porque están baseadas nunha mostra, son a miúdo limitadas na súa resolución. Cunha mostraxe, moitas veces é difícil realizar estimacións sobre rexións xeográficas específicas ou sobre grupos demográficos específicos. Os censos, por outra banda, tratan de entrevistar a todos, polo que poden utilizarse para producir estimacións para pequenas rexións xeográficas ou grupos demográficos. Pero os censos son xeralmente caros e estreitos en foco (só inclúen un pequeno número de preguntas) e non puntual (pasan nun horario fixo, como cada 10 anos) (Kish 1979) . En vez de quedar atrapado con enquisas ou censos de mostra, imaxine se os investigadores poden combinar as mellores características de ambos. Imaxina se os investigadores poderían facer cada pregunta a cada persoa todos os días. Obviamente, esta enquisa omnipresente sempre é unha especie de fantasía de ciencias sociais. Pero parece que podemos comezar a aproximar isto combinando preguntas de enquisas dun pequeno número de persoas con rastros dixitais de moitas persoas.
A investigación de Blumenstock comezou cando se asociou co maior proveedor de telefonía móbil en Rwanda e a compañía proporcionou rexistros de transaccións anónimos de preto de 1,5 millóns de clientes entre 2005 e 2009. Estes rexistros contiñan información sobre cada chamada e mensaxe de texto, como a hora de inicio, a duración , e localización xeográfica aproximada do chamador e receptor. Antes de falar sobre as cuestións estatísticas, vale resaltar que este primeiro paso pode ser un dos máis difíciles para moitos investigadores. Como describín no capítulo 2, a maioría das grandes fontes de datos son inaccesibles para os investigadores. Os metadatos telefónicos, en particular, son especialmente inaccesibles porque basicamente é imposíbel anonimizar e case certamente contén información que os participantes considerarían sensibles (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Neste caso particular, os investigadores tiveron coidado de protexer os datos eo seu traballo foi supervisado por un terceiro (ou sexa, o seu IRB). Vou volver a estas cuestións éticas con máis detalle no capítulo 6.
Blumenstock estaba interesado en medir a riqueza eo benestar. Pero estes trazos non están directamente nos rexistros de chamadas. Noutras palabras, estes rexistros de chamadas son incompletos para esta investigación: unha característica común das grandes fontes de datos que se discutiu en detalle no capítulo 2. Sen embargo, parece probable que os rexistros de chamadas poidan ter información que indirectamente podería proporcionar información sobre a riqueza e benestar. Dada esta posibilidade, Blumenstock preguntou se era posible adestrar un modelo de aprendizaxe automática para predicir como alguén responderá a unha enquisa en función dos seus rexistros de chamadas. Se isto fose posible, Blumenstock podería empregar este modelo para predecir as respostas da encuesta de todos os 1,5 millóns de clientes.
Para construír e adestrar un modelo deste tipo, Blumenstock e asistentes de investigación do Instituto de Ciencia e Tecnoloxía de Kigali convocaron unha mostra aleatoria de preto de mil clientes. Os investigadores explicaron os obxectivos do proxecto aos participantes, solicitaron o seu consentimento para vincular as respostas da enquisa aos rexistros de chamadas e, a continuación, preguntáronlles unha serie de preguntas para medir a súa riqueza e benestar, como "posúe un radio? "e" ¿Tes unha bicicleta? "(vexa a figura 3.14 para unha lista parcial). Todos os participantes na enquisa compensáronse financeiramente.
A continuación, Blumenstock utilizou un procedemento de dous pasos común na aprendizaxe automática: enxeñaría de recursos seguidos de aprendizaxe supervisada. En primeiro lugar, no paso da enxeñería de recursos , para todos os entrevistados, Blumenstock converteu os rexistros de chamadas nun conxunto de características sobre cada persoa; Os científicos de datos poderían chamar a estas características "características" e os científicos sociais chamarían "variables". Por exemplo, para cada persoa, Blumenstock calculou o número total de días de actividade, o número de persoas distintas ás que unha persoa estivo en contacto; cantidade de diñeiro gastado en tempo de espera, etc. Enxeñaría crítico, boa característica esixe coñecemento da configuración da investigación. Por exemplo, se é importante distinguir entre as chamadas internas e internacionais (é posible que as persoas que chaman internacionalmente sexan máis ricas), isto debe facerse no paso da enxeñaría de recursos. Un investigador con pouca comprensión de Rwanda pode non incluír esta característica, e entón o desempeño predictivo do modelo sufrirá.
A continuación, no paso de aprendizaxe supervisado , Blumenstock construíu un modelo para predicir a resposta da enquisa a cada persoa en función das súas características. Neste caso, Blumenstock usou a regresión logística, pero podería usar unha variedade de outros enfoques estatísticos ou de aprendizaxe automática.
Entón, como funcionou ben? Foi Blumenstock capaz de predecir respostas a preguntas de enquisas como "posúe unha radio?" E "posúe unha bicicleta?" Usando funcións derivadas de rexistros de chamadas? Para evaluar o desempeño do seu modelo preditivo, Blumenstock utilizou a validación cruzada , unha técnica comúnmente usada nas ciencias da información pero raramente nas ciencias sociais. O obxectivo da validación cruzada é proporcionar unha avaliación xusta do desempeño predictivo dun modelo mediante a formación e probalo en diferentes subconxuntos de datos. En particular, Blumenstock dividiu os seus datos en 10 anacos de 100 persoas cada un. Entón, usou nove dos anacos para adestrar o seu modelo, e o desempeño predictivo do modelo adestrado foi avaliado na parte restante. Repetiu este procedemento 10 veces -con cada anaco de datos obtendo un xiro como datos de validación- e promediou os resultados.
A precisión das predicións foi elevada por algúns trazos (figura 3.14); por exemplo, Blumenstock podería predecir con 97.6% de precisión se alguén posuía unha radio. Isto pode parecer impresionante, pero sempre é importante comparar un método de predición complexo contra unha alternativa sinxela. Neste caso, unha alternativa sinxela é predicir que todos darán a resposta máis común. Por exemplo, o 97,3% dos entrevistados informou de posuír unha radio, polo que se Blumenstock predijo que todo o mundo informaría que posuía unha radio, tería unha precisión do 97,3%, que sorprendentemente era similar ao rendemento do seu procedemento máis complexo (97,6% de precisión) . Noutras palabras, todos os datos de fantasía e modelado aumentaron a precisión da predicción do 97,3% ao 97,6%. Non obstante, para outras preguntas, como "¿Tes unha bicicleta?", As previsións melloraron do 54,4% ao 67,6%. En xeral, a figura 3.15 mostra que, para algúns trazos, Blumenstock non mellorou moito máis aló de simplemente facer a predición de base simple, pero que por outros trazos produciuse algunha mellora. Se buscas só estes resultados, non podes pensar que este enfoque sexa particularmente prometedor.
Non obstante, só un ano despois, Blumenstock e dous colegas-Gabriel Cadamuro e Robert On-publicaron un traballo en Science con resultados substancialmente mellores (Blumenstock, Cadamuro, and On 2015) . Houbo dúas razóns técnicas principais para esta mellora: (1) utilizaron métodos máis sofisticados (é dicir, un novo enfoque para a enxeñaría de recursos e un modelo máis sofisticado para predicir respostas de características) e (2) en lugar de intentar inferir respostas individuais Preguntas de enquisas (por exemplo, "Tes unha radio?"), intentaron deducir un índice de riqueza composto. Estas melloras técnicas significaron que poderían facer un traballo razoable de usar rexistros de chamadas para predecir riqueza para as persoas da súa mostra.
Predicir a riqueza da xente na mostra, porén, non era o obxectivo final da investigación. Lembre que o obxectivo final era combinar algunhas das mellores características das enquisas e censos de mostra para producir estimacións precisas e de alta resolución da pobreza nos países en desenvolvemento. Para avaliar a súa capacidade para acadar este obxectivo, Blumenstock e compañeiros usaron o seu modelo e os seus datos para predecir a riqueza de todos os 1,5 millóns de persoas nos rexistros de chamadas. E usaron a información xeoespacial incrustada nos rexistros de chamadas (recordemos que os datos incluían a localización da torre celular máis próxima para cada chamada) para estimar o lugar aproximado de residencia de cada persoa (figura 3.17). Xuntando estas dúas estimacións, Blumenstock e os seus colegas elaboraron unha estimación da distribución xeográfica da riqueza dos abonados a granularidade espacial extremadamente fina. Por exemplo, poderían estimar a riqueza media en cada unha das 2.148 células de Ruanda (a pequena unidade administrativa do país).
¿Como estas estimacións coinciden co nivel actual de pobreza nestas rexións? Antes de responder a esta pregunta, quero salientar o feito de que hai moitos motivos para ser escépticos. Por exemplo, a capacidade de facer predicións a nivel individual foi bastante ruidoso (figura 3.17). E, quizais máis importante, as persoas con teléfonos móbiles poden ser sistemáticamente diferentes das persoas sen teléfonos móbiles. Así, Blumenstock e colegas poderían sufrir os tipos de erros de cobertura que inclinaban a enquisa de 1936 Literary Digest que describín anteriormente.
Para obter unha sensación da calidade das súas estimacións, Blumenstock e os seus colegas precisaban comparalos con outra cousa. Afortunadamente, ao mesmo tempo que o seu estudo, outro grupo de investigadores realizou unha enquisa social máis tradicional en Ruanda. Esta outra encuesta, que formaba parte do programa de Estudos Demográficos e de Saúde ampliamente respectado, tiña un gran orzamento e utilizaba métodos tradicionais de alta calidade. Polo tanto, as estimacións da Encuesta Demográfica e de Saúde poderían considerarse razonablemente como estimacións estándar de ouro. Cando se compararon as dúas estimacións, foron bastante similares (figura 3.17). Noutras palabras, ao combinar unha pequena cantidade de datos de enquisa cos rexistros de chamadas, Blumenstock e os seus colegas puideron producir estimacións comparables ás de enfoques estándar de ouro.
Un escéptico podería ver estes resultados como unha desilusión. Despois de todo, unha forma de visualizalos é dicir que ao usar grandes datos e aprendizaxe automática, Blumenstock e os seus colegas puideron producir estimacións que poderían ser feitas de forma máis fiable mediante métodos xa existentes. Pero non creo que sexa o camiño correcto para pensar neste estudo por dous motivos. En primeiro lugar, as estimacións de Blumenstock e colegas foron aproximadamente 10 veces máis rápidas e 50 veces máis baratas (cando o custo se mide en termos de custos variables). Como dixen anteriormente neste capítulo, os investigadores ignoran os custos ao seu perigo. Neste caso, por exemplo, a dramática diminución do custo significa que en vez de executarse cada poucos anos -como é estándar para enquisas demográficas e de saúde- este tipo de enquisas poderíanse realizar cada mes, o que proporcionaría numerosas vantaxes para os investigadores e as políticas fabricantes. A segunda razón para non ter a opinión do escéptico é que este estudo proporciona unha receita básica que pode ser adaptada a moitas situacións de investigación diferentes. Esta receita ten só dous ingredientes e dous pasos. Os ingredientes son (1) unha fonte de datos grande que é ancha pero delgada (é dicir, ten moitas persoas pero non a información que necesita sobre cada persoa) e (2) unha enquisa que é estreita pero espesa (é dicir, só ten algunhas persoas, pero ten a información que precisa sobre esas persoas). Estes ingredientes son entón combinados en dous pasos. En primeiro lugar, para as persoas en ambas fontes de datos, edite un modelo de aprendizaxe automático que use a gran fonte de datos para predicir as respostas da enquisa. A continuación, use ese modelo para imputar as respostas de enquisas de todos na gran fonte de datos. Deste xeito, se hai algunha pregunta que quere pedir a moitas persoas, busque unha fonte de datos grande das persoas que se poidan empregar para predecir a súa resposta, mesmo se non se preocupa pola gran fonte de datos . É dicir, Blumenstock e os seus colegas non se importaron por si mesmos dos rexistros de chamadas; só se preocupaban dos rexistros de chamadas porque podían usarse para predicir respostas de enquisas que lles preocupaban. Este interese indirecta exclusivamente característico na gran fonte de datos fai amplificado preguntando diferente do que se describiu anteriormente.
En conclusión, o enfoque ampliado de Blumenstock combinou os datos da enquisa cunha gran fonte de datos para producir estimacións comparables ás dun estudo estándar de ouro. Este exemplo particular tamén aclara algunhas das compensacións entre os métodos de investigación amplificados e os métodos de enquisa tradicionais. As estimacións feitas amplificadas foron máis oportunas, substancialmente máis baratas e máis granulares. Pero, por outra banda, aínda non hai unha forte base teórica para este tipo de preguntas amplificadas. Este único exemplo non se mostra cando este enfoque funcionará e cando non o faga, e os investigadores que utilizan este enfoque deben estar especialmente preocupados polos posibles prexuízos causados por quen está incluído e que non está incluído na súa gran fonte de datos. Ademais, o enfoque de pregunta amplificado aínda non ten bos xeitos de cuantificar a incerteza en torno ás súas estimacións. Afortunadamente, as solicitudes amplificadas teñen conexións profundas a tres grandes áreas de estimación de estatísticas-pequenas áreas (Rao and Molina 2015) , imputación (Rubin 2004) e postratratación baseada no modelo (que está moi relacionada co Sr P., o método que describín anteriormente no capítulo) (Little 1993) . Debido a estas conexións profundas, espero que en breve se melloren moitos dos fundamentos metodolóxicos da solicitude amplificada.
Finalmente, a comparación dos primeiros e segundo intentos de Blumenstock tamén ilustra unha importante lección sobre a investigación social en idade dixital: o comezo non é o fin. É dicir, moitas veces, o primeiro enfoque non será o mellor, pero se os investigadores continúan traballando, as cousas poden mellorar. En xeral, ao avaliar novos enfoques á investigación social na era dixital, é importante facer dúas avaliacións distintas: (1) Que tan ben funciona agora? e (2) Que tan ben funcionará no futuro a medida que a paisaxe dos datos cambie e como os investigadores dediquen máis atención ao problema? Aínda que os investigadores están capacitados para facer o primeiro tipo de avaliación, o segundo é a miúdo máis importante.