Amplified pregunta utilizando un modelo predictivo para combinar datos de encuestas de algunas personas con una gran fuente de datos de muchas personas.
Una forma diferente de combinar encuestas y fuentes de big data es un proceso al que llamaré solicitudes amplificadas . En las preguntas amplificadas, un investigador utiliza un modelo predictivo para combinar una pequeña cantidad de datos de encuestas con una fuente de datos grandes con el fin de producir estimaciones a una escala o granularidad que no sería posible con ninguna fuente de datos individualmente. Un ejemplo importante de preguntas amplificadas proviene del trabajo de Joshua Blumenstock, que quería recopilar datos que podrían ayudar a orientar el desarrollo en los países pobres. En el pasado, los investigadores que recopilaban este tipo de datos generalmente tenían que adoptar uno de dos enfoques: encuestas por muestreo o censos. Las encuestas de muestra, donde los investigadores entrevistan a un pequeño número de personas, pueden ser flexibles, oportunas y relativamente baratas. Sin embargo, estas encuestas, debido a que se basan en una muestra, a menudo tienen una resolución limitada. Con una encuesta por muestreo, a menudo es difícil hacer estimaciones sobre regiones geográficas específicas o para grupos demográficos específicos. Los censos, por otro lado, intentan entrevistar a todos, por lo que se pueden usar para producir estimaciones para pequeñas regiones geográficas o grupos demográficos. Pero los censos generalmente son caros, de enfoque limitado (solo incluyen un pequeño número de preguntas) y no son oportunos (ocurren en un horario fijo, como cada 10 años) (Kish 1979) . En lugar de estar atascados con encuestas de muestra o censos, imagine si los investigadores podrían combinar las mejores características de ambos. Imagine si los investigadores pudieran hacer todas las preguntas a todas las personas todos los días. Obviamente, esta encuesta omnipresente y siempre activa es una especie de fantasía de las ciencias sociales. Pero parece que podemos comenzar a aproximar esto al combinar preguntas de encuestas de un pequeño número de personas con rastros digitales de muchas personas.
La investigación de Blumenstock comenzó cuando se asoció con el mayor proveedor de telefonía móvil en Ruanda, y la compañía proporcionó registros de transacciones anónimos de aproximadamente 1,5 millones de clientes entre 2005 y 2009. Estos registros contenían información sobre cada llamada y mensaje de texto, como la hora de inicio y la duración , y la ubicación geográfica aproximada de la persona que llama y el receptor. Antes de hablar sobre los problemas estadísticos, vale la pena señalar que este primer paso puede ser uno de los más difíciles para muchos investigadores. Como describí en el capítulo 2, la mayoría de las grandes fuentes de datos son inaccesibles para los investigadores. Los metadatos telefónicos, en particular, son especialmente inaccesibles porque es básicamente imposible anonimizarlos y casi con certeza contiene información que los participantes considerarían sensible (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . En este caso particular, los investigadores tuvieron cuidado de proteger los datos y su trabajo fue supervisado por un tercero (es decir, su IRB). Regresaré a estos asuntos éticos con más detalle en el capítulo 6.
Blumenstock estaba interesado en medir la riqueza y el bienestar. Pero estos rasgos no están directamente en los registros de llamadas. En otras palabras, estos registros de llamadas son incompletos para esta investigación, una característica común de las fuentes de big data que se discutió en detalle en el capítulo 2. Sin embargo, parece probable que los registros de llamadas tengan alguna información que podría proporcionar indirectamente información sobre riqueza y bienestar. Dada esta posibilidad, Blumenstock preguntó si era posible entrenar un modelo de aprendizaje automático para predecir cómo respondería alguien a una encuesta en función de sus registros de llamadas. Si esto fuera posible, Blumenstock podría usar este modelo para predecir las respuestas de la encuesta de todos los 1,5 millones de clientes.
Para construir y entrenar tal modelo, Blumenstock y los asistentes de investigación del Instituto de Ciencia y Tecnología de Kigali llamaron a una muestra aleatoria de alrededor de mil clientes. Los investigadores explicaron los objetivos del proyecto a los participantes, pidieron su consentimiento para vincular las respuestas de la encuesta a los registros de llamadas, y luego les hicieron una serie de preguntas para medir su riqueza y bienestar, tales como "¿Tiene usted una ¿radio? "y" ¿Tienes una bicicleta? "(mira la figura 3.14 para ver una lista parcial). Todos los participantes en la encuesta fueron compensados financieramente.
A continuación, Blumenstock utilizó un procedimiento en dos pasos, común en el aprendizaje automático: ingeniería de características seguida de aprendizaje supervisado. Primero, en el paso de ingeniería de características , para todos los entrevistados, Blumenstock convirtió los registros de llamadas en un conjunto de características sobre cada persona; los científicos de datos podrían llamar a estas características "características" y los científicos sociales las llamarían "variables". Por ejemplo, para cada persona, Blumenstock calculó el número total de días con actividad, el número de personas con las que una persona ha estado en contacto, el cantidad de dinero gastado en tiempo aire, y así sucesivamente. Críticamente, la buena ingeniería de características requiere conocimiento de la configuración de la investigación. Por ejemplo, si es importante distinguir entre llamadas nacionales e internacionales (podemos esperar que las personas que llaman internacionalmente sean más ricas), entonces esto debe hacerse en el paso de ingeniería de características. Un investigador con poco conocimiento de Ruanda podría no incluir esta característica, y entonces el desempeño predictivo del modelo sufriría.
Luego, en el paso de aprendizaje supervisado , Blumenstock creó un modelo para predecir la respuesta de la encuesta para cada persona en función de sus características. En este caso, Blumenstock utilizó la regresión logística, pero podría haber utilizado una variedad de otros enfoques estadísticos o de aprendizaje automático.
Entonces, ¿qué tan bien funcionó? ¿Blumenstock fue capaz de predecir las respuestas a las preguntas de la encuesta como "¿Es dueño de una radio?" Y "¿Tiene una bicicleta?" Utilizando funciones derivadas de los registros de llamadas? Para evaluar el rendimiento de su modelo predictivo, Blumenstock utilizó la validación cruzada , una técnica comúnmente utilizada en la ciencia de los datos, pero rara vez en las ciencias sociales. El objetivo de la validación cruzada es proporcionar una evaluación justa del rendimiento predictivo de un modelo capacitándolo y probándolo en diferentes subconjuntos de datos. En particular, Blumenstock dividió sus datos en 10 pedazos de 100 personas cada uno. Luego, usó nueve de los trozos para entrenar a su modelo, y el rendimiento predictivo del modelo entrenado se evaluó en el trozo restante. Repitió este procedimiento 10 veces, con cada fragmento de datos obteniendo un turno como datos de validación, y promedió los resultados.
La precisión de las predicciones fue alta para algunos rasgos (figura 3.14); por ejemplo, Blumenstock podría predecir con 97.6% de precisión si alguien posee una radio. Esto puede sonar impresionante, pero siempre es importante comparar un método de predicción complejo con una alternativa simple. En este caso, una alternativa simple es predecir que todos darán la respuesta más común. Por ejemplo, el 97.3% de los encuestados reportaron tener una radio, por lo que si Blumenstock hubiera predicho que todos reportarían poseer una radio, habría tenido una precisión de 97.3%, lo que es sorprendentemente similar al desempeño de su procedimiento más complejo (97.6% de precisión) . En otras palabras, todos los datos sofisticados y el modelado aumentaron la precisión de la predicción del 97.3% al 97.6%. Sin embargo, para otras preguntas, como "¿Tienes una bicicleta?", Las predicciones mejoraron del 54.4% al 67.6%. En términos más generales, la figura 3.15 muestra que, para algunos rasgos, Blumenstock no mejoró mucho más que simplemente haciendo la predicción básica simple, pero que para otros rasgos hubo alguna mejora. En cuanto a estos resultados, sin embargo, es posible que no piense que este enfoque es particularmente prometedor.
Sin embargo, solo un año después, Blumenstock y dos colegas, Gabriel Cadamuro y Robert On, publicaron un artículo en Science con resultados sustancialmente mejores (Blumenstock, Cadamuro, and On 2015) . Hubo dos razones técnicas principales para esta mejora: (1) usaron métodos más sofisticados (es decir, un nuevo enfoque de la ingeniería de características y un modelo más sofisticado para predecir las respuestas de las características) y (2) en lugar de intentar inferir las respuestas al individuo preguntas de la encuesta (p. ej., "¿Tiene una radio?"), intentaron inferir un índice de riqueza compuesto. Estas mejoras técnicas significaron que podrían hacer un trabajo razonable al usar registros de llamadas para predecir riqueza para las personas en su muestra.
Sin embargo, predecir la riqueza de las personas en la muestra no era el objetivo final de la investigación. Recuerde que el objetivo final era combinar algunas de las mejores características de las encuestas de muestra y los censos para producir estimaciones precisas y de alta resolución de la pobreza en los países en desarrollo. Para evaluar su capacidad para lograr este objetivo, Blumenstock y sus colegas utilizaron su modelo y sus datos para predecir la riqueza de todos los 1,5 millones de personas en los registros de llamadas. Y utilizaron la información geoespacial incorporada en los registros de llamadas (recuérdese que los datos incluían la ubicación de la torre celular más cercana para cada llamada) para estimar el lugar aproximado de residencia de cada persona (figura 3.17). Al unir estas dos estimaciones, Blumenstock y sus colegas produjeron una estimación de la distribución geográfica de la riqueza de los suscriptores con una granularidad espacial extremadamente fina. Por ejemplo, podrían estimar la riqueza promedio en cada una de las 2.148 celdas de Ruanda (la unidad administrativa más pequeña del país).
¿Qué tan bien coinciden estas estimaciones con el nivel real de pobreza en estas regiones? Antes de responder a esa pregunta, quiero enfatizar el hecho de que hay muchas razones para ser escéptico. Por ejemplo, la capacidad de hacer predicciones a nivel individual era bastante ruidosa (figura 3.17). Y, quizás lo más importante, las personas con teléfonos móviles pueden ser sistemáticamente diferentes de las personas sin teléfonos móviles. Por lo tanto, Blumenstock y sus colegas podrían sufrir los tipos de errores de cobertura que sesgaron la encuesta de Literary Digest de 1936 que describí anteriormente.
Para tener una idea de la calidad de sus estimaciones, Blumenstock y sus colegas necesitaron compararlos con otra cosa. Afortunadamente, casi al mismo tiempo que su estudio, otro grupo de investigadores realizó una encuesta social más tradicional en Ruanda. Esta otra encuesta, que era parte del ampliamente respetado Programa de Encuesta Demográfica y de Salud, tenía un gran presupuesto y utilizaba métodos tradicionales de alta calidad. Por lo tanto, las estimaciones de la Encuesta demográfica y de salud podrían considerarse razonablemente estimaciones de referencia. Cuando se compararon las dos estimaciones, fueron bastante similares (figura 3.17). En otras palabras, al combinar una pequeña cantidad de datos de encuestas con los registros de llamadas, Blumenstock y sus colegas pudieron producir estimados comparables a los de los enfoques de estándares de oro.
Un escéptico puede ver estos resultados como una decepción. Después de todo, una forma de verlos es decir que mediante el uso de Big Data y el aprendizaje automático, Blumenstock y sus colegas pudieron producir estimaciones que podrían hacerse de manera más confiable con métodos ya existentes. Pero no creo que esa sea la manera correcta de pensar en este estudio por dos razones. Primero, las estimaciones de Blumenstock y sus colegas fueron aproximadamente 10 veces más rápidas y 50 veces más baratas (cuando el costo se mide en términos de costos variables). Como argumenté anteriormente en este capítulo, los investigadores ignoran el costo bajo su propio riesgo. En este caso, por ejemplo, la dramática disminución de los costos significa que, en lugar de ejecutarse cada pocos años, como es estándar en las Encuestas Demográficas y de Salud, este tipo de encuesta podría realizarse todos los meses, lo que proporcionaría numerosas ventajas para los investigadores y la política. fabricantes. La segunda razón para no tomar la posición del escéptico es que este estudio proporciona una receta básica que se puede adaptar a muchas situaciones de investigación diferentes. Esta receta solo tiene dos ingredientes y dos pasos. Los ingredientes son (1) una gran fuente de datos que es amplia pero delgada (es decir, tiene muchas personas pero no la información que necesita sobre cada persona) y (2) una encuesta que es estrecha pero densa (es decir, solo tiene algunas personas, pero tiene la información que necesita sobre esas personas). Estos ingredientes se combinan en dos pasos. En primer lugar, para las personas de ambas fuentes de datos, cree un modelo de aprendizaje automático que use la fuente de big data para predecir las respuestas de la encuesta. A continuación, use ese modelo para imputar las respuestas de la encuesta a todos los que están en la fuente de big data. Por lo tanto, si hay alguna pregunta que quiera hacerle a muchas personas, busque una gran fuente de datos de aquellas personas que podrían usarse para predecir su respuesta, incluso si no le importa la fuente de los grandes datos . Es decir, Blumenstock y sus colegas no se preocupaban inherentemente por los registros de llamadas; solo se preocupaban por los registros de llamadas porque podían usarse para predecir las respuestas de las encuestas que les interesaban. Este interés indirecto característico-único en la fuente de big data hace que las preguntas amplificadas sean diferentes de las solicitudes integradas, que describí anteriormente.
En conclusión, el enfoque de consulta amplificado de Blumenstock combinó los datos de la encuesta con una gran fuente de datos para producir estimaciones comparables a las de una encuesta de patrón oro. Este ejemplo particular también aclara algunas de las ventajas y desventajas entre las preguntas amplificadas y los métodos de encuesta tradicionales. Las estimaciones de solicitudes ampliadas fueron más oportunas, sustancialmente más baratas y más granulares. Pero, por otro lado, todavía no hay una base teórica sólida para este tipo de preguntas amplificadas. Este solo ejemplo no muestra cuándo funcionará este enfoque y cuándo no, y los investigadores que utilizan este enfoque deben estar especialmente preocupados por los posibles sesgos causados por quién está incluido y quién no está incluido en su fuente de big data. Además, el enfoque de preguntar amplificado aún no tiene buenas maneras de cuantificar la incertidumbre en torno a sus estimaciones. Afortunadamente, la consulta amplificada tiene conexiones profundas con tres grandes áreas en estadística: estimación de área pequeña (Rao and Molina 2015) , imputación (Rubin 2004) y post-estratificación basada en modelos (que a su vez está estrechamente relacionada con el Sr. P., el método que describí anteriormente en el capítulo) (Little 1993) . Debido a estas conexiones profundas, espero que muchos de los fundamentos metodológicos de las solicitudes amplificadas pronto se mejoren.
Finalmente, comparar el primer y segundo intento de Blumenstock también ilustra una importante lección sobre la investigación social en la era digital: el comienzo no es el final. Es decir, muchas veces, el primer enfoque no será el mejor, pero si los investigadores continúan trabajando, las cosas pueden mejorar. En términos más generales, cuando se evalúan nuevos enfoques de la investigación social en la era digital, es importante hacer dos evaluaciones distintas: (1) ¿Qué tan bien funciona esto ahora? y (2) ¿Qué tan bien funcionará en el futuro a medida que cambie el panorama de los datos y los investigadores dediquen más atención al problema? Aunque los investigadores están capacitados para realizar el primer tipo de evaluación, el segundo es a menudo más importante.