La vinculación de la encuesta de huellas digitales puede ser como todo el mundo pidiendo a sus preguntas en todo momento.
Pidiendo viene generalmente en dos categorías principales: encuestas por muestreo y censos. Las encuestas por muestreo, donde se accede a un pequeño número de personas, puede ser flexible, oportuna, y relativamente barato. Sin embargo, las encuestas por muestreo, ya que se basan en una muestra, a menudo son limitados en su resolución; con una encuesta por muestreo, a menudo es difícil hacer estimaciones sobre regiones geográficas específicas o para grupos demográficos específicos. Censos, por el otro, el intento de entrevistar a todos los miembros de la población. Ellos tienen una gran resolución, pero en general son caros y estrecho en el foco (que sólo incluyen un pequeño número de preguntas), y no puntual (que ocurren en un horario fijo, por ejemplo, cada 10 años) (Kish 1979) . Ahora imagínese si los investigadores podrían combinar las mejores características de las encuestas por muestreo y censos; imaginar si los investigadores podrían hacer todas las preguntas a todo el mundo todos los días.
Obviamente, esta continua, ubicua y siempre activo encuesta es una especie de fantasía de la ciencia social. Sin embargo, parece que podemos empezar a aproximar mediante la combinación de preguntas de la encuesta a partir de un pequeño número de personas con las huellas digitales de muchas personas. Yo llamo a este tipo de combinación amplifica preguntar. Si se hace bien, podría ayudar nos proporciona estiman que son más local (por áreas geográficas más pequeñas), más granular (para grupos demográficos específicos), y más oportuna.
Un ejemplo de preguntar amplificada proviene de la obra de Joshua Blumenstock, que quería recoger datos que ayudarían a guiar el desarrollo en los países pobres. Más específicamente, Blumenstock quería crear un sistema para medir la riqueza y el bienestar que combina la integridad de un censo con la flexibilidad y la frecuencia de una encuesta (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . De hecho, ya he descrito el trabajo de Blumenstock brevemente en el capítulo 1.
Para empezar, Blumenstock se asoció con el mayor proveedor de telefonía móvil en Ruanda. La compañía le proporcionó registros de transacciones anónimas de alrededor de 1,5 millones de clientes que cubren el comportamiento entre 2005 y 2009. Los registros contienen información sobre cada mensaje de llamada y texto, como la hora de inicio, duración y ubicación geográfica aproximada de la persona que llama y el receptor. Antes de empezar a hablar de las cuestiones estadísticas, vale la pena señalar que este primer paso puede ser uno de los más difíciles. Como se describe en el capítulo 2, la mayoría de trazas de datos digital es inaccesible para los investigadores. Y, muchas empresas están justificadamente reacios a compartir sus datos, ya que es privado; es decir, sus clientes probablemente no esperaban que sus registros serán compartidos en masa a base de investigadores. En este caso, los investigadores tomaron medidas cuidadosas para anonimizar los datos y su trabajo fue supervisado por un tercero (es decir, su IRB). Pero, a pesar de estos esfuerzos, estos datos son probablemente todavía identificables y son susceptibles de contener información sensible (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . Voy a volver a esta cuestión ética en el capítulo 6.
Recordemos que Blumenstock estaba interesado en medir la riqueza y el bienestar. Sin embargo, estos rasgos no son directamente en los registros de llamadas. En otras palabras, estos son los registros de llamadas incompletas para esta investigación, una característica común de huellas digitales que se discute en detalle en el capítulo 2. Sin embargo, parece probable que los registros de llamadas probable que tengan alguna información acerca de la riqueza y el bienestar. Por lo tanto, una manera de plantear la pregunta de Blumenstock podría ser: ¿es posible predecir cómo alguien va a responder a una encuesta basada en sus datos de rastreo digitales? Si es así, a continuación, haciendo unas cuantas personas que podemos adivinar las respuestas de todos los demás.
Para evaluar esto empíricamente, Blumenstock y asistentes de investigación de Kigali Instituto de Ciencia y Tecnología llaman una muestra de cerca de un millar de clientes de telefonía móvil. Los investigadores explicaron los objetivos del proyecto a los participantes, les pide su consentimiento para vincular las respuestas de la encuesta a los registros de llamadas, y luego se les pidió una serie de preguntas para medir su riqueza y el bienestar, tales como "¿Es dueño de una radio? "y" ¿Es dueño de una bicicleta? "(véase la figura 3.11 para una lista parcial). Todos los participantes en la encuesta fueron compensados económicamente.
A continuación, Blumenstock utilizó un procedimiento de dos pasos común en la ciencia de datos: la ingeniería función seguido de aprendizaje supervisado. En primer lugar, en la etapa de ingeniería de función, para cada uno que fue entrevistado, Blumenstock convierte los registros de llamadas en un conjunto de características de cada persona; científicos de datos recurren a estas características "características" y los científicos sociales se llaman "variables." Por ejemplo, para cada persona, Blumenstock calcula el número total de días de actividad, el número de personas distintas que una persona ha estado en contacto con, la cantidad de dinero gastado en tiempo en el aire, y así sucesivamente. Fundamentalmente, la buena ingeniería función requiere el conocimiento del contexto de la investigación. Por ejemplo, si es importante distinguir entre llamadas nacionales e internacionales (podríamos esperar que las personas que llaman a nivel internacional para ser más ricos), entonces esto debe hacerse en la etapa de ingeniería función. Un investigador con poca comprensión de Ruanda no incluya esta función y, a continuación, el rendimiento de predicción del modelo se verá afectada.
A continuación, en la etapa de aprendizaje supervisado, Blumenstock construyó un modelo estadístico para predecir la respuesta de la encuesta para cada persona en función de sus características. En este caso, Blumenstock utilizó la regresión logística con 10 veces la validación cruzada, pero podría haber utilizado una variedad de otros enfoques de aprendizaje estadístico o de la máquina.
Así lo bien que funcionó? Blumenstock era capaz de predecir las respuestas a las preguntas de la encuesta como "¿Es dueño de una radio?" Y "¿Es dueño de una bicicleta?" Uso de las funciones derivadas de los registros de llamadas? Más o menos. La exactitud de las predicciones eran altos para algunos rasgos (Figura 3.11). Sin embargo, siempre es importante comparar un método de predicción compleja contra una alternativa simple. En este caso, una alternativa simple es predecir que todo el mundo va a dar la respuesta más común. Por ejemplo, el 97,3% informó poseer una radio por lo que si Blumenstock había predicho que todo el mundo se reportan poseer una radio que habría tenido una precisión del 97,3%, que es sorprendentemente similar a la actuación de su procedimiento más complejo (el 97,6% de precisión). En otras palabras, todos los datos de fantasía y modelado aumentado la precisión de la predicción de 97,3% a 97,6%. Sin embargo, para otras preguntas, como "¿Es dueño de una bicicleta?", Las predicciones mejoró de 54,4% a 67,6%. De manera más general, la figura 3.12 muestra algunos rasgos Blumenstock no mejoraron mucho más allá de simplemente hacer una simple predicción de la línea de base, pero que para otras rasgos hubo alguna mejora.
En este punto usted puede estar pensando que estos resultados son un poco decepcionante, pero sólo un año después, Blumenstock y dos colegas-Gabriel Cadamuro y Robert on-publicado un artículo en Science con resultados sustancialmente mejores (Blumenstock, Cadamuro, and On 2015) . Había dos razones principales técnicas para la mejora: 1) que utilizan métodos más sofisticados (es decir, un nuevo enfoque para ofrecer la ingeniería y un modelo de aprendizaje de máquina más sofisticada) y 2) en lugar de tratar de inferir las respuestas a las preguntas de la encuesta individuales (por ejemplo, "¿Es dueño de una radio?"), trataron de inferir un índice de riqueza material compuesto.
Blumenstock y sus colegas demostraron el rendimiento de su enfoque de dos maneras. En primer lugar, encontraron que para la gente de su muestra, que podrían hacer un buen trabajo de predecir su riqueza de registros de llamadas (Figura 3.14). En segundo lugar, y cada vez más importante, Blumenstock y sus colegas mostraron que su procedimiento podría producir estimaciones de alta calidad de la distribución geográfica de la riqueza en Ruanda. Más específicamente, usaron su modelo de aprendizaje de máquina, que fue entrenado en su muestra de cerca de 1.000 personas, para predecir la riqueza de los 1,5 millones de personas en los registros de llamadas. Además, con los datos geoespaciales incrustados en los datos de la llamada (hay que recordar que los datos de llamada incluye la ubicación de la antena de telefonía móvil más cercano para cada llamada), los investigadores fueron capaces de estimar el lugar aproximado de residencia de cada persona. Poner estas dos estimaciones en conjunto, la investigación produjo una estimación de la distribución geográfica de la riqueza de abonado en granularidad espacial extremadamente fina. Por ejemplo, se podría estimar la riqueza media en cada una de las células de Ruanda 2148 (la unidad administrativa más pequeña del país). Estos valores predichos de riqueza eran tan granular que eran difíciles de comprobar. Por lo tanto, los investigadores agregan sus resultados para producir estimaciones de la riqueza media de los 30 distritos de Ruanda. Estas estimaciones a nivel de distrito fueron fuertemente relacionados con las estimaciones de una encuesta tradicional patrón oro, la Encuesta Demográfica y de Salud de Ruanda (Figura 3.14). Aunque las estimaciones de las dos fuentes fueron similares, las estimaciones de Blumenstock y sus colegas fueron aproximadamente 50 veces más barato y 10 veces más rápido (cuando el costo de medir en términos de costes variables). Esta dramática disminución en el costo significa que en lugar de ejecutar cada pocos años, como es lo normal en las encuestas demográficas y de salud, el híbrido de pequeña encuesta, combinados con grandes datos de rastreo digitales se podría ejecutar todos los meses.
En conclusión, de Blumenstock amplificado pidiendo enfoque combinado de datos de la encuesta con datos de rastreo digitales para producir estimaciones comparables con las estimaciones de la encuesta del patrón oro. En este ejemplo particular, también aclara algunas de las ventajas y desventajas entre pedir amplificada y métodos de estudio tradicionales. En primer lugar, las estimaciones que piden amplificados fueron más oportuna, sustancialmente más barato, y más granular. Pero, por otro lado, en este momento, no hay una fuerte base teórica para este tipo de preguntar amplificado. Es decir, este un ejemplo no demuestra cuando se va a trabajar y cuando no lo hará. Además, el enfoque de venta amplificada todavía no tiene buenas maneras de cuantificar la incertidumbre en torno a sus estimaciones. Sin embargo, pedir amplificada tiene profundas conexiones con tres grandes áreas de post-estratificación basada en estadísticas-modelo (Little 1993) , de imputación (Rubin 2004) , y estimación de áreas pequeñas (Rao and Molina 2015) -y por lo que espero que el progreso ser rápido.
Pidiendo amplificada sigue una receta básica que se puede adaptar a su situación particular. Hay dos ingredientes y dos pasos. Los dos ingredientes son: 1) un conjunto de datos de rastreo digital que es ancho pero delgada (es decir, que tiene mucha gente, pero no la información que necesita acerca de cada persona) y 2) una encuesta que es estrecha pero gruesa (es decir, que tiene sólo unas pocas personas, pero tiene la información que necesita acerca de esas personas). Entonces, hay dos pasos. En primer lugar, para la gente de ambas fuentes de datos, construir un modelo de aprendizaje automático que utiliza datos de rastreo digitales para predecir las respuestas de la encuesta. A continuación, utilizar ese modelo de aprendizaje automático para imputar las respuestas de la encuesta de todo el mundo en los datos de rastreo digitales. Por lo tanto, si hay alguna pregunta que desea pedir a un montón de gente, buscar datos de rastreo digitales de aquellas personas que podrían ser utilizados para predecir su respuesta.
Comparando el primero y el segundo intento de Blumenstock en el problema también ilustra una lección importante sobre la transición de la segunda era de enfoques tercera era para la investigación de encuesta: el principio no es el final. Es decir, muchas veces, el primer enfoque no será el mejor, pero si los investigadores de trabajo continuo, las cosas pueden mejorar. De manera más general, en la evaluación de nuevos enfoques para la investigación social en la era digital, es importante hacer dos evaluaciones distintas: 1) qué tan bien funciona esto ahora y 2) ¿Qué tan bien piensa que esto podría funcionar en el futuro como el paisaje de datos cambios y como investigadores dedican más atención al problema. Aunque, los investigadores están capacitados para hacer el primer tipo de evaluación (lo bueno que es este pedazo particular de la investigación), la segunda es a menudo más importante.