Predecir el futuro es difícil, pero la predicción de la presente es más fácil.
La segunda estrategia principal que los investigadores pueden utilizar con datos de observación es la previsión . Hacer conjeturas sobre el futuro es notoriamente difícil, y tal vez por esa razón, la previsión no es actualmente una gran parte de la investigación social (aunque es una parte pequeña e importante de la demografía, la economía, la epidemiología y la ciencia política). Aquí, sin embargo, me gustaría centrarme en un tipo especial de predicción llamado nowcasting, un término derivado de la combinación de "ahora" y "pronóstico". En lugar de predecir el futuro, el pronóstico inmediato utiliza ideas del pronóstico para medir el estado actual del mundo; intenta "predecir el presente" (Choi and Varian 2012) . Nowcasting tiene el potencial de ser especialmente útil para los gobiernos y las empresas que requieren medidas oportunas y precisas del mundo.
Un escenario donde la necesidad de una medición oportuna y precisa es muy clara es la epidemiología. Considere el caso de la influenza ("la gripe"). Cada año, las epidemias de influenza estacional causan millones de enfermedades y cientos de miles de muertes en todo el mundo. Además, cada año, existe la posibilidad de que surja una nueva forma de influenza que mataría a millones. El brote de gripe de 1918, por ejemplo, se estima que mató entre 50 y 100 millones de personas (Morens and Fauci 2007) . Debido a la necesidad de rastrear y responder potencialmente a los brotes de influenza, los gobiernos de todo el mundo han creado sistemas de vigilancia de la influenza. Por ejemplo, los Centros para el Control y la Prevención de Enfermedades de los EE. UU. (CDC) recopilan periódicamente y sistemáticamente información de médicos cuidadosamente seleccionados de todo el país. Aunque este sistema produce datos de alta calidad, tiene un retraso en los informes. Es decir, debido al tiempo que lleva limpiar, procesar y publicar los datos que llegan de los médicos, el sistema de los CDC publica estimaciones de la cantidad de gripe que hubo hace dos semanas. Pero, cuando se maneja una epidemia emergente, los funcionarios de salud pública no quieren saber cuánta influenza hubo hace dos semanas; quieren saber cuánta influenza hay en este momento.
Al mismo tiempo que el CDC está recolectando datos para rastrear la influenza, Google también está recolectando datos sobre la prevalencia de influenza, aunque en una forma bastante diferente. Personas de todo el mundo envían constantemente consultas a Google, y algunas de estas consultas, como "medicamentos contra la gripe" y "síntomas de la gripe", podrían indicar que la persona que realiza la consulta tiene gripe. Pero, utilizar estas consultas de búsqueda para estimar la prevalencia de la gripe es complicado: no todas las personas que tienen gripe realizan una búsqueda relacionada con la gripe, y no todas las búsquedas relacionadas con la gripe son de alguien que tiene gripe.
Jeremy Ginsberg y un equipo de colegas (2009) , algunos en Google y otros en CDC, tuvieron la idea importante e inteligente de combinar estas dos fuentes de datos. Aproximadamente, a través de un tipo de alquimia estadística, los investigadores combinaron los datos de búsqueda rápidos e imprecisos con los datos CDC lentos y precisos con el fin de producir mediciones rápidas y precisas de la prevalencia de influenza. Otra forma de pensar es que usaron los datos de búsqueda para acelerar los datos de CDC.
Más específicamente, utilizando datos de 2003 a 2007, Ginsberg y sus colegas calcularon la relación entre la prevalencia de la influenza en los datos de los CDC y el volumen de búsqueda de 50 millones de términos distintos. A partir de este proceso, que estaba completamente basado en datos y no requería conocimiento médico especializado, los investigadores encontraron un conjunto de 45 consultas diferentes que parecían ser más predictivas de los datos de prevalencia de la gripe CDC. Luego, utilizando las relaciones que aprendieron de los datos de 2003-2007, Ginsberg y sus colegas probaron su modelo durante la temporada de influenza 2007-2008. Descubrieron que sus procedimientos podían hacer transmisiones actuales útiles y precisas (figura 2.6). Estos resultados fueron publicados en Nature y recibieron una adorada cobertura de prensa. Este proyecto, que se llamó Google Flu Trends, se convirtió en una parábola que se repite a menudo sobre el poder del big data para cambiar el mundo.
Sin embargo, esta aparente historia de éxito finalmente se convirtió en una vergüenza. Con el tiempo, los investigadores descubrieron dos limitaciones importantes que hacen que Google Flu Trends sea menos impresionante de lo que parecía inicialmente. En primer lugar, el rendimiento de Google Flu Trends en realidad no fue mucho mejor que el de un modelo simple que estima la cantidad de gripe basándose en una extrapolación lineal de las dos mediciones más recientes de la prevalencia de la gripe (Goel et al. 2010) . Y, durante algunos períodos de tiempo, Google Flu Trends fue en realidad peor que este enfoque simple (Lazer et al. 2014) . En otras palabras, Google Flu Trends con todos sus datos, aprendizaje automático e informática poderosa no superaron dramáticamente una heurística simple y fácil de entender. Esto sugiere que al evaluar cualquier previsión o predicción inmediata, es importante comparar con una línea de base.
La segunda advertencia importante acerca de Google Flu Trends es que su capacidad para predecir los datos de la gripe de los CDC era propensa a fallas a corto plazo y deterioro a largo plazo debido a la deriva y la confusión algorítmica . Por ejemplo, durante el brote de gripe porcina de 2009 Google Flu Trends sobrestimó drásticamente la cantidad de gripe, probablemente porque las personas tienden a cambiar su comportamiento de búsqueda en respuesta al temor generalizado de una pandemia global (Cook et al. 2011; Olson et al. 2013) . Además de estos problemas a corto plazo, el rendimiento decayó gradualmente con el tiempo. Diagnosticar las razones de este deterioro a largo plazo es difícil porque los algoritmos de búsqueda de Google son exclusivos, pero parece que en 2011 Google comenzó a sugerir términos de búsqueda relacionados cuando las personas buscan síntomas de gripe como "fiebre" y "tos" (también parece que esta característica ya no está activa). Agregar esta característica es algo totalmente razonable si está ejecutando un motor de búsqueda, pero este cambio algorítmico tuvo el efecto de generar más búsquedas relacionadas con la salud que causaron que Google Flu Trends sobrestimara la prevalencia de la gripe (Lazer et al. 2014) .
Estas dos advertencias complican los futuros esfuerzos de predicción inmediata, pero no los condenan. De hecho, al usar métodos más cuidadosos, Lazer et al. (2014) y Yang, Santillana, and Kou (2015) pudieron evitar estos dos problemas. En el futuro, espero que los estudios de predicción inmediata que combinen grandes fuentes de datos con datos recopilados por los investigadores permitirán a las empresas y gobiernos crear estimaciones más puntuales y precisas acelerando esencialmente cualquier medición que se realice repetidamente en el tiempo con cierto retraso. Los proyectos de Nowcasting, como Google Flu Trends, también muestran lo que puede suceder si las fuentes de Big Data se combinan con datos más tradicionales que se crearon con fines de investigación. Pensando en la analogía del arte del capítulo 1, la predicción inmediata tiene el potencial de combinar los readymades de estilo Duchamp con los personalizados de estilo Miguel Ángel para proporcionar a los responsables de la toma de decisiones mediciones más precisas y actuales del presente y predicciones del futuro cercano.