2.4.2 Previsión y predicción inmediata

Predecir el futuro es difícil, pero la predicción de la presente es más fácil.

La segunda estrategia principal utilizada por los investigadores con los datos de observación es la previsión. Predecir el futuro es muy difícil, pero puede ser muy importante para los tomadores de decisiones, ya sea que trabajen en empresas o gobiernos.

Kleinberg et al. (2015) ofrece dos historias que aclaran la importancia de la previsión para ciertos problemas de política. Imagínese un formulador de políticas, la llamaré Anna, que se enfrenta a una sequía y debe decidir si contratar a un chamán para hacer una danza de la lluvia para aumentar la probabilidad de lluvia. Otro fabricante de la política, lo llamaré Bob, debe decidir si tomar un paraguas a trabajar para evitar mojarse en el camino a casa. Anna y Bob pueden tomar una mejor decisión si entienden tiempo, pero necesitan saber cosas diferentes. Anna tiene que entender si la danza de la lluvia provoca la lluvia. Bob, por otro lado, no necesita comprender nada acerca de la causalidad; sólo necesita un pronóstico preciso. Los investigadores sociales a menudo se centran en lo que Kleinberg et al. (2015) llaman "lluvia de baile como" problemas-los políticos que se centran en la causalidad-e ignoran los problemas de política "paraguas-como" que se centran en la predicción.

Me gustaría enfocar, sin embargo, en un tipo especial de previsión llamada predicción inmediata, un término derivado de la combinación de "ahora" y "predicción". En lugar de predecir el futuro, predicción inmediata intentos de predecir la presente (Choi and Varian 2012) . En otras palabras, la predicción inmediata utiliza los métodos de predicción para los problemas de medición. Como tal, debe ser especialmente útil para los gobiernos que requieren medidas oportunas y precisas sobre sus países. Nowcasting se puede ilustrar más claramente con el ejemplo de Google Evolución de la gripe.

Imagine que usted se siente un poco en el tiempo y que escribe "remedios contra la gripe" en un motor de búsqueda, recibirá una página de enlaces en respuesta, a continuación, siga uno de ellos a una página web útil. Ahora imagine esta actividad se juega desde la perspectiva del motor de búsqueda. Cada momento, millones de consultas están llegando de todo el mundo, y esta corriente de consultas de lo Battelle (2006) ha llamado la "base de datos de intenciones" - ofrece una ventana de actualización constante en la conciencia colectiva mundial. Sin embargo, convirtiendo esta corriente de información en una medición de la prevalencia de la gripe es difícil. Simplemente contando el número de consultas de "remedios contra la gripe" podría no funcionar bien. No todo el que tiene las búsquedas contra la gripe para remedios contra la gripe y no todos los que buscadores de remedios contra la gripe tiene la gripe.

El truco importante e inteligente detrás de Google Flu Trends era convertir un problema de medición en un problema de pronóstico. Los Centros para el Control y la Prevención de Enfermedades (CDC) también tienen un sistema de vigilancia de la influenza que recoge la información de los médicos de todo el país. Sin embargo, un problema con este sistema es CDC hay un desfase notificado dos a la semana; el tiempo necesario para que los datos que llegan de los médicos que se desea limpiar, procesa y publica. Pero, al manejar una epidemia emergente, oficinas de salud pública no quieren saber la cantidad de la gripe que había hace dos semanas; quieren saber la cantidad de la gripe existe en este momento. De hecho, en muchas otras fuentes tradicionales de datos sociales, existen brechas entre series de recogida de datos y retardos de informes. La mayoría de las fuentes de datos grandes, por el contrario, son siempre activa (Sección 2.3.1.2).

Por lo tanto, Jeremy Ginsberg y colegas (2009) trataron de predecir los datos de la gripe CDC partir de los datos de búsqueda de Google. Este es un ejemplo de "predecir el presente", porque los investigadores estaban tratando de medir la cantidad de la gripe existe ahora mediante la predicción de futuros datos de los CDC, los datos futuro que está midiendo el presente. El uso de la máquina de aprendizaje, se buscaron a través de 50 millones de términos de búsqueda diferentes para ver cuáles son los más predictivo de los datos de la gripe de los CDC. En última instancia, se encontraron con un conjunto de 45 diferentes consultas que parecía ser más predictivo, y los resultados fueron bastante buenos: pueden usar los datos de búsqueda de predecir los datos de los CDC. Basado en parte en el presente documento, que fue publicado en la revista Nature, Google Flu Trends se convirtió en una historia de éxito repetido con frecuencia sobre el poder de grandes volúmenes de datos.

Hay dos advertencias importantes a esta aparente éxito, sin embargo, y la comprensión de estas advertencias le ayudarán a evaluar y hacer el pronóstico y la predicción inmediata. En primer lugar, el rendimiento de Google Flu Trends era en realidad no es mucho mejor que un modelo simple que calcula la cantidad de la gripe en base a una extrapolación lineal de las dos medidas más recientes de la prevalencia de la gripe (Goel et al. 2010) . Y, en algunos períodos más Google Flu Trends era en realidad peor que este sencillo enfoque (Lazer et al. 2014) . En otras palabras, Google Flu Trends, con todos sus datos, aprendizaje automático, y de gran alcance de computación no se superan de manera espectacular un simple y fácil de entender heurístico. Esto sugiere que en la evaluación de cualquier pronóstico o nowcast es importante comparar contra una línea de base.

La segunda advertencia importante sobre Google Flu Trends es que su capacidad de predecir los datos de la gripe de los CDC era propenso al fracaso a corto plazo y la decadencia a largo plazo debido a la deriva y la confusión algorítmica. Por ejemplo, durante el 2009 brote de gripe porcina Google Flu Trends drásticamente sobreestimado la cantidad de la gripe, probablemente porque la gente tiende a cambiar su comportamiento de búsqueda en respuesta a un temor generalizado de una pandemia mundial (Cook et al. 2011; Olson et al. 2013) . Además de estos problemas a corto plazo, el rendimiento decayó gradualmente con el tiempo. El diagnóstico de las causas de este deterioro a largo plazo son difíciles debido a que los algoritmos de búsqueda de Google son propietarios, pero parece que en 2011 Google hizo cambios que sugieren los términos de búsqueda relacionados cuando la gente busque síntomas como "fiebre" y "tos" (que también parece que esta función ya no está activo). La adición de esta característica es una cosa totalmente razonable para hacerlo si está ejecutando una empresa de motores de búsqueda, y que tenía el efecto de generar más búsquedas relacionadas con la salud. Esto fue probablemente un éxito para el negocio, pero causó la gripe de Google Trends para la prevalencia de la gripe sobreestimación (Lazer et al. 2014) .

Afortunadamente, estos problemas con Google Flu Trends se pueden corregir. De hecho, el uso de métodos más cuidadosas, Lazer et al. (2014) y Yang, Santillana, and Kou (2015) fueron capaces de obtener mejores resultados. En el futuro, espero que los estudios de predicción inmediata que combinan grandes volúmenes de datos con el investigador recogieron datos que combinan Readymades de estilo Duchamp con el estilo de Miguel Custommades-permitan a los responsables políticos para producir mediciones más rápidos y precisos de la presente y las predicciones del futuro.