Predicir o futuro é difícil, pero prevendo o presente é máis fácil.
A segunda investigadora principal de estratexia pode empregarse cos datos observacionais é a previsión . Facer suposicións sobre o futuro é notoriamente difícil e quizais por iso, a previsión non é actualmente unha gran parte da investigación social (aínda que sexa unha parte pequena e importante da demografía, a economía, a epidemioloxía ea ciencia política). Aquí, con todo, gustaríame centrarme nun tipo de previsión especial chamado nowcasting: un termo derivado da combinación de "agora" e "previsión". En lugar de prever o futuro, agora intentos de usar as ideas desde a previsión para medir o estado actual do mundo; intenta "predecir o presente" (Choi and Varian 2012) . Nowcasting ten o potencial de ser especialmente útil para gobernos e empresas que precisan medidas precisas e precisas do mundo.
Un escenario onde a necesidade de medición puntual e precisa é moi clara é a epidemioloxía. Considere o caso da gripe ("a gripe"). Cada ano, as epidemias de gripe estacional causan millóns de enfermidades e centos de miles de mortes en todo o mundo. Ademais, cada ano existe a posibilidade de que xurda unha nova forma de influenza que mataría a millóns. O estallido de influenza de 1918, por exemplo, estímase que matou entre 50 e 100 millóns de persoas (Morens and Fauci 2007) . Debido á necesidade de rastrexar e potencialmente responder aos brotes de gripe, os gobernos de todo o mundo crearon sistemas de vixilancia da gripe. Por exemplo, os Centros de Control e Prevención de Enfermidades dos Estados Unidos (CDC) recopilan regular e sistematicamente información de médicos coidadosamente seleccionados en todo o país. Aínda que este sistema produce datos de alta calidade, ten un retraso no informe. É dicir, debido ao tempo que leva que os datos que chegan dos médicos para ser limpos, procesados e publicados, o sistema CDC libera estimacións sobre a cantidade de gripe hai dúas semanas. Pero, ao manexar unha epidemia emerxente, os funcionarios da saúde pública non queren saber cantas influencias hai dúas semanas; queren saber cantas influencias hai agora.
Ao mesmo tempo que o CDC recolecta datos para controlar a gripe, Google tamén está recollendo datos sobre a prevalencia de gripe, aínda que de forma bastante diferente. Persoas de todo o mundo constantemente envían consultas a Google, e algunhas destas consultas -como "medicamentos para a gripe" e "síntomas de gripe" - indican que a persoa que realiza a consulta ten a gripe. Non obstante, o uso destas consultas de busca para estimar a prevalencia de gripe é complicado: non todos os que teñen a gripe fan unha busca relacionada coa gripe e non todas as procuras relacionadas coa gripe son de alguén que ten a gripe.
Jeremy Ginsberg e un equipo de colegas (2009) , algúns en Google e algúns no CDC, tiñan a idea importante e intelixente de combinar estas dúas fontes de datos. Aproximadamente, a través dunha especie de alquimia estatística, os investigadores combinaron os datos de busca rápidos e inexactos cos datos CDC lento e preciso para producir medidas rápidas e precisas da prevalencia de gripe. Outra forma de pensar nela é que usaron os datos de busca para acelerar os datos do CDC.
Máis específicamente, utilizando datos de 2003 a 2007, Ginsberg e compañeiros estimaron a relación entre a prevalencia de gripe nos datos CDC eo volume de busca de 50 millóns de términos distintos. A partir deste proceso, que foi completamente baseado en datos e non requiría coñecemento médico especializado, os investigadores atoparon un conxunto de 45 consultas diferentes que parecían ser máis preditivas dos datos de prevalencia da gripe CDC. Logo, utilizando as relacións que aprendeu a partir dos datos 2003-2007, Ginsberg e os seus colegas probaron o seu modelo durante a tempada de gripe 2007-2008. Eles descubriron que os seus procedementos poderían realmente facer agoracasts útiles e precisos (figura 2.6). Estes resultados publicáronse en Nature e recibiron cobertura de prensa adoradora. Este proxecto, chamado Google Flu Trends, converteuse nunha parábola repetida sobre o poder de grandes datos para cambiar o mundo.
Con todo, esta aparente historia de éxito converteuse nunha vergonza. Co tempo, os investigadores descubriron dúas limitacións importantes que fan que Google Trends de Gripe sexa menos impresionante do que inicialmente apareceu. En primeiro lugar, o rendemento de Google Flu Trends en realidade non era moito mellor que o dun modelo simple que estima a cantidade de gripe baseada nunha extrapolar lineal das dúas medidas máis recentes de prevalencia de gripe (Goel et al. 2010) . E, durante algúns períodos de tempo, Google Flu Trends foi realmente peor que este enfoque simple (Lazer et al. 2014) . Dito doutro xeito, as Tendencias da gripe Google con todos os seus datos, a aprendizaxe automática e unha computación potente non superaron drasticamente unha heurística simple e máis fácil de entender. Isto suxire que ao avaliar calquera previsión ou agora, é importante comparar contra unha liña de base.
A segunda advertencia importante sobre as tendencias de Google Flu é que a súa capacidade de predecir os datos da gripe CDC era propensa ao fracaso a curto prazo e ao deterioro a longo prazo por mor dunha deriva e confusión algorítmica . Por exemplo, durante a epidemia de gripe porcina 2009, Google Flu Trends subestimou de xeito dramático a cantidade de influenza, probablemente porque a xente tende a cambiar o seu comportamento de busca en resposta ao medo xeneralizado dunha pandemia global (Cook et al. 2011; Olson et al. 2013) . Ademais destes problemas a curto prazo, o desempeño decayó gradualmente co paso do tempo. Diagnosticar os motivos desta decadencia a longo prazo son difíciles porque os algoritmos de busca de Google son propietarios, pero parece que en 2011 Google comezou a suxerir termos de busca relacionados cando as persoas buscan síntomas de gripe como "febre" e "tose" (tamén parece que esta función xa non está activa). Engadindo esta función é unha cousa totalmente razoable que facer se está executando un motor de procura, pero este cambio algorítmico tivo o efecto de xerar máis procuras relacionadas coa saúde que provocaron que Google Trends de gripe sobreestima a prevalencia da gripe (Lazer et al. 2014) .
Estas dúas advertencias complican futuros esforzos agora, pero non os destronan. De feito, usando métodos máis coidadosos, Lazer et al. (2014) e Yang, Santillana, and Kou (2015) puideron evitar estes dous problemas. Avanzando, espero que os estudos que combinen grandes fontes de datos cos datos recompilados polo investigador permitirán que as empresas e os gobernos creen estimacións máis precisas e oportunas, acelerando fundamentalmente calquera medida que se realice repetidamente co paso do tempo con algún retraso. Os proxectos de Nowcasting como Google Flu Trends tamén amosan o que pode ocorrer se as grandes fontes de datos se combinan con datos máis tradicionais que foron creados para os fins da investigación. Volvendo á analoxía artística do capítulo 1, Nowcasting ten o potencial de combinar modelos de estilo Duchamp con costumes de estilo Michelangelo para proporcionar aos tomadores de decisións medicións máis precisas e precisas do presente e as previsións do futuro próximo.