Predicir o futuro é difícil, pero prevendo o presente é máis fácil.
A segunda principal estratexia utilizada polos investigadores cos datos astronómicos está prevendo. Predicir o futuro é notoriamente difícil, pero pode ser moi importante para os decisores, se eles traballan en empresas ou gobernos.
Kleinberg et al. (2015) ofrece dúas historias que esclarecen a importancia da previsión para determinados problemas de política. Imaxina que un fabricante de política, vou chamala de Anna, que está enfrentando unha seca e debe decidir se contrata un chamán para facer unha danza da choiva para aumentar a probabilidade de chuvia. Outro fabricante de política, vou chamalo de Bob, debe decidir se vai levar un paraugas que traballar para evitar mollar a camiño de casa. Ambos Anna e Bob pode tomar unha decisión mellor comprender o tempo, pero eles teñen que saber cousas distintas. Anna que entender a danza da choiva provoca a choiva. Bob, por outra banda, non precisa entender nada de causalidade; el só precisa dunha previsión exacta. Investigadores sociais, moitas veces concentrarse no que Kleinberg et al. (2015) chaman "choiva de danza como" problemas-políticos que inciden sobre a causalidade-e ignorar problemas de política "de paraugas" que están focados en previsión.
Gustaríame concentrarse, con todo, nun tipo especial de previsión chamado nowcasting un termo derivado da combinación de "agora" e "previsión". No canto de prever o futuro, Nowcasting intentos de prever o presente (Choi and Varian 2012) . Noutras palabras, a previsión inmediata utiliza métodos de predición para os problemas de medida. Como tal, debe ser útil para os gobernos que necesitan de medidas oportunas e precisas sobre os respectivos países. Nowcasting pode ser ilustrado máis claramente co exemplo de Google Flu Trends.
Imaxina que está sentindo un pouco baixo o tempo para que escriba "medicamentos contra a gripe" nun buscador, recibe unha páxina de enlaces en resposta, e siga un deles a unha páxina útil. Agora imaxina esta actividade que está a ser xogado fóra a partir da perspectiva do motor de procura. Cada momento, millóns de consultas están chegando de todo o mundo, e este fluxo de consultas o Battelle (2006) chamou de "base de datos de intencións" - ofrece un diálogo constantemente actualizado na conciencia colectiva global. Con todo, transformando este fluxo de información en unha medida da prevalencia da gripe é difícil. Simplemente contando-se o número de consultas para "medicamentos contra a gripe" pode non funcionar ben. Non todo o mundo que ten as investigacións gripe para medicamentos contra a gripe e non todos os que investigadores para medicamentos contra a gripe ten a gripe.
O truco importante e intelixente detrás de Google Flu Trends foi transformar un problema de medida nun problema de previsión. Os Centros de EEUU para Control e Prevención de Enfermidades (CDC) ten un sistema de seguimento da gripe que recolle información de médicos en todo o país. Con todo, un problema con este sistema CDC é que hai unha defasaxe de informes dúas semanas; o tempo que leva para que os datos que chegan de médicos a ser limpa, procesado, e publicada. Pero cando manipule unha epidemia emerxente, oficinas de saúde pública non quere saber como a gripe había dúas semanas; queren saber o que a gripe non é agora. De feito, en moitas outras fontes tradicionais de datos sociais, hai lagoas entre ondas de recollida de datos e defasagens de informes. A maioría das fontes de datos grandes, por outra banda, son sempre conectado (Sección 2.3.1.2).
Polo tanto, Jeremy Ginsberg e os seus colegas (2009) tentaron prever os datos da gripe CDC a partir dos datos de busca de Google. Este é un exemplo de "prever o presente" porque os investigadores estaban tentando medir o que a gripe hai agora prevendo futuros datos do CDC, os datos de futuro que está medindo o presente. Usando aprendizaxe de máquina, eles procuraron a través de 50 millóns de palabras de busca diferentes para ver cales son os máis preditiva dos datos da gripe do CDC. En definitiva, descubriron un conxunto de 45 consultas diferentes que semella máis preditiva, e os resultados foron moi bos: eles poderían usar os datos de investigación para prever os datos do CDC. Baseado en parte no presente traballo, que se publicou na revista Nature, Google Flu Trends converteuse nunha historia moitas veces repetida éxito sobre o poder de big data.
Hai dúas ressalvas importantes para este éxito aparente, con todo, e comprender estas advertencias pode axudar a avaliar e facer previsións e previsión inmediata. En primeiro lugar, o desempeño de Google Flu Trends era, en realidade, non moito mellor que un modelo simple que estima a cantidade de gripe en base a unha extrapolación lineal a partir das dúas medicións recentes de prevalencia da gripe (Goel et al. 2010) . E, ao longo algúns períodos de tempo Google Flu Trends foi realmente peor que esta visión simple (Lazer et al. 2014) . Noutras palabras, o Google Flu Trends con todos os seus datos, aprendizaxe de máquina e poderosa de computación non dramáticas superar un simple e fácil de entender heurística. Isto suxire que cando se avalía calquera previsión ou nowcast é importante para comparación con unha liña de base.
A segunda ressalva importante sobre Google Flu Trends é que a súa capacidade de prever os datos da gripe CDC foi propensos a fallos de curto prazo e deterioro a longo prazo debido á deriva e confusión algorítmica. Por exemplo, durante os 2009 gripe epidemia Google Flu Trends dramáticas sobre-estimada a cantidade de influenza, probablemente porque a xente tende a cambiar o seu comportamento de busca, en resposta ao medo xeneralizado dunha pandemia global (Cook et al. 2011; Olson et al. 2013) . En adición a estes problemas a curto prazo, o desempeño deteriorado gradualmente ao longo do tempo. Diagnosticar as razóns para esta deterioración a longo prazo son difíciles porque os algoritmos de busca de Google son propietarios, pero parece que en 2011 Google fixo cambios que suxiren os termos de busca relacionados cando as persoas buscan por síntomas como "febre" e "tose" (que tamén parecen que este recurso non está activo). Engadindo este recurso é unha cousa totalmente razoable que facer se está executando un negocio buscador, e que tiña o efecto de xerar máis investigacións relacionadas coa saúde. Este foi probabelmente un éxito para o negocio, pero causou Google Flu Trends para prevalencia da gripe exceso de estimación (Lazer et al. 2014) .
Afortunadamente, estes problemas con Google Flu Trends son solucionáveis. De feito, usando métodos máis coidadosos, Lazer et al. (2014) e Yang, Santillana, and Kou (2015) foron capaces de obter mellores resultados. De aquí para diante, espero que os estudos nowcasting que combinan datos grandes co investigador recadou datos-que combinan Readymades Duchamp de estilo con Michaelangelo de estilo Custommades-permitirán aos decisores políticos para producir medicións rápidas e precisas do presente e previsións do futuro.