Prever o futuro é difícil, mas prevendo o presente é mais fácil.
A segunda principal estratégia que os pesquisadores podem usar com dados observacionais é a previsão . Fazer suposições sobre o futuro é notoriamente difícil, e talvez por essa razão, a previsão não seja atualmente uma grande parte da pesquisa social (embora seja uma parte pequena e importante da demografia, economia, epidemiologia e ciência política). Aqui, no entanto, gostaria de me concentrar em um tipo especial de previsão chamado nowcasting - um termo derivado de combinar "agora" e "previsão". Em vez de prever o futuro, o nowcasting tenta usar ideias da previsão para medir o estado atual do mundo; tenta “prever o presente” (Choi and Varian 2012) . O Nowcasting tem o potencial de ser especialmente útil para governos e empresas que exigem medidas oportunas e precisas do mundo.
Um cenário em que a necessidade de mensuração oportuna e precisa é muito clara é a epidemiologia. Considere o caso da gripe ("a gripe"). Todos os anos, as epidemias sazonais da gripe causam milhões de doenças e centenas de milhares de mortes em todo o mundo. Além disso, a cada ano, existe a possibilidade de surgir uma nova forma de gripe que mataria milhões de pessoas. Estima-se que o surto de influenza de 1918, por exemplo, tenha matado entre 50 e 100 milhões de pessoas (Morens and Fauci 2007) . Devido à necessidade de rastrear e responder potencialmente aos surtos de gripe, governos em todo o mundo criaram sistemas de vigilância da gripe. Por exemplo, os Centros de Controle e Prevenção de Doenças (CDC) dos EUA coletam periódica e sistematicamente informações de médicos cuidadosamente selecionados em todo o país. Embora este sistema produza dados de alta qualidade, ele tem um atraso no relatório. Isto é, por causa do tempo que leva para os dados que chegam dos médicos serem limpos, processados e publicados, o sistema do CDC libera estimativas de quanto a gripe havia duas semanas atrás. Mas, ao lidar com uma epidemia emergente, as autoridades de saúde pública não querem saber quanta gripe há duas semanas; eles querem saber quanta gripe existe agora.
Ao mesmo tempo em que o CDC coleta dados para rastrear a gripe, o Google também coleta dados sobre a prevalência da influenza, embora de forma bem diferente. Pessoas de todo o mundo estão constantemente enviando consultas ao Google, e algumas dessas consultas - como "remédios contra gripe" e "sintomas da gripe" - podem indicar que a pessoa que está fazendo a consulta está gripada. Mas, usar essas consultas de pesquisa para estimar a prevalência da gripe é complicado: nem todo mundo que está com gripe faz uma pesquisa relacionada à gripe, e nem toda pesquisa relacionada à gripe é de alguém que está gripado.
Jeremy Ginsberg e uma equipe de colegas (2009) , alguns no Google e alguns no CDC, tiveram a importante e inteligente idéia de combinar essas duas fontes de dados. Aproximadamente, por meio de uma espécie de alquimia estatística, os pesquisadores combinaram os dados de pesquisa rápidos e imprecisos com os dados lentos e precisos do CDC, a fim de produzir medições rápidas e precisas da prevalência da influenza. Outra maneira de pensar sobre isso é que eles usaram os dados de pesquisa para acelerar os dados do CDC.
Mais especificamente, usando dados de 2003 a 2007, Ginsberg e colegas estimaram a relação entre a prevalência de influenza nos dados do CDC e o volume de busca para 50 milhões de termos distintos. A partir deste processo, que foi completamente orientado a dados e não exigiu conhecimento médico especializado, os pesquisadores encontraram um conjunto de 45 consultas diferentes que pareciam ser mais preditivas dos dados de prevalência de gripe do CDC. Depois, usando os relacionamentos que aprenderam com os dados de 2003-2007, Ginsberg e seus colegas testaram seu modelo durante a temporada de influenza de 2007-2008. Eles descobriram que seus procedimentos poderiam, de fato, tornar os nowcasts úteis e precisos (figura 2.6). Estes resultados foram publicados na revista Nature e receberam uma adoradora cobertura da imprensa. Esse projeto, chamado Google Tendências da Gripe, tornou-se uma parábola repetida com frequência sobre o poder do Big Data para mudar o mundo.
No entanto, esta história de sucesso aparente acabou se tornando um embaraço. Com o tempo, os pesquisadores descobriram duas limitações importantes que tornam o Google Tendências da Gripe menos impressionante do que aparentava inicialmente. Primeiro, o desempenho do Google Tendências da Gripe não foi muito melhor do que o de um modelo simples que estima a quantidade de gripe com base em uma extrapolação linear das duas medidas mais recentes de prevalência da gripe (Goel et al. 2010) . E, durante alguns períodos, o Google Tendências da Gripe foi realmente pior do que essa abordagem simples (Lazer et al. 2014) . Em outras palavras, o Google Tendências da Gripe com todos os seus dados, aprendizado de máquina e computação poderosa não superou drasticamente uma heurística simples e mais fácil de entender. Isso sugere que, ao avaliar qualquer previsão ou nowcast, é importante comparar com uma linha de base.
A segunda ressalva importante sobre o Google Tendências da Gripe é que sua capacidade de prever os dados da gripe CDC era propensa a falhas de curto prazo e decadência de longo prazo devido à deriva e confundimento algorítmico . Por exemplo, durante o surto de gripe suína de 2009, o Google Flu Trends superestimou drasticamente a quantidade de gripe, provavelmente porque as pessoas tendem a mudar seu comportamento de busca em resposta ao medo generalizado de uma pandemia global (Cook et al. 2011; Olson et al. 2013) . Além desses problemas de curto prazo, o desempenho decaiu gradualmente ao longo do tempo. É difícil diagnosticar os motivos dessa decadência de longo prazo porque os algoritmos de pesquisa do Google são proprietários, mas parece que em 2011 o Google começou a sugerir termos de pesquisa relacionados quando as pessoas pesquisavam sintomas de gripe como "febre" e "tosse" (também parece esse recurso não está mais ativo). Adicionar esse recurso é totalmente razoável se você estiver executando um mecanismo de pesquisa, mas essa alteração algorítmica teve o efeito de gerar mais pesquisas relacionadas à saúde, o que fez com que o Google Tendências da Gripe superestimasse a prevalência da gripe (Lazer et al. 2014) .
Essas duas advertências complicam os futuros esforços de previsão de tempo, mas não os prejudicam. De fato, usando métodos mais cuidadosos, Lazer et al. (2014) e Yang, Santillana, and Kou (2015) conseguiram evitar esses dois problemas. No futuro, espero que os estudos de previsão imediata que combinam fontes de dados grandes com dados coletados por pesquisadores permitirão que empresas e governos criem estimativas mais oportunas e precisas, acelerando essencialmente qualquer medida que seja feita repetidamente ao longo do tempo com algum atraso. Os projetos de previsão antecipada, como o Google Tendências da Gripe, também mostram o que pode acontecer se as fontes de dados grandes forem combinadas com dados mais tradicionais criados para fins de pesquisa. Voltando à analogia da arte do capítulo 1, o nowcasting tem o potencial de combinar readymades no estilo Duchamp com custommades ao estilo de Michelangelo, a fim de fornecer aos tomadores de decisão medições mais precisas e precisas do presente e previsões do futuro próximo.