2.4.2 Previsão e nowcasting

Prever o futuro é difícil, mas prevendo o presente é mais fácil.

A segunda principal estratégia utilizada pelos pesquisadores com os dados observacionais está prevendo. Prever o futuro é notoriamente difícil, mas pode ser extremamente importante para os decisores, se eles trabalham em empresas ou governos.

Kleinberg et al. (2015) oferece duas histórias que esclarecem a importância da previsão para determinados problemas de política. Imagine que um fabricante de política, eu vou chamá-la de Anna, que está enfrentando uma seca e deve decidir se contrata um xamã para fazer uma dança da chuva para aumentar a chance de chuva. Outro fabricante de política, eu vou chamá-lo de Bob, deve decidir se vai levar um guarda-chuva que trabalhar para evitar se molhar a caminho de casa. Ambos Anna e Bob pode tomar uma decisão melhor se compreender o tempo, mas eles precisam saber coisas diferentes. Anna precisa entender se a dança da chuva provoca a chuva. Bob, por outro lado, não precisa entender nada de causalidade; ele só precisa de uma previsão exata. Pesquisadores sociais, muitas vezes se concentrar no que Kleinberg et al. (2015) chamam de "chuva de dança-como" problemas-os políticos que incidem sobre a causalidade-e ignorar problemas de política "de guarda-chuva" que estão focados em previsão.

Eu gostaria de se concentrar, no entanto, em um tipo especial de previsão chamado nowcasting um termo derivado da combinação de "agora" e "previsão". Em vez de prever o futuro, Nowcasting tentativas de prever o presente (Choi and Varian 2012) . Em outras palavras, a previsão imediata utiliza métodos de previsão para os problemas de medição. Como tal, deve ser especialmente útil para os governos que necessitam de medidas oportunas e precisas acerca dos respectivos países. Nowcasting pode ser ilustrado mais claramente com o exemplo do Google Flu Trends.

Imagine que você está sentindo um pouco sob o tempo para que você digite "remédios contra a gripe" num motor de busca, recebe uma página de links em resposta, e siga um deles para uma página útil. Agora imagine essa atividade que está sendo jogado para fora a partir da perspectiva do motor de busca. Cada momento, milhões de consultas estão chegando de todo o mundo, e este fluxo de consultas-o Battelle (2006) chamou de "banco de dados de intenções" - fornece uma janela constantemente atualizado na consciência colectiva global. No entanto, transformando este fluxo de informação em uma medida da prevalência da gripe é difícil. Simplesmente contando-se o número de consultas para "remédios contra a gripe" pode não funcionar bem. Nem todo mundo que tem as pesquisas gripe para remédios contra a gripe e nem todos os que pesquisadores para remédios contra a gripe tem a gripe.

O truque importante e inteligente por trás do Google Flu Trends foi transformar um problema de medição em um problema de previsão. Os Centros dos EUA para Controle e Prevenção de Doenças (CDC) tem um sistema de monitoramento da gripe que coleta informações de médicos em todo o país. No entanto, um problema com este sistema CDC é que há uma defasagem de relatórios duas semanas; o tempo que leva para que os dados que chegam de médicos a ser limpa, processado, e publicada. Mas, ao manusear uma epidemia emergente, escritórios de saúde pública não quer saber quanto a gripe havia duas semanas atrás; eles querem saber o quanto a gripe não é agora. Na verdade, em muitas outras fontes tradicionais de dados sociais, existem lacunas entre ondas de coleta de dados e defasagens de relatórios. A maioria das fontes de dados grandes, por outro lado, são sempre ligado (Seção 2.3.1.2).

Portanto, Jeremy Ginsberg e seus colegas (2009) tentaram prever os dados da gripe CDC a partir dos dados de pesquisa do Google. Este é um exemplo de "prever o presente" porque os pesquisadores estavam tentando medir o quanto a gripe há agora prevendo futuros dados do CDC, os dados de futuro que está medindo o presente. Usando aprendizagem de máquina, eles procuraram através de 50 milhões de termos de pesquisa diferentes para ver quais são os mais preditiva dos dados da gripe do CDC. Em última análise, eles descobriram um conjunto de 45 consultas diferentes que parecia ser mais preditiva, e os resultados foram muito bons: eles poderiam usar os dados de pesquisa para prever os dados do CDC. Baseado em parte no presente trabalho, que foi publicado na revista Nature, o Google Flu Trends tornou-se uma história muitas vezes repetida sucesso sobre o poder de big data.

Há duas ressalvas importantes para esse sucesso aparente, no entanto, e compreender estas advertências irá ajudá-lo a avaliar e fazer previsões e previsão imediata. Primeiro, o desempenho do Google Flu Trends era, na verdade, não muito melhor do que um modelo simples que estima a quantidade de gripe com base em uma extrapolação linear a partir das duas medições mais recentes de prevalência da gripe (Goel et al. 2010) . E, ao longo alguns períodos de tempo Google Flu Trends foi realmente pior do que esta abordagem simples (Lazer et al. 2014) . Em outras palavras, o Google Flu Trends com todos os seus dados, aprendizado de máquina e poderosa de computação não dramaticamente superar um simples e fácil de entender heurística. Isto sugere que quando se avalia qualquer previsão ou nowcast é importante para comparação com uma linha de base.

A segunda ressalva importante sobre o Google Flu Trends é que a sua capacidade de prever os dados da gripe CDC foi propensos a falhas de curto prazo e deterioração a longo prazo devido à deriva e confusão algorítmica. Por exemplo, durante os 2009 gripe suína surto Google Flu Trends dramaticamente sobre-estimada a quantidade de influenza, provavelmente porque as pessoas tendem a mudar o seu comportamento de busca, em resposta ao medo generalizado de uma pandemia global (Cook et al. 2011; Olson et al. 2013) . Em adição a estes problemas de curto prazo, o desempenho deteriorado gradualmente ao longo do tempo. Diagnosticar as razões para esta deterioração a longo prazo são difíceis porque os algoritmos de pesquisa do Google são proprietários, mas parece que em 2011 o Google fez mudanças que sugerem termos de pesquisa relacionados quando as pessoas procuram por sintomas como "febre" e "tosse" (que também parecem que esse recurso não está mais ativo). Adicionando este recurso é uma coisa totalmente razoável que fazer se você estiver executando um negócio motor de busca, e que tinha o efeito de gerar mais pesquisas relacionadas à saúde. Este foi provavelmente um sucesso para o negócio, mas causou Google Flu Trends para prevalência da gripe excesso de estimativa (Lazer et al. 2014) .

Felizmente, esses problemas com o Google Flu Trends são solucionáveis. De fato, usando métodos mais cuidadosos, Lazer et al. (2014) e Yang, Santillana, and Kou (2015) foram capazes de obter melhores resultados. Daqui para frente, espero que os estudos nowcasting que combinam dados grandes com o pesquisador coletou dados-que combinam Readymades Duchamp de estilo com Michaelangelo de estilo Custommades-permitirão aos decisores políticos para produzir medições mais rápidas e precisas do presente e previsões do futuro.