2.4.2 Prévision et nowcasting

Prédire l'avenir est difficile, mais prédire le présent est plus facile.

La deuxième stratégie principale utilisée par les chercheurs avec des données d' observation prévoit. Prédire l'avenir est notoirement difficile, mais il peut être extrêmement important pour les décideurs, qu'ils travaillent dans des entreprises ou des gouvernements.

Kleinberg et al. (2015) propose deux histoires qui clarifient l'importance des prévisions pour certains problèmes politiques. Imaginez un décideur, je l'appelle Anna, qui fait face à une sécheresse et doit décider d'embaucher un chaman pour faire une danse de la pluie pour augmenter le risque de pluie. Un autre décideur, je vais l'appeler Bob, doit décider de prendre un parapluie à travailler pour éviter de se mouiller sur le chemin du retour. Anna et Bob peuvent prendre une meilleure décision si elles comprennent la météo, mais ils ont besoin de savoir des choses différentes. Anna a besoin de comprendre si la danse de la pluie provoque la pluie. Bob, d'autre part, n'a pas besoin de comprendre quoi que ce soit sur la causalité; il a juste besoin d'une prévision précise. Chercheurs sociaux se concentrent souvent sur ​​ce que Kleinberg et al. (2015) appellent "rain dance-like" problèmes-les politiques qui mettent l' accent sur ​​la causalité et ne tiennent pas compte des problèmes de politique "parapluie" qui sont axés sur la prévision.

Je voudrais mettre l' accent, cependant, sur un type particulier de prévision appelé nowcasting, terme dérivé de la combinaison «maintenant» et «prévision». Plutôt que de prédire l'avenir, la prévision immédiate des tentatives pour prédire le présent (Choi and Varian 2012) . En d'autres termes, nowcasting utilise des méthodes de prévision pour les problèmes de mesure. En tant que tel, il devrait être particulièrement utile aux gouvernements qui ont besoin de mesures opportunes et précises sur leur pays. Nowcasting peut être illustré le plus clairement avec l'exemple de Google Flu Trends.

Imaginez que vous vous sentez un peu sous le temps de sorte que vous tapez "remèdes contre la grippe» dans un moteur de recherche, recevoir une page de liens en réponse, puis suivez l'un d'entre eux à une page Web utile. Maintenant, imaginez cette activité se joue du point de vue du moteur de recherche. A chaque instant, des millions de requêtes arrivent de partout dans le monde, et ce flux de requêtes-ce que Battelle (2006) a appelé la «base de données des intentions» - fournit une fenêtre constamment mis à jour dans la conscience collective mondiale. Cependant, transformant ce flux d'informations dans une mesure de la prévalence de la grippe est difficile. Il suffit de compter le nombre de requêtes pour "remèdes contre la grippe» pourrait ne pas fonctionner correctement. Pas tout le monde qui a les recherches de la grippe pour remèdes contre la grippe et non pas tout le monde qui les chercheurs pour remèdes contre la grippe a la grippe.

L'astuce importante et intelligente derrière Google Flu Trends était de transformer un problème de mesure dans un problème de prévision. Les Centers for Disease Control and Prevention (CDC) a un système de surveillance de la grippe qui recueille des informations auprès des médecins à travers le pays. Cependant, un problème avec ce système CDC est qu'il ya un décalage de deux rapports de la semaine; le temps qu'il faut pour les données en provenance de médecins à nettoyer, traitées et publiées. Mais, lors de la manipulation d'une épidémie émergente, les bureaux de santé publique ne veulent pas savoir combien il y avait la grippe il y a deux semaines; ils veulent savoir combien la grippe, il est en ce moment. En fait, dans de nombreuses autres sources traditionnelles de données sociales, il existe des écarts entre les vagues de collecte de données et les retards de déclaration. La plupart des sources de données de grandes, d'autre part, sont toujours sur (section 2.3.1.2).

Par conséquent, Jeremy Ginsberg et ses collègues (2009) ont tenté de prédire les données de la grippe CDC à partir des données de recherche Google. Ceci est un exemple de «prédire le présent» parce que les chercheurs ont essayé de mesurer combien la grippe, il est maintenant en prédisant des données futures de la CDC, les données futures qui mesure le présent. Utilisation de l'apprentissage machine, ils ont cherché à travers 50 millions de termes de recherche différents pour voir qui sont les plus prédictive des données de la grippe du CDC. En fin de compte, ils ont trouvé un ensemble de 45 requêtes différentes qui semblait être le plus prédictif, et les résultats étaient assez bons: ils pourraient utiliser les données de recherche pour prédire les données CDC. Basé en partie sur ce document, qui a été publié dans Nature, Google Flu Trends est devenu un succès souvent répété sur le pouvoir des grandes données.

Il y a deux importantes mises en garde à ce succès apparent, cependant, et la compréhension de ces mises en garde vous aideront à évaluer et à faire la prévision et la prévision immédiate. Tout d' abord, les performances de Google Flu Trends était en fait pas beaucoup mieux qu'un modèle simple qui estime le montant de la grippe sur la base d' une extrapolation linéaire à partir des deux mesures les plus récentes de la prévalence de la grippe (Goel et al. 2010) , (Goel et al. 2010) . Et, au cours des périodes de temps Google Flu Trends était en fait pire que cette approche simple (Lazer et al. 2014) . En d'autres termes, Google Flu Trends avec toutes ses données, l'apprentissage machine, et puissante informatique n'a pas surperformer de façon spectaculaire un simple et plus facile à comprendre heuristique. Cela donne à penser que lorsque l' évaluation de toute prévision ou nowcast il est important de comparer à une base de référence.

La deuxième mise en garde importante à propos de Google Flu Trends est que sa capacité à prédire les données de la grippe CDC était sujette à l' échec à court terme et la pourriture à long terme en raison de la dérive et de confusion algorithmique. Par exemple, au cours de 2009 épidémie de grippe porcine Google Flu Trends considérablement surestimé le montant de la grippe, probablement parce que les gens ont tendance à modifier leur comportement de recherche en réponse à une peur généralisée d'une pandémie mondiale (Cook et al. 2011; Olson et al. 2013) . En plus de ces problèmes à court terme, la performance cariées progressivement au fil du temps. Diagnostiquer les raisons de cette longue désintégration terme sont difficiles parce que les algorithmes de recherche de Google sont propriétaires, mais il semble que, en 2011 Google a apporté des modifications qui pourrait suggérer des termes de recherche liés quand les gens recherchent des symptômes tels que la «fièvre» et «toux» (il semble aussi que cette fonctionnalité est plus actif). L'ajout de cette fonctionnalité est une chose tout à fait raisonnable de le faire si vous exécutez une entreprise de moteur de recherche, et il a eu pour effet de générer plus de recherches liées à la santé. Ce fut probablement un succès pour l'entreprise, mais il a causé Google Flu Trends à surestimer la prévalence de la grippe (Lazer et al. 2014) .

Heureusement, ces problèmes avec Google Flu Trends sont réparable. En fait, en utilisant des méthodes plus prudentes, Lazer et al. (2014) et Yang, Santillana, and Kou (2015) ont été en mesure d'obtenir de meilleurs résultats. À l'avenir, je pense que les études de prévision instantanée qui combinent les grandes données avec le chercheur a recueilli des données-qui combinent Readymades Duchamp style avec Michaelangelo style Custommades-permettront aux décideurs de produire des mesures plus rapides et plus précis de la présente et des prévisions de l'avenir.