Prédire l'avenir est difficile, mais prédire le présent est plus facile.
La deuxième stratégie principale que les chercheurs peuvent utiliser avec des données d'observation est la prévision . Il est notoirement difficile de faire des suppositions sur l'avenir, et c'est peut-être pour cette raison que les prévisions ne constituent pas actuellement une part importante de la recherche sociale (bien qu'elle soit une composante importante de la démographie, de l'économie, de l'épidémiologie et des sciences politiques). Ici, cependant, je voudrais me concentrer sur un type particulier de prévision appelé nowcasting - un terme dérivé de combiner «maintenant» et «prévision». Plutôt que de prédire l'avenir, les prévisions immédiates utilisent des idées de prévision pour mesurer l'état actuel du monde; il tente de «prédire le présent» (Choi and Varian 2012) . La prévision immédiate a le potentiel d'être particulièrement utile aux gouvernements et aux entreprises qui exigent des mesures précises et opportunes du monde.
Un paramètre où la nécessité d'une mesure précise et opportune est très claire est l'épidémiologie. Considérez le cas de la grippe ("la grippe"). Chaque année, les épidémies de grippe saisonnière provoquent des millions de maladies et des centaines de milliers de décès dans le monde. En outre, chaque année, il est possible qu'une nouvelle forme de grippe puisse émerger et tuer des millions de personnes. L'épidémie de grippe de 1918, par exemple, aurait tué entre 50 et 100 millions de personnes (Morens and Fauci 2007) . En raison de la nécessité de suivre et potentiellement répondre aux épidémies de grippe, les gouvernements du monde entier ont créé des systèmes de surveillance de la grippe. Par exemple, les Centers for Disease Control and Prevention (CDC) des États-Unis collectent régulièrement et systématiquement des informations auprès de médecins soigneusement sélectionnés dans le pays. Bien que ce système produise des données de haute qualité, il présente un retard de déclaration. C'est-à-dire qu'en raison du temps nécessaire pour que les données provenant des médecins soient nettoyées, traitées et publiées, le système CDC publie des estimations de la quantité de grippe qu'il y a deux semaines. Mais, face à une épidémie émergente, les responsables de la santé publique ne veulent pas savoir combien de grippe il y a deux semaines; ils veulent savoir combien il y a de grippe à l'heure actuelle.
En même temps que la CDC collecte des données pour suivre la grippe, Google recueille également des données sur la prévalence de la grippe, bien que sous une forme très différente. Des personnes du monde entier envoient constamment des requêtes à Google, et certaines de ces requêtes, telles que les «remèdes contre la grippe» et les «symptômes de la grippe», peuvent indiquer que la personne qui pose la question est grippée. Mais il est difficile d'utiliser ces requêtes de recherche pour estimer la prévalence de la grippe: toutes les personnes grippées ne font pas de recherche sur la grippe, et toutes les recherches liées à la grippe ne proviennent pas d'une personne grippée.
Jeremy Ginsberg et une équipe de collègues (2009) , certains chez Google et d'autres chez CDC, ont eu l'idée importante et astucieuse de combiner ces deux sources de données. En gros, grâce à une sorte d'alchimie statistique, les chercheurs ont combiné les données de recherche rapide et inexacte avec les données CDC lentes et précises afin de produire des mesures rapides et précises de la prévalence de la grippe. Une autre façon d'y penser est qu'ils ont utilisé les données de recherche pour accélérer les données CDC.
Plus précisément, en utilisant les données de 2003 à 2007, Ginsberg et ses collègues ont estimé la relation entre la prévalence de la grippe dans les données CDC et le volume de recherche pour 50 millions de termes distincts. À partir de ce processus, entièrement basé sur les données et ne nécessitant pas de connaissances médicales spécialisées, les chercheurs ont trouvé un ensemble de 45 requêtes différentes qui semblaient être les plus prédictives des données de prévalence de la grippe CDC. Puis, en utilisant les relations qu'ils ont apprises à partir des données de 2003-2007, Ginsberg et ses collègues ont testé leur modèle durant la saison grippale 2007-2008. Ils ont constaté que leurs procédures pouvaient en effet faire des prévisions immédiates utiles et précises (figure 2.6). Ces résultats ont été publiés dans Nature et ont reçu une couverture de presse adorante. Ce projet, appelé Google Flu Trends, est devenu une parabole souvent répété sur la puissance du big data pour changer le monde.
Cependant, cette histoire de succès apparente s'est finalement transformée en embarras. Au fil du temps, les chercheurs ont découvert deux limitations importantes qui rendent Google Suivi de la grippe moins impressionnant qu'il ne l'était initialement. Tout d'abord, la performance de Google Flu Trends n'était pas vraiment meilleure que celle d'un modèle simple qui estime la quantité de grippe basée sur une extrapolation linéaire des deux mesures les plus récentes de la prévalence de la grippe (Goel et al. 2010) . Et, sur certaines périodes, Google Flu Trends était pire que cette simple approche (Lazer et al. 2014) . En d'autres termes, Google Flu Trends, avec toutes ses données, l'apprentissage automatique et l'informatique puissante, n'a pas surpassé de façon spectaculaire une heuristique simple et facile à comprendre. Cela suggère que lors de l'évaluation de toute prévision ou prévision immédiate, il est important de comparer par rapport à une base de référence.
La deuxième mise en garde importante à propos de Google Flu Trends est que sa capacité à prédire les données de la grippe CDC était sujette à l'échec à court terme et à la décroissance à long terme en raison de la dérive et de la confusion algorithmique . Par exemple, lors de l'épidémie de grippe porcine de 2009, Google Flu Trends a considérablement surestimé la quantité de grippe, probablement parce que les gens ont tendance à modifier leur comportement de recherche en réponse à une pandémie mondiale (Cook et al. 2011; Olson et al. 2013) . En plus de ces problèmes à court terme, la performance s'est progressivement détériorée avec le temps. Il est difficile de diagnostiquer les raisons de cette dégradation à long terme, car les algorithmes de recherche de Google sont propriétaires, mais il semble que Google ait commencé à suggérer des termes de recherche lorsque les gens recherchent des symptômes de grippe comme «fièvre» et «toux». cette fonctionnalité n'est plus active). L'ajout de cette fonctionnalité est tout à fait raisonnable si vous utilisez un moteur de recherche, mais ce changement d'algorithme a eu pour effet de générer davantage de recherches liées à la santé, ce qui a conduit Google Flu Trends à surestimer la prévalence de la grippe (Lazer et al. 2014) .
Ces deux mises en garde compliquent les futurs efforts de prévision immédiate, mais elles ne les condamnent pas. En fait, en utilisant des méthodes plus prudentes, Lazer et al. (2014) et Yang, Santillana, and Kou (2015) ont pu éviter ces deux problèmes. À l'avenir, je pense que les études de prévision immédiate combinant des sources de données volumineuses et des données recueillies par les chercheurs permettront aux entreprises et aux gouvernements de produire des estimations plus précises et plus rapides en accélérant les mesures répétées dans le temps. Les projets de prévision immédiate, tels que Google Flu Trends, montrent également ce qui peut arriver si des sources de données volumineuses sont combinées avec des données plus traditionnelles créées à des fins de recherche. En repensant à l'analogie de l'art du chapitre 1, la prévision immédiate a le potentiel de combiner les ready-mades de type Duchamp avec les coutumes de Michel-Ange afin de fournir aux décideurs des mesures plus précises et plus précises du présent et des prédictions du futur proche.