Prognose für die Zukunft ist hart, aber die Gegenwart der Vorhersage ist einfacher.
Die zweite Hauptstrategie, die Forscher mit Beobachtungsdaten verwenden können, ist die Vorhersage . Es ist bekanntlich schwierig, über die Zukunft zu raten, und vielleicht ist die Vorhersage deshalb derzeit kein großer Teil der Sozialforschung (obwohl sie ein kleiner und wichtiger Teil der Demographie, der Wirtschaft, der Epidemiologie und der Politikwissenschaft ist). Hier möchte ich mich jedoch auf eine spezielle Art von Prognose mit dem Namen " Nowcasting" konzentrieren - ein Begriff, der aus der Kombination von "Jetzt" und "Prognose" abgeleitet wird. Nowcasting versucht nicht, die Zukunft vorherzusagen, sondern nutzt Ideen aus der Prognose, um den aktuellen Zustand zu messen der Welt; es versucht "die Gegenwart vorherzusagen" (Choi and Varian 2012) . Nowcasting hat das Potenzial, besonders nützlich für Regierungen und Unternehmen zu sein, die zeitnahe und genaue Maßnahmen der Welt benötigen.
Eine Situation, in der die Notwendigkeit einer zeitnahen und genauen Messung sehr klar ist, ist die Epidemiologie. Betrachten wir den Fall der Influenza ("die Grippe"). Jedes Jahr verursachen saisonale Grippeepidemien Millionen von Krankheiten und Hunderttausende von Todesfällen auf der ganzen Welt. Darüber hinaus besteht jedes Jahr die Möglichkeit, dass eine neue Form der Grippe entstehen könnte, die Millionen töten würde. Der Ausbruch der Grippe von 1918 beispielsweise hat schätzungsweise 50 bis 100 Millionen Menschen getötet (Morens and Fauci 2007) . Aufgrund der Notwendigkeit, Influenza-Ausbrüche zu verfolgen und möglicherweise darauf zu reagieren, haben Regierungen auf der ganzen Welt Influenza-Überwachungssysteme geschaffen. Zum Beispiel sammeln die US-Zentren für Krankheitskontrolle und Prävention (CDC) regelmäßig und systematisch Informationen von sorgfältig ausgewählten Ärzten im ganzen Land. Obwohl dieses System qualitativ hochwertige Daten erzeugt, weist es eine Berichtsverzögerung auf. Das heißt, aufgrund der Zeit, die benötigt wird, bis die Daten, die von den Ärzten ankommen, gereinigt, verarbeitet und veröffentlicht werden, gibt das CDC-System Schätzungen darüber, wie viel Grippe es vor zwei Wochen gab. Aber im Umgang mit einer aufkommenden Epidemie wollen Beamte des öffentlichen Gesundheitswesens nicht wissen, wie groß die Influenza vor zwei Wochen war. Sie wollen wissen, wie viel Grippe es gerade gibt.
Während das CDC Daten sammelt, um die Influenza zu verfolgen, sammelt Google Daten über die Influenza-Prävalenz, wenn auch in einer ganz anderen Form. Menschen aus der ganzen Welt senden ständig Anfragen an Google, und einige dieser Fragen - wie "Grippemedikamente" und "Grippesymptome" - könnten darauf hinweisen, dass die Person, die die Anfrage stellt, die Grippe hat. Aber diese Suchanfragen zu verwenden, um die Grippeprävalenz zu schätzen, ist schwierig: Nicht jeder, der die Grippe hat, macht eine grippebedingte Suche, und nicht jede grippebezogene Suche stammt von jemandem, der an Grippe erkrankt ist.
Jeremy Ginsberg und ein Team von Kollegen (2009) , einige bei Google und einige bei CDC, hatten die wichtige und clevere Idee, diese beiden Datenquellen zu kombinieren. Grob gesagt, durch eine Art statistischer Alchemie, kombinierten die Forscher die schnellen und ungenauen Suchdaten mit den langsamen und genauen CDC-Daten, um schnelle und genaue Messungen der Influenza-Prävalenz zu erstellen. Eine andere Möglichkeit, darüber nachzudenken, ist, dass sie die Suchdaten verwendeten, um die CDC-Daten zu beschleunigen.
Genauer gesagt schätzten Ginsberg und Kollegen anhand der Daten von 2003 bis 2007 die Beziehung zwischen der Prävalenz von Influenza in den CDC-Daten und dem Suchvolumen für 50 Millionen verschiedene Begriffe. Aus diesem Prozess, der vollständig datengetrieben war und kein spezialisiertes medizinisches Wissen erforderte, fanden die Forscher eine Reihe von 45 verschiedenen Abfragen, die am aussagekräftigsten für die CDC-Grippe-Prävalenzdaten zu sein schienen. Dann testeten Ginsberg und Kollegen mit Hilfe der Beziehungen, die sie aus den Daten von 2003-2007 gelernt hatten, ihr Modell während der Grippesaison 2007/2008. Sie stellten fest, dass ihre Verfahren in der Tat nützliche und genaue Nowcasts ergeben könnten (Abbildung 2.6). Diese Ergebnisse wurden in Nature veröffentlicht und in der Presse bejubelt. Dieses Projekt, das Google Flu Trends genannt wurde, wurde zu einer oft wiederholten Parabel über die Macht der Big Data, um die Welt zu verändern.
Diese scheinbare Erfolgsgeschichte wurde jedoch schließlich zu einer Verlegenheit. Im Laufe der Zeit entdeckten die Forscher zwei wichtige Einschränkungen, die Google Grippe-Trends weniger beeindruckend machen, als sie ursprünglich erschienen. Erstens war die Leistung von Google Flu Trends tatsächlich nicht viel besser als die eines einfachen Modells, das die Grippe anhand einer linearen Extrapolation aus den zwei jüngsten Messungen der Grippeprävalenz schätzt (Goel et al. 2010) . Google Grippe-Trends waren in bestimmten Zeiträumen sogar schlechter als dieser einfache Ansatz (Lazer et al. 2014) . Mit anderen Worten, Google Flu Trends mit all seinen Daten, maschinellem Lernen und leistungsfähigem Computing hat eine einfache und leichter zu verstehende Heuristik nicht dramatisch übertroffen. Dies legt nahe, dass bei der Bewertung einer Prognose oder eines Nowcasts ein Vergleich mit einer Baseline wichtig ist.
Der zweite wichtige Vorbehalt gegenüber Google Grippe-Trends ist, dass seine Fähigkeit, die CDC-Grippedaten vorherzusagen, aufgrund von Drift und algorithmischen Verwirrungen anfällig für kurzfristige Ausfälle und langfristigen Verfall war. Zum Beispiel überschätzte Google Grippe-Trends während des Schweinegrippebeginns 2009 die Influenza drastisch, wahrscheinlich weil Menschen ihr Suchverhalten als Reaktion auf weit verbreitete Angst vor einer globalen Pandemie ändern (Cook et al. 2011; Olson et al. 2013) . Zusätzlich zu diesen kurzfristigen Problemen verschlechterte sich die Leistung allmählich mit der Zeit. Es ist schwierig, die Gründe für diesen langfristigen Verfall zu ermitteln, da die Google-Suchalgorithmen proprietär sind. Google scheint jedoch im Jahr 2011 verwandte Suchbegriffe vorgeschlagen zu haben, wenn Menschen nach Grippesymptomen wie "Fieber" und "Husten" suchen Diese Funktion ist nicht mehr aktiv). Das Hinzufügen dieser Funktion ist zwar eine vernünftige Sache, wenn Sie eine Suchmaschine betreiben, aber diese algorithmische Änderung bewirkte, dass mehr gesundheitsbezogene Suchanfragen generiert wurden, die dazu führten, dass Google Flu Trends die Grippeprävalenz überschätze (Lazer et al. 2014) .
Diese beiden Vorbehalte komplizieren zukünftige Nowcasting-Bemühungen, aber sie unterminieren sie nicht. In der Tat, durch vorsichtigere Methoden, Lazer et al. (2014) und Yang, Santillana, and Kou (2015) konnten diese beiden Probleme vermeiden. In Zukunft erwarte ich, dass Nowcasting-Studien, die große Datenquellen mit von Forschern gesammelten Daten kombinieren, Unternehmen und Regierungen in die Lage versetzen, zeitnahe und genauere Schätzungen zu erstellen, indem sie Messungen, die wiederholt mit zeitlicher Verzögerung durchgeführt werden, wesentlich beschleunigen. Nowcasting-Projekte wie Google Flu Trends zeigen auch, was passieren kann, wenn große Datenquellen mit traditionelleren Daten kombiniert werden, die für Forschungszwecke erstellt wurden. In Rückschau auf die Analogie zu Kapitel 1, hat Nowcasting das Potenzial, Duchamp-Readymades mit Michelangelo-ähnlichen Custommades zu kombinieren, um Entscheidungsträgern zeitnähere und genauere Messungen der Gegenwart und Vorhersagen der nahen Zukunft zu ermöglichen.