Prognose für die Zukunft ist hart, aber die Gegenwart der Vorhersage ist einfacher.
Die zweite Hauptstrategie von Forschern mit Beobachtungsdaten prognostiziert. Prognose für die Zukunft ist notorisch schwierig, aber es kann für Entscheider unglaublich wichtig sein, ob sie in Unternehmen oder Regierungen arbeiten.
Kleinberg et al. (2015) bietet zwei Geschichten , die die Bedeutung der Prognose für bestimmte politische Probleme zu klären. Stellen Sie sich einen politischen Entscheidungsträger, ich werde sie Anna nennen, die eine Dürre konfrontiert und muss entscheiden, ob ein Schamane zu mieten einen regen Tanz zu tun, um die Chance, regen zu erhöhen. Ein weiterer politischer Entscheidungsträger, ich werde ihn Bob nennen, muss entscheiden, ob einen Regenschirm zur Arbeit nach Hause nass auf dem Weg zu vermeiden. Sowohl Anna und Bob kann eine bessere Entscheidung treffen, wenn sie Wetter verstehen, aber sie brauchen, um verschiedene Dinge wissen. Anna muss verstehen, ob der regen Tanz verursacht regen. Bob, auf der anderen Seite, braucht nichts über die Kausalität zu verstehen; er braucht nur eine genaue Prognose. Sozialforscher konzentrieren sich häufig auf das, was Kleinberg et al. (2015) nennen "regen Tanz-like" Politik Probleme-diejenigen , die sich darauf konzentrieren , Kausalität und ignorieren "umbrella-like" Politik Probleme , die auf Prognose fokussiert sind.
Ich möchte jedoch zu konzentrieren, auf eine besondere Art von Prognose genannt Nowcasting -a aus der Kombination von "jetzt" Begriff abgeleitet und "Prognose." Anstatt die Zukunft vorherzusagen, Nowcasting Versuche , die gegenwärtig zur Vorhersage (Choi and Varian 2012) . Mit anderen Worten verwendet Nowcasting Prognoseverfahren für Probleme der Messung. Als solches sollte es besonders nützlich für die Regierungen sein, die über ihre Länder rechtzeitige und genaue Maßnahmen erfordern. Nowcasting kann mit dem Beispiel von Google Grippe-Trends am deutlichsten veranschaulicht werden.
Stellen Sie sich vor, dass Sie ein wenig unter dem Wetter fühlen, so dass Sie "Grippemittel" in eine Suchmaschine eingeben, eine Seite mit Links in Antwort erhalten, und folgen Sie einer von ihnen eine hilfreiche Webseite. Nun ist diese Tätigkeit vorstellen, dass aus der Sicht der Suchmaschine ausgespielt. Jeder Moment, Millionen von Anfragen ankommen aus der ganzen Welt, und dieser Strom von Anfragen-was Battelle (2006) die "Datenbank der Absichten" genannt hat - bietet eine ständig aktualisierte Fenster in das kollektive globale Bewusstsein. Jedoch ist diese Drehinformationsstrom in eine Messung der Prävalenz der flu schwierig. Einfach die Anzahl der Abfragen für "Grippemittel" Zählen vielleicht nicht gut funktionieren. Nicht jeder, der die Grippe sucht nach Grippemittel hat und nicht alle, die Forscher für Grippemittel, die Grippe hat.
Der wichtige und cleveren Trick hinter Google Grippe - Trends war es, ein Messproblem in ein Prognose Problem zu machen. Die US Centers for Disease Control and Prevention (CDC) hat eine Influenza-Überwachungssystem, das Informationen von Ärzten im ganzen Land sammelt. Allerdings ist ein Problem mit dieser CDC-System gibt es eine zweiwöchige Berichterstattung lag; die Zeit, die das für die Daten von Ärzten nimmt gereinigt, verarbeitet und publiziert werden. Aber, wenn eine sich ausbreitende Epidemie Umgang mit Gesundheitsämter wollen nicht wissen, wie viel Grippe dort vor zwei Wochen war; sie wollen wissen, wie viel Grippe jetzt da ist. In der Tat, in vielen anderen traditionellen Quellen der Sozialdaten, gibt es Lücken zwischen den Wellen der Datenerhebung und Berichterstattung Lags. Die meisten großen Datenquellen, auf der anderen Seite, sind stets auf (Abschnitt 2.3.1.2).
Daher Jeremy Ginsberg und Kollegen (2009) versucht , die CDC Grippe Daten aus den Google - Suchdaten vorherzusagen. Dies ist ein Beispiel für "die Vorhersage der Gegenwart", weil die Forscher, wie viel Grippe zu messen versuchten, gibt es jetzt von den künftigen Daten aus der CDC, zukünftige Daten die Vorhersage, dass die Gegenwart misst. Mit Hilfe des maschinellen Lernens, sie durchsuchte 50 Millionen verschiedene Suchbegriffe, um zu sehen, welche sind die meisten prädiktiven der CDC Grippedaten. Letztendlich fanden sie eine Reihe von 45 verschiedenen Abfragen, die schienen die meisten prädiktiven zu sein, und die Ergebnisse waren sehr gut: sie die Suchdaten verwenden könnten die CDC Daten zu prognostizieren. Basierend teilweise auf diesem Papier, das in Nature veröffentlicht wurde, wurde Google Grippe - Trends eine oft wiederholte Erfolgsgeschichte über die Macht der großen Daten.
Es gibt zwei wichtige Vorbehalte zu dieser scheinbaren Erfolg, aber, und diese Einschränkungen zu verstehen, wird Ihnen helfen, zu bewerten und zu tun Prognose und Nowcasting. Erstens war die Leistung von Google Grippe - Trends tatsächlich nicht viel besser als ein einfaches Modell , das die Menge an Grippe schätzt basierend auf einer linearen Extrapolation aus den beiden jüngsten Messungen der Grippe - Prävalenz (Goel et al. 2010) . Und über einige Zeitperioden Google Grippe - Trends war eigentlich noch schlimmer als diese einfache Ansatz (Lazer et al. 2014) . Mit anderen Worten, mit Google Grippe-Trends alle seine Daten, maschinelles Lernen und leistungsstarke Computing hat outperform nicht dramatisch ein einfacher und einfacher Heuristik zu verstehen. Dies deutet darauf hin , dass , wenn jede Prognose Auswertung oder nowcast es wichtig ist , gegen eine Grundlinie zu vergleichen.
Der zweite wichtige Einschränkung über Google Grippe - Trends ist , dass seine Fähigkeit , die CDC Grippe Daten war anfällig für kurzfristige Ausfall und langfristigen Verfall wegen der Drift und algorithmische verwirrende zu prognostizieren. Zum Beispiel während der 2009 Ausbruch der Schweinegrippe Google Grippe - Trends dramatisch überschätzt die Menge an Influenza, wahrscheinlich , weil die Menschen neigen dazu, ihre Suchverhalten in Reaktion auf weit verbreitete Angst vor einer globalen Pandemie ändern (Cook et al. 2011; Olson et al. 2013) . Neben diesen kurzfristigen Probleme, verfallen die Leistung nach und nach im Laufe der Zeit. Diagnostizieren die Gründe für diese langfristigen Verfall sind schwierig, weil die Google-Suchalgorithmen sind urheberrechtlich geschützt, aber es scheint, dass im Jahr 2011 Google Änderungen vorgenommen, die im Zusammenhang mit Suchbegriffen vorschlagen würde, wenn die Menschen auf Symptome wie "Fieber" suchen und "Husten" (es auch scheinen dass diese Funktion nicht mehr aktiv ist). diese Funktion Hinzufügen ist eine völlig vernünftige Sache zu tun, wenn Sie eine Suchmaschine Unternehmen ausgeführt werden, und es hatte den Effekt von mehr gesundheitsbezogenen Suchanfragen zu erzeugen. Dies war wahrscheinlich ein Erfolg für das Geschäft, aber es verursacht Google Grippe - Trends zu einer Überschätzung der Grippe - Prävalenz (Lazer et al. 2014) .
Glücklicherweise sind diese Probleme mit Google Grippe-Trends fixierbar. In der Tat, mit vorsichtiger Methoden, Lazer et al. (2014) und Yang, Santillana, and Kou (2015) waren in der Lage , bessere Ergebnisse zu erhalten. vorwärts, gehen ich davon aus, dass Nowcasting Studien, die große Datenmengen mit Forscher kombinieren Daten, die gesammelt Duchamp-Stil Readymades mit Michelangelos Stil kombinieren Custommades-werden die politischen Entscheidungsträger zu produzieren schnellere und genauere Messungen der Gegenwart und Vorhersagen der Zukunft ermöglichen.