未来を予測することは難しいですが、本を予測することは容易です。
研究者が観測データで使用できる第2の主要戦略は予測している 。将来についての予測をすることは難しいことであり、おそらくその理由から、予測は社会的研究の大部分ではない(それは人口統計学、経済学、疫学学、政治学の小規模かつ重要な部分であるが)。しかし、ここでは、「今」と「予測」を組み合わせた「今キャスティング 」という特殊な予測に焦点を当てたいと思います。未来を予測するのではなく、予測からアイデアを使用して現在の状態世界の;それは「現在を予測する」ことを試みる(Choi and Varian 2012) 。ナウキャスティングは、世界のタイムリーかつ正確な測定を必要とする政府や企業にとって特に有用な可能性を秘めています。
タイムリーで正確な測定の必要性が非常に明確な1つの設定は疫学です。インフルエンザ(「インフルエンザ」)の症例を考えてみましょう。毎年、季節性インフルエンザの流行は世界中で数百万の病気と数十万人の死亡を引き起こします。さらに、毎年、数百万を殺すような新しい形のインフルエンザが出現する可能性があります。例えば、1918年のインフルエンザの流行は、50〜100万人の人々を殺したと推定されている(Morens and Fauci 2007) 。インフルエンザの流行を追跡し、潜在的に対応する必要があるため、世界中の政府はインフルエンザ監視システムを作成しています。例えば、米国疾病管理予防センター(CDC)は、定期的かつ体系的に、厳選された医師からの情報を全国的に収集しています。このシステムは高品質のデータを生成しますが、報告遅延があります。つまり、医師から届いたデータをきれいにし、処理し、公表するのにかかる時間のために、CDCシステムは、2週間前のインフルエンザの量を推定する。しかし、新興流行を扱う際、公衆衛生当局は2週間前にインフルエンザがどれくらいあるか知りたくはありません。彼らは今インフルエンザがどれくらいあるかを知りたい。
CDCがインフルエンザを追跡するためのデータを収集すると同時に、Googleはインフルエンザの流行に関するデータも収集していますが、全く異なる形です。世界中の人々がGoogleに絶えずクエリを送信しており、「インフルエンザの救済」や「インフルエンザの兆候」などのクエリの中には、クエリを作成した人がインフルエンザを発症している可能性があります。しかし、これらの検索クエリを使用してインフルエンザの流行を推定するのは難しいです。インフルエンザを持つすべての人がインフルエンザ関連の検索を行うわけではなく、すべてのインフルエンザ関連の検索がインフルエンザを患う人からではありません。
ジェレミー・ギンズバーグと同僚のチーム(2009) 、GoogleとCDCの両方で、これらの2つのデータソースを組み合わせる重要かつ賢明なアイディアを持っていました。おおまかに言えば、一種の統計的錬金術を通じて、迅速かつ正確なCDCデータと迅速かつ不正確な検索データを組み合わせて、インフルエンザの流行を迅速かつ正確に測定します。考えてみるもう一つの方法は、検索データを使ってCDCデータを高速化することです。
より具体的には、2003年から2007年のデータを用いて、Ginsbergらは、CDCデータにおけるインフルエンザの流行と5000万の異なる用語に対する検索量との関係を推定した。研究者は、完全にデータ駆動型であり、専門的な医学的知識を必要としないこのプロセスから、CDCのインフルエンザのデータを最も予測すると思われる45の異なるクエリのセットを発見しました。その後、2003-2007年のデータから学んだ関係を用いて、Ginsbergらは2007-2008年のインフルエンザシーズンにモデルをテストしました。彼らは、彼らの手続きが実際に有用で正確な現在のキャストキャストを作ることができることを発見しました(図2.6)。これらの結果はNatureに掲載され、報道の報道を受けました。 Google Flu Trendsと呼ばれたこのプロジェクトは、世界を変える大きなデータの力について頻繁に繰り返される寓話になりました。
しかし、この明らかな成功の話は結局は恥ずかしいものになりました。研究者は、時間の経過とともに、最初に現れたよりも、第1に、Googleインフルエンザ流行の実績は、インフルエンザの最新の2つの測定値から線形補外に基づいてインフルエンザの量を推定する単純なモデルのそれよりも実際にはあまり良くありませんでした(Goel et al. 2010) 。そして、ある期間では、Google Flu Trendは実際にはこの単純なアプローチ(Lazer et al. 2014)よりも悪いものでした。つまり、すべてのデータ、機械学習、強力なコンピューティングを備えたGoogleインフルトレンドは、シンプルでわかりやすいヒューリスティックよりも劇的に優れていませんでした。これは、予測や現在のキャストを評価する際に、ベースラインと比較することが重要であることを示しています。
Googleインフルエンザ流行に関する第2の重要な注意点は、CDCのインフルエンザデータを予測する能力が、 ドリフトとアルゴリズムの混乱のために短期間の失敗や長期的な衰退を起こしやすいことです。たとえば、2009年の豚インフルエンザの流行中にGoogle Flu Trendsはインフルエンザの量を劇的に過大評価しました。恐らく世界中のパンデミックの広範な恐怖に対応して検索行動を変える傾向があるからです(Cook et al. 2011; Olson et al. 2013) 。これらの短期的な問題に加えて、パフォーマンスは徐々に低下しました。 Googleの検索アルゴリズムは独自のものであるため、この長期的な崩壊の理由を診断するのは難しいですが、2011年にGoogleでは「発熱」や「咳」などのインフルエンザの症状を検索する際に関連する検索用語を提案し始めましたこの機能はもはやアクティブではありません)。この機能を追加することは、検索エンジンを実行している場合にはまったく合理的なことですが、このアルゴリズムの変更は、Googleインフルエンザ流行(Lazer et al. 2014)インフルエンザの流行を過大評価するような、より多くの健康関連検索を生成する効果をもたらしました(Lazer et al. 2014) 。
これらの2つの警告は、将来のキャストキャスティングの努力を複雑にしますが、それらを破壊しません。事実、より注意深い方法を用いることによって、 Lazer et al. (2014) 、 Yang, Santillana, and Kou (2015)はこれらの2つの問題を回避することができた。今後は、大きなデータソースと研究者が収集したデータを組み合わせた最新の研究により、企業や政府は、遅れをとりながら何度も繰り返される測定を本質的にスピードアップすることにより、よりタイムリーかつ正確な見積もりを作成できるようになります。 Googleインフルエンザトレンドなどのナウキャスティングプロジェクトでは、大きなデータソースと研究目的で作成された従来のデータとを組み合わせるとどうなるかが示されます。第1章の芸術的な類推を考えてみると、現在のキャスティングは、デュシャンスタイルのレディメイドとミケランジェロスタイルのカスタムメイドを組み合わせて、意思決定者に近い将来の現在および予測をよりタイムリーかつ正確に測定できるようにします。