2.4.2予測とnowcasting

未来を予測することは難しいですが、本を予測することは容易です。

観測データとの研究者によって使用される第二の主な戦略は予測しています。未来を予測することは難しいことで悪名が高いが、それは彼らが企業や政府機関で働くかどうか、意思決定者のために非常に重要であり得ます。

Kleinberg et al. (2015) 、特定のポリシーの問題を予測することの重要性を明確に2階建てを提供しています。 1つのポリシーメーカーを想像してみて、私は干ばつに直面していると雨の可能性を高めるために、雨のダンスを行うにはシャーマンを雇うするかどうかを決定しなければならない彼女のアンナを、電話しますよ。別のポリシーメーカーは、私が家に帰る途中に濡れ回避するために動作するように傘を取るかどうかを決定する必要があり、ボブ彼を呼ぶことにします。彼らは天候を理解していればアンナとボブの両方がより良い意思決定を行うことができますが、それらは異なるものを知っている必要があります。アンナはレインダンスは雨の原因となるかどうかを理解する必要があります。ボブは、他の一方で、因果関係について何かを理解する必要はありません。彼はただ正確な予測が必要です。社会の研究者は、多くの場合、何に焦点を当てるKleinberg et al. (2015) 「雨のダンスのような「政策の問題、それらに焦点を当て呼び出し因果関係-と予測に焦点を当てている「傘状」政策の問題を無視します。

私は、「今」を組み合わせると由来-a用語予測と呼ばれるnowcastingの特別な種類には、しかし、集中したい」予測を。」むしろ未来を予測するよりも、存在を予測しようとする試みnowcasting (Choi and Varian 2012)言い換えれば、nowcastingは測定​​の問題のための予測手法を使用しています。このように、それは彼らの国についてのタイムリーかつ正確な措置を必要とする政府に特に有用であるはずです。 Nowcastingは、Googleインフルトレンドの例で最も明確に示すことができます。

あなたが検索エンジンに「インフルエンザの救済」と入力して、あなたが天候の下で少しを感じていることを想像し、応答内のリンクのページが表示され、その後、役に立つWebページにそれらのいずれかに従ってください。今、この活動は、検索エンジンの観点から再生されている想像してみてください。すべての瞬間には、クエリの何百万人が世界中から到着している、とクエリ-何のこのストリームBattelle (2006) 「意図のデータベース」と呼ばれている-は、集団のグローバルな意識に常に更新ウィンドウを提供します。しかし、インフルエンザの罹患率の測定にこの情報の流れを回すことは困難です。単に「インフルエンザの救済」のためのクエリの数をカウントアップうまく動作しない場合があります。インフルエンザの救済のためのサーチャーがインフルエンザを持っているインフルエンザインフルエンザの救済を検索し、誰もが持っていないすべての人。

Googleインフルトレンドの背後にある重要かつ巧妙なトリックは、 予測問題に測定問題をオンすることでした。米国疾病対策予防センター(CDC)は、全国の医師から情報を収集インフルエンザ監視システムを持っています。しかしながら、このCDCシステムに伴う1つの問題は、2週間の報告遅れがあります。それは医師から到着するデータのためにかかる時間は、洗浄処理され、公開されます。新興流行を扱うときには、公衆衛生所は、2週間前にあったどのくらいのインフルエンザ知っている必要はありません。彼らは今、そこにあるどのくらいのインフルエンザ知りたいです。実際には、社会的なデータの他の多くの伝統的なソースに、データ収集の波と報告ラグの間にギャップがあります。最も大きいデータ・ソースは、一方で、常時オン(セクション2.3.1.2)です。

したがって、ジェレミー・ギンズバーグや同僚(2009) 、Googleの検索データからCDCのインフルエンザのデータを予測しようとしました。これは、研究者はCDC、現在の測定された将来のデータから将来のデータを予測することにより、今そこにあるどのくらいのインフルエンザを測定しようとしていたので、「現在の予測」の一例です。機械学習を用いて、それらは、CDCのインフルエンザのデータのほとんどを予測しているかを確認するために5000万異なる検索用語を介して検索しました。最終的に、彼らは最も予測すると思われた45の異なるクエリのセットを発見し、その結果は非常に良好であった:彼らは、CDCデータを予測するために、検索データを使用することができます。 ネイチャーに掲載されたこの論文、部分的に基づいて、Googleインフルトレンドは、ビッグデータの力についてしばしば繰り返さサクセスストーリーとなりました。

そこに二つの重要な注意点は、しかし、この明らかな成功にあり、これらの注意事項を理解することは、評価に役立つと予測とnowcastingを行います。まず、Googleインフルトレンドが実際にインフルエンザの罹患率の最近の2つの測定値から線形外挿に基づいて、インフルエンザの量を推定単純なモデルよりもはるかに良いではありませんでしたのパフォーマンス(Goel et al. 2010)そして、いくつかの期間にわたってGoogleインフルトレンドは、実際にはこの単純なアプローチよりも悪化していた(Lazer et al. 2014)つまり、すべてのデータ、機械学習、および強力なコンピューティングとGoogleインフルトレンドが劇的にヒューリスティックを理解するために、シンプルで簡単にアウトパフォームしませんでした。これは、任意の予測を評価するか、ナウキャスト時に、ベースラインと比較することが重要であることを示唆しています。

Googleインフルトレンドについての第二の重要な注意点は、CDCのインフルエンザのデータを予測する能力は、短期的な障害と理由ドリフトアルゴリズム交絡の長期減衰する傾向があったことです。例えば、2009豚インフルエンザの流行Googleインフルトレンドの間に劇的に人々がグローバルパンデミックの広範な恐怖に応答して、その検索の動作を変更する傾向があるせいか、インフルエンザの量を過大評価(Cook et al. 2011; Olson et al. 2013)これらの短期的な問題に加えて、パフォーマンスが時間の経過とともに徐々に減衰しました。この長期的な崩壊の理由を診断Googleの検索アルゴリズムは独自仕様であるため困難であるが、(それがまた見える人が「発熱」や「咳」のような症状を検索すると、2011年にGoogleが関連検索語を示唆している変更を行ったことが表示されますこの機能は)もはやアクティブであること。この機能を追加すると、検索エンジンのビジネスを実行している場合に行うには完全に合理的なものであり、それはより多くの健康関連の検索を発生させる効果がありました。これはおそらく、ビジネスの成功だったが、それは過剰推定インフルエンザの流行にGoogleインフルトレンドを引き起こした(Lazer et al. 2014)

幸いなことに、Googleインフルトレンドでこれらの問題は修正可能です。実際には、より慎重な方法を用いて、 Lazer et al. (2014)Yang, Santillana, and Kou (2015)より良い結果を得ることができました。今後、私は研究者でビッグデータを組み合わせnowcasting研究は、データ・ミケランジェロスタイルでデュシャンスタイルのReadymadesを組み合わせCustommades-ますより速く、より正確な現在の測定値および将来の予測を生成するために政策立案者を有効に回収することを期待しています。