常時オンのビッグデータは、予期しないイベントやリアルタイム測定の研究を可能にします。
多くのビッグデータシステムは、 常時オンで す。彼らは常にデータを収集しています。この常時オンの特徴は、長手方向のデータと研究者を提供(すなわち、時間の経過とともにデータ)。常時オンであることは、研究のための2つの重要な意味を持ちます。
第1に、常時オンのデータ収集により、研究者は、そうでなければ不可能であったような予期せぬ出来事を研究することができます。例えば、2013年の夏にトルコで占領占領を勉強することに興味を持つ研究者は、通常、イベント中の抗議者の行動に焦点を当てます。 Ceren BudakとDuncan Watts (2015)は、Twitterの常時接続の性質を利用して、イベントの前、中、後にTwitterを使用した抗議者を調べることで、より多くのことを行うことができました。そして、彼らはイベントの前、途中、後に非参加者の比較グループを作成することができました(図2.2)。合計で、彼らの事後パネルには、2年間で3万人のつぶやきが含まれていました。ブダクとワッツは、このような他の情報を持つ抗議からの一般的に使用されているデータを増強することによって、どんな種類の人々がゲッツの抗議に参加する可能性がより高いかを推定し、態度の変化を推定することができました。短期間(Gezi前とGeziの比較)と長期間(Pre-GeziとGeziの後を比較)の両方で、参加者と非参加者の両方が参加しています。
懐疑的な人は、これらの見積もりの中には、常時オンのデータ収集源(例えば、長期的な姿勢の変化の見積もり)なしで行われた可能性があり、それは正しいと指摘するかもしれませんが、30,000人のこうしたデータ収集は、高価な。しかし、無制限の予算であっても、研究者が本来の時間内に旅行し、過去の参加者の行動を直接観察することを可能にする他の方法は考えられません。最も近い選択肢は、行動の遡及的な報告を収集することですが、これらの報告は限られた細分性と疑わしい正確さである。表2.1は、予期しない事象を研究するために常時オンのデータソースを使用する研究の他の例を示しています。
予期しないイベント | 常時接続のデータソース | 引用 |
---|---|---|
トルコのゲジ運動を占領 | Budak and Watts (2015) | |
香港の傘抗議 | ウェイボ | Zhang (2016) |
ニューヨーク市の警察の射撃 | ストップ&フリスクレポート | Legewie (2016) |
ISISに加わる人 | Magdy, Darwish, and Weber (2016) | |
2001年9月11日の攻撃 | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
2001年9月11日の攻撃 | ページャーメッセージ | Back, Küfner, and Egloff (2010) 、 Pury (2011) 、 Back, Küfner, and Egloff (2011) |
予期せぬ出来事を勉強するだけでなく、常時稼動の大型データシステムによって、研究者はリアルタイムの見積もりを作成することができます。これは、政府や業界の政策立案者が状況認識に基づいて対応したい場合に重要です。たとえば、ソーシャルメディアのデータを使って自然災害への緊急時の対応(Castillo 2016)や様々な異なるビッグデータソースを使用して、経済活動のリアルタイム推計を行うことができます(Choi and Varian 2012) 。
結論として、常時稼働のデータシステムにより、研究者は予期せぬ出来事を勉強し、政策立案者にリアルタイムの情報を提供することができます。しかし、私は常に常時稼動のデータシステムは非常に長期間にわたって変化を追跡するのに適しているとは考えていません。これは、多くのビッグデータシステムが絶えず変化しているためです(この章の後半では、 ドリフトと呼ぶプロセスがあります)。