2.3.2常時接続

常時オンのビッグデータは、予期しないイベントやリアルタイム測定の研究を可能にします。

多くのビッグデータシステムは、 常時オンで ​​す。彼らは常にデータを収集しています。この常時オンの特徴は、長手方向のデータと研究者を提供(すなわち、時間の経過とともにデータ)。常時オンであることは、研究のための2つの重要な意味を持ちます。

第1に、常時オンのデータ収集により、研究者は、そうでなければ不可能であったような予期せぬ出来事を研究することができます。例えば、2013年の夏にトルコで占領占領を勉強することに興味を持つ研究者は、通常、イベント中の抗議者の行動に焦点を当てます。 Ceren BudakとDuncan Watts (2015)は、Twitterの常時接続の性質を利用して、イベントの前、中、後にTwitterを使用した抗議者を調べることで、より多くのことを行うことができました。そして、彼らはイベントの前、途中、後に非参加者の比較グループを作成することができました(図2.2)。合計で、彼らの事後パネルには、2年間で3万人のつぶやきが含まれていました。ブダクとワッツは、このような他の情報を持つ抗議からの一般的に使用されているデータを増強することによって、どんな種類の人々がゲッツの抗議に参加する可能性がより高いかを推定し、態度の変化を推定することができました。短期間(Gezi前とGeziの比較)と長期間(Pre-GeziとGeziの後を比較)の両方で、参加者と非参加者の両方が参加しています。

図2.2:BudakとWatts(2015)が2013年の夏にトルコでGezi Occupyの抗議活動を研究するために使用した設計。研究者はTwitterの常時接続性を利用して、 2年間で3万人の人々。事後調査の際に参加者に焦点を当てた典型的な研究とは対照的に、事後パネルは、1)イベントの前後で参加者からのデータと2)イベント前、イベント中、イベント後の非参加者からのデータを加える。この豊富なデータ構造により、ブダクとワッツは、どのような種類の人々がゲッツの抗議に参加する可能性が高いのかを推定し、参加者と非参加者の態度の変化を短期間で推定することができました(Gezi以前)、長期的には(前Geziと後Geziを比較する)

図2.2:で使用されるデザインBudak and Watts (2015)ツイッターの本質は常にオン、研究者は、彼らがおよそ含ま事後パネルと呼ばれるものを作成し使用することにより、2013年の夏にトルコでゲズィ抗議を占拠勉強します2年間で3万人の人々。事後調査の際に参加者に焦点を当てた典型的な研究とは対照的に、事後パネルは、1)イベントの前後で参加者からのデータと2)イベント前、イベント中、イベント後の非参加者からのデータを加える。この豊富なデータ構造により、ブダクとワッツは、どのような種類の人々がゲッツの抗議に参加する可能性が高いのかを推定し、参加者と非参加者の態度の変化を短期間で推定することができました(Gezi以前)、長期的には(前Geziと後Geziを比較する)

懐疑的な人は、これらの見積もりの​​中には、常時オンのデータ収集源(例えば、長期的な姿勢の変化の見積もり)なしで行われた可能性があり、それは正しいと指摘するかもしれませんが、30,000人のこうしたデータ収集は、高価な。しかし、無制限の予算であっても、研究者が本来の時間内旅行し、過去の参加者の行動を直接観察することを可能にする他の方法は考えられません。最も近い選択肢は、行動の遡及的な報告を収集することですが、これらの報告は限られた細分性と疑わしい正確さである。表2.1は、予期しない事象を研究するために常時オンのデータソースを使用する研究の他の例を示しています。

表2.1:常時接続の大きなデータソースを使用した予期しないイベントの調査
予期しないイベント 常時接続のデータソース 引用
トルコのゲジ運動を占領 Twitter Budak and Watts (2015)
香港の傘抗議 ウェイボ Zhang (2016)
ニューヨーク市の警察の射撃 ストップ&フリスクレポート Legewie (2016)
ISISに加わる人 Twitter Magdy, Darwish, and Weber (2016)
2001年9月11日の攻撃 livejournal.com Cohn, Mehl, and Pennebaker (2004)
2001年9月11日の攻撃 ページャーメッセージ Back, Küfner, and Egloff (2010)Pury (2011)Back, Küfner, and Egloff (2011)

予期せぬ出来事を勉強するだけでなく、常時稼動の大型データシステムによって、研究者はリアルタイムの見積もりを作成することができます。これは、政府や業界の政策立案者が状況認識に基づいて対応したい場合に重要です。たとえば、ソーシャルメディアのデータを使って自然災害への緊急時の対応(Castillo 2016)や様々な異なるビッグデータソースを使用して、経済活動のリアルタイム推計を行うことができます(Choi and Varian 2012)

結論として、常時稼働のデータシステムにより、研究者は予期せぬ出来事を勉強し、政策立案者にリアルタイムの情報を提供することができます。しかし、私は常に常時稼動のデータシステムは非常に長期間にわたって変化を追跡するのに適しているとは考えていません。これは、多くのビッグデータシステムが絶えず変化しているためです(この章の後半では、 ドリフトと呼ぶプロセスがあります)。