2.3.1.2永远在线

始终对大数据使突发事件及实时测量的研究。

许多大数据系统永远在线 ;他们不断地收集数据。这永远在线的特性提供了纵向数据的研究人员(即,经过一段时间的数据)。作为永远在线的有研究的两个重要的意义。

首先,永远在线的数据收集可以帮助研究者发现突发事件在之前不可能的方式。例如,有志于研究在2013年夏天占据土耳其隔子抗议研究人员通常会集中在示威活动期间的行为。塞伦布达克和邓肯瓦(2015)能够做到通过使用Twitter的永远在线的性质前研究Twitter的使用抗议者,期间多了,在事件发生后。而且,他们能够之前创建的非参与者(或参与者谁没有鸣叫抗议)的对照组,期间和活动结束后(图2.1)。在总的事后小组成员包括30000人两年多的tweet。通过与这等信息充实从抗议常用的数据,布达克和Watts能学会更多:他们能够评估什么样的人更可能参与隔子抗议和估算的态度变化参与者和非参与者,无论是在短期(隔子期间比较预隔子到)和长期(比较预隔子到后隔子)。

图2.1:由布达克和Watts(2015),用于设计,研究占据土耳其隔子抗议活动在2013年夏天通过使用Twitter的永远在线的性质,研究人员创建了他们所谓的事后面板,其中包括约30000人超过两年。与此相反的抗议期间集中参与者典型的研究中,事后面板前,在事件发生后2)非参与者数据之前,期间和在事件发生后加1)从参与者的数据。这种丰富的数据结构,使布达克和Watts估计什么样的人更可能参与隔子抗议和估算参与者和非参与者的态度的变化,无论是在短期(预隔子比较期间盖齐)和长期(对比前隔子到后隔子)。

图2.1:所用设计Budak and Watts (2015)研究了占据在土耳其隔子抗议活动在2013年夏天通过使用Twitter的永远在线的性质,研究人员创建了他们所谓的事后面板 ,其中包括约30000人超过两年。与此相反的抗议期间集中参与者典型的研究中,事后面板前,在事件发生后2)非参与者数据之前,期间和在事件发生后加1)从参与者的数据。这种丰富的数据结构,使布达克和Watts估计什么样的人更可能参与隔子抗议和估算参与者和非参与者的态度的变化,无论是在短期(预隔子比较期间盖齐)和长期(对比前隔子到后隔子)。

这是事实,一些估计可能已经没有做出永远在线的数据采集源(例如,态度转变的长期预测),虽然这样的数据收集30,000人本来是相当昂贵的。而且,即使给予无限的预算,我想不出任何其他方法,基本上可以让研究人员出差回来的时间和直接观察,在过去的参与者的行为。最接近的替代办法是收集行为的回顾性报道,但这些报道将是有限的粒度和可疑的准确性。表2.1提供了使用始终在线数据源,研究意外事件研究其它实例。

表2.1:使用永远在线的大数据源的突发事件的研究。
突发事件 永远在线的数据源 引文
占据土耳其隔子运动 推特 Budak and Watts (2015)
伞抗议活动在香港 微博 Zhang (2016)
在纽约市的警察枪击的 停止和搜身报告 Legewie (2016)
人加盟ISIS 推特 Magdy, Darwish, and Weber (2016)
2001年9月11日袭击 livejournal.com Cohn, Mehl, and Pennebaker (2004)
2001年9月11日袭击 寻呼机的消息 Back, Küfner, and Egloff (2010)Pury (2011) Back, Küfner, and Egloff (2011)

其次,永远在线的数据采集使研究人员能够生成实时的测量,可以在设置里的政策制定者希望不只是从现有的行为学也对此作出回应非常重要。例如,社交媒体数据可用于指导对自然灾害的反应(Castillo 2016)

总之,永远在线的数据系统使研究人员,研究突发事件和政策制定者提供实时信息。我没有,但是,提出了永远在线的数据系统使研究人员跟踪了很长一段时间的变化。这是因为许多大数据系统都在不断变化,这个过程被称为漂移 (第2.3.2.4)。