2.3.2永远在线

始终对大数据使突发事件及实时测量的研究。

许多大数据系统永远在线 ;他们不断地收集数据。这永远在线的特性提供了纵向数据的研究人员(即,经过一段时间的数据)。作为永远在线的有研究的两个重要的意义。

首先,永远在线的数据收集使研究人员能够以其他方式无法实现的方式研究意外事件。例如,有兴趣在2013年夏天在土耳其研究占领格兹抗议活动的研究人员通常会关注抗议者在活动期间的行为。 Ceren Budak和Duncan Watts (2015)通过使用Twitter的永远在线性质来研究在活动之前,期间和之后使用Twitter的抗议者。并且,他们能够在事件之前,期间和之后创建一个非参与者的比较组(图2.2)。总的来说,他们的事后小组包括两年内30,000人的推文。通过用其他信息增加来自抗议活动的常用数据,Budak和Watts能够学到更多:他们能够估计哪些人更有可能参与Gezi抗议并估计态度的变化。参与者和非参与者,短期内(比较Gezi之前和Gezi期间)和长期(比较Gezi之前和Gezi之后)。

图2.2:Budak和Watts(2015)用于研究2013年夏天土耳其占领Gezi抗议活动的设计。通过使用Twitter的永远在线性质,研究人员创建了他们所谓的事后小组,其中包括两年内有30,000人。与在抗议期间关注参与者的典型研究相反,事后小组增加了1)事件前后参与者的数据和2)事件之前,期间和之后非参与者的数据。这种丰富的数据结构使Budak和Watts能够估计哪些人更有可能参与Gezi抗议,并估计参与者和非参与者的态度在短期内的变化(比较Gezi之前和Gezi期间)并且从长远来看(比较前Gezi和后Gezi)。

图2.2: Budak and Watts (2015)用于研究2013年夏天土耳其占领Gezi抗议活动的设计。通过使用Twitter的永远在线性质,研究人员创建了他们所谓的事后小组 ,其中包括两年内有30,000人。与在抗议期间关注参与者的典型研究相反,事后小组增加了1)事件前后参与者的数据和2)事件之前,期间和之后非参与者的数据。这种丰富的数据结构使Budak和Watts能够估计哪些人更有可能参与Gezi抗议,并估计参与者和非参与者的态度在短期内的变化(比较Gezi之前和Gezi期间)并且从长远来看(比较前Gezi和后Gezi)。

怀疑论者可能会指出,其中一些估算可能是在没有永远在线的数据收集来源的情况下进行的(例如,对态度变化的长期估计),这是正确的,尽管这样的数据收集对于30,000人而言应该是相当的昂贵。然而,即使给予无限制的预算,我也无法想到任何其他方法基本上允许研究人员及时回顾并直接观察参与者过去的行为。最接近的替代方案是收集行为的回顾性报告,但这些报告的粒度有限且准确性有问题。表2.1提供了使用永远在线数据源来研究意外事件的其他研究示例。

表2.1:使用永远在线的大数据源研究意外事件。
意外的事件 永远在线的数据源 引文
在土耳其占据格兹运动 推特 Budak and Watts (2015)
伞在香港抗议 微博 Zhang (2016)
在纽约市的警察射击 停止报道 Legewie (2016)
加入ISIS的人 推特 Magdy, Darwish, and Weber (2016)
2001年9月11日袭击 livejournal.com Cohn, Mehl, and Pennebaker (2004)
2001年9月11日袭击 寻呼机消息 Back, Küfner, and Egloff (2010)Pury (2011)Back, Küfner, and Egloff (2011)

除了研究意外事件外,永远在线的大数据系统还使研究人员能够生成实时估算,这在政府或行业决策者希望根据态势感知做出响应的环境中非常重要。例如,社交媒体数据可用于指导对自然灾害的应急响应(Castillo 2016)并且可以使用各种不同的大数据源来生成经济活动的实时估计(Choi and Varian 2012)

总之,始终在线的数据系统使研究人员能够研究意外事件并向决策者提供实时信息。但是,我并不认为永远在线的数据系统非常适合在很长一段时间内跟踪变化。这是因为许多大数据系统都在不断变化,这个过程我会打电话给后面的章节中(第2.3.7节) 漂移