2.3.2永遠在線

始終對大數據使突發事件及實時測量的研究。

許多大數據系統永遠在線 ;他們不斷地收集數據。這永遠在線的特性提供了縱向數據的研究人員(即,經過一段時間的數據)。作為永遠在線的有研究的兩個重要的意義。

首先,永遠在線的數據收集使研究人員能夠以其他方式無法實現的方式研究意外事件。例如,有興趣在2013年夏天在土耳其研究佔領格茲抗議活動的研究人員通常會關注抗議者在活動期間的行為。 Ceren Budak和Duncan Watts (2015)通過使用Twitter的永遠在線性質來研究在活動之前,期間和之後使用Twitter的抗議者。並且,他們能夠在事件之前,期間和之後創建一個非參與者的比較組(圖2.2)。總的來說,他們的事後小組包括兩年內30,000人的推文。通過用其他信息增加來自抗議活動的常用數據,Budak和Watts能夠學到更多:他們能夠估計哪些人更有可能參與Gezi抗議並估計態度的變化。參與者和非參與者,短期內(比較Gezi之前和Gezi期間)和長期(比較Gezi之前和Gezi之後)。

圖2.2:Budak和Watts(2015)用於研究2013年夏天土耳其占領Gezi抗議活動的設計。通過使用Twitter的永遠在線性質,研究人員創建了他們所謂的事後小組,其中包括兩年內有30,000人。與在抗議期間關注參與者的典型研究相反,事後小組增加了1)事件前後參與者的數據和2)事件之前,期間和之後非參與者的數據。這種豐富的數據結構使Budak和Watts能夠估計哪些人更有可能參與Gezi抗議,並估計參與者和非參與者的態度在短期內的變化(比較Gezi之前和Gezi期間)並且從長遠來看(比較前Gezi和後Gezi)。

圖2.2: Budak and Watts (2015)用於研究2013年夏天土耳其占領Gezi抗議活動的設計。通過使用Twitter的永遠在線性質,研究人員創建了他們所謂的事後小組 ,其中包括兩年內有30,000人。與在抗議期間關注參與者的典型研究相反,事後小組增加了1)事件前後參與者的數據和2)事件之前,期間和之後非參與者的數據。這種豐富的數據結構使Budak和Watts能夠估計哪些人更有可能參與格茲抗議,並估計參與者和非參與者的態度在短期內的變化(比較Gezi之前和Gezi期間)並且從長遠來看(比較前Gezi和後Gezi)。

懷疑論者可能會指出,其中一些估算可能是在沒有永遠在線的數據收集來源的情況下進行的(例如,對態度變化的長期估計),這是正確的,儘管這樣的數據收集對於30,000人而言應該是相當的昂貴。然而,即使給予無限制的預算,我也無法想到任何其他方法基本上允許研究人員及時回顧並直接觀察參與者過去的行為。最接近的替代方案是收集行為的回顧性報告,但這些報告的粒度有限且準確性有問題。表2.1提供了使用永遠在線數據源來研究意外事件的其他研究示例。

表2.1:使用永遠在線的大數據源研究意外事件。
意外的事件 永遠在線的數據源 引文
在土耳其占領格茲運動 推特 Budak and Watts (2015)
傘在香港抗議 微博 Zhang (2016)
在紐約市的警察射擊 停止報導 Legewie (2016)
加入ISIS的人 推特 Magdy, Darwish, and Weber (2016)
2001年9月11日襲擊 livejournal.com Cohn, Mehl, and Pennebaker (2004)
2001年9月11日襲擊 尋呼機消息 Back, Küfner, and Egloff (2010)Pury (2011)Back, Küfner, and Egloff (2011)

除了研究意外事件外,永遠在線的大數據系統還使研究人員能夠生成實時估算,這在政府或行業決策者希望根據態勢感知做出響應的環境中非常重要。例如,社交媒體數據可用於指導對自然災害的應急響應(Castillo 2016)並且可以使用各種不同的大數據源來生成經濟活動的實時估計(Choi and Varian 2012)

總之,始終在線的數據系統使研究人員能夠研究意外事件並向決策者提供實時信息。但是,我並不認為永遠在線的數據系統非常適合在很長一段時間內跟踪變化。這是因為許多大數據系統都在不斷變化,這個過程我會打電話給後面的章節中(第2.3.7節) 漂移