2.3.1.2永遠在線

始終對大數據使突發事件及實時測量的研究。

許多大數據系統永遠在線 ;他們不斷地收集數據。這永遠在線的特性提供了縱向數據的研究人員(即,經過一段時間的數據)。作為永遠在線的有研究的兩個重要的意義。

首先,永遠在線的數據收集可以幫助研究者發現突發事件在之前不可能的方式。例如,有志於研究在2013年夏天佔據土耳其隔子抗議研究人員通常會集中在示威活動期間的行為。塞倫布達克和鄧肯瓦(2015)能夠做到通過使用Twitter的永遠在線的性質前研究Twitter的使用抗議者,期間多了,在事件發生後。而且,他們能夠之前創建的非參與者(或參與者誰沒有鳴叫抗議)的對照組,期間和活動結束後(圖2.1)。在總的事後小組成員包括30000人兩年多的tweet。通過與這等信息充實從抗議常用的數據,布達克和Watts能學會更多:他們能夠評估什麼樣的人更可能參與隔子抗議和估算的態度變化參與者和非參與者,無論是在短期(隔子期間比較預隔子到)和長期(比較預隔子到後隔子)。

圖2.1:由布達克和Watts(2015),用於設計,研究佔據土耳其隔子抗議活動在2013年夏天通過使用Twitter的永遠在線的性質,研究人員創建了他們所謂的事後面板,其中包括約30000人超過兩年。與此相反的抗議期間集中參與者典型的研究中,事後面板前,在事件發生後2)非參與者數據之前,期間和在事件發生後加1)從參與者的數據。這種豐富的數據結構,使布達克和Watts估計什麼樣的人更可能參與隔子抗議和估算參與者和非參與者的態度的變化,無論是在短期(預隔子比較期間蓋齊)和長期(對比前隔子到後隔子)。

圖2.1:所用設計Budak and Watts (2015)研究了佔據在土耳其隔子抗議活動在2013年夏天通過使用Twitter的永遠在線的性質,研究人員創建了他們所謂的事後面板 ,其中包括約30000人超過兩年。與此相反的抗議期間集中參與者典型的研究中,事後面板前,在事件發生後2)非參與者數據之前,期間和在事件發生後加1)從參與者的數據。這種豐富的數據結構,使布達克和Watts估計什麼樣的人更可能參與隔子抗議和估算參與者和非參與者的態度的變化,無論是在短期(預隔子比較期間蓋齊)和長期(對比前隔子到後隔子)。

這是事實,一些估計可能已經沒有做出永遠在線的數據採集源(例如,態度轉變的長期預測),雖然這樣的數據收集30,000人本來是相當昂貴的。而且,即使給予無限的預算,我想不出任何其他方法,基本上可以讓研究人員出差回來的時間和直接觀察,在過去的參與者的行為。最接近的替代辦法是收集行為的回顧性報導,但這些報導將是有限的粒度和可疑的準確性。表2.1提供了使用始終在線數據源,研究意外事件研究其它實例。

表2.1:使用永遠在線的大數據源的突發事件的研究。
突發事件 永遠在線的數據源 引文
佔據土耳其隔子運動 推特 Budak and Watts (2015)
傘抗議活動在香港 微博 Zhang (2016)
在紐約市的警察槍擊的 停止和搜身報告 Legewie (2016)
人加盟ISIS 推特 Magdy, Darwish, and Weber (2016)
2001年9月11日襲擊 livejournal.com Cohn, Mehl, and Pennebaker (2004)
2001年9月11日襲擊 尋呼機的消息 Back, Küfner, and Egloff (2010)Pury (2011) Back, Küfner, and Egloff (2011)

其次,永遠在線的數據採集使研究人員能夠生成實時的測量,可以在設置裡的政策制定者希望不只是從現有的行為學也對此作出回應非常重要。例如,社交媒體數據可用於指導對自然災害的反應(Castillo 2016)

總之,永遠在線的數據系統使研究人員,研究突發事件和政策制定者提供實時信息。我沒有,但是,提出了永遠在線的數據系統使研究人員跟踪了很長一段時間的變化。這是因為許多大數據系統都在不斷變化,這個過程被稱為漂移 (第2.3.2.4)。