2.3.7漂流

人口漂移,使用偏差和系統漂移使得很難使用大數據源來研究長期趨勢。

許多大數據源的一大優勢是它們隨著時間的推移收集數據。社會科學家將這種超時數據稱為縱向數據 。當然,縱向數據對於研究變化非常重要。然而,為了可靠地測量變化,測量系統本身必須是穩定的。用社會學家Otis Dudley Duncan的話來說,“如果你想衡量變化,就不要改變措施” (Fischer 2011)

不幸的是,許多大數據系統 - 特別是業務系統 - 一直在變化,這個過程我稱之為漂移 。特別是,這些系統以三種主要方式發生變化: 人口漂移 (誰在使用它們的變化), 行為漂移 (人們如何使用它們的變化)和系統漂移 (系統本身的變化)。三個漂移源意味著大數據源中的任何模式都可能是由世界上的重大變化引起的,或者可能是由某種形式的漂移引起的。

漂移 - 人口漂移的第一個來源是由誰使用該系統的變化引起的,這些變化可能發生在短時間和長時間尺度上。例如,在2012年美國總統大選期間,女性撰寫的關於政治的推文比例每天都在波動(Diaz et al. 2016) 。因此,看起來可能改變Twitter版本的情緒可能實際上只是改變了誰在隨時說話。除了這些短期波動之外,某些人口群體採用和放棄Twitter的長期趨勢也是如此。

除了使用系統的用戶的變化之外,系統的使用方式也有變化,我稱之為行為漂移。例如,在土耳其舉行的2013年佔領格茲抗議期間,隨著抗議的演變,抗議者改變了對標籤的使用。 Zeynep Tufekci (2014)描述了她能夠發現的行為漂移,因為她在Twitter上親自觀察行為:

“發生的事情是,一旦抗議活動成為主導故事,大量人員......停止使用標籤,除了引起對新現象的關注......當抗議活動繼續,甚至加劇時,標籤就會消失。訪談揭示了兩個原因。首先,一旦每個人都知道這個主題,那麼在人物有限的Twitter平台上,標籤就會變得多餘和浪費。其次,主題標籤被認為僅對吸引對特定主題的關注有用,而不是用於談論它。

因此,誰是通過分析與抗議活動有關的主題標籤鳴叫學習抗議研究者將不得不因為這種行為漂移發生了什麼事的扭曲感。例如,他們可能會認為,抗議活動的討論長期下降實際上減少了​​。

第三種漂移是系統漂移。在這種情況下,不是人們改變或他們的行為改變,而是系統本身在變化。例如,隨著時間的推移,Facebook增加了狀態更新長度的限制。因此,對狀態更新的任何縱向研究都將容易受到由此變化引起的偽影的影響。系統漂移與稱為算法混淆的問題密切相關,我將在2.3.8節中介紹。

總而言之,許多大數據源正在漂移,因為誰在使用它們,如何使用它們以及系統如何工作。這些變化的來源有時是有趣的研究問題,但這些變化使大數據源跟踪長期變化的能力變得複雜。