人口漂移,漂移的使用和系統漂移使其難以利用大數據源來研究長期趨勢。
其中的許多大數據源的巨大優勢是,他們收集的數據隨著時間的推移。社會學家稱這種過度時間數據,縱向數據。而且,自然,縱向數據是研究的變化非常重要。為了可靠地測量的變化,但是,測量系統本身必須是穩定的。在社會學家奧的斯達德利鄧肯的話說,“如果要衡量變化,不改變措施” (Fischer 2011)
不幸的是,許多大數據系統,尤其是業務系統創建並捕獲數字軌跡,正在改變所有的時間,我會打電話給漂移的過程。特別是,這些系統主要以三種方式發生變化: 人口漂移 (以誰正在使用他們的變化), 行為漂移 (人們是如何使用它們的變化),以及系統的漂移 (系統本身的變化)。漂移的三個來源意味著在數字跟踪數據的任何圖案可以通過在世界上的一個重要的變化引起的,或者它可以通過某種形式的漂移引起的。
漂人口的第一源漂移是誰在使用該系統,並且這改變了在長的時間尺度和短的時間尺度。例如,從2008年至今的人們對社會化媒體的平均年齡有所增加。除了這些長期趨勢,在任何時刻使用系統的人而異。例如,2012年美國總統大選期間,寫了婦女的鳴叫關於政治比例從日常波動(Diaz et al. 2016)因此,什麼可能似乎是Twitter的詩句的情緒變化實際上可能只是在誰是隨時變化交談。
除了在誰正在使用的系統的變化,也有改變了系統的使用方式。例如,在佔據在伊斯坦布爾公園隔子抗議,土耳其在2013年示威者改變其使用#標籤作為抗議演變。下面是Zeynep相識Tufekci如何(2014)中描述的漂移,這是她能夠檢測,因為她在Twitter上和地面觀測行為:
“發生了什麼事是,一旦抗議成為佔主導地位的故事,大量的人。 。 。使用#標籤,除了提醒大家注意一個新現象停止。 。 。雖然抗議活動持續,甚至加劇,井號標籤偃旗息鼓。訪談揭示了兩個方面的原因。首先,一旦每個人都知道的話題,這個標籤是一次多餘和浪費的字符限制的Twitter平台上。二,主題標籤被視為只為吸引關注特定主題,而不是談論它是有用的。“
因此,誰是通過分析與抗議活動有關的主題標籤鳴叫學習抗議研究者將不得不因為這種行為漂移發生了什麼事的扭曲感。例如,他們可能會認為,抗議活動的討論長期下降實際上減少了。
第三種漂移是系統的漂移。在這種情況下,它是在不改變人或他們的行為改變,但系統本身發生變化。例如,隨著時間的推移Facebook已經在狀態更新的長度增加了限制。因此,狀態更新的任何縱向研究會極易造成這種變化的文物。系統漂移是密切相關的所謂的算法混雜的問題,這是我們現在轉向。