2.3.9骯髒

大數據源可裝載的垃圾和垃圾郵件。

一些研究人員認為,大數據源,特別是在線資源,是純淨的,因為它們是自動收集的。實際上,使用大數據源的人都知道他們經常很髒 。也就是說,它們經常包含不反映研究人員感興趣的實際行為的數據。大多數社會科學家已經熟悉清理大規模社會調查數據的過程,但清理大數據源似乎更加困難。我認為這種困難的最終根源是許多這些大數據源從未打算用於研究,因此它們不會以便於數據清理的方式收集,存儲和記錄。

Back and同事(2010)對2001年9月11日攻擊的情緒反應的研究說明了臟數字跟踪數據的危險性,我在本章前面已經簡要地提到了這一點。研究人員通常使用數月甚至數年收集的回顧性數據研究對悲劇事件的反應。但是,Back和同事們發現了一個永遠存在的數字痕跡來源 - 來自85,000個美國尋呼機的帶時間戳,自動錄製的信息 - 這使他們能夠在更精細的時間尺度上研究情緒反應。他們通過對與(1)悲傷(例如,“哭泣”和“悲傷”),(2)焦慮相關的詞的百分比編碼尋呼機消息的情感內容,創建了9月11日的每分鍾情感時間線(例如,“擔心”和“恐懼”),以及(3)憤怒(例如,“討厭”和“批評”)。他們發現悲傷和焦慮在一整天都沒有強烈的模式波動,但整天都有驚人的憤怒增加。這項研究似乎是對永遠在線數據源的強大功能的一個很好的例證:如果使用傳統的數據源,就不可能獲得對意外事件立即響應的高分辨率時間線。

然而就在一年之後,Cynthia Pury (2011)更仔細地研究了這些數據。她發現大量的所謂憤怒信息是由一個尋呼機產生的,而且它們都是相同的。以下是那些所謂的憤怒信息所說的:

“重新啟動NT機器[名]在櫃[名]在[地點]:CRITICAL:[日期和時間]”

這些消息被標記為憤怒,因為它們包括“重要”一詞,這通常表示憤怒,但在這種情況下不會。刪除這個單一自動尋呼機生成的消息完全消除了一天中憤怒的明顯增加(圖2.4)。換句話說, Back, Küfner, and Egloff (2010)的主要結果是一個尋呼機的工件。正如這個例子所示,對相對複雜和混亂的數據進行相對簡單的分析有可能嚴重錯誤。

圖2.4:基於85,000名美國尋呼機的2001年9月11日期間憤怒的估計趨勢(Back,Küfner和Egloff 2010,2011; Pury 2011)。最初,Back,Küfner和Egloff(2010)報告了一整天都在增加憤怒的模式。但是,大多數這些看似生氣的消息都是由一個尋呼機生成的,該尋呼機重複發出以下消息:在[位置]的櫃[名稱]中重新啟動NT機器[名稱]:重要:[日期和時間]。隨著這條消息被刪除,憤怒的明顯增加消失了(Pury 2011; Back,Küfner和Egloff 2011)。改編自Pury(2011),圖1b。

圖2.4:基於85,000名美國尋呼機的2001年9月11日期間憤怒的估計趨勢(Back, Küfner, and Egloff 2010, 2011; Pury 2011) 。最初, Back, Küfner, and Egloff (2010)報告了一整天都在增加憤怒的模式。但是,大多數這些看似生氣的消息都是由一個尋呼機生成的,該尋呼機重複發出以下消息:“在[位置]的機櫃[名稱]中重新啟動NT機器[名稱]:關鍵:[日期和時間]”。隨著這條消息被刪除,憤怒的明顯增加消失了(Pury 2011; Back, Küfner, and Egloff 2011) 。改編自Pury (2011) ,圖1b。

雖然無意中創建的髒數據(例如來自一個嘈雜的尋呼機的數據)可以由一個相當謹慎的研究人員檢測到,但也有一些在線系統吸引有意的垃圾郵件發送者。這些垃圾郵件發送者積極地生成虛假數據,並且通常由利潤工作激勵,非常難以隱藏他們的垃圾郵件。例如,Twitter上的政治活動似乎至少包括一些相當複雜的垃圾郵件,其中一些政治原因被故意製作得比實際更受歡迎(Ratkiewicz et al. 2011) 。不幸的是,刪除這些故意的垃圾郵件可能非常困難。

當然,被認為是臟數據的部分可能取決於研究問題。例如,維基百科的許多編輯都是由自動機器人創建的(Geiger 2014) 。如果您對維基百科的生態感興趣,那麼這些機器人創建的編輯很重要。但是如果你對人類對維基百科的貢獻感興趣,那麼應該排除機器人創建的編輯。

沒有單一的統計技術或方法可以確保您已經充分清理了臟數據。最後,我認為避免被臟數據欺騙的最好方法是盡可能多地了解數據的創建方式。