大數據源可裝載的垃圾和垃圾郵件。
一些研究人員認為,大數據的來源,尤其是那些來自在線資源,是質樸的,因為它們自動採集。事實上,誰與大數據源工作的人知道,他們經常臟 。也就是說,他們常常包括不反映感興趣的研究人員實際行動的數據。許多社會科學家已經熟悉清洗大型社會調查數據,但清洗的大數據源的原因有兩個比較困難的過程:1)他們沒有研究人員為研究人員和2)的研究人員創建一般有怎樣的了解少他們創建的。
臟數字跟踪數據的危險是由返回和他的同事'所示(2010)的情緒反應9月11日的襲擊事件2001年研究人員通常研究使用收集到幾個月甚至幾年的回顧性資料悲慘事件響應的研究。但是,返回和他的同事發現了一個永遠在線的數字軌跡-的時間戳源,自動記錄的信息從85000美國尋呼機,這使研究人員,研究一個更精細的時間表情緒反應。背部和他的同事通過與(1)悲傷的單詞的百分比編碼尋呼機消息的情感內容創建9月11日的一分鐘按一分鐘情感時間表(比如,哭泣,悲傷),(2)焦慮(如:擔心,恐懼),和(3)怒(例如,恨,關鍵)。他們發現,悲傷和焦慮寬幅震盪,全天沒有一個強勢格局,但是,有一個顯著增加憤怒全天。這項研究似乎永遠在線的數據源電力的精彩插圖:用標準方法就不可能有意外的事件立即作出反應如此高分辨率的時間表。
僅僅一年後,然而,辛西婭拍賣行(2011)看了一下數據更仔細。她發現是由一個單一的尋呼機產生的大量的所謂憤怒的消息,並且他們都是相同的。以下是這些所謂的消息生氣說:
“重新啟動NT機器[名]在櫃[名]在[地點]:CRITICAL:[日期和時間]”
因為它們包括了詞“關鍵”,其一般可以表示憤怒但在這種情況下,不這些消息進行標記生氣。刪除此單個自動呼叫器生成的消息完全消除了在憤怒的日子(圖2.2)的過程中明顯增加。換句話說,主要結果Back, Küfner, and Egloff (2010)是尋呼機的神器。這個例子說明,比較複雜,凌亂的數據相對簡單的分析已去嚴重錯誤的可能性。
而創建無意-如從一個嘈雜的臟數據尋呼機可以通過合理仔細研究來檢測,也有吸引故意垃圾郵件發送者一些在線系統。這些垃圾郵件發送者主動產生假數據,和經常利潤非常努力上進,以保持他們的垃圾郵件掩蓋。例如,在Twitter上的政治活動似乎至少包括某些相當先進的垃圾郵件,因此一些政治原因故意使其看起來更受歡迎比他們實際是(Ratkiewicz et al. 2011)研究人員使用數據可能包含故意垃圾郵件面臨說服他們的觀眾,他們已經檢測到並刪除垃圾郵件相關的挑戰。
最後,什麼被認為是骯髒的數據可以在很大程度上取決於你的研究問題微妙的方式。例如,通過自動漫遊創造了許多編輯維基百科(Geiger 2014) 。如果你有興趣在維基百科的生態環境,那麼這些機器人是非常重要的。但是,如果你有興趣在人類如何幫助維基百科,這些機器人做這些編輯應排除在外。
最好的方法,以避免被愚弄臟數據,以了解您的數據創建執行簡單的探索性分析,如製作簡單散點圖。