Sumber data yang besar boleh dimuatkan dengan sampah dan spam.
Sesetengah penyelidik percaya bahawa sumber data yang besar, terutamanya sumber dalam talian, adalah murni kerana ia dikumpulkan secara automatik. Malah, orang yang telah bekerja dengan sumber data besar tahu bahawa mereka sering kotor . Iaitu, mereka sering memasukkan data yang tidak mencerminkan tindakan sebenar yang menarik kepada penyelidik. Kebanyakan saintis sosial sudah biasa dengan proses pembersihan data tinjauan skala besar, tetapi pembersihan sumber data besar nampaknya lebih sukar. Saya rasa sumber utama kesukaran ini adalah bahawa banyak daripada sumber data besar ini tidak dimaksudkan untuk digunakan untuk penyelidikan, dan oleh itu mereka tidak dikumpulkan, disimpan, dan didokumenkan dalam cara yang memudahkan pembersihan data.
Bahaya data jejak digital kotor digambarkan oleh kajian Back and colleagues (2010) tentang tindak balas emosi terhadap serangan 11 September 2001, yang saya sebutkan tadi dalam bab ini. Para penyelidik biasanya mengkaji tindak balas terhadap peristiwa tragis menggunakan data retrospektif yang dikumpulkan dari bulan atau bahkan tahun. Tetapi, Back dan rakan sekerja mendapati sumber-sumber jejak digital yang sentiasa ada - yang secara automatik mencatatkan mesej dari 85,000 orang pager Amerika-dan ini membolehkan mereka mempelajari maklum balas emosi pada skala masa yang lebih halus. Mereka membuat garis masa emosi pada 11 September dengan mengutip kandungan emosional mesej pager dengan peratusan perkataan yang berkaitan dengan (1) kesedihan (misalnya, "menangis" dan "kesedihan"), (2) kecemasan ( contohnya, "bimbang" dan "takut"), dan (3) kemarahan (contohnya, "benci" dan "kritikal"). Mereka mendapati kesedihan dan kecemasan berfluktuasi sepanjang hari tanpa corak yang kuat, tetapi terdapat peningkatan kemarahan sepanjang hari. Penyelidikan ini nampaknya merupakan ilustrasi yang indah tentang kuasa sumber data selalu: jika sumber data tradisional telah digunakan, tidak mustahil untuk mendapatkan garis masa resolusi tinggi respon segera terhadap peristiwa yang tidak dijangka.
Walau bagaimanapun, setahun kemudian, Cynthia Pury (2011) memandang data lebih berhati-hati. Dia mendapati bahawa sebilangan besar mesej yang marah telah dihasilkan oleh pager tunggal dan mereka semua sama. Inilah yang dikatakan mesej-mesej yang marah itu:
"Reboot NT mesin [nama] dalam kabinet [nama] di [lokasi]: KRITIKAL: [tarikh dan masa]"
Mesej-mesej ini dilabelkan marah kerana mereka memasukkan perkataan "KRITIKAL," yang biasanya boleh menunjukkan kemarahan tetapi dalam hal ini tidak. Mengalih keluar mesej yang dihasilkan oleh pager automatik tunggal ini benar-benar menghapuskan peningkatan kemarahan sepanjang hari (angka 2.4). Dengan kata lain, hasil utama dalam Back, Küfner, and Egloff (2010) adalah artifak satu pager. Sebagai contoh ini, analisis yang agak mudah dalam data yang agak rumit dan tidak kemas berpotensi menjadi serius.
Walaupun data kotor yang dibuat secara tidak sengaja-seperti itu dari pager bising-boleh dikesan oleh penyelidik yang agak berhati-hati, terdapat juga beberapa sistem dalam talian yang menarik spammer yang disengajakan. Orang-orang spam ini secara aktif menjana data palsu, dan-sering termotivasi oleh kerja keras yang sangat sukar untuk mengekalkan penyiaran mereka. Sebagai contoh, aktiviti politik di Twitter seolah-olah termasuk sekurang-kurangnya beberapa spam yang cukup canggih, di mana beberapa sebab politik sengaja dibuat untuk dilihat lebih popular daripada yang sebenarnya (Ratkiewicz et al. 2011) . Malangnya, menghapus spam yang disengajakan ini mungkin agak sukar.
Sudah tentu apa yang dianggap sebagai data kotor boleh bergantung pada soalan penyelidikan. Sebagai contoh, banyak suntingan kepada Wikipedia dicipta oleh bot automatik (Geiger 2014) . Jika anda berminat dengan ekologi Wikipedia, maka pengeditan bot-dibuat ini adalah penting. Tetapi jika anda berminat bagaimana manusia menyumbang kepada Wikipedia, maka pengeditan bot yang dibuat harus dikecualikan.
Tiada teknik atau pendekatan statistik yang boleh memastikan bahawa anda telah mencuci data kotor anda dengan mencukupi. Akhirnya, saya fikir cara terbaik untuk mengelakkan ditipu oleh data kotor adalah untuk memahami sebanyak mungkin bagaimana data anda dicipta.