Sumber data yang besar dapat diisi dengan sampah dan spam.
Beberapa peneliti percaya bahwa sumber data besar, terutama sumber online, murni karena dikumpulkan secara otomatis. Bahkan, orang-orang yang pernah bekerja dengan sumber data besar tahu bahwa mereka sering kotor . Artinya, mereka sering memasukkan data yang tidak mencerminkan tindakan nyata yang menarik bagi para peneliti. Sebagian besar ilmuwan sosial sudah akrab dengan proses pembersihan data survei sosial berskala besar, tetapi membersihkan sumber data besar tampaknya lebih sulit. Saya pikir sumber utama dari kesulitan ini adalah bahwa banyak dari sumber data besar ini tidak pernah dimaksudkan untuk digunakan untuk penelitian, sehingga mereka tidak dikumpulkan, disimpan, dan didokumentasikan dengan cara yang memfasilitasi pembersihan data.
Bahaya data jejak digital kotor diilustrasikan oleh Back dan rekan-rekan (2010) studi tentang respons emosional terhadap serangan 11 September 2001, yang saya sebutkan secara singkat di awal bab ini. Peneliti biasanya mempelajari respon terhadap peristiwa tragis menggunakan data retrospektif yang dikumpulkan selama berbulan-bulan atau bahkan bertahun-tahun. Namun, Back dan kolega menemukan sumber jejak digital yang selalu aktif — pesan yang direkam secara otomatis dari 85.000 pager Amerika — dan ini memungkinkan mereka untuk mempelajari respons emosional pada skala waktu yang jauh lebih baik. Mereka menciptakan menit-demi-menit garis waktu emosional pada 11 September dengan mengkode konten emosional pesan pager dengan persentase kata-kata yang berkaitan dengan (1) kesedihan (misalnya, "menangis" dan "kesedihan"), (2) kecemasan ( misalnya, "khawatir" dan "takut"), dan (3) kemarahan (misalnya, "benci" dan "kritis"). Mereka menemukan bahwa kesedihan dan kecemasan berfluktuasi sepanjang hari tanpa pola yang kuat, tetapi ada peningkatan mencolok dalam kemarahan sepanjang hari. Penelitian ini tampaknya menjadi ilustrasi yang bagus tentang kekuatan sumber data yang selalu aktif: jika sumber data tradisional telah digunakan, tidak mungkin mendapatkan garis waktu resolusi tinggi seperti tanggapan langsung terhadap kejadian tak terduga.
Hanya satu tahun kemudian, bagaimanapun, Cynthia Pury (2011) melihat data lebih hati-hati. Dia menemukan bahwa sejumlah besar pesan yang diduga marah dihasilkan oleh satu pager dan semuanya identik. Inilah pesan-pesan yang katanya marah:
"Mesin Reboot NT [nama] di kabinet [nama] di [lokasi]: KRITIS: [tanggal dan waktu]"
Pesan-pesan ini diberi label marah karena mereka memasukkan kata "KRITIS," yang biasanya dapat menunjukkan kemarahan tetapi dalam kasus ini tidak. Menghapus pesan yang dihasilkan oleh pager otomatis tunggal ini benar-benar menghilangkan peningkatan yang jelas dalam kemarahan sepanjang hari (gambar 2.4). Dengan kata lain, hasil utama dalam Back, Küfner, and Egloff (2010) adalah artefak dari satu pager. Seperti contoh ini mengilustrasikan, analisis yang relatif sederhana dari data yang relatif rumit dan berantakan memiliki potensi untuk melakukan kesalahan serius.
Sementara data kotor yang dibuat secara tidak sengaja — seperti dari satu pager yang berisik — dapat dideteksi oleh peneliti yang sangat berhati-hati, ada juga beberapa sistem online yang menarik para pelaku spam yang disengaja. Spammer ini secara aktif menghasilkan data palsu, dan — sering termotivasi oleh laba — bekerja sangat keras untuk menjaga agar spamming mereka tetap tersembunyi. Misalnya, aktivitas politik di Twitter tampaknya memasukkan setidaknya beberapa spam yang cukup canggih, di mana beberapa penyebab politik sengaja dibuat agar terlihat lebih populer daripada yang sebenarnya (Ratkiewicz et al. 2011) . Sayangnya, menghapus spam yang disengaja ini bisa sangat sulit.
Tentu saja apa yang dianggap data kotor dapat bergantung, sebagian, pada pertanyaan penelitian. Sebagai contoh, banyak suntingan ke Wikipedia dibuat oleh bot otomatis (Geiger 2014) . Jika Anda tertarik dengan ekologi Wikipedia, maka suntingan yang dibuat oleh bot ini penting. Tetapi jika Anda tertarik pada bagaimana manusia berkontribusi pada Wikipedia, maka suntingan yang dibuat oleh bot harus dikecualikan.
Tidak ada teknik atau pendekatan statistik tunggal yang dapat memastikan bahwa Anda telah cukup membersihkan data kotor Anda. Pada akhirnya, saya pikir cara terbaik untuk menghindari tertipu oleh data kotor adalah memahami sebanyak mungkin tentang bagaimana data Anda dibuat.