2.3.2.6 Kotor

Sumber data yang besar boleh dimuatkan dengan sampah dan spam.

Beberapa penyelidik percaya bahawa sumber data yang besar, terutamanya dari sumber dalam talian, adalah murni kerana mereka dikumpulkan secara automatik. Malah, orang yang telah bekerja dengan sumber data yang besar tahu bahawa mereka adalah kerap kotor. Iaitu, mereka kerap termasuk data yang tidak mencerminkan tindakan sebenar menarik minat penyelidik. Ramai saintis sosial sudah biasa dengan proses pembersihan besar-besaran kajian sosial data, tetapi pembersihan sumber data yang besar adalah lebih sukar kerana dua sebab: 1) mereka tidak dicipta oleh penyelidik bagi penyelidik dan 2) penyelidik biasanya mempunyai kurang memahami bagaimana mereka telah diciptakan.

Bahaya data surih digital kotor digambarkan oleh Back dan rakan-rakan ' (2010) kajian tindak balas emosi kepada serangan 11 September, 2001. Penyelidik biasanya mengkaji tindak balas kepada peristiwa-peristiwa tragis menggunakan data retrospektif dikumpul sejak beberapa bulan atau bertahun-tahun. Tetapi, Kembali dan rakan-rakan mendapati satu mesej yang sentiasa ke sumber digital kesan-the bercap waktu, secara automatik direkodkan daripada 85,000 Amerika alat kelui dan ini membolehkan penyelidik untuk mengkaji tindak balas emosi pada skala masa yang lebih halus banyak. Kembali dan rakan-rakan mencipta garis masa emosi minit demi minit September 11 oleh pengekodan kandungan emosi mesej pager dengan peratusan kata-kata yang berkaitan dengan (1) kesedihan (contohnya, menangis, kesedihan), (2) kecemasan (contohnya, bimbang, takut), dan (3) marah (contohnya, kebencian, kritikal). Mereka mendapati bahawa kesedihan dan kebimbangan turun naik sepanjang hari tanpa corak yang kuat, tetapi terdapat peningkatan yang ketara dalam keadaan marah sepanjang hari. Kajian ini seolah-olah menjadi satu contoh yang indah kuasa sentiasa ke sumber data: menggunakan kaedah standard ia akan menjadi mustahil untuk mempunyai apa-apa garis masa resolusi tinggi tindak balas segera kepada peristiwa yang tidak dijangka.

Hanya satu tahun kemudian, bagaimanapun, Cynthia Pury (2011) melihat kepada data yang lebih berhati-hati. Beliau mendapati bahawa sebilangan besar mesej kononnya marah telah dihasilkan oleh alat kelui tunggal dan mereka semua sama. Berikut adalah apa yang mesej-mesej kononnya marah berkata:

"Reboot NT mesin [nama] dalam kabinet [nama] di [lokasi]: KRITIKAL: [tarikh dan masa]"

mesej ini telah dilabel marah kerana mereka memasukkan perkataan "KRITIKAL", yang secara amnya menunjukkan kemarahan tetapi tidak dalam kes ini. Mengeluarkan mesej yang dihasilkan oleh alat kelui ini automatik tunggal sepenuhnya menghapuskan pembesaran yang ketara dalam keadaan marah sepanjang hari (Rajah 2.2) ini. Dalam erti kata lain, hasil utama dalam Back, Küfner, and Egloff (2010) adalah satu artifak satu alat kelui. Sebagai contoh ini menggambarkan, analisis yang agak mudah untuk data yang agak kompleks dan tidak kemas mempunyai potensi untuk pergi yang tidak kena.

Rajah 2.2: Anggaran trend dalam kemarahan sepanjang 11 September 2001 berdasarkan 85,000 pager Amerika (Back, Kufner dan Egloff 2010; Pury 2011; Back, Kufner dan Egloff 2011). Pada asalnya, Back, Kufner dan Egloff (2010) melaporkan pola meningkatkan kemarahan sepanjang hari. Walau bagaimanapun, kebanyakan mesej yang marah jelas telah dihasilkan oleh alat kelui tunggal yang berulang kali menghantar mesej berikut: Reboot NT mesin [nama] dalam kabinet [nama] di [lokasi]: KRITIKAL: [tarikh dan masa]. Dengan pesanan ini dikeluarkan, peningkatan yang ketara dalam kemarahan hilang (Pury 2011; Back, Kufner dan Egloff 2011). Angka ini adalah pembiakan Rajah 1B dalam Pury (2011).

Rajah 2.2: Anggaran trend dalam kemarahan sepanjang 11 September 2001 berdasarkan 85,000 pager Amerika (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Pada asalnya, Back, Küfner, and Egloff (2010) melaporkan pola untuk meningkatkan kemarahan sepanjang hari. Walau bagaimanapun, kebanyakan mesej yang marah jelas telah dihasilkan oleh alat kelui tunggal yang berulang kali menghantar mesej berikut: "Reboot NT mesin [nama] dalam kabinet [nama] di [lokasi]: KRITIKAL: [tarikh dan masa]". Dengan pesanan ini dikeluarkan, peningkatan yang ketara dalam kemarahan hilang (Pury 2011; Back, Küfner, and Egloff 2011) . Angka ini adalah pembiakan Rajah 1B dalam Pury (2011) .

Walaupun data kotor yang dicipta secara tidak sengaja-seperti dari satu bising pager-boleh dikesan oleh seorang penyelidik munasabah berhati-hati, ada juga beberapa sistem dalam talian yang menarik spammer disengajakan. Ini spammer aktif menjana data palsu, dan-sering didorong oleh keuntungan-kerja yang sangat sukar untuk menjaga spamming mereka disembunyikan. Sebagai contoh, aktiviti politik di Twitter seolah-olah termasuk sekurang-kurangnya beberapa spam munasabah canggih, di mana beberapa sebab-sebab politik yang sengaja dibuat untuk kelihatan lebih popular daripada mereka yang sebenar (Ratkiewicz et al. 2011) . Penyelidik yang bekerja dengan data yang mungkin mengandungi spam sengaja menghadapi cabaran untuk meyakinkan penonton mereka bahawa mereka telah dikesan dan dikeluarkan spam berkaitan.

Akhir sekali, apa yang dianggap data kotor boleh bergantung dengan cara yang halus pada soalan kajian anda. Sebagai contoh, banyak suntingan Wikipedia yang dicipta oleh bots automatik (Geiger 2014) . Jika anda berminat untuk ekologi Wikipedia, kemudian bots ini adalah penting. Tetapi, jika anda berminat untuk bagaimana manusia menyumbang kepada Wikipedia, suntingan itu yang dibuat oleh bots ini hendaklah dikecualikan.

cara terbaik untuk mengelak daripada terpedaya dengan data kotor adalah untuk memahami bagaimana data anda ditubuhkan untuk melaksanakan analisis penerokaan yang mudah, seperti membuat plot berselerak mudah.