2.3.2.6 kotor

Sumber data Big bisa dieusian ku junk jeung spam.

Sababaraha panalungtik percaya sumber data gedé, utamana maranéhanana ti sumber online, nu pristine sabab dikumpulkeun sacara otomatis. Kanyataanna, jelema anu geus digarap jeung sumber data gedé nyaho anu sipatna remen kotor. Hartina, maranehna remen di antarana data nu teu ngagambarkeun tindakan nyata dipikaresep ku panalungtik. Loba ilmuwan sosial geus wawuh jeung prosés diberesihkeun data survey sosial gede skala, tapi meresihan sumber data gedé leuwih hésé pikeun dua alesan: 1) maranéhanana teu dijieun ku panalungtik pikeun panalungtik jeung 2) panalungtik umumna boga pamahaman kurang kumaha maranéhanana dijieun.

Bahaya kotor data renik digital nu gambar ku Back sareng kolega ' (2010) ulikan respon émosional ka serangan September 11, 2001. Panalungtik ilaharna diajar respon ka kajadian tragis ngagunakeun data retrospective dikumpulkeun leuwih bulan atawa komo taun. Tapi, Back sareng kolega kapanggih hiji talatah sok dina sumber digital ngambah-nu timestamped, otomatis kacatet ti 85.000 American pagers-ieu diaktipkeun panalungtik pikeun diajar response emosional dina timescale finer loba. Back sareng kolega nyiptakeun Kala emosi menit-demi-menit of 11 September ku coding eusi emosional ti talatah pager ku persentase kecap nu patali jeung (1) sedih (misalna nangis, duka), (2) kahariwang (misalna hariwang, fearful), jeung (3) anger (misalna hate, kritis). Maranéhanana manggihan yén sedih jeung kahariwang fluctuated sapopoe tanpa pola kuat, tapi aya kanaékan keuna di anger sapopoe. ieu panalungtikan sigana jadi ilustrasi éndah kakawasaan sok dina sumber data: ngagunakeun métode standar eta bakal teu mungkin boga saperti Kala-resolusi luhur respon saharita ka hiji kajadian teu kaduga.

Ngan sataun saterusna, kumaha oge, Cynthia Pury (2011) melong data leuwih taliti. Manéhna manggihan yén angka nu gede ngarupakeun talatah konon ambek anu dihasilkeun ku pager tunggal jeung maranéhanana éta sadaya idéntik. Di dieu Kang naon ceuk eta talatah konon ambek:

"Mesin reboot nt [ngaran] di kabinet [ngaran] di [lokasi]: KRITIS: [tanggal jeung waktu]"

talatah kasebut dilabélan ambek sabab kaasup kecap "KRITIS", nu umumna bisa nunjukkeun anger tapi teu dina kasus ieu. Nyoplokkeun talatah dihasilkeun ku pager otomatis single ieu lengkep eliminates kanaékan katempo di anger leuwih kursus poé (Gambar 2.2). Dina basa sejen, hasil utama dina Back, Küfner, and Egloff (2010) ieu hiji artefak hiji pager. Salaku conto ieu illustrates, analisis kawilang basajan data kawilang pajeulit jeung pabalatak boga potensi pikeun muka serius salah.

Angka 2.2: tren Diperkirakeun dina anger leuwih kursus September 11, 2001 dumasar kana 85,000 pagers American (Back, Küfner, sarta Egloff 2010; Pury 2011; Back, Küfner, sarta Egloff 2011). Asalna, Back, Küfner, sarta Egloff (2010) ngalaporkeun hiji pola ngaronjatkeun anger sapopoe. Tapi, lolobana talatah ambek semu kasebut dihasilkeun ku pager single anu sababaraha kali dikirim kaluar talatah di handap ieu: mesin reboot nt [ngaran] di kabinet [ngaran] di [lokasi]: KRITIS: [tanggal jeung waktu]. Jeung talatah ieu dileungitkeun, kanaékan katempo di anger disappears (Pury 2011; Back, Küfner, sarta Egloff 2011). inohong ieu mangrupa baranahan Gbr 1B di Pury (2011).

Angka 2.2: tren Diperkirakeun dina anger leuwih kursus September 11, 2001 dumasar kana 85,000 pagers American (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Asalna, Back, Küfner, and Egloff (2010) ngalaporkeun hiji pola ngaronjatkeun anger sapopoe. Tapi, lolobana talatah ambek semu kasebut dihasilkeun ku pager single anu sababaraha kali dikirim kaluar talatah di handap ieu: "mesin reboot nt [ngaran] di kabinet [ngaran] di [lokasi]: KRITIS: [tanggal jeung waktu]". Jeung talatah ieu dileungitkeun, kanaékan katempo di anger disappears (Pury 2011; Back, Küfner, and Egloff 2011) . Inohong ieu mangrupa baranahan Gbr 1B di Pury (2011) .

Sedengkeun data kotor anu dijieun ngahaja-saperti ti hiji ribut pager-bisa ditandaan ku panalungtik alesan ati, aya ogé sababaraha sistem online nu mikat spammers dihaja. spammers ieu aktip ngahasilkeun data palsu, jeung-mindeng ngamotivasi ku kauntungan-karya pisan teuas pikeun ngajaga spamming maranéhanana concealed. Contona, kagiatan pulitik dina Twitter sigana kaasup saeutikna sababaraha spam alesan canggih, whereby sababaraha sabab pulitik anu intentionally dijieun kasampak leuwih popular ti maranehna sabenerna anu (Ratkiewicz et al. 2011) . Panalungtik gawé bareng data nu bisa ngandung spam ngahaja nyanghareupan tangtangan ti keur ngayakin panongton maranéhanana yén maranéhanana geus kauninga jeung dipiceun spam sasuai.

Ahirna, naon anu dianggap data kotor bisa gumantung cara halus dina patarosan panalungtikan Anjeun. Contona, loba éditan ka Wikipedia dijieun ku bot otomatis (Geiger 2014) . Mun anjeun kabetot dina ékologi Wikipédia, mangka bot ieu penting. Tapi, lamun anjeun aya kabetot dina kumaha manusa nyumbang kana Wikipédia, éditan ieu dijieun ku bot ieu kudu digubris.

Cara pangalusna pikeun nyegah keur fooled ku data kotor nu ngarti kumaha data Anjeun dijieun pikeun ngalakukeun analisis éksplorasi basajan, saperti nyieun plot paburencay basajan.