Sumber data Big bisa dieusian ku junk jeung spam.
Sababaraha peneliti yakin yén sumber data badag, utamana sumber online, nu pristine sabab dikumpulkeun otomatis. Kanyataanna, jalma anu geus digarap ku sumber data badag nyaho anu sipatna remen kotor. Hartina, aranjeunna remen kaasup data nu teu ngagambarkeun tindakan nyata dipikaresep ku peneliti. Paling élmuwan sosial anu geus akrab jeung prosés meresihan data survey sosial badag skala, tapi meresihan sumber data badag sigana leuwih hésé. Jigana sumber pamungkas tina kasusah ieu nu loba sumber data badag kasebut pernah dimaksudkeun pikeun dianggo pikeun panalungtikan, sarta ngarah teu dikumpulkeun, disimpen, sarta documented dina cara nu facilitates beberesih data.
Bahaya kotor data renik digital anu gambar ku Balik sareng kolega Anjeun ' (2010) ulikan ngeunaan respon émosional kana serangan September 11, 2001, nu sakeudeung kuring disebutkeun tadi dina bab. Peneliti umumna diajar respon kana acara tragis ngagunakeun data retrospective dikumpulkeun ngaliwatan bulan atawa malah taunan. Tapi, Balik sareng kolega Anjeun kapanggih hiji pesen salawasna-on sumber digital ngambah-éta timestamped, otomatis dirékam ti 85.000 Amérika pagers-na ieu sangkan aranjeunna keur diajar respon émosional dina timescale finer loba. Éta dijieun Kala emosi menit-demi-menit September 11 ku coding eusi emosi tina seratan pager ku persentase kecap nu patali jeung (1) sedih (misalna, "nangis" jeung "duka"), (2) kahariwang ( misalna, "hariwang" jeung "fearful"), jeung (3) anger (misalna, "hate" jeung "kritis"). Aranjeunna kapanggih yen sedih tur kahariwang fluctuated sapopoe tanpa pola kuat, tapi nu aya kanaékan keuna dina anger sapopoe. ieu panalungtikan nya sigana janten ilustrasi éndah kakawasaan salawasna-on sumber data: lamun sumber data tradisional geus dipaké, éta bakal geus teu mungkin pikeun ménta misalna hiji Kala-resolusi luhur respon saharita ka acara kaduga.
Ngan sataun engké, kumaha oge, Cynthia Pury (2011) melong data leuwih taliti. Manehna manggihan yén jumlah badag tina seratan konon ambek anu dihasilkeun ku pager tunggal jeung maranéhanana éta sakabéh identik. Di dieu Kang naon ceuk pamadegan seratan konon ambek:
"Mesin reboot nt [ngaran] di kabinet [ngaran] di [lokasi]: KRITIS: [tanggal jeung waktu]"
seratan ieu anu dilabélan ambek lantaran kaasup kecap "KRITIS," nu umumna bisa nunjukkeun anger tapi dina hal ieu henteu. Nyoplokkeun seratan dihasilkeun ku pager otomatis single kieu lengkep eliminates kanaékan katempo di anger ngaliwatan kursus poe (inohong 2.4). Dina basa sejen, hasil utama dina Back, Küfner, and Egloff (2010) éta hiji artefak tina salah pager. Salaku conto ieu illustrates, analisis kawilang basajan data kawilang pajeulit jeung pabalatak boga potensi pikeun buka serius salah.
Bari data kotor anu dijieun ngahaja-kayaning yen ti salah sahiji ribut pager-bisa ditandaan ku panalungtik alesan ati, aya ogé sababaraha sistim online nu mikat spammers ngahaja. spammers ieu aktip ngahasilkeun data palsu, sarta-sering ngamotivasi ku kauntungan-karya pisan teuas tetep spamming maranéhna concealed. Contona, aktivitas pulitik dina Twitter sigana kaasup sahenteuna sababaraha spam alesan canggih, whereby sababaraha sabab pulitik anu ngahaja dijieun kasampak leuwih populér ti maranéhna sabenerna mangrupakeun (Ratkiewicz et al. 2011) . Hanjakal, nyoplokkeun spam ngahaja ieu tiasa rada hésé.
Tangtu naon dianggap data kotor tiasa gumantung, dina bagian, dina sual panalungtikan. Contona, loba éditan Wikipédia téh dijieun ku bot otomatis (Geiger 2014) . Mun anjeun kabetot dina ékologi Wikipédia, teras éditan bot-dijieun ieu penting. Tapi lamun museurkeun kumaha manusa nyumbang kana Wikipedia, mangka éditan bot-dijieun kudu digubris.
Aya teknik statistik tunggal atawa pendekatan nu bisa mastikeun yén anjeun geus sahingga cleaned data kotor Anjeun. Tungtungna, kuring pikir cara pangalusna keur nyegah keur fooled ku data kotor téh ngartos saloba mungkin ngeunaan kumaha data anjeun anu dijieun.