2.3.2.6 Prljavi

Veliki izvori podataka mogu se učitati sa smećem i spam.

Neki istraživači vjeruju da je velika izvora podataka, posebno onih iz online izvora, su netaknute jer su automatski prikupljaju. U stvari, ljudi koji su radili s velikim izvorima podataka znamo da su često prljave. To jest, oni često uključuju podatke koje ne odražavaju stvarne akcije od interesa za istraživača. Mnogi sociolozi su već upoznati s procesom čišćenja velikih socijalne ankete podataka, ali čišćenje velikih izvora podataka je teško iz dva razloga: 1) oni nisu bili stvoreni od strane istraživača za istraživače i 2) istraživača u pravilu imaju manje razumijevanje o tome kako oni su stvorili.

Opasnosti od prljavih podataka digitalne tragovima ilustrirani leđa i kolege ' (2010) studij emocionalni odgovor na napade 11. rujna 2001. Istraživači obično proučavaju reakciju na tragične događaje koji koriste retrospektivne podatke prikupljene tijekom nekoliko mjeseci ili čak godina. No, natrag i kolege otkrili uvijek ima na izvoru digitalne tragove-u vremenski označene, automatski snimljene poruke od 85.000 američkih pager-a to je omogućilo istraživačima da proučavaju emocionalni odgovor na mnogo finije vremenski okvir. Povratak i kolege stvorili minute do minute emocionalni vremenski 11. rujna kodiranje emocionalni sadržaj poruka pager po postotku riječi se odnose na (1) tuga (npr plakanje, tuga), (2) anksioznost (npr zabrinuta, strah), i (3) ljutnja (npr mržnje, kritično). Otkrili su da je tuga i tjeskoba oscilira tijekom dana bez jakog uzorak, ali da je značajnim porastom bijesa tijekom dana. Ovo istraživanje čini se da je prekrasna ilustracija moći uvijek na izvore podataka: korištenjem standardnih postupaka da bi bilo nemoguće imati takav vremenski rok visoke razlučivosti od neposrednog odgovora na neočekivani događaj.

Samo godinu dana kasnije, međutim, Cynthia Pury (2011) pažljivije pogleda na podatke. Otkrila je da je veliki broj navodno bijesnih poruka su generirani od strane jednog pager i svi su bili jednaki. Evo što oni navodno ljuti poruke je rekao:

"Reboot NT stroj [ime] u kabinetu [naziv] na [lokaciji]: Kritični: [datum i vrijeme]"

Ove poruke su označene ljuti jer uključuje riječ "kritično", koji se općenito ukazuju bijes, ali ne u ovom slučaju. Uklanjanje poruke koje generira taj jedan automatizirani pager potpunosti eliminira prividni porast ljutnje nad tijekom dana (slika 2.2). Drugim riječima, glavni rezultat u Back, Küfner, and Egloff (2010) bio je predmet jednog pager. Kao što je ovaj primjer pokazuje, relativno jednostavna analiza relativno složenih i neurednih podataka ima potencijal da ide ozbiljno nije u redu.

Slika 2.2: Procjena trendova u ljutnji tijekom 11. rujna 2001. godine na temelju 85.000 američkih pager (Back, Kufner i Egloff 2010; Pury 2011, Back, Kufner i Egloff 2011). Izvorno, natrag, Kufner i Egloff (2010) izvijestio je uzorak povećanje bijes tijekom dana. Međutim, većina tih prividnih bijesnih poruka su generirani od strane jednog pager koji više puta je poslao sljedeću poruku: Reboot NT stroja [ime] u kabinetu [name] u [lokacija]: Kritični: [datum i vrijeme]. Uz ova poruka ukloni, očito povećanje ljutnje nestaje (Pury 2011, leđa, Kufner i Egloff 2011). Ova slika je reprodukcija u slici 1B u Pury (2011).

Slika 2.2: Procjena trendova u ljutnji tijekom 11. rujna 2001. godine na temelju 85.000 američkih pager (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Izvorno, Back, Küfner, and Egloff (2010) izvijestio je uzorak povećanje bijes tijekom dana. Međutim, većina tih prividnih bijesnih poruka su generirani od strane jednog pager koji više puta je poslao sljedeću poruku: "Reboot NT stroja [ime] u kabinetu [name] na [lokacija]: Kritični: [datum i vrijeme]". Uz ova poruka ukloni, očito povećanje ljutnje nestaje (Pury 2011; Back, Küfner, and Egloff 2011) . Ova slika je reprodukcija u slici 1B u Pury (2011) .

Dok prljave podataka koji je stvoren nenamjerno-kao što je iz jednog bučnog pager-može biti otkriven razumno pažljivom istraživaču, postoje i neke online sustav koji privlače namjerno spameri. Ti spameri aktivno stvaraju lažne podatke, a često ih motivira zarade rade vrlo teško zadržati njihov spam skriveno. Na primjer, politička aktivnost na Twitteru Čini se da su barem neke prilično sofisticiran spam, pri čemu su neki politički razlozi su namjerno napravili da izgleda više popularan nego što su stvarne su (Ratkiewicz et al. 2011) . Istraživači koji rade s podacima koji mogu biti namjerni spam suočiti s izazovom uvjerljivo svoju publiku da su otkriti i ukloniti relevantne spam.

Na kraju, što se smatra prljave podataka može ovisiti na suptilne načine na svojim istraživačkim pitanjima. Na primjer, mnogi uređivanja Wikipedije su stvorili automatiziranih robota (Geiger 2014) . Ako ste zainteresirani u ekologiji Wikipedije, onda ti roboti su važni. Ali, ako ste zainteresirani kako ljudi doprinose Wikipediji, ove promjene napravljene od strane tih robota treba isključiti.

Najbolji načini da se izbjegne zavara prljave podaci razumjeti kako su vaši podaci stvoreni za obavljanje jednostavnih istraživačku analizu, kao što je izrada jednostavnih raspršiti parcele.