Big mga pinagkukunan ng data ay maaaring puno na may junk at spam.
Naniniwala ang ilang mga mananaliksik na ang mga malalaking data source, lalo na ang mga online na mapagkukunan, ay malinis dahil awtomatiko silang nakolekta. Sa katunayan, ang mga tao na nagtrabaho sa malalaking data mapagkukunan alam na ang mga ito ay madalas na marumi . Iyon ay, kadalasang kasama nila ang data na hindi nagpapakita ng tunay na pagkilos ng interes sa mga mananaliksik. Pamilyar na ang karamihan sa mga siyentipikong sosyalista sa proseso ng paglilinis ng malalaking sukat na data ng survey ng panlipunan, ngunit ang paglilinis ng malalaking pinagmumulan ng data ay tila mas mahirap. Sa tingin ko ang sukdulang pinagmumulan ng kahirapan na ito ay marami sa mga malalaking pinagkukunan ng data na ito ay hindi kailanman inilaan upang magamit para sa pananaliksik, at sa gayon ay hindi sila nakolekta, nakaimbak, at nakadokumento sa isang paraan na nagpapadali sa paglilinis ng data.
Ang mga panganib ng maruming mga digital na data ng pagsubaybay ay inilarawan ng Back and colleagues ' (2010) pag-aaral ng emosyonal na tugon sa mga pag-atake noong Setyembre 11, 2001, na binanggit ko nang mas maaga sa kabanata. Karaniwang pinag-aaralan ng mga mananaliksik ang tugon sa mga trahedyang kaganapan na gumagamit ng mga data na dumaan sa mga nakaraang buwan o taon. Ngunit, natagpuan ng Back at mga kasamahan ang isang laging pinagmumulan ng mga digital na bakas-ang timestamped, awtomatikong naitala ang mga mensahe mula sa 85,000 mga pager ng Amerikano-at ito ay nagpapagana sa kanila na pag-aralan ang emosyonal na tugon sa isang mas mahusay na oras ng oras. Gumawa sila ng isang minuto-ng-minuto na emosyonal na takdang panahon ng Setyembre 11 sa pamamagitan ng pagbubuod ng emosyonal na nilalaman ng mga mensahe ng pager sa pamamagitan ng porsyento ng mga salitang may kaugnayan sa (1) kalungkutan (hal., "Pag-iyak" at "kalungkutan"), (2) pagkabalisa ( halimbawa, "nag-aalala" at "natatakot"), at (3) galit (hal., "mapoot" at "kritikal"). Natagpuan nila na ang kalungkutan at pagkabalisa ay nagbago sa buong araw nang walang isang malakas na huwaran, ngunit may isang kapansin-pansing pagtaas ng galit sa buong araw. Ang pananaliksik na ito ay tila isang kahanga-hangang paglalarawan ng kapangyarihan ng mga pinagmumulan ng data na laging: kung ang tradisyonal na pinagkukunan ng data ay ginamit, imposible na makuha ang gayong mataas na resolution na timeline ng agarang tugon sa isang hindi inaasahang pangyayari.
Pagkalipas lamang ng isang taon, gayunpaman, ang Cynthia Pury (2011) tumingin nang mas maingat sa data. Natuklasan niya na ang isang malaking bilang ng mga marahas na mensahe ay nalikha sa pamamagitan ng isang pager at lahat sila ay magkapareho. Narito kung ano ang sinabi ng mga galit na sinabi ng galit na iyon:
"Reboot NT machine [name] sa cabinet [name] sa [lokasyon]: Kritikal na: [Araw at oras ng]"
Ang mga mensaheng ito ay may label na galit dahil isinama nila ang salitang "kritikal," na karaniwang maaaring magpahiwatig ng galit ngunit sa kasong ito ay hindi. Ang pag-alis ng mga mensaheng nabuo ng nag-iisang awtomatikong pager na ito ay ganap na nag-aalis ng maliwanag na pagtaas sa galit sa kabuuan ng araw (tayahin 2.4). Sa madaling salita, ang pangunahing resulta sa Back, Küfner, and Egloff (2010) isang artepakto ng isang pager. Habang inilalarawan ang halimbawang ito, ang medyo simple na pag-aaral ng relatibong kumplikado at kalat na data ay may potensyal na maging malubhang mali.
Habang ang maruruming data na nilikha nang di-sinasadyang-tulad ng mula sa isang maingay na pager-ay maaaring makita ng isang makatwirang maingat na tagapagpananaliksik, mayroon ding ilang mga online na sistema na nakakaakit ng mga sinasadyang mga spammers. Ang mga spammer na ito ay aktibong nakabuo ng mga pekeng data, at-kadalasang nagaganyak sa pamamagitan ng profit-work na napakahirap upang mapanatili ang kanilang spamming na lingid. Halimbawa, ang pampulitikang aktibidad sa Twitter ay mukhang may (Ratkiewicz et al. 2011) hindi bababa sa ilang mga makatwirang sopistikadong spam, kung saan ang ilang mga pampulitikang dahilan ay sadyang ginawa upang maging mas popular kaysa sa aktwal na mga ito (Ratkiewicz et al. 2011) . Sa kasamaang palad, ang pag-alis ng sinadyang spam na ito ay maaaring maging mahirap.
Of course kung ano ang itinuturing na marumi data ay maaaring depende, sa bahagi, sa pananaliksik na tanong. Halimbawa, maraming pag-edit sa Wikipedia ang nilikha ng mga awtomatikong bot (Geiger 2014) . Kung interesado ka sa ekolohiya ng Wikipedia, ang mga nabago na bot na ito ay mahalaga. Ngunit kung ikaw ay interesado sa kung paano ang mga tao na mag-ambag sa Wikipedia, pagkatapos ay ang mga bot na nilikha ng mga pag-edit ay dapat na hindi kasama.
Walang solong statistical pamamaraan o diskarte na maaaring matiyak na sapat na nilinis mo ang iyong maruruming data. Sa wakas, sa palagay ko ang pinakamahusay na paraan upang maiwasan ang pagiging maloko sa maruruming data ay upang maunawaan hangga't maaari kung paano ginawa ang iyong data.