Big mga pinagkukunan ng data ay maaaring puno na may junk at spam.
Ang ilang mga mananaliksik ay naniniwala na malaking pinagkukunan ng data, lalo na ang mga mula sa mga online na mapagkukunan, ang mga ito malinis dahil sila ay awtomatikong nakolekta. Sa katunayan, ang mga tao na nagtrabaho sa malaking pinagkukunan ng data malaman na ang mga ito ay madalas na marumi. Iyon ay, sila ay madalas na isama ang data na hindi sumasalamin sa tunay na pagkilos ng interes sa mga mananaliksik. Maraming mga panlipunang siyentipiko ay na pamilyar na sa proseso ng paglilinis malakihang data panlipunan survey, ngunit paglilinis malaking pinagkukunan ng data ay mas mahirap para sa dalawang mga kadahilanan: 1) Hindi sila ay nilikha ng mga mananaliksik para sa mga mananaliksik at 2) mga mananaliksik sa pangkalahatan ay may mas mababa unawa sa kung paano sila'y nangalikha.
Ang panganib ng marumi data digital trace ay isinalarawan sa pamamagitan ng Back at kasamahan ' (2010) pag-aaral ng emosyonal na tugon sa pag-atake noong Setyembre 11, 2001. Ang mga mananaliksik ay karaniwang pag-aralan ang tugon sa trahedya mga kaganapan gamit nagdaan data na nakolekta sa paglipas ng buwan o kahit taon. Ngunit, Bumalik at kasamahan natagpuan ng isang laging-on na mapagkukunan ng digital traces-the timestamp, awtomatikong naitala mensahe mula 85,000 Amerikano pagers-at ito enable ang mga mananaliksik sa pag-aaral emosyonal na tugon sa isang mas finer timescale. Bumalik at kasamahan ay lumikha ng isang minuto-by-minuto emosyonal timeline ng 11 Set sa pamamagitan ng coding ang emosyonal na nilalaman ng mga mensahe pager pamamagitan ng ang porsyento ng mga salita na may kaugnayan sa (1) lungkot (eg, pag-iyak, kalungkutan), (2) pag-aalaala (eg, nag-aalala, natatakot), at (3) galit (eg, poot, kritikal). Sila ay natagpuan na kalungkutan at pagkabalisa fluctuated sa buong araw nang walang isang malakas na pattern, ngunit na may isang kapansin-pansin na pagtaas sa galit sa buong araw. Pananaliksik na ito ay tila na maging isang kahanga-hangang paglalarawan ng ang kapangyarihan ng laging-on pinagkukunan ng data: gamit ang standard pamamaraan magiging imposible na magkaroon ng tulad ng isang mataas na-resolution timeline ng agarang tugon sa isang hindi inaasahang kaganapan.
Lamang ng isang taon mamaya, gayunpaman, Cynthia Pury (2011) ay tumingin sa ang data mas mabuti. Natuklasan niya na ang isang malaking bilang ng mga supposedly galit mga mensahe ay nabuo sa pamamagitan ng isang solong pager at nangaroon silang lahat magkapareho. Narito ang kung ano ang mga supposedly galit mensahe ay nagsabi:
"Reboot NT machine [name] sa cabinet [name] sa [lokasyon]: Kritikal na: [Araw at oras ng]"
Ang mga mensaheng ito ay may label na galit dahil sila kasama ang salitang "kritikal", na maaaring pangkalahatan ay nagpapahiwatig galit ngunit hindi sa kasong ito. Inaalis ang mga mensahe na nabuo sa pamamagitan ng ito single automated pager ganap na inaalis ang maliwanag na pagtaas sa galit sa ibabaw ng kurso ng araw (Figure 2.2). Sa ibang salita, ang pangunahing resulta sa Back, Küfner, and Egloff (2010) ay isang artepakto ng isa pager. Bilang halimbawa na ito ay naglalarawan, medyo simpleng pag-aaral ng relatibong kumplikadong at makalat data ay may potensyal na pumunta seriously mali.
Habang marumi data na nilikha sinasadyang-tulad ng mula sa isang maingay na pager-maaaring nakita ng isang makatwirang maingat researcher, may ilang mga online na mga sistema na makaakit intensyonal spammers din. Ang mga spammers aktibong bumuo pekeng data, at-madalas na motivated sa pamamagitan ng profit-work very hard upang panatilihin ang kanilang spamming tago. Halimbawa, pulitikal na aktibidad sa Twitter tila na isama ang hindi bababa sa ilang makatuwirang sopistikadong spam, kung saan ang ilang mga pampulitikang mga dahilan ay sadyang ginawa upang tumingin mas popular kaysa sa aktwal na sila ay (Ratkiewicz et al. 2011) . Mananaliksik nagtatrabaho sa mga data na maaaring maglaman ng intensyonal spam harapin ang hamon ng nakakumbinsi kanilang mga madla na sila ay nakita at inalis kaugnay na spam.
Sa wakas, kung ano ang itinuturing na marumi data ay maaaring depende sa mapaglalang paraan sa iyong mga katanungan pananaliksik. Halimbawa, maraming mga pag-edit sa Wikipedia ay nilikha sa pamamagitan ng awtomatikong mga bot (Geiger 2014) . Kung ikaw ay interesado sa ekolohiya ng Wikipedia, at pagkatapos ay ang mga bots ay mahalaga. Subalit, kung ikaw ay interesado sa kung paano ang mga tao mag-ambag sa Wikipedia, ang mga pag-edit na ginawa sa pamamagitan ng mga bot ay dapat na ibinukod.
Ang pinakamahusay na paraan upang maiwasan ang pagiging fooled sa pamamagitan ng marumi data ay upang maunawaan kung paano ang iyong data ay nilikha upang maisagawa ang mga simpleng pagsubok pagtatasa, tulad ng paggawa ng mga simpleng plots scatter.