Burime të mëdha të të dhënave mund të jetë i ngarkuar me junk dhe spam.
Disa studiues besojnë se burimet e mëdha të të dhënave, sidomos burimet në internet, janë të pacenuara sepse ato mblidhen automatikisht. Në fakt, njerëzit që kanë punuar me burime të mëdha të të dhënave e dinë se shpesh janë të pista . Kjo është, ato shpesh përfshijnë të dhëna që nuk pasqyrojnë veprime reale me interes për kërkuesit. Shumica e shkencëtarëve socialë tashmë janë të njohur me procesin e pastrimit të të dhënave të sondazhit në shkallë të gjerë, por pastrimi i burimeve të mëdha të të dhënave duket të jetë më i vështirë. Mendoj se burimi kryesor i kësaj vështirësie është se shumë prej këtyre burimeve të mëdha të të dhënave kurrë nuk kanë pasur për qëllim të përdoren për hulumtime dhe kështu ato nuk mblidhen, ruhen dhe dokumentohen në një mënyrë që lehtëson pastrimin e të dhënave.
Rreziqet e të dhënave të pista të gjurmës digjitale janë ilustruar nga studimi i Back and colleagues (2010) i përgjigjes emocionale ndaj sulmeve të 11 shtatorit 2001, të cilën e përmenda shkurtimisht më parë në kapitull. Studiuesit zakonisht e studiojnë reagimin ndaj ngjarjeve tragjike duke përdorur të dhënat retrospektive të mbledhura gjatë muaj apo edhe vite. Por, Back dhe kolegët gjetën një burim të gjurmëve dixhitale - mesazhet e regjistruara automatikisht dhe automatikisht nga 85.000 pager amerikan - dhe kjo u mundësoi atyre të studionin përgjigjen emocionale në një skadim shumë më të butë. Ata krijuan një minutë emocionale të 11 shtatorit duke koduar përmbajtjen emocionale të mesazheve pager me përqindjen e fjalëve që lidhen me (1) trishtim (p.sh. "qarë" dhe "hidhërim"), (2) ankth ( p.sh. "i shqetësuar" dhe "i frikësuar"), dhe (3) zemërimi (p.sh. "urrejtje" dhe "kritike"). Ata zbuluan se trishtimi dhe ankthi luhateshin gjatë gjithë ditës pa një model të fortë, por se kishte një rritje të theksuar të zemërimit gjatë gjithë ditës. Ky hulumtim duket të jetë një ilustrim i mrekullueshëm i fuqisë së burimeve gjithmonë të të dhënave: nëse do të ishin përdorur burimet tradicionale të të dhënave, do të ishte e pamundur të arrish një afat kohor të tillë të rezolucionit të lartë të përgjigjes së menjëhershme ndaj një ngjarjeje të papritur.
Vetëm një vit më vonë, megjithatë, Cynthia Pury (2011) shikonte të dhënat më me kujdes. Ajo zbuloi se një numër i madh i mesazheve të supozuara ishin të gjeneruara nga një pager i vetëm dhe të gjithë ishin identikë. Ja se çfarë thanë këto mesazhe të zemëruar:
"Makinë Reboot NT [emri] në kabinetin e [emri] në [vend të]: KRITIKE: [data dhe koha]"
Këto mesazhe u etiketuan si të zemëruar, sepse përfshinin fjalën "KRITIKE", të cilat përgjithësisht mund të tregojnë zemërimin, por në këtë rast nuk ndodh. Heqja e mesazheve të krijuara nga ky pager i vetëm i automatizuar eliminon plotësisht rritjen e dukshme të zemërimit gjatë rrjedhës së ditës (figura 2.4). Me fjalë të tjera, rezultati kryesor në Back, Küfner, and Egloff (2010) ishte një objekt i një pager. Siç ilustron ky shembull, analiza relativisht e thjeshtë e të dhënave relativisht komplekse dhe të çrregullta ka potencialin për të shkuar seriozisht në gabim.
Ndërsa të dhënat e pista që krijohen pa qëllim, siç është ajo nga një pager i zhurmshëm, mund të zbulohen nga një studiues mjaft i kujdesshëm, ka edhe disa sisteme online që tërheqin spammers me qëllim. Këto spammers në mënyrë aktive gjenerojnë të dhëna të rreme, dhe - shpesh të motivuara nga puna fitimprurëse shumë e vështirë për të mbajtur fshehjen e tyre të fshehtë. Për shembull, aktiviteti politik në Twitter duket të përfshijë të paktën disa spam të arsyeshëm dhe të sofistikuar, ku disa shkaqe politike bëhen me qëllim për t'u dukur më popullor sesa ato në fakt (Ratkiewicz et al. 2011) . Për fat të keq, largimi i këtij spam-i i qëllimshëm mund të jetë mjaft i vështirë.
Natyrisht, ajo që konsiderohet e të dhënave të ndyra mund të varet pjesërisht nga pyetja e hulumtimit. Për shembull, shumë redaktime në Wikipedia krijohen nga bots të automatizuar (Geiger 2014) . Nëse jeni të interesuar për ekologjinë e Wikipedia, atëherë këto botime të krijuara nga bot janë të rëndësishme. Por nëse jeni të interesuar në mënyrën se si njerëzit kontribuojnë në Wikipedia, atëherë botimet e krijuara nga bot duhet të përjashtohen.
Nuk ka asnjë teknikë të vetme statistikore ose qasje që mund të sigurojë që ju keni pastruar mjaft të dhënat tuaja të pista. Në fund, mendoj se mënyra më e mirë për të mos u mashtruar nga të dhënat e ndotura është të kuptosh sa më shumë që është e mundur për mënyrën se si u krijuan të dhënat tuaja.