Big vyanzo data inaweza kubeba na Junk na spam.
Watafiti wengine wanaamini kwamba vyanzo vyenye vya data, hasa vyanzo vya mtandaoni, vinapatikana kwa sababu hukusanywa moja kwa moja. Kwa kweli, watu ambao wamefanya kazi na vyanzo vya data kubwa wanajua kuwa mara nyingi ni chafu . Hiyo ni mara nyingi hujumuisha data ambazo hazionyeshe matendo halisi ya wastaafu. Wanasayansi wengi wa kijamii tayari wamejifunza na mchakato wa kusafisha data kubwa ya utafiti wa jamii, lakini kusafisha vyanzo vya data kubwa inaonekana kuwa vigumu zaidi. Nadhani chanzo kikuu cha shida hii ni kwamba vyanzo hivi vingi vya data halijawahi kutumiwa kwa utafiti, na hivyo hazikusanywa, kuhifadhiwa, na kuhifadhiwa kwa njia inayowezesha kusafisha data.
Hatari ya data ya kufuatilia ya uchafu ya digital inaonyeshwa na utafiti wa Nyuma na wenzake (2010) wa majibu ya kihisia dhidi ya mashambulizi ya Septemba 11, 2001, ambayo nilielezea kwa ufupi hapo awali katika sura. Watafiti kawaida hujifunza majibu kwa matukio ya kutisha kwa kutumia data retrospective zilizokusanywa zaidi ya miezi au hata miaka. Lakini, Nyuma na wenzake wamepata chanzo cha utaratibu wa digital-timestamped, ujumbe wa moja kwa moja kutoka kwa wapaganaji 85,000 wa Amerika-na hii iliwawezesha kujifunza majibu ya kihisia kwa mara nyingi nzuri zaidi. Walitengeneza ratiba ya kihisia ya dakika ya dakika ya Septemba 11 kwa kuandika maudhui ya kihisia ya ujumbe wa pager kwa asilimia ya maneno kuhusiana na (1) huzuni (kwa mfano, "kilio" na "huzuni"), (2) wasiwasi ( kwa mfano, "wasiwasi" na "hofu"), na (3) hasira (kwa mfano, "chuki" na "muhimu"). Waligundua kwamba huzuni na wasiwasi walipungua kila siku bila mfano wenye nguvu, lakini kwamba kulikuwa na ongezeko kubwa la ghadhabu siku nzima. Utafiti huu unaonekana kuwa mfano mzuri wa nguvu ya daima-kwenye vyanzo vya data: kama vyanzo vya data vya jadi vilitumiwa, ingekuwa haiwezekani kupata mstari wa juu wa azimio juu ya jibu la haraka kwa tukio lisilotazamiwa.
Mwaka mmoja tu baadaye, hata hivyo, Cynthia Pury (2011) aliangalia data kwa makini zaidi. Aligundua kuwa idadi kubwa ya ujumbe wa hasira uliyotakiwa ulizalishwa na pager moja na wote walikuwa sawa. Hivi ndivyo ujumbe wa hasira unaofikiriwa ulivyosema:
"Reboot NT mashine [jina] katika baraza la mawaziri [jina] katika [eneo]: MUHIMU: [tarehe na wakati]"
Ujumbe huu ulikuwa umeandikwa kwa hasira kwa sababu walijumuisha neno "CRITICAL," ambayo inaweza kwa ujumla kuonyesha hasira lakini katika kesi hii haina. Kuondoa ujumbe uliozalishwa na pager hii moja kwa moja huondoa kabisa ongezeko la ghadhabu juu ya siku (takwimu 2.4). Kwa maneno mengine, matokeo kuu katika Back, Küfner, and Egloff (2010) ilikuwa ni bandia ya pager moja. Kama mfano huu unavyoonyesha, uchambuzi rahisi sana wa takwimu ngumu na uovu una uwezo wa kwenda vibaya sana.
Ingawa data chafu ambazo zimeundwa bila ya kujifurahisha-kama vile kutoka kwenye pager moja ya pigo-zinaweza kugunduliwa na mtafiti mwenye makini, kuna pia mifumo ya mtandaoni ambayo huvutia spammers kwa makusudi. Wale spammers huzalisha data bandia kikamilifu, na mara nyingi huhamasishwa na faida-kazi ngumu sana kuweka siri zao za siri. Kwa mfano, shughuli za kisiasa kwenye Twitter inaonekana kuwa ni pamoja na baadhi ya spam yenye kisasa ya kisasa, ambako baadhi ya sababu za kisiasa hufanyika kwa makusudi kuonekana maarufu zaidi kuliko wao ni kweli (Ratkiewicz et al. 2011) . Kwa bahati mbaya, kuondoa spam hii yenye uamuzi inaweza kuwa vigumu sana.
Bila shaka kile kinachukuliwa kuwa chafu data kinaweza kutegemea, kwa sehemu, juu ya swali la utafiti. Kwa mfano, mabadiliko mengi kwenye Wikipedia yanaundwa na bots ya automatiska (Geiger 2014) . Ikiwa una nia ya ikolojia ya Wikipedia, basi mabadiliko haya ya uboreshaji ni muhimu. Lakini ikiwa una nia ya jinsi wanadamu wanavyochangia Wikipedia, basi mipangilio ya bot-umba inapaswa kuachwa.
Hakuna mbinu moja ya takwimu au mbinu ambayo inaweza kuhakikisha kuwa umesafisha data yako chafu kwa kutosha. Mwishoni, nadhani njia bora ya kuepuka kunyunyiwa na data chafu ni kuelewa iwezekanavyo juu ya jinsi data yako ilivyoundwa.