Sorsi ta 'data kbar jistgħu jiġu mgħobbija bil junk u spam.
Xi riċerkaturi jemmnu li s-sorsi ta 'dejta kbar, speċjalment dawk minn sorsi online, huma verġni minħabba li huma miġbura awtomatikament. Fil-fatt, in-nies li ħadmu ma 'sorsi ta' dejta kbar jafu li huma ta 'spiss maħmuġin. Dan huwa, huma ta 'spiss jinkludi data li ma jirriflettux azzjonijiet reali ta' interess għar-riċerkaturi. xjentisti soċjali ħafna diġà huma familjari mal-proċess ta 'tindif fuq skala kbira dejta tal-istħarriġ soċjali, iżda tindif sorsi tad-data kbar huwa iktar diffiċli għal żewġ raġunijiet: 1) huma ma kinux maħluqa minn riċerkaturi għal riċerkaturi u 2) riċerkaturi ġeneralment għandhom inqas konoxxenza ta' kif kienu maħluqa.
Il-perikli ta 'data traċċi diġitali maħmuġ huma illustrati minn Lura u l-kollegi " (2010) studju tar-rispons emozzjonali għall-attakki xahar ta' Settembru 11, 2001. Riċerkaturi tipikament jistudja r-rispons għal avvenimenti traġiċi li jużaw dejta retrospettiva miġbura matul xhur jew anke snin. Iżda, Lura u l-kollegi sabet messaġġi dejjem fuq sors ta 'diġitali traċċi' l timestamped, irreġistrat awtomatikament minn 85,000 Amerikani pagers u dan ippermetta l-riċerkaturi li jistudjaw rispons emozzjonali fuq skala ta 'żmien ifjen ħafna. Lura u l-kollegi ħoloq minuta by minuta kronoliġika emozzjonali ta Settembru 11 mill kodifika tal-kontenut emozzjonali tal-messaġġi pager bil-perċentwali ta 'kliem relatati ma' (1) dwejjaq (eż, biki, grief), (2) ansjetà (eż inkwetat, beżgħana), u (3) rabja (eż, mibegħda, kritiku). Huma sabu li dwejjaq u ansjetà varja matul il-ġurnata mingħajr mudell b'saħħtu, iżda li kien hemm żieda impressjonanti fil-rabja matul il-ġurnata. Din ir-riċerka jidher li jkun illustrazzjoni mill-isbaħ tal-qawwa ta 'dejjem fuq sorsi ta' data: billi jintużaw metodi standard ikun impossibbli li jkollhom din kalendarju b'riżoluzzjoni għolja tat-tweġiba immedjata għal avveniment mhux mistenni.
Biss sena wara, madankollu, Cynthia Pury (2011) ħares lejn id-dejta aktar bir-reqqa. Hija skopriet li numru kbir ta 'messaġġi allegatament rrabjata ġew iġġenerati minn pager wieħed u dawn kienu kollha identiċi. Hawn dak dawk il-messaġġi allegatament rrabjata qal:
"Magna Reboot NT [isem] fil-kabinett [isem] fi [post]: KRITIKA: [data u l-ħin]"
Dawn il-messaġġi kienu ttikkettjati rrabjata għax kienu jinkludu l-kelma "kritika", li jistgħu ġeneralment jindikaw rabja iżda ma f'dan il-każ. Tneħħi l-messaġġi ġġenerati minn din il-pager awtomatizzati wieħed jelimina kompletament iż-żieda apparenti fil rabja matul il-kors tal-ġurnata (Figura 2.2). Fi kliem ieħor, ir-riżultat ewlieni fl Back, Küfner, and Egloff (2010) kien artifact ta pager wieħed. Peress li dan l-eżempju juri, l-analiżi relattivament sempliċi tad-dejta relattivament kumplessi u messy għandu l-potenzjal li jmorru serjament ħażina.
Waqt li informazzjoni maħmuġin li hija maħluqa mhux intenzjonalment-, bħal minn wieħed storbjużi pager-tista 'tiġi skoperta minn riċerkatur raġonevolment attent, hemm ukoll xi sistemi online li jattiraw min jispammja intenzjonali. Dawn il ispammers jiġġeneraw attiv tad-data foloz, u sikwit ikunu mmotivati minn profitt xogħol iebsa ħafna biex iżommu spamming tagħhom moħbi. Per eżempju, l-attività politika fuq Twitter jidher li jinkludi mill-inqas xi spam raġonevolment sofistikati, li permezz tagħha xi kawżi politiċi huma intenzjonalment magħmula biex tħares aktar popolari minn dawn attwali huma (Ratkiewicz et al. 2011) . Riċerkaturi li jaħdmu ma 'data li jista' jkun fihom l-ispam intenzjonali jiffaċċjaw l-isfida tal konvinċenti udjenza tagħhom li huma jkunu skoperti u mneħħija ispam rilevanti.
Fl-aħħarnett, dak li huwa kkunsidrat data maħmuġin tista 'tiddependi b'modi sottili dwar kwistjonijiet ta' riċerka tiegħek. Per eżempju, ħafna modifiki għall-Wikipedija huma maħluqa mill Bots awtomatizzati (Geiger 2014) . Jekk inti interessat fil-ekoloġija tal-Wikipedija, allura dawn Bots huma importanti. Iżda, jekk int interessat fil-mod kif il-bnedmin tikkontribwixxi għal Wikipedija, dawn edits li saru minn dawn Bots għandhom ikunu esklużi.
L-aħjar modi biex jevitaw li jkunu imqarraq minn data maħmuġ huma li wieħed jifhem kif id-data tiegħek kienu maħluqa biex iwettqu l-analiżi esploratorja sempliċi, bħal li tagħmel plots scatter sempliċi.