Big datu avoti var ielādēt ar junk un surogātpastu.
Daži pētnieki uzskata, ka lieli datu avotus, jo īpaši tiem, no tiešsaistes avotiem, ir senatnīgs jo tie ir savākti automātiski. Faktiski, cilvēki, kuri ir strādājuši ar lieliem datu avotiem zinu, ka tie bieži ir netīri. Tas ir, viņi bieži vien ietver datus, kas neatspoguļo reālas darbības, kas interesē pētnieku. Daudzi sociālie zinātnieki jau ir pazīstami ar procesu tīrīšanas plaša mēroga sociālās aptaujas dati, bet tīrīšanas liels datu avotus, ir grūtāk divu iemeslu dēļ: 1) tie netika izveidotas pētnieki pētniekiem un 2) pētniekiem parasti ir mazāk izpratne par to, kā tās tika izveidotas.
Par netīrām digitālā izsekot datiem briesmas ilustrē atpakaļ un kolēģi " (2010) pētījumu par emocionālo reakciju uz uzbrukumiem 11. septembrī, 2001. Pētnieki parasti izpētītu reakciju uz traģiskajiem notikumiem, izmantojot retrospektīvu datus, kas savākti pa mēnešiem vai pat gadiem. Bet, Back un kolēģi atrada vienmēr-on avots digitālo pēdas-to timestamped, automātiski ierakstītas ziņas no 85.000 amerikāņu peidžeri, un tas ļāva pētniekiem mācīties emocionālu reakciju uz daudz smalkāka termiņā. Atpakaļ un kolēģiem izveidoja minūti pa minūti emocionālo grafiku, 11. septembra līdz kodēšanas emocionālo saturu peidžera ziņojumus par procentuālo vārdu, kas saistīti ar (1) skumjas (piemēram, raudāšana, skumjas), (2) trauksmi (piemēram, noraizējies, baismīgs), un (3) dusmas (piemēram, naida, kritiskā). Viņi konstatēja, ka skumjas un nemiers svārstījās visas dienas garumā bez spēcīgas modeli, bet tas bija pārsteidzoša pieaugums dusmas visas dienas garumā. Šis pētījums, šķiet, ir brīnišķīga ilustrācija spēkam vienmēr-on datu avotiem: izmantojot standarta metodes nebūtu iespējams, ir tik augstas izšķirtspējas grafiku, nekavējoties reaģējot uz nejauša notikuma.
Tikai vienu gadu vēlāk, tomēr, Cynthia Pury (2011) paskatījās datus rūpīgāk. Viņa atklāja, ka liels skaits no it kā dusmīgs ziņojumiem tika radīts ar vienu peidžeri, un tie visi bija identiski. Lūk, kādi ir šie it kā dusmīgs ziņas teica:
"Reboot NT mašīna [vārds] kabinetfailā [vārds] at [pilsētas]: Kritiskās: [datums un laiks]"
Šīs ziņas tika marķēti dusmīgs, jo tie ietvēra vārdu "kritisko", kas parasti var norādīt dusmas, bet nav šajā gadījumā. ziņojumus ar šo vienu automatizētu peidžeri ģenerētos noņemšana pilnībā novērš acīmredzamo pieaugumu dusmas pār dienas laikā (2.2 attēls). Citiem vārdiem sakot, galvenais rezultāts Back, Küfner, and Egloff (2010) bija artefakts viena peidžeri. Tā kā šis piemērs parāda, samērā vienkāršs analīze samērā sarežģītu un netīrs dati ir potenciāls, lai dotos nopietni nepareizi.
Kaut netīrās dati, kas tiek izveidotas nejauši, piemēram, no vienas trokšņainās peidžeri-var noteikt ar pietiekami rūpīgi pētnieks, ir arī daži tiešsaistes sistēmu, kas piesaista tīšu surogātpasta izplatītāji. Šie surogātpasta izplatītāji aktīvi radīt viltus dati, un, bieži vien motivē peļņas darbs ļoti grūti, lai saglabātu viņu surogātklikšķus noslēptas. Piemēram, politiskā aktivitāte čivināt šķiet iekļaut vismaz kādu samērā sarežģītu surogātpastu, kuru daži politiskie iemesli tiek apzināti, lai izskatās vairāk populārs nekā tie faktiski ir (Ratkiewicz et al. 2011) . Pētnieki strādā ar datiem, kas var saturēt tīšu mēstules saskaras ar problēmu pārliecināt savu auditoriju, ka viņi ir atklāta un noņemt attiecīgo surogātpastu.
Visbeidzot, kas tiek uzskatīts par netīrās dati var atkarīgs smalks veidos par saviem izpētes jautājumiem. Piemēram, daudzi labojumi Wikipedia ir izveidojis automatizētas roboti (Geiger 2014) . Ja Jums ir interese par ekoloģiju Wikipedia, tad šie roboti ir svarīgi. Bet, ja jūs interesē, kā cilvēki veicina Wikipedia, būtu jāizslēdz šie labojumi, ko šie roboti.
Labākais veids, kā izvairīties no apmānīt ar netīrs dati ir saprast, kā jūsu dati tika izveidota, lai veiktu vienkāršu izpētes analīzi, piemēram, veicot vienkāršus izkliedes zemes gabalu.