Big datu avoti var ielādēt ar junk un surogātpastu.
Daži pētnieki uzskata, ka lieli datu avoti, it īpaši tiešsaistes avoti, ir neskaitāmi, jo tie tiek savākti automātiski. Patiesībā cilvēki, kas strādā ar lieliem datu avotiem, zina, ka viņi bieži ir netīri . Tas nozīmē, ka tie bieži ietver datus, kas neatspoguļo reālas pētnieku intereses. Lielākā daļa sociālo zinātņu jau ir iepazinušies ar liela mēroga sociālās aptaujas datu tīrīšanas procesu, taču šķiet, ka lielu datu avotu tīrīšana ir sarežģītāka. Es domāju, ka galvenais šīs grūtības avots ir tas, ka daudzi no šiem lielajiem datu avotiem nekad nav domāti izmantošanai pētniecībā, tāpēc tos nevāc, uzglabā un dokumentē tā, ka tas atvieglo datu tīrīšanu.
Netīrās digitālās izsekojamības datu bīstamību ilustrē (2010) gada 11. septembra uzbrukumu emocionālās reakcijas pētījums "Atpakaļ un kolēģi" (2010) , ko es īsumā minēju iepriekš nodaļā. Pētnieki parasti pētīju atbildi uz traģiskiem notikumiem, izmantojot retrospektīvos datus, kas savākti mēnešos vai pat gados. Taču Back un kolēģi atrada pastāvīgu digitālo pēdu avotu - automātiski ierakstītas vēstules no 85 000 amerikāņu peidžeri - un tas viņiem ļāva pētīt emocionālo reakciju daudz precīzākā laika grafikā. Viņi izveidoja 11. septembra emocionālo laika grafiku, kodējot peidžeta ziņojumu emocionālo saturu ar vārdiem, kas saistīti ar (1) skumjām (piemēram, "raudāšana" un "skumjas"), (2) trauksme ( piemēram, "satraucošs" un "baismīgs") un (3) dusmas (piemēram, "naids" un "kritisks"). Viņi atrada, ka skumjas un trauksme dienas laikā svārstījās bez spēcīga modeļa, bet dienas laikā tas pārsteidza dusmas pieaugumu. Šķiet, ka šis pētījums ir brīnišķīgs piemērs pastāvīgo datu avotu jaudai: ja tiktu izmantoti tradicionālie datu avoti, nebūtu iespējams iegūt tādu augstas izšķirtspējas laika grafiku, kas paredz tūlītēju reakciju uz negaidītu notikumu.
Tomēr tikai vienu gadu vēlāk Cynthia Pury (2011) uzmanīgi aplūkoja datus. Viņa atklāja, ka liels skaits it kā dusmīgu ziņojumu ģenerēja viens peidžeris, un tie visi bija identiski. Lūk, kādi šie it kā dusmojošie ziņojumi teica:
"Reboot NT mašīna [vārds] kabinetfailā [vārds] at [pilsētas]: Kritiskās: [datums un laiks]"
Šie ziņojumi tika apzīmēti kā dusmīgi, jo tie ietvēra vārdu "KRITISKS", kas parasti var norādīt uz dusmām, bet šajā gadījumā tas nav. No šī viena automatizētā peidža ģenerēto ziņojumu noņemšana pilnīgi novērš šķietamo dusmas pieaugumu dienas gaitā (2.4. Attēls). Citiem vārdiem sakot, Back, Küfner, and Egloff (2010) galvenais rezultāts bija viena peidžera artefakts. Kā parādīts šajā piemērā, salīdzinoši vienkārša salīdzinoši sarežģītu un netīru datu analīze var nopietni kļūt nepareiza.
Kaut arī netīšus datus, kas tiek izveidoti netīšām, piemēram, kāda no trokšņainā peidžera, var atklāt ar pietiekami rūpīgu pētnieku, ir arī dažas tiešsaistes sistēmas, kas piesaista tīšus surogātpasta izplatītājus. Šie surogātpasta izplatītāji aktīvi ģenerē viltotus datus un ļoti bieži, motivējot peļņas sadali, slēpjas surogātpasta sūtīšana. Piemēram, šķiet, ka politiskā aktivitāte pakalpojumā Twitter ietver vismaz dažus saprātīgi sarežģītus surogātpastu, no kuriem daži politiskie cēloņi ir apzināti (Ratkiewicz et al. 2011) populārāki nekā viņi patiešām ir (Ratkiewicz et al. 2011) . Diemžēl šī tīšā surogātpasta noņemšana var būt diezgan sarežģīta.
Protams, kas tiek uzskatīts par netīrajiem datiem, daļēji var būt atkarīgs no pētījuma jautājuma. Piemēram, daudzas Vikipēdijas labojumus izveido automātiskie robotprogrammatūras (Geiger 2014) . Ja jūs interesē Vikipēdijas ekoloģija, tad šie robotu radītie labojumi ir svarīgi. Bet, ja jūs interesē, kā cilvēki veicina Wikipedia, tad robotu radītie labojumi ir jāizslēdz.
Nav vienotas statistikas metodes vai pieejas, kas var nodrošināt, ka esat pietiekami notīrījuši savus netīros datus. Galu galā, manuprāt, vislabākais veids, kā izvairīties no nepatiesiem datiem, ir saprast, cik vien iespējams, par to, kā tika izveidoti jūsu dati.