Didelės duomenų šaltiniai gali būti pakrautas su šiukšlių ir šlamštas.
Kai kurie mokslininkai mano, kad dideli duomenų šaltiniai, ypač internetiniai šaltiniai, yra senoviniai, nes jie renkami automatiškai. Tiesą sakant, žmonės, dirbę su dideliais duomenų šaltiniais, žino, kad jie dažnai yra nešvarūs . Tai reiškia, kad jie dažnai įtraukia duomenis, kurie neatspindi realių veiksnių, kurie domina tyrėjus. Dauguma socialinių mokslų jau yra susipažinę su didelės apimties socialinio tyrimo duomenų valymo procesu, tačiau, atrodo, kad sunku tvarkyti didelius duomenų šaltinius. Manau, kad galutinis šios sunkumų šaltinis yra tai, kad daugelis iš šių didžiųjų duomenų šaltinių niekada nebuvo skirti moksliniams tyrimams, taigi jie nebūtų renkami, saugomi ir dokumentuojami taip, kad palengvėtų duomenų valymas.
Nešvarių skaitmeninių pėdsakų duomenų pavojų iliustruoja "Back" ir kolegų (2010) Emocinio atsako į 2001 m. Rugsėjo 11 d. Išpuolius tyrimas, kurį trumpai minėjau anksčiau šiame skyriuje. Tyrėjai paprastai tiria atsaką į tragiškus įvykius, naudodami retrospektyvius duomenis, surinktus per mėnesius ar netgi metus. Tačiau "Back" ir jo kolegos rado nuolatinį skaitmeninių pėdsakų šaltinį - automatiškai užregistruotus pranešimus iš 85 000 amerikiečių peidžerių - ir tai leido jiems išmėginti emocinį atsaką daug smulkesne laiko grafika. Rugsėjo 11 d. Sukūrėme minutėmis minėtą emocinę laiko juostą koduojant pečių pranešimų emocinį turinį procentais žodžių, susijusių su (1) liūdesiu (pvz., "Verksmas" ir "sielvartas"), (2) nerimas ( pvz., "susirūpinęs" ir "baisu") ir (3) pyktis (pvz., "neapykanta" ir "kritinė"). Jie nustatė, kad liūdesys ir nerimas svyravo visą dieną be stipraus modelio, bet per dieną pastebimas ryškus pykčio didėjimas. Atrodo, kad šis tyrimas yra puikus iliustravimas apie visada naudojamų duomenų šaltinių galią: jei būtų naudojami tradiciniai duomenų šaltiniai, būtų neįmanoma gauti tokio aukšto skiriamojo požymių, kad būtų galima nedelsiant reaguoti į netikėtą įvykį.
Tačiau praėjus vos metams Cynthia Pury (2011) Atidžiau išnagrinėjo duomenis. Ji atrado, kad daugybė tariamai piktų žinučių sukūrė vienas peidžeris, o jie visi buvo identiški. Štai ką sakė tie tariamai pikti pranešimai:
"Perkraukite NT mašina [pavadinimas] į spintelę [Name] ne [vieta]: KRITINIS: [datą ir laiką]"
Šie pranešimai buvo paženklinti pikta, nes juose buvo žodis "KRITINIS", kuris apskritai gali rodyti pykčio, tačiau šiuo atveju tai nėra. Pašalinus pranešimus, kuriuos sukūrė šis vienas automatinis peidžeris, visiškai pašalinama akivaizdi pykčio augimas per dieną (2.4 pav.). Kitaip tariant, pagrindinis " Back, Küfner, and Egloff (2010) buvo vieno Back, Küfner, and Egloff (2010) artefaktas. Kaip parodė šis pavyzdys, santykinai paprastas palyginti sudėtingų ir nepatogių duomenų analizė gali labai pakenkti.
Nors netyčia sukurti netyčia sukurti duomenys, pvz., Iš vieno triukšmingo gerberto, gali būti aptikti pakankamai kruopštaus tyrėjo, taip pat yra keletas internetinių sistemų, kurios pritraukia tyčinius šlamšto siuntėjus. Šie šlamšto siuntėjai aktyviai kuria suklastotus duomenis ir labai dažnai motyvuoja pelno siekimą, kad paslėptų šiukšlių. Pavyzdžiui, politinė veikla "Twitter", atrodo, apima bent jau pakankamai sudėtingą šlamštą, dėl kurio kai kurios politinės priežastys yra apgalvotos, kad jos atrodytų labiau populiarios nei jos iš tikrųjų yra (Ratkiewicz et al. 2011) . Deja, šio apgalvoto šlamšto pašalinimas gali būti labai sunkus.
Žinoma, tai, kas laikoma nešvariais duomenimis, iš dalies priklauso nuo tyrimo klausimų. Pavyzdžiui, daugelis Vikipedijos pakeitimų sukuria automatiniai robotai (Geiger 2014) . Jei jus domina Vikipedijos ekologija, tada šie robotų sukurti pakeitimai yra svarbūs. Bet jei jus domina tai, kaip žmonės prisideda prie Vikipedijos, tada turėtų būti neįtrauktos robotų sukurtos redagavimo priemonės.
Nėra vienos statistinės technikos ar metodo, kuris užtikrintų, kad jūs pakankamai išvalėte savo nešvarius duomenis. Galų gale manau, kad geriausias būdas išvengti apgaulingų netikslių duomenų - kiek įmanoma suprasti, kaip buvo sukurti jūsų duomenys.