Didelės duomenų šaltiniai gali būti pakrautas su šiukšlių ir šlamštas.
Kai kurie mokslininkai mano, kad dideli duomenų šaltiniai, ypač iš interneto šaltinių, yra nesugadintas, nes jie renkami automatiškai. Iš tiesų, žmonės, kurie dirbo su dideliais duomenų šaltinių žinome, kad jie dažnai nešvarus. Tai yra, jie dažnai apima duomenis, kurie neatspindi realių veiksmų interesų tyrėjams. Daugelis socialinių mokslų jau esate susipažinę su valymo didelio masto socialinio tyrimo duomenimis, bet valyti didelius duomenų šaltinius yra sunkiau dėl dviejų priežasčių procese: 1) jie nebuvo sukurtas mokslininkų mokslininkams ir 2) mokslininkų paprastai turi mažiau suprasti, kaip jie buvo sukurti.
Dėl nešvarių skaitmeninis pėdsakų duomenų pavojai iliustruoja atgal ir kolegos " (2010) tyrimo emocinio reagavimo į rugsėjo 11 išpuolių 2001. Mokslininkai paprastai studijuoti atsaką į tragiškus įvykius, surinktais per mėnesius ar net metus atgaline data duomenis. Bet, nugaros ir kolegos rado visada ant šaltinio skaitmeninės pėdsakų-the timestamped automatiškai įrašytus pranešimus nuo 85.000 amerikiečių greitųjų žinučių programą, o tai leido mokslininkams studijuoti emocinę reakciją kur kas prabangiau laiką. Atgal ir kolegos sukūrė minutę-by-minutės emocinės Chronologija rugsėjo 11 kodavimo emocinį turinį gaviklio pranešimų dėl žodžių, susijusių su (1) liūdesys procentais (pvz, verksmas, pucia), (2) nerimas (pvz, nerimauja, bijo) ir (3) pyktis (pvz, neapykanta, kritinis). Jie nustatė, kad liūdesys ir nerimas svyravo visą dieną be stiprios modelis, bet ten buvo ryškus padidėjimas pyktis visą dieną. Šis tyrimas, atrodo, būti puikus iliustracija visada ant duomenų šaltinių galia: naudojant standartinius metodus būtų neįmanoma turėti tokį didelės skiriamosios gebos Chronologija nedelsiant reaguojant į netikėtą įvykį.
Tiesiog po vienerių metų, tačiau, Cynthia Pury (2011) pažvelgė į duomenis atidžiau. Ji atrado, kad daug tariamai piktas pranešimai buvo sukurtas pagal vieną gaviklį ir visi jie buvo identiški. Štai ką sakė tie neva piktas pranešimai:
"Perkraukite NT mašina [pavadinimas] į spintelę [Name] ne [vieta]: KRITINIS: [datą ir laiką]"
Šie pranešimai buvo paženklinti piktas, nes jie įtraukti žodį "kritinis", kurios paprastai gali nurodyti pyktį, bet ne šiuo atveju. Šalinama pranešimus generuoja šią vieną automatizuotą gaviklio visiškai pašalina akivaizdų augimą pykčio per dieną (2.2 pav) žinoma. Kitaip tariant, pagrindinis rezultatas Back, Küfner, and Egloff (2010) buvo vienas gaviklio artefaktas. Kadangi šis pavyzdys iliustruoja, gana paprasta analizė gana sudėtingų ir nepatogus duomenų turi potencialą eiti rimtai negerai.
Nors purvinas duomenų, kad yra sukurtas netyčia-pvz iš vieno triukšmingo gaviklio-galima aptikti pakankamai atidžiai mokslininkas, taip pat yra keletas interneto sistemas, kurios pritraukia tyčiniai spameriai. Šie spameriai aktyviai kurti netikras duomenis ir-dažnai motyvuoja pelno darbą labai sunku išlaikyti jų šiukšlės paslėpti. Pavyzdžiui, politinė veikla Twitter atrodo yra bent šiek tiek pagrįstai sudėtingą šlamštas, kuriuo kai kurie politiniai priežastys tyčia padarytą ieškoti labiau populiarus nei jie tikrasis yra (Ratkiewicz et al. 2011) . Mokslininkai, dirbantys su duomenų, kuriuose gali būti tyčinis šlamštas susiduria įtikinti savo auditoriją, kad jie aptikti ir pašalinti atitinkamą šiukšlių iššūkis.
Galiausiai, kas yra laikoma purvinas duomenys gali priklausyti subtiliais būdais į savo mokslinių tyrimų klausimus. Pavyzdžiui, daugelis Keitimų Vikipedijos yra sukurtas automatizuotas žinučių (Geiger 2014) . Jei esate suinteresuotas Vikipedijos ekologijos, tada botai yra svarbūs. Tačiau, jei jus domina, kaip žmonės prisidėti prie Vikipedijos, šie pakeitimai padaryti šių reklaminių žinučių, turėtų būti atmesti.
Geriausi būdai, kaip išvengti supainiojo purvinas duomenys yra suprasti, kaip buvo sukurta jūsų duomenys atlikti paprastą tiriamąją analizę, pavyzdžiui, paprastų sklaida sklypai.