Big tietolähteitä voidaan ladata roskaa ja roskapostin.
Jotkut tutkijat uskovat, että suuret tietolähteet, erityisesti verkko-lähteet, ovat turmeltumattomia, koska ne kerätään automaattisesti. Itse asiassa ihmiset, jotka ovat työskennelleet suurien tietolähteiden kanssa, tietävät, että ne ovat usein likainen . Toisin sanoen ne sisältävät usein tietoja, jotka eivät heijasta tutkijoiden mielenkiintoisia todellisia toimia. Useimmat yhteiskuntatieteilijät ovat jo perehtyneet suuren mittakaavan sosiaalisen kyselytuloksen puhdistamisprosessiin, mutta suurien tietolähteiden puhdistaminen näyttää olevan vaikeampaa. Mielestäni tämän ongelman perimmäinen lähde on, että monet näistä suurista tietolähteistä ei koskaan ole tarkoitettu käytettäväksi tutkimuksessa, joten niitä ei kerätä, varastoida ja dokumentoida tavalla, joka helpottaa tietojen puhdistamista.
Likaisten digitaalisten jälkiä koskevien tietojen vaaraa kuvataan Back and colleagues (2010) -tutkimuksella syyskuun 11. päivän 2001 hyökkäyksille tunkeutuvasta reaktiosta, jonka mainitsin lyhyesti tässä luvussa. Tutkijat tutkivat tyypillisesti vastausta traagisiin tapahtumiin käyttämällä kuukausia tai jopa vuosia kerättyjä takautuvia tietoja. Mutta Back ja kollegat löysivät jatkuvasti digitaalisten jälkien lähteen - aikaleimattuja, automaattisesti tallennettuja viestejä 85 000 amerikkalaisesta hakulaitteesta - ja tämä antoi heille mahdollisuuden opiskella emotionaalista vastausta paljon hienommassa aikataulussa. He antoivat 11. syyskuuta tunnelmallisen aikajanan koodaamalla hakulomakkeiden emotionaalisen sisällön sanojen prosenttiosuudella, joka liittyy (1) suruun (esim. "Itku ja suru"), (2) ahdistuneisuus ( esim. "huolestunut" ja "pelottava") ja (3) viha (esim. "viha" ja "kriittinen"). He havaitsivat, että surua ja ahdistusta vaihtelivat koko päivän ilman vahvaa mallia, mutta että vihan nousu jatkui koko päivän. Tämä tutkimus näyttäisi olevan loistava esimerkki jatkuvien tietolähteiden voimasta: jos perinteisiä tietolähteitä olisi käytetty, olisi ollut mahdotonta saada tällaista suuriresoluutioista aikajanaa välittömään vasteeseen odottamattomalle tapahtumalle.
Vain vuosi myöhemmin Cynthia Pury (2011) tarkasteli tietoja tarkemmin. Hän huomasi, että suuri joukko väitetysti vihaisia viestejä tuotti yksi hakulaite ja ne olivat kaikki identtisiä. Seuraavassa he ovat sanoneet,
"Reboot NT kone [name] kaappiin [name] at [sijainti]: CRITICAL: [päivämäärä ja aika]"
Nämä viestit on merkitty vihamieliksi, koska ne sisälsivät sanaa "CRITICAL", mikä voi yleensä viitata vihaa, mutta tässä tapauksessa ei. Tämän automaattisen hakulaitteen tuottamien viestien poistaminen kokonaan poistaa vihan ilmeisen lisääntymisen päivän aikana (kuva 2.4). Toisin sanoen Back, Küfner, and Egloff (2010) tärkein tulos oli yksi hakulaite. Kuten tämä esimerkki havainnollistaa, suhteellisen yksinkertaisen ja häiritsevän datan suhteellisen yksinkertainen analyysi voi olla vakavasti väärin.
Vaikka kohtuullisen huolellinen tutkija voi havaita tahattomasti luodun likainen tiedon, kuten yhden meluisan hakulaitteen, myös joitain verkko-järjestelmiä, jotka houkuttelevat tarkoituksellisia roskapostittajia. Nämä roskapostittajat tuottavat aktiivisesti väärennettyjä tietoja, ja - usein motivoituneina voitto-töiden avulla - roskapostin piilottaminen on erittäin vaikeaa. Esimerkiksi poliittinen toiminta Twitterissä näyttää sisältävän ainakin jotkut kohtuullisen pitkälle kehitetyt roskapostit, joiden avulla jotkut poliittiset syyt ovat tarkoituksellisia, jotta ne näyttäisivät suosituimpia kuin ne todellisuudessa ovat (Ratkiewicz et al. 2011) . Valitettavasti tämän tarkoituksellisen roskapostin poistaminen voi olla melko vaikeaa.
Tietenkin mitä pidetään likainen data voi riippua osittain tutkimuksen kysymykseen. Esimerkiksi monet muokkaukset Wikipediaan luodaan automatisoiduilla botilla (Geiger 2014) . Jos olet kiinnostunut Wikipedia-ekologiasta, niin nämä bot-luomat muokkaukset ovat tärkeitä. Mutta jos olet kiinnostunut siitä, miten ihmiset osallistuvat Wikipediaan, niin bot-luomat muokkaukset olisi suljettava pois.
Ei ole olemassa yhtä tilastollista tekniikkaa tai lähestymistapaa, jolla voidaan varmistaa, että likaiset tiedot on puhdistettu riittävästi. Lopulta mielestäni paras tapa välttää likaisten tietojen huijaaminen on ymmärtää mahdollisimman paljon tietoja siitä, miten tietosi luotiin.