Stór gögn heimildir geta vera hlaðinn með rusli og spam.
Sumir vísindamenn telja að stór gögn, einkum á netinu, séu óspillt vegna þess að þau eru safnað sjálfkrafa. Reyndar, fólk sem hefur unnið með stórum gagnamagni veit að þau eru oft óhrein . Það er, þeir eru oft með gögn sem ekki endurspegla raunverulegar aðgerðir sem vekja áhuga fyrir vísindamenn. Flestir félagsvísindamenn eru nú þegar kunnugir því að hreinsa stórar upplýsingar um félagslega könnun, en það virðist vera erfitt að hreinsa stóra gagnasöfn. Ég held að fullkominn uppspretta þessara erfiðleika sé að mörg þessara stóra gagnasafna voru aldrei ætluð til rannsókna og eru því ekki safnað, geymd og skjalfest á þann hátt að auðvelda gagnagreiningu.
Hættan á óhreinum stafrænum rekjaupplýsingum er sýnd af rannsókninni Back og samstarfsfólksins (2010) um tilfinningalega viðbrögð við árásunum 11. september 2001, sem ég nefndi í stuttu máli áður í kaflanum. Vísindamenn læra að jafnaði viðbrögð við hörmulegum atburðum með afturvirkum gögnum sem safnað er yfir mánuði eða jafnvel ár. En baka og samstarfsmenn funduðu alltaf stafræna ummerki - tímamælin, sjálfkrafa skráð skilaboð frá 85.000 bandarískum pagers-og þetta gerði þeim kleift að læra tilfinningaleg viðbrögð á miklu fínnari tímamörkum. Þeir bjuggu í eina mínútu tilfinningalega tímalínu 11. september með því að kóða tilfinningalegt innihald fréttaboðsmannsins með því að hlutfall af orðum sem tengjast (1) sorg (td "grátur" og "sorg"), (2) kvíði ( td "áhyggjur" og "hræðilegir") og (3) reiði (td "hatur" og "gagnrýninn"). Þeir komust að því að dapur og kvíði sveiflast allan daginn án sterkt mynstur, en það var sláandi aukning í reiði yfir daginn. Þessi rannsókn virðist vera yndisleg mynd af krafti ávallt gagnasafna: ef hefðbundin gögn höfðu verið notaðar hefði það verið ómögulegt að fá slíkan tímabundna viðbrögð við óvæntum atburðum með mikilli upplausn.
Bara einu ári síðar horfði Cynthia Pury (2011) á gögnin vandlega. Hún uppgötvaði að fjöldi sanna reita skeyta var myndaður af einum einstaklinga og þeir voru allir eins. Hér er það sem þeim talin reiður skeyti sagði:
"Endurfæddur NT vél [nafn] í skáp [nafn] á [stað]: Critical: [dagsetning og tími]"
Þessar skilaboð voru merktar reiður vegna þess að þau innihéldu orðið "CRITICAL", sem almennt getur bent til reiði en í þessu tilfelli er það ekki. Að fjarlægja skilaboðin sem myndast af þessari einustu sjálfvirkri tölvuleikari útilokar alveg augljós aukning á reiði yfir daginn (mynd 2.4). Með öðrum orðum, aðalatriðið í Back, Küfner, and Egloff (2010) var artifact af einum einstaklinga. Eins og þetta dæmi sýnir er tiltölulega einföld greining á tiltölulega flóknum og sóðalegum gögnum hugsanlega að fara alvarlega úrskeiðis.
Þó óhreinum gögnum sem er óvart skapað, eins og það er frá einum hávaðasíðum, er hægt að uppgötva af tiltölulega varkárri rannsókn, eru einnig nokkrir netkerfi sem laða að ásetningi spammers. Þessar spammers mynda virkan falsa gögn, og-oft áhugasamir af hagnaðarvinnu mjög erfitt að halda ruslpósti sínum hulinn. Til dæmis virðist pólitísk starfsemi á Twitter innihalda að minnsta kosti nokkuð tiltölulega háþróaðan ruslpóst, þar sem sumir pólitískir orsakir eru af ásettu ráði gerðar til að líta vinsælari en þeir eru í raun (Ratkiewicz et al. 2011) . Því miður er hægt að fjarlægja þetta vísvitandi ruslpóst.
Auðvitað er það sem talin eru óhreinum gögnum, að hluta til háð rannsóknarvaldið. Til dæmis eru margar breytingar á Wikipedia búin til af sjálfvirkum botsum (Geiger 2014) . Ef þú hefur áhuga á vistfræði Wikipedia, þá eru þessar breytingar sem eru búnar til með botni mikilvægt. En ef þú hefur áhuga á því hvernig menn leggja sitt af mörkum við Wikipedia, þá ber að útiloka bótaskýrdu breytingar.
Það er engin ein tölfræðileg tækni eða aðferð sem getur tryggt að þú hafir nægilega hreinsað óhreina gögnin þín. Að lokum held ég að besta leiðin til að koma í veg fyrir að blekkjast af óhreinum gögnum er að skilja eins mikið og mögulegt er varðandi hvernig gögnin þín voru búin til.