Gall ffynonellau data mawr yn cael eu llwytho gyda sothach a sbam.
Mae rhai ymchwilwyr o'r farn bod ffynonellau data mawr, yn enwedig ffynonellau ar-lein, yn amlwg oherwydd eu bod yn cael eu casglu'n awtomatig. Mewn gwirionedd, mae pobl sydd wedi gweithio gyda ffynonellau data mawr yn gwybod eu bod yn aml yn fudr . Hynny yw, maent yn aml yn cynnwys data nad ydynt yn adlewyrchu gweithredoedd go iawn o ddiddordeb i ymchwilwyr. Mae'r mwyafrif o wyddonwyr cymdeithasol eisoes yn gyfarwydd â'r broses o lanhau data arolygu cymdeithasol ar raddfa fawr, ond mae'n ymddangos ei fod yn anoddach glanhau ffynonellau data mawr. Rwy'n credu mai prif ffynhonnell yr anhawster hwn yw na fwriedir i lawer o'r ffynonellau data mawr hyn gael eu defnyddio er mwyn ymchwilio, ac felly nid ydynt yn cael eu casglu, eu storio, a'u dogfennu mewn ffordd sy'n hwyluso glanhau data.
Dangosir peryglon data olrhain digidol budr gan astudiaeth Back a chydweithwyr (2010) o'r ymateb emosiynol at ymosodiadau Medi 11, 2001, a grybwyllnais yn fras yn gynharach yn y bennod. Fel arfer, mae ymchwilwyr yn astudio'r ymateb i ddigwyddiadau trasig gan ddefnyddio data ôl-weithredol a gesglir dros fisoedd neu flynyddoedd hyd yn oed. Ond, Daeth y cefn a'r cydweithwyr o hyd i ffynhonnell ddigidol olion digidol-y negeseuon amserlennu, a gofnodwyd yn awtomatig o 85,000 o gefnogwyr Americanaidd-ac roedd hyn yn eu galluogi i astudio ymateb emosiynol ar raddfa amser eithaf. Maent yn creu llinell amser emosiynol munud o funud o fis Medi 11 trwy godio cynnwys emosiynol y negeseuon pager gan ganran y geiriau sy'n gysylltiedig â (1) tristwch (ee, "crio" a "galar"), (2) pryder ( ee, "poeni" ac "ofn"), a (3) dicter (ee, "casineb" a "beirniadol"). Canfuon nhw fod tristwch a phryder yn amrywio trwy gydol y dydd heb batrwm cryf, ond bod yna gynnydd trawiadol yn y dicter trwy gydol y dydd. Ymddengys bod yr ymchwil hon yn enghraifft wych o bŵer ffynonellau data bob amser: pe bai ffynonellau data traddodiadol wedi'u defnyddio, byddai wedi bod yn amhosib cael amserlen mor uchel â phosibl o'r ymateb uniongyrchol i ddigwyddiad annisgwyl.
Dim ond blwyddyn yn ddiweddarach, fodd bynnag, edrychodd Cynthia Pury (2011) ar y data yn fwy gofalus. Darganfu fod nifer fawr o'r negeseuon annhebygol yn cael eu cynhyrchu gan un pager ac roedden nhw i gyd yr un fath. Dyma'r negeseuon hyn a ddywedir yn ddig:
"Ailgychwyn NT peiriant [enw] yn cabinet [enw] yn [lleoliad]: CRITIGOL: [dyddiad ac amser]"
Cafodd y negeseuon hyn eu labelu yn ddig oherwydd eu bod yn cynnwys y gair "CRITICAL," a allai fel arfer ddynodi dicter ond nid yn yr achos hwn. Mae dileu'r negeseuon a gynhyrchwyd gan y pager awtomataidd hwn yn llwyr yn dileu'r cynnydd amlwg mewn dicter dros y dydd (ffigur 2.4). Mewn geiriau eraill, y prif ganlyniad yn Back, Küfner, and Egloff (2010) oedd artiffact un pager. Fel y mae'r enghraifft hon yn dangos, mae gan y dadansoddiad cymharol syml o ddata cymharol gymhleth a dadl y potensial i fynd yn ddifrifol o'i le.
Er bod data budr a grëir yn anfwriadol - fel yr un o un pager swnllyd - yn gallu cael ei ganfod gan ymchwilydd rhesymol ofalus, mae yna hefyd rai systemau ar-lein sy'n denu sbamwyr bwriadol. Mae'r sbamwyr hyn yn cynhyrchu data ffug yn weithredol, ac yn aml yn cael eu cymell gan elw-waith yn galed iawn i gadw eu sbamio cuddiedig. Er enghraifft, ymddengys bod gweithgarwch gwleidyddol ar Twitter yn cynnwys o leiaf rywfaint o sbam rhesymol soffistigedig, lle mae rhai achosion gwleidyddol yn cael eu gwneud yn fwriadol i edrych yn fwy poblogaidd nag y maent mewn gwirionedd (Ratkiewicz et al. 2011) . Yn anffodus, gall cael gwared â'r sbam bwriadol hwn fod yn eithaf anodd.
Wrth gwrs, ystyrir y gall data budr ddibynnu, yn rhannol, ar y cwestiwn ymchwil. Er enghraifft, mae llawer o golygiadau i Wikipedia yn cael eu creu gan fotiau awtomataidd (Geiger 2014) . Os oes gennych ddiddordeb mewn ecoleg Wicipedia, yna mae'r rhain yn golygu bot-greu yn bwysig. Ond os oes gennych ddiddordeb mewn sut mae pobl yn cyfrannu at Wicipedia, yna dylid eithrio'r newidiadau bot-greu.
Nid oes unrhyw dechneg neu ddull ystadegol unigol a all sicrhau eich bod wedi glanhau'ch data budr yn ddigonol. Yn y pen draw, rwy'n credu mai'r ffordd orau o osgoi cael eich twyllo gan ddata budr yw deall cymaint â phosib ynghylch sut y crewyd eich data.