Grandaj datumoj fontoj povas esti ŝarĝitaj kun rubo kaj spamado.
Iuj esploristoj kredas, ke grandaj datumaj fontoj, precipe enretaj fontoj, estas pristinoj ĉar ili estas kolektitaj aŭtomate. Fakte, homoj, kiuj laboris kun grandaj datumoj, scias, ke ili ofte estas malpuraj . Tio estas, ili ofte inkluzivas datumojn, kiuj ne reflektas realajn agojn de intereso por esploristoj. Plej multaj sociaj sciencistoj jam konas la procezon purigi grandskale sociajn enketajn datumojn, sed purigado de grandaj datumaj fontoj ŝajnas esti pli malfacila. Mi opinias, ke la plej grava fonto de ĉi tiu malfacilaĵo estas, ke multaj el ĉi tiuj grandaj datumaj fontoj neniam estis destinitaj por esplorado, do ili ne kolektas, konservas kaj dokumentas per maniero, kiu faciligas la purecon de datumoj.
La danĝeroj de malpuraj ciferecaj datumoj estas ilustritaj de Back and colleagues (2010) studo pri la emocia respondo al la atakoj de la 11-an de septembro 2001, kiujn mi breve menciis antaŭe en la ĉapitro. Esploristoj tipe studas la respondon al tragikaj okazaĵoj uzantaj retrospektajn datumojn kolektitaj dum monatoj aŭ eĉ jaroj. Sed, Reen kaj kolegoj trovis ĉiam-fonto de ciferecaj spuroj -la temptempa tempo, aŭtomate registris mesaĝojn de 85,000 usonaj pagers - kaj ĉi tio ebligis al ili studi emocian respondon dum multe pli finiga tempo. Ili kreis tempon emocional de minuto por minuto de la 11a de septembro per kodigo de la emocia enhavo de la mesaĝaj mesaĝoj per la procento de vortoj rilatigitaj al (1) malgajo (ekz. "Ploranta" kaj "doloro"), (2) angoro ( ekz. "maltrankviligita" kaj "timema"), kaj (3) kolero (ekz., "malamo" kaj "kritika"). Ili trovis, ke malgajeco kaj angoro fluctuis dum la tuta tago sen forta ŝablono, sed ke okazis furioza kresko en kolero dum la tuta tago. Ĉi tiu esplorado ŝajnas esti mirinda ilustrado de la potenco de ĉiam-datumaj fontoj: se tradiciaj datumoj estis uzataj, estus neeble akiri tian altan rezolucion de la tuja respondo al neatendita okazaĵo.
Nur jaron poste, tamen, Cynthia Pury (2011) rigardis la datumojn pli zorgeme. Ŝi malkovris, ke granda numero de la supozeble koleraj mesaĝoj estis kreitaj de unu sola pager kaj ili ĉiuj estis identaj. Jen kion tiuj supozeble koleraj mesaĝoj diris:
"Reboot NT maŝino [nomo] en kabineto [nomo] ĉe [loko]: MALTRANKVILIGAN: [dato kaj tempo]»
Ĉi tiuj mesaĝoj estis etikeditaj ĉar ili inkludis la vorton "CRITIKA", kiu ĝenerale povas indiki koleron, sed en ĉi tiu kazo ne. Forigi la mesaĝojn generitajn de ĉi tiu aŭtomata pager tute forigas la ŝajnan kreskon de kolero dum la tago (figuro 2.4). Alivorte, la ĉefa rezulto en Back, Küfner, and Egloff (2010) estis artefakto de unu aviadilo. Kiel ĉi tiu ekzemplo ilustras, relative simpla analizo pri relative kompleksaj kaj malklaraj datumoj havas la eblecon iri serioze malĝuste.
Dum malpuraj informoj, kiuj estas kreitaj neintence, kiel ekzemple de unu ruida pagano - povas esti detektitaj de racia zorgema esploristo, ekzistas ankaŭ iuj sistemoj enretaj, kiuj altiras intencajn spammers. Ĉi tiuj spamistoj aktive generas falsajn datumojn, kaj ofte motivitajn per profito-laboro tre malfacile konservi sian spamadon kaŝitan. Ekzemple, politika agado en Twitter ŝajnas inkluzivi almenaŭ iom da sufiĉe rafinita spamo, per kiu iuj politikaj kaŭzoj intence intencas aspekti pli popularaj ol ili vere (Ratkiewicz et al. 2011) . Bedaŭrinde, forigi ĉi tiun intencan spamon povas esti sufiĉe malfacila.
Kompreneble, kion konsideras malpuraj datumoj povas dependi, parte, pri la esplora demando. Ekzemple, multaj redaktoj al Vikipedio estas kreitaj per aŭtomatigitaj bots (Geiger 2014) . Se vi interesiĝas pri la ekologio de Vikipedio, tiam ĉi tiuj bot-kreitaj redaktoj estas gravaj. Sed se vi interesiĝas pri kiel homoj kontribuas al Vikipedio, tiam la redaktitaj bot-kreoj devas esti ekskluditaj.
Ne ekzistas neniu statistika tekniko aŭ aliro, kiu povas certigi, ke vi sufiĉe purigis vian malpurajn datumojn. Al la fino, mi pensas, ke la plej bona maniero eviti esti trompita de malpuraj datumoj estas kompreni kiel eble plej multe pri kiel via datumo estis kreita.