2.3.2.6 Dirty

Grandaj datumoj fontoj povas esti ŝarĝitaj kun rubo kaj spamado.

Iuj investigadores kredas ke grandaj datumoj fontoj, precipe tiuj el rete fontoj, estas netuŝita ĉar ili estas kolektitaj aŭtomate. Fakte, homoj kiuj laboris kun granda datumoj fontoj scias ke ili estas ofte malpuraj. Te, ili ofte inkludas datumojn kiuj ne reflektas realan agoj de intereso al esploristoj. Multaj sociaj sciencistoj jam konata kun la procezo de purigado grandskala socia enketo datumoj, sed purigi grandajn datumojn fontoj estas pli malfacila pro du kialoj: 1) ili ne estis kreitaj de esploristoj por esploristoj kaj 2) esploristoj ĝenerale havas malpli kompreno de kiel ili kreigxis.

La danĝeroj de malpuraj ciferecan spuron datumoj ilustras Reen kaj kolegoj ' (2010) studo de la emocia respondo al la atakoj de septembro 11, 2001. Esploristoj tipe studi la respondon al tragediaj okazaĵoj uzante retrospekta datumo kolektita super monatoj aŭ eĉ jaroj. Sed, Reen kaj kolegoj trovis ĉiam-sur fonto de ciferecaj spuroj-la timestamped, aŭtomate registritaj mesaĝojn de 85.000 usonaj mesagxiloj-kaj tio ebligis la esploristoj studi emocian respondon sur multe pli fajna temposkalo. Dorso kaj kolegoj kreis minuton post minuto emocia templinio de septembro 11a de kodigo la emocia enhavo de la pager mesaĝojn de la procento de vortoj rilatigitaj (1) malĝojo (ekz, kriante, doloro), (2) angoro (ekzemple, maltrankviligita, timema), kaj (3) kolero (ekz, malamo, kritika). Ili trovis ke malĝojo kaj angoro variadis tra la tago sen forta mastro, sed tio estis okulfrapa pliigo en kolero dum la tago. Tiu esploro ŝajnas esti grandioza ilustrado de la potencon de ĉiam-sur datumoj fontoj: uzante norma metodoj estus neeble havi tian altan-rezolucia templinio de la tuja respondo al neatendita okazaĵo.

Nur unu jaron poste, aliflanke, Cynthia Pury (2011) rigardis la datumojn pli atente. Ŝi malkovris ke granda nombro de la supozeble koleraj mesaĝoj generitaj per ununura pager kaj cxiuj identaj. Jen kion tiuj supozeble koleraj mesaĝojn diris:

"Reboot NT maŝino [nomo] en kabineto [nomo] ĉe [loko]: MALTRANKVILIGAN: [dato kaj tempo]»

Tiuj mesaĝoj estis etikeditaj koleraj ĉar ili inkludas la vorton "MALTRANKVILIGAN", kiu povas ĝenerale indiki koleron sed ne en ĉi tiu kazo. Forigante la mesaĝoj generitaj per tiu sola aŭtomatigitaj pager tute forigas la ŝajna pliiĝo en kolero super la kurso de la tago (Figuro 2.2). En aliaj vortoj, la ĉefa rezulto en Back, Küfner, and Egloff (2010) estis artefakto de unu pager. Kiel tiu ekzemplo ilustras, relative simpla analizo de relative kompleksa kaj senorda datumoj havas la potencial por iri serioze erara.

Figuro 2.2: Takso tendencoj en kolero super la kurson de septembro 11, 2001 surbaze 85.000 usonaj mesagxiloj (Reen, Küfner kaj Egloff 2010; Pury 2011; Back, Küfner kaj Egloff 2011). Origine, Reen, Küfner kaj Egloff (2010) raportis padronon de kreskanta kolero tra la tago. Tamen, la plej multaj el tiuj ŝajna koleraj mesaĝoj generitaj per ununura pager ke plurfoje sendis la sekvan mesaĝon: Reboot NT maŝino [nomo] en kabineto [nomo] ĉe [loko]: MALTRANKVILIGAN: [dato kaj tempo]. Kun tiu mesaĝo forigita, la ŝajna pliiĝo en kolero malaperas (Pury 2011; Back, Küfner kaj Egloff 2011). Tiu cifero estas reprodukto de Figo 1B en Pury (2011).

Figuro 2.2: Takso tendencoj en kolero super la kurson de septembro 11, 2001 surbaze 85.000 usonaj mesagxiloj (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Origine, Back, Küfner, and Egloff (2010) raportis padronon de kreskanta kolero tra la tago. Tamen, la plej multaj el tiuj ŝajna koleraj mesaĝoj generitaj per ununura pager ke plurfoje sendis la sekvan mesaĝon: "Reboot NT maŝino [nomo] en kabineto [nomo] ĉe [loko]: MALTRANKVILIGAN: [dato kaj tempo]». Kun tiu mesaĝo forigita, la ŝajna pliiĝo en kolero malaperas (Pury 2011; Back, Küfner, and Egloff 2011) . Tiu cifero estas reprodukto de Figo 1B en Pury (2011) .

Dum malpuraj datumoj kiu kreis pretervole-kiel de unu brua pager-eblas detektitaj de prudente zorgema esploristo, ekzistas ankaŭ kelkaj rete sistemoj kiuj altiros intenca spamistoj. Tiuj spamistoj aktive generi falsajn datumojn, kaj-ofte instigita de profito-laboro tre malfacile teni sian spaman kaŝita. Ekzemple, politika aktiveco sur Twitter ŝajnas inkludi almenaŭ iuj prudente malnaiva spamado, per iu politika kaŭzoj estas intence farita por aspekti pli populara ol fakta estas (Ratkiewicz et al. 2011) . Esploristoj laboras kun datumoj kiuj povas enhavi intenca spamado alfronti la defion de konvinkado ilia spektantaro ke ili detektis kaj forigis rilata spamado.

Fine, kio estas konsiderita malpura datumoj povas dependi en subtilaj manieroj en via esploro demandoj. Ekzemple, multaj redaktetojn al Vikipedio estas kreataj per aŭtomatigitaj robotojn (Geiger 2014) . Se vi interesiĝas pri la ekologio de Vikipedio, ĉar tiuj robotojn estas gravaj. Sed, se vi estas interesita en kiel homoj kontribui al Vikipedio, tiuj redaktetojn faris tiujn robotojn devus esti ekskluditaj.

La plej bonaj manieroj por eviti estanta trompadita de malpuraj datumoj estas por kompreni kiel via datumo estis kreita por elfari simplan esploristo analizo, ekz simpla disjxetu intrigoj.