2.3.1.2 Ĉiam-on

Ĉiam-sur grandaj datumoj ebligas la studo de neatenditaj okazaĵoj kaj realtempan mezuradon.

Multaj grandaj datumoj sistemoj estas ĉiam-sur; ili konstante kolektanta datumon. Tiu ĉiam-sur karakteriza provizas esploristojn kun longitudaj datumoj (te, datumoj super tempo). Esti ĉiam-sur havas du gravajn implicojn por esplorado.

Unua, ĉiam-sur datenkolektado ebligas esploristoj studi neatenditajn okazaĵojn en manieroj kiuj ne eblis antaŭe. Ekzemple, esploristoj interesitaj en studi la Occupy Gezi protestoj en Turkio en la somero de 2013 estus tipe temigas la konduton de manifestacianoj dum la okazaĵo. Ceren Budak kaj Duncan Watts (2015) povis fari pli uzante la ĉiam-sur naturo de Twitter por studi Twitter-uzanta protestantoj antaŭ, dum kaj post la evento. Kaj, ili povis krei komparo grupo de ne-partoprenantoj (aŭ partoprenantoj kiuj ne tweet pri la protesto) antaŭ, dum kaj post la okazaĵo (Figuro 2.1). Entute siaj eks-post panelo inkludis la tuits de 30.000 personoj dum du jaroj. Per pliigante la komune uzita datumon de la protestoj per tiu alia informo, Budak kaj Vattoj povis lerni multe pli: ili povis taksi kion specoj de homoj estis pli verŝajna al partopreni en la Gezi protestoj kaj taksi la ŝanĝoj en sintenoj de partoprenantoj kaj ne-partoprenantoj, ambaŭ en la mallonga limtempo (komparante antaŭ- Gezi al dum Gezi) kaj en la longdaŭra (komparante antaŭ- Gezi sendi-Gezi).

Figuro 2.1: Dezajno uzita de Budak kaj Watts (2015) por studi la Occupy Gezi protestoj en Turkio en la somero de 2013. Uzante la ĉiam-sur naturo de Twitter, la esploristoj kreis kion ili nomis eks-post panelo kiu inkludis ĉirkaŭ 30.000 homoj super du jaroj. En kontrasto la tipa studo kiu temigis partoprenantoj dum la protestoj, la eks-post panelo aldonas 1) datumoj de partoprenantoj antaŭ kaj post la evento kaj 2) datumoj de ne-partoprenantoj antaŭ, dum kaj post la evento. Tio riĉigita datumstrukturo ebligis Budak kaj Vattoj taksi kion specoj de homoj estis pli verŝajna al partopreni en la Gezi protestoj kaj taksi la ŝanĝoj en sintenoj de partoprenantoj kaj ne-partoprenantoj, ambaŭ en la mallonga limtempo (komparante antaŭ- Gezi al dum Gezi) kaj en la longdaŭra (komparante antaŭ- Gezi sendi-Gezi).

Figuro 2.1: Dezajno uzita de Budak and Watts (2015) por studi la Occupy Gezi protestoj en Turkio en la somero de 2013. Uzante la ĉiam-sur naturo de Twitter, la esploristoj kreis kion ili nomis eks-post panelo kiu inkludis ĉirkaŭ 30.000 homoj super du jaroj. En kontrasto la tipa studo kiu temigis partoprenantoj dum la protestoj, la eks-post panelo aldonas 1) datumoj de partoprenantoj antaŭ kaj post la evento kaj 2) datumoj de ne-partoprenantoj antaŭ, dum kaj post la evento. Tio riĉigita datumstrukturo ebligis Budak kaj Vattoj taksi kion specoj de homoj estis pli verŝajna al partopreni en la Gezi protestoj kaj taksi la ŝanĝoj en sintenoj de partoprenantoj kaj ne-partoprenantoj, ambaŭ en la mallonga limtempo (komparante antaŭ- Gezi al dum Gezi) kaj en la longdaŭra (komparante antaŭ- Gezi sendi-Gezi).

Estas vero, ke iuj el tiuj taksoj povus esti farita sen ĉiam-sur datenkolektado fontoj (ekz, longtempa taksoj de sinteno ŝanĝo), kvankam tia datenkolektado por 30.000 personoj estus sufiĉe multekosta. Kaj, eĉ donita senliman buĝeton, mi ne povas pensi pri iu alia metodo kiu esence permesas esploristoj vojaĝi reen en tempo kaj rekte observi partoprenantojn konduto en la pasinteco. La plej proksima alternativo estus kolekti retrospekta raportoj de konduto, sed tiuj raportoj estus de limigita granularidad kaj kritikinda precizeco. Tabelo 2.1 provizas aliajn ekzemplojn de studoj kiuj uzas ĉiam-sur datumfonto studi neatendita okazaĵo.

Tabelo 2.1: Studoj de neatenditaj okazaĵoj uzante ĉiam-sur grandaj datumoj fontoj.
neatendita okazaĵo Ĉiam-sur datumfonto citaĵo
Okupi Gezi movado en Turkio twitter Budak and Watts (2015)
Ombrelo protestoj en Honkongo Weibo Zhang (2016)
Pafadoj de policano en Novjorko Halti-kaj-petoladi raportoj Legewie (2016)
Persono aliĝado ISIS twitter Magdy, Darwish, and Weber (2016)
Septembro 11, 2001 atako livejournal.com Cohn, Mehl, and Pennebaker (2004)
Septembro 11, 2001 atako pager mesaĝojn Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Dua, ĉiam-sur datenkolektado ebligas esploristoj produkti realtempan mezuroj, kiu povas esti grava en agordoj kie politikaj fabrikistoj volas ne nur lerni de ekzistantaj konduto sed ankaŭ respondi al ĝi. Ekzemple, sociaj amaskomunikiloj datumoj povas esti uzataj por gvidi respondojn al naturaj katastrofoj (Castillo 2016) .

En konkludo, ĉiam-sur datumoj sistemoj ebligi esploristoj studi neatenditaj okazaĵoj kaj provizas reala tempo al politikaj fabrikistoj. Mi tamen ne proponas ke tiu ĉiam-sur datumoj sistemoj ebligi esploristoj spuri ŝanĝojn dum longaj periodoj de tempo. Tio estas ĉar multaj grandaj datumoj sistemoj estas konstante ŝanĝanta-procezo nomita drivo (Sekcio 2.3.2.4).