2.3.1.2 Always-on

Vedno-na velikih podatkov omogoča študij nepričakovanih dogodkov in meritev v realnem času.

Mnogi veliki podatkovni sistemi so vedno-na; so nenehno zbiranje podatkov. To vedno-na lastnost omogoča raziskovalcem longitudinalnih podatkov (tj podatkov skozi čas). Kot vedno-on ima dve pomembne posledice za raziskave.

Prvič, vedno-o zbiranju podatkov omogoča raziskovalcem, da preučujejo nepričakovanih dogodkov na načine, ki niso bile mogoče prej. Na primer, raziskovalci, ki se zanimajo za študij Zasedajo Gezi proteste v Turčiji v poletnih mesecih leta 2013 se navadno osredotočajo na vedenje protestnikov v času dogodka. Ceren Budak in Duncan Watts (2015) so bili sposobni narediti več z uporabo vedno-na naravo Twitter študirati Twitter-uporabo protestnike pred, med in po dogodku. In so bili sposobni ustvariti primerjalno skupino oseb, ki niso udeležencev (ali udeležencev, ki niso Tweet o protestu) pred, med in po prireditvi (Slika 2.1). V celoti je njihova ex-post plošča vključili tweets 30.000 ljudi, več kot dve leti. Z povečuje pogosto uporabljajo podatke iz protestov v te druge informacije, so bili Budak in Watts lahko izvedeli veliko več: so bili sposobni oceniti, kakšne vrste ljudi, ki so bili bolj verjetno, da sodelujejo v Gezi protestov in za oceno sprememb v odnosu udeleženci in niso vključene, tako kratkoročno (primerjamo predhodno Gezi da med Gezi) in na dolgi rok (primerjamo predhodno Gezi bi objavili-Gezi).

Slika 2.1: Oblikovanje Budak in Watts (2015) uporablja za preučevanje Zasedajo Gezi proteste v Turčiji v poletnih mesecih leta 2013. Z uporabo vedno-na naravo Twitter, so raziskovalci ustvarili tisto, kar so imenovali naknadno panel, ki je vključevala okoli 30.000 ljudi, starejših od dveh let. V nasprotju s tem je tipična študija, da je usmerjena na udeležence med protesti, ex-post plošča dodaja 1) podatke od udeležencev pred in po dogodku in 2), podatki iz tujih udeležencev pred, med in po dogodku. Ta obogatena podatkovna struktura omogočila Budak in W oceniti, kakšne vrste ljudi, ki so bili bolj verjetno, da sodelujejo v Gezi protestih in oceniti spremembe v odnosu udeležencev in tujih udeležencev, tako v kratkoročnem obdobju (primerjava predhodno Gezi za med Gezi) in na dolgi rok (primerjava pred Gezi bi objavili-Gezi).

Slika 2.1: Oblikovanje uporablja Budak and Watts (2015) za študij Zasedajo Gezi proteste v Turčiji v poletnih mesecih leta 2013. Z uporabo vedno-na naravo Twitter, so raziskovalci ustvarili tisto, kar so imenovali naknadno panel, ki je vključevala okoli 30.000 ljudi, starejših od dveh let. V nasprotju s tem je tipična študija, da je usmerjena na udeležence med protesti, ex-post plošča dodaja 1) podatke od udeležencev pred in po dogodku in 2), podatki iz tujih udeležencev pred, med in po dogodku. Ta obogatena podatkovna struktura omogočila Budak in W oceniti, kakšne vrste ljudi, ki so bili bolj verjetno, da sodelujejo v Gezi protestih in oceniti spremembe v odnosu udeležencev in tujih udeležencev, tako v kratkoročnem obdobju (primerjava predhodno Gezi za med Gezi) in na dolgi rok (primerjava pred Gezi bi objavili-Gezi).

Res je, da bi lahko nekatere od teh ocen bil dosežen, ne da bi vedno o virih zbiranja podatkov (npr dolgoročne ocene spreminjanje odnosa), čeprav bi bila zbiranje takšnih podatkov za 30.000 ljudi, ki so precej drage. In tudi zaradi neomejen proračun, ne morem razmišljati o kateri koli drug način, ki v bistvu omogoča raziskovalcem, da potuje nazaj v čas in se neposredno opazovati udeleženci vedenje v preteklosti. Najbližja možnost bi bila zbiranje retrospektivnih poročil o obnašanju, vendar ta poročila bi bilo omejeno razdrobljenost in vprašljive točnosti. Tabela 2.1 zagotavlja druge primere študij, ki uporabljajo vedno-na vir podatkov za študij nepričakovan dogodek.

Tabela 2.1: Študije nepričakovanih dogodkov, ki uporabljajo vedno, na velikih podatkovnih virov.
nepričakovan dogodek Vedno-na podatkih vir Navedba
Zasedajo Gezi gibanje v Turčiji Twitter Budak and Watts (2015)
Krovne protesti v Hongkongu Weibo Zhang (2016)
Streljanja policije v New Yorku Stop-and-Frisk poročil Legewie (2016)
Oseba pridružil ISIS Twitter Magdy, Darwish, and Weber (2016)
11. september 2001 napad livejournal.com Cohn, Mehl, and Pennebaker (2004)
11. september 2001 napad pager sporočil Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Drugič, vedno-o zbiranju podatkov raziskovalcem omogoča izdelavo meritve v realnem času, kar je lahko pomembno v okoljih, kjer oblikovalci politik želijo ne samo učijo od obstoječega vedenja, ampak tudi odgovor nanj. Na primer, lahko socialni mediji podatki se uporabljajo za vodenje odzivanje na naravne nesreče (Castillo 2016) .

Skratka, vedno-na podatkih sistemi omogočajo raziskovalcem, da preučujejo nepričakovanih dogodkov in zagotavljanje informacij v realnem času za oblikovalce politik. Nisem pa predlagam, da to vedno-na podatkih sistemi omogočajo raziskovalcem, da bi spremljali spremembe v daljšem časovnem obdobju. To je zato, ker so veliko velikih sistemov podatkov nenehno spreminja-proces se imenuje visečih (oddelek 2.3.2.4).