2.3.1.2 Always-on

Vždy-na velkých dat umožňuje studium neočekávaných událostí a měření v reálném čase.

Mnoho velkých datových systémů jsou vždy v zapnutém stavu; jsou neustále sběru dat. To vždycky-on charakteristika poskytuje vědcům s podélnými dat (tj údaje v průběhu času). Být vždy-on má dva významné důsledky pro výzkum.

Za prvé, vždy k dispozici sběru dat umožňuje vědcům studovat neočekávané události způsobem, který nebylo možné dříve. Například výzkumníci mají zájem o studium Occupy Gezi protesty v Turecku v létě roku 2013 by se obvykle zaměřují na chování demonstrantů v průběhu akce. Ceren Budak a Duncan Watts (2015) byli schopni udělat více pomocí vždy-na povahu Twitter, než studovat Twitter-pomocí demonstranty, během a po události. A byli schopni vytvořit srovnávací skupinu osob, které nejsou účastníky (nebo účastníky, kteří neměli tweet o protestu) před, během a po události (Obrázek 2.1). Celkově jejich ex-post panel zahrnoval tweety o 30.000 lidí více než dva roky. Tím rozšiřovat běžně používané data z protestů s tímto dalšími informacemi, Budak a Watts byli schopni se učit mnohem víc: byli schopni odhadnout, jaké typy lidí, kteří byli s větší pravděpodobností podílet se na Gezi protestů a odhadnout změny v postojích účastníci a neúčastní, a to jak v krátkodobém horizontu (v porovnání pre-Gezi se během Gezi) av dlouhodobém horizontu (v porovnání pre-Gezi k post-Gezi).

Obrázek 2.1: Konstrukce používají Budak a Watts (2015) studovat Occupy Gezi protesty v Turecku v létě roku 2013. Při použití vždy-na povahu Twitteru, výzkumníci vytvořili to, co nazývá ex post panel, který zahrnoval asi 30.000 lidí více než dva roky. Naproti tomu typická studie, která se zaměřila na účastníky během protestů, ex-post panel přidává 1) Údaje z účastníků před a po akci a 2) data z non-účastníci před, během a po události. Tato obohacená datová struktura povolen Budak a Watts odhadnout, jaký druh lidí se častěji podílet se na Gezi protestů a odhadnout změny v postoji účastníků a non-účastníků, a to jak v krátkodobém horizontu (v porovnání pre-Gezi se v průběhu Gezi) a v dlouhodobém horizontu (v porovnání pre-Gezi post-Gezi).

Obrázek 2.1: Konstrukce používají Budak and Watts (2015) ke studiu Occupy Gezi protesty v Turecku v létě roku 2013. Při použití vždy-na povahu Twitteru, výzkumníci vytvořili to, co nazývá ex post panel, který zahrnoval asi 30.000 lidí více než dva roky. Naproti tomu typická studie, která se zaměřila na účastníky během protestů, ex-post panel přidává 1) Údaje z účastníků před a po akci a 2) data z non-účastníci před, během a po události. Tato obohacená datová struktura povolen Budak a Watts odhadnout, jaký druh lidí se častěji podílet se na Gezi protestů a odhadnout změny v postoji účastníků a non-účastníků, a to jak v krátkodobém horizontu (v porovnání pre-Gezi se v průběhu Gezi) a v dlouhodobém horizontu (v porovnání pre-Gezi post-Gezi).

Je pravda, že některé z těchto odhadů by byly provedeny, aniž by vždy-na zdroje sběru dat (např dlouhodobé odhady změny postoje), ačkoli by byly shromažďování údajů pro 30.000 lidí dost drahé. A to i vzhledem k tomu, neomezený rozpočet, nemůžu myslet na jakoukoli jinou metodou, která v podstatě umožňuje výzkumníci cestovat zpět v čase a přímo pozorovat účastníci chování v minulosti. Nejbližší Alternativou by bylo sbírat zpětné zprávy o chování, ale tyto zprávy by mít omezený zrnitosti a diskutabilní přesností. Tabulka 2.1 poskytuje další příklady studií, které používají vždy-na zdroji dat ke studiu neočekávané události.

Tabulka 2.1: Studie neočekávaných událostí, které používají vždy-na velkých datových zdrojů.
neočekávaná událost Always-on dat source Citace
Zaujímají Gezi hnutí v Turecku Cvrlikání Budak and Watts (2015)
Umbrella protesty v Hongkongu Weibo Zhang (2016)
Střílení policie v New Yorku Stop-and-Frisk zprávy Legewie (2016)
Osoba nástupem do ISIS Cvrlikání Magdy, Darwish, and Weber (2016)
11.09.2001 útok livejournal.com Cohn, Mehl, and Pennebaker (2004)
11.09.2001 útok pager zprávy Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Za druhé, vždy k dispozici sběru dat umožňuje vědcům vyrábět v reálném čase měření, které mohou být důležité v prostředí, kde politici chtějí nejen poučit se z existujícího chování, ale také na něj reagovat. Například data sociálních médií může být použit jako vodítko reakce na přírodní katastrofy (Castillo 2016) .

Závěrem lze říci, vždy-na datech systémy umožňují vědcům studovat neočekávané události a poskytovat informace v reálném čase tvůrcům politik. Nechtěl jsem však navrhují, že vždy-na datech systémy umožňují vědcům sledovat změny po dlouhou dobu. To je proto, že mnoho velkých datových systémů se neustále mění-procesu zvaném drift (§ 2.3.2.4).