Vždy-na velkých dat umožňuje studium neočekávaných událostí a měření v reálném čase.
Mnoho velkých datových systémů jsou vždy v zapnutém stavu; jsou neustále sběru dat. To vždycky-on charakteristika poskytuje vědcům s podélnými dat (tj údaje v průběhu času). Být vždy-on má dva významné důsledky pro výzkum.
Za prvé, neustálé sběr dat umožňuje výzkumníkům studovat neočekávané události způsobem, který by jinak nebyl možný. Například výzkumníci, kteří se zajímají o studium protestů obsazených Gezi v Turecku v létě roku 2013, by se obvykle zaměřili na chování demonstrantů během akce. Ceren Budak a Duncan Watts (2015) dokázali udělat více, a to s využitím neustálé přírody Twitter ke studiu demonstrantů, kteří používali Twitter před, během a po události. A mohli vytvořit srovnávací skupinu neparticipantů před, během a po události (obrázek 2.2). Celkem jejich ex-post panel zahrnoval tweets 30,000 lidí za dva roky. Rozšířením běžně používaných údajů z protestů s těmito dalšími informacemi se Budak a Watts dozvěděli mnohem víc: byli schopni odhadnout, jaké druhy lidí se pravděpodobněji účastní protestů Gezi a odhadnout změny postojů účastníkům a neparticipantem, a to jak v krátkodobém horizontu (srovnávání před Gezi s Gezi), tak v dlouhodobém horizontu (srovnávání pre-Gezi s post-Gezi).
Skeptik by mohl poukázat na to, že některé z těchto odhadů by mohly být provedeny bez zdrojů vždy sběru dat (např. Dlouhodobé odhady změny postojů), a to je správné, i když by takový sběr dat pro 30 000 lidí byl docela drahý. I při neomezeném rozpočtu však nemohu přemýšlet o žádné jiné metodě, která by v podstatě umožnila výzkumníkům cestovat zpět včas a přímo pozorovat chování účastníků v minulosti. Nejbližší alternativou by bylo shromáždit retrospektivní zprávy o chování, ale tyto zprávy by byly omezené granularity a pochybné přesnosti. Tabulka 2.1 uvádí další příklady studií, které využívají vždy zdroj dat ke studiu neočekávané události.
Neočekávaná událost | Vždy zapnutý zdroj dat | Citace |
---|---|---|
Occupy Gezi v Turecku | Cvrlikání | Budak and Watts (2015) |
Umbrella protesty v Hongkongu | Zhang (2016) | |
Střely policie v New Yorku | Stop-and-frisk zprávy | Legewie (2016) |
Osoba připojující se k ISIS | Cvrlikání | Magdy, Darwish, and Weber (2016) |
11. září 2001 útok | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11. září 2001 útok | zprávy pageru | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Vedle studií neočekávaných událostí mohou vždy rozsáhlé datové systémy umožňovat výzkumníkům vytvářet odhady v reálném čase, které mohou být důležité v prostředí, kde politické činitele - ve vládě nebo v průmyslu - chtějí reagovat na základě situačního povědomí. Například data z sociálních médií mohou být použita k vedení havarijní reakce na přírodní katastrofy (Castillo 2016) a mohou být použity různé velké zdroje dat, které produkují odhady ekonomické aktivity v reálném čase (Choi and Varian 2012) .
Závěrem, neustálé datové systémy umožňují výzkumníkům studovat neočekávané události a poskytovat tvůrcům politiky informace v reálném čase. Nemyslím si však, že vždy-on datové systémy jsou velmi vhodné pro sledování změn po velmi dlouhou dobu. To je proto, že mnoho velkých datových systémů se neustále mění, což je proces, který budu volat drift později v kapitole (oddíl 2.3.7).