Vždy-na veľkých dát umožňuje štúdium neočakávaných udalostí a meranie v reálnom čase.
Mnoho veľkých dátových systémov sú vždy v zapnutom stave; sú neustále zberu dát. To vždycky-on charakteristika poskytuje vedcom s pozdĺžnymi dát (tj údaje v priebehu času). Byť vždy-on má dva významné dôsledky pre výskum.
Po prvé, neustále zhromažďovanie údajov umožňuje výskumníkom študovať neočakávané udalosti spôsobom, ktorý by inak nebol možný. Napríklad výskumníci, ktorí sa zaujímajú o štúdium protestov obsadených Gezi v Turecku v lete roku 2013, sa zvyčajne zameriavajú na správanie protestujúcich počas podujatia. Ceren Budak a Duncan Watts (2015) dokázali urobiť viac pomocou stále pripraveného charakteru Twitteru na štúdium demonštrantov, ktorí používali Twitter pred, počas a po akcii. A mohli vytvoriť porovnávaciu skupinu neparticipantov pred, počas a po udalosti (obrázok 2.2). Celkovo ich ex-post panel obsahoval tweets 30 000 ľudí v priebehu dvoch rokov. Rozšírením bežne používaných údajov z protestov s týmito ďalšími informáciami sa Budak a Watts dozvedeli oveľa viac: boli schopní odhadnúť, aké druhy ľudí sa častejšie zúčastňujú protestov Gezi a odhadnúť zmeny postojov účastníkov a neparticipantov, a to v krátkodobom horizonte (porovnávanie pre Gezi s Gezi) a z dlhodobého hľadiska (porovnávanie pre-Geži s post-Gezi).
Skeptik by mohol poukázať na to, že niektoré z týchto odhadov by sa mohli uskutočniť bez vždy zdrojov zberu údajov (napr. Dlhodobých odhadov zmeny postoja), a to je správne, aj keď takýto zber údajov pre 30 000 ľudí by bol dosť drahé. Dokonca aj v prípade neobmedzeného rozpočtu nemôžem premýšľať o žiadnej inej metóde, ktorá by v podstate umožňovala výskumníkom cestovať späť v čase a priamo sledovať správanie účastníkov v minulosti. Najbližšou alternatívou by bolo zhromaždiť retrospektívne správy o správaní, ale tieto správy by mali obmedzenú granularitu a spornú presnosť. tabuľka 2.1 poskytuje ďalšie príklady štúdií, ktoré využívajú vždy zdroj údajov na štúdium neočakávanej udalosti.
Neočakávaná udalosť | Vždy zapnutý zdroj údajov | citácie |
---|---|---|
Zaberá hnutie Gezi v Turecku | cvrlikání | Budak and Watts (2015) |
Umbrella protesty v Hongkongu | Zhang (2016) | |
Streľby polície v New Yorku | Stop-and-frisk správy | Legewie (2016) |
Osoba, ktorá sa pripája k ISIS | cvrlikání | Magdy, Darwish, and Weber (2016) |
11. september 2001 útok | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11. september 2001 útok | správy pageru | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Okrem štúdií neočakávaných udalostí umožňujú výskumní pracovníci aj vytváranie odhadov v reálnom čase, ktoré môžu byť dôležité v prostrediach, kde politickí činitelia - vo vláde alebo priemysle - chcú reagovať na základe situačného povedomia. Napríklad dáta sociálnych médií môžu byť použité na usmernenie havarijnej reakcie na prírodné katastrofy (Castillo 2016) a môžu byť použité rôzne veľké zdroje údajov, ktoré umožňujú produkovať odhady ekonomickej aktivity v reálnom čase (Choi and Varian 2012) .
Na záver, vždy založené informačné systémy umožňujú výskumníkom študovať neočakávané udalosti a poskytovať tvorcom politík informácie v reálnom čase. Nemyslím si však, že stále používané dátové systémy sú vhodné na sledovanie zmien počas veľmi dlhých časových období. To je preto, že mnoho veľkých dátových systémov sa neustále mení, čo je proces, ktorý budem volať drift neskôr v kapitole (oddiel 2.3.7).