Uvijek na velikim podataka omogućava proučavanje neočekivanih događaja i mjerenje u realnom vremenu.
Mnogi velike sisteme podaci su uvijek na; oni su stalno prikupljanje podataka. To uvijek na karakterističnim pruža istraživačima sa uzdužnim podacima (tj, podaci tokom vremena). Biti uvijek na ima dvije važne implikacije za istraživanje.
Prvo, uvek na prikupljanju podataka omogućava istraživačima da proučavaju neočekivane događaje na načine koji inače ne bi bili mogući. Na primjer, istraživači zainteresovani za proučavanje protesta u Occupy Gezi u Turskoj tokom leta 2013. obično bi se fokusirali na ponašanje demonstranata tokom događaja. Ceren Budak i Duncan Watts (2015) bili su u mogućnosti da učine više koristeći uvek prirodu Tvitera da proučavaju demonstrante koji su koristili Twitter pre, tokom i nakon događaja. I, uspeli su da kreiraju uporednu grupu ne-učesnika pre, tokom i posle događaja (slika 2.2). Ukupno, njihova ex-post panel uključila je tweets od 30.000 ljudi tokom dvije godine. Povećavajući najčešće korišćene podatke iz protesta sa ovim drugim informacijama, Budak i Vots su mogli naučiti mnogo više: oni su mogli proceniti koje vrste ljudi će verovatnije učestvovati u protestima Gezi i procijeniti promjene u stavovima učesnike i ne-učesnike, kratkoročno (upoređujući pre-Gezi tokom Gezi-a) i dugoročno (upoređujući pre-Gezi sa post-Gezi).
Skeptik može ukazati na to da neke od ovih procena mogu biti napravljene bez uvijek izvora za prikupljanje podataka (npr. Dugoročne procjene promjene stava), a to je tačno, iako bi takvo prikupljanje podataka za 30.000 ljudi bilo prilično skupo. Međutim, čak i uz neograničeni budžet, ne mogu se smatrati ni na jedan drugi način koji suštinski omogućava istraživačima da putuju unazad i direktno posmatraju ponašanje učesnika u prošlosti. Najmanja alternativa bi bila sakupljanje retrospektivnih izvještaja o ponašanju, ali ovi izvještaji bi bili ograničeni granularnosti i upitne tačnosti. tabela 2.1 pruža druge primere studija koje koriste izvor podataka uvek za proučavanje neočekivanog događaja.
Neočekivan događaj | Always-on izvor podataka | Citation |
---|---|---|
Zauzeti pokret Gezija u Turskoj | Budak and Watts (2015) | |
Kišobranski protesti u Hong Kongu | Zhang (2016) | |
Pucnjave policije u Njujorku | Stop-and-frisk izveštaji | Legewie (2016) |
Osoba koja se pridružuje ISIS-u | Magdy, Darwish, and Weber (2016) | |
11. septembra 2001. napad | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11. septembra 2001. napad | pager poruke | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Osim što proučavaju neočekivane događaje, uvek na velikim sistemima podataka također omogućavaju istraživačima da prave procjene u realnom vremenu, što može biti važno u postavkama gdje kreatori politike - u vladi ili industriji - žele da odgovore na osnovu svijesti o situaciji. Na primjer, podaci o društvenim mrežama mogu se koristiti za vođenje hitnih reagovanja na prirodne katastrofe (Castillo 2016) i mogu se koristiti razni veliki izvori podataka, koji stvaraju procjene ekonomske aktivnosti u realnom vremenu (Choi and Varian 2012) .
U zaključku, sistemi podataka koji se uvek koriste omogućavaju istraživačima da proučavaju neočekivane događaje i pružaju informacije u stvarnom vremenu kreatorima politike. Međutim, ne mislim da su uvek sistemi podataka pogodni za praćenje promena u veoma dugim vremenskim periodima. To je zbog toga što mnogi veliki sistemi podaci se stalno mijenjaju-proces koji ću nazvati drift kasnije u ovom poglavlju (poglavlje 2.3.7).