Uvijek na velikim podataka omogućuje istraživanje neočekivanih događaja i mjerenja u realnom vremenu.
Mnogi veliki sustavi podataka su uvijek na; oni su stalno prikupljanje podataka. To je uvijek na svojstvo omogućuje istraživačima longitudinalnih podataka (tj podataka tijekom vremena). Biti uvijek na ima dvije važne implikacije za istraživanje.
Prvo, uvijek prikupljanje podataka omogućuje istraživačima da proučavaju neočekivane događaje na način koji inače ne bi bio moguć. Na primjer, istraživači zainteresirani za proučavanje okupacije Gezi prosvjeda u Turskoj u ljeto 2013. obično bi se usredotočili na ponašanje prosvjednika tijekom događaja. Ceren Budak i Duncan Watts (2015) uspjeli su učiniti više koristeći se uvijek prirodi Twittera kako bi proučavali prosvjednike koji su koristili Twitter prije, tijekom i poslije događaja. I, bili su u mogućnosti kreirati usporednu skupinu nezainteresiranih osoba prije, tijekom i poslije događaja (slika 2.2). Ukupno, njihova bivša ploča uključivala je tweete od 30.000 ljudi u dvije godine. Povećavajući uobičajene podatke iz prosvjeda s ovim drugim informacijama, Budak i Watts su mogli naučiti mnogo više: mogli su procijeniti koje su vrste ljudi vjerojatno sudjelovale u prosvjedima Gezi i procijeniti promjene u stavovima sudionicima i neparticipantima, kratkoročno (uspoređujući pre-Gezi s Gezijem tijekom Gezi) i dugoročno (uspoređujući pre-Gezi s post-Gezi).
Skeptik bi mogao istaknuti da bi se neke od tih procjena mogle napraviti bez ikakvih izvora prikupljanja podataka (npr. Dugoročne procjene promjene stavova), a to je točno, iako bi takva prikupljanja podataka za 30.000 ljudi bilo sasvim skup. Ipak, s obzirom na neograničen proračun, ne mogu se sjetiti ni jedne druge metode koja u biti dopušta istraživačima da putuju natrag u vremenu i izravno promatraju ponašanje sudionika u prošlosti. Najbliža alternativa bila bi prikupiti retrospektivna izvješća o ponašanju, ali ta će izvješća biti ograničena granularnost i upitna točnost. tablica 2.1 daje druge primjere studija koje koriste uvijek izvor podataka radi proučavanja neočekivanog događaja.
Neočekivan događaj | Uvijek uključeni izvor podataka | Citat |
---|---|---|
Zauzeti pokret Gezi u Turskoj | Cvrkut | Budak and Watts (2015) |
Okrugli prosvjedi u Hong Kongu | Zhang (2016) | |
Ubojstva policije u New Yorku | Izvješća o zaustavljanju i zastrašivanju | Legewie (2016) |
Osoba koja se pridružila ISIS-u | Cvrkut | Magdy, Darwish, and Weber (2016) |
Napad 11. rujna 2001. godine | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
Napad 11. rujna 2001. godine | pager poruka | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Pored proučavanja neočekivanih događaja, uvijek veliki sustavi podataka omogućuju istraživačima da izrađuju procjene u realnom vremenu, što može biti važno u okruženjima gdje kreatori politike - u vladi ili industriji - žele odgovoriti na temelju situacijske svijesti. Na primjer, podaci o društvenim medijima mogu se koristiti za usmjeravanje hitnih reakcija na prirodne katastrofe (Castillo 2016) i mogu se koristiti razni veliki izvori podataka za proizvodnju procjena ekonomske aktivnosti u realnom vremenu (Choi and Varian 2012) .
Zaključno, uvijek dostupni podatkovni sustavi omogućuju istraživačima da proučavaju neočekivane događaje i pružaju informacije u stvarnom vremenu kreatorima politike. Međutim, ne vjerujem da su uvijek sustavi podataka prikladni za praćenje promjena u vrlo dugim vremenskim razdobljima. To je zbog toga što mnogi veliki sustavi podataka stalno se mijenjaju-proces koji ću nazvati drift kasnije u poglavlju (odjeljak 2.3.7).