Always-on big data permette lo studio di eventi imprevisti e misura in tempo reale.
Molti sistemi di dati di grandi sono sempre attiva; sono costantemente raccogliendo dati. Questa caratteristica always-on fornisce ai ricercatori con dati longitudinali (ad esempio, i dati nel corso del tempo). Essendo sempre attivo ha due implicazioni importanti per la ricerca.
Innanzitutto, la raccolta dei dati sempre attiva consente ai ricercatori di studiare eventi imprevisti in modi che altrimenti non sarebbero possibili. Ad esempio, i ricercatori interessati a studiare le proteste di Occupy Gezi in Turchia nell'estate del 2013 si concentrano in genere sul comportamento dei manifestanti durante l'evento. Ceren Budak e Duncan Watts (2015) hanno potuto fare di più usando la natura sempre attiva di Twitter per studiare i manifestanti che hanno usato Twitter prima, durante e dopo l'evento. E, sono stati in grado di creare un gruppo di confronto di non partecipanti prima, durante e dopo l'evento (figura 2.2). In totale, il loro pannello ex post includeva i tweet di 30.000 persone in due anni. Aumentando i dati comunemente usati dalle proteste con queste altre informazioni, Budak e Watts sono stati in grado di imparare molto di più: sono stati in grado di stimare quali tipi di persone erano più propensi a partecipare alle proteste di Gezi e di stimare i cambiamenti negli atteggiamenti di partecipanti e non partecipanti, sia a breve termine (confrontando pre-Gezi a durante Gezi) sia a lungo termine (confrontando pre-Gezi con post-Gezi).
Uno scettico potrebbe far notare che alcune di queste stime potrebbero essere state fatte senza fonti di raccolta dati sempre attive (ad esempio, stime a lungo termine del cambiamento di atteggiamento), e questo è corretto, anche se una tale raccolta di dati per 30.000 persone sarebbe stata abbastanza costoso. Pur avendo un budget illimitato, tuttavia, non riesco a pensare a nessun altro metodo che consenta essenzialmente ai ricercatori di viaggiare indietro nel tempo e osservare direttamente il comportamento dei partecipanti in passato. L'alternativa più vicina sarebbe quella di raccogliere rapporti retrospettivi di comportamento, ma questi rapporti sarebbero di granularità limitata e accuratezza discutibile. la tabella 2.1 fornisce altri esempi di studi che utilizzano un'origine dati sempre attiva per studiare un evento imprevisto.
Evento imprevisto | Fonte di dati sempre attiva | Citazione |
---|---|---|
Occupare il movimento Gezi in Turchia | cinguettio | Budak and Watts (2015) |
Le proteste dell'ombrello a Hong Kong | Zhang (2016) | |
Tiri di polizia a New York City | Rapporti stop-and-frisk | Legewie (2016) |
Persona che si unisce all'ISIS | cinguettio | Magdy, Darwish, and Weber (2016) |
11 settembre 2001 attacco | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11 settembre 2001 attacco | messaggi di pager | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Oltre a studiare eventi imprevisti, i sistemi di big data sempre attivi consentono ai ricercatori di produrre stime in tempo reale, che possono essere importanti in contesti in cui i responsabili politici, nel governo o nell'industria, vogliono rispondere sulla base della consapevolezza situazionale. Ad esempio, i dati dei social media possono essere utilizzati per guidare la risposta di emergenza ai disastri naturali (Castillo 2016) e una varietà di diverse fonti di big data possono essere utilizzate per produrre stime in tempo reale dell'attività economica (Choi and Varian 2012) .
In conclusione, i sistemi di dati sempre attivi consentono ai ricercatori di studiare eventi imprevisti e fornire informazioni in tempo reale ai responsabili delle politiche. Tuttavia, non penso che i sistemi di dati sempre attivi siano adatti per tenere traccia delle modifiche su lunghi periodi di tempo. Questo perché molti grandi sistemi di dati cambiano continuamente, un processo che chiamerò deriva più avanti nel capitolo (sezione 2.3.7).