2.3.1.2 Sempre activat

Sempre-en grans volums de dades permet l'estudi dels esdeveniments inesperats i mesurament en temps real.

Molts sistemes de dades grans són sempre activa; estan recopilant dades constantment. Aquesta característica sempre activa proporciona als investigadors dades longitudinals (és a dir, les dades en el temps). Estar sempre actiu té dues implicacions importants per a la investigació.

En primer lloc, sempre en la recopilació de dades permet als investigadors estudiar els esdeveniments inesperats de maneres que no eren possibles anteriorment. Per exemple, els investigadors interessats en l'estudi de la protesta Occupy Gezi a Turquia en l'estiu de 2013 se sol centrar-se en el comportament dels manifestants durant l'esdeveniment. Ceren Budak i Duncan Watts (2015) van ser capaços de fer més mitjançant l'ús de la natura sempre activa de Twitter per estudiar l'ús de Twitter-manifestants abans, durant i després de l'esdeveniment. I, ells van ser capaços de crear un grup de comparació de no participants (o participants que no aleatòriament Sobre la protesta), abans, durant i després de l'esdeveniment (Figura 2.1). En total el seu panell d'ex post inclou els tweets de 30.000 persones de més de dos anys. Augmentant les dades d'ús comú de les protestes amb aquesta altra informació, Budak i Watts van ser capaços d'aprendre molt més: eren capaços d'estimar quin tipus de persones eren més propensos a participar en les protestes Gezi i estimar els canvis en les actituds de participants i no participants, tant a curt termini (comparació de pre-Gezi que durant Gezi) i en el llarg termini (comparació de pre-Gezi a la post-Gezi).

Figura 2.1: Disseny utilitzat per Budak i Watts (2015) per estudiar les protestes a Gezi a Turquia en l'estiu de 2013. Mitjançant l'ús de la natura sempre activa de Twitter, els investigadors van crear el que van cridar un panell posterior que incloïa sobre 30.000 persones de més de dos anys. En contrast, l'estudi típic que es va centrar en els participants durant les protestes, el panell posterior afegeix 1) dades dels participants abans i després de l'esdeveniment, i 2) les dades dels no participants abans, durant i després de l'esdeveniment. Aquesta estructura de dades enriquit habilitat Budak i Watts per estimar quin tipus de persones eren més propensos a participar en les protestes Gezi i estimar els canvis en les actituds dels participants i no participants, tant a curt termini (comparació de pre-Gezi que durant Gezi) i en el llarg termini (comparació de pre-gezi a la post-gezi).

Figura 2.1: Disseny utilitzat per Budak and Watts (2015) per estudiar les protestes a Gezi a Turquia en l'estiu de 2013. Mitjançant l'ús de la natura sempre activa de Twitter, els investigadors van crear el que van cridar un panell posterior que incloïa sobre 30.000 persones de més de dos anys. En contrast, l'estudi típic que es va centrar en els participants durant les protestes, el panell posterior afegeix 1) dades dels participants abans i després de l'esdeveniment, i 2) les dades dels no participants abans, durant i després de l'esdeveniment. Aquesta estructura de dades enriquit habilitat Budak i Watts per estimar quin tipus de persones eren més propensos a participar en les protestes Gezi i estimar els canvis en les actituds dels participants i no participants, tant a curt termini (comparació de pre-Gezi que durant Gezi) i en el llarg termini (comparació de pre-gezi a la post-gezi).

És cert que algunes d'aquestes estimacions es podria haver fet sense sempre en fonts de recol·lecció de dades (per exemple, les estimacions a llarg termini d'un canvi d'actitud), encara que la recaptació d'aquestes dades per a 30.000 persones hauria estat bastant car. I, fins i tot tenint en compte un pressupost il·limitat, no puc pensar en cap altre mètode que essencialment permet als investigadors a viatjar en el temps i observar directament el comportament participants en el passat. L'alternativa més propera seria recollir els informes retrospectius de comportament, però fer-ho seria de granularitat limitat i precisió qüestionable. Taula 2.1 proporciona altres exemples d'estudis que fan servir sempre-a la font de dades per estudiar un esdeveniment inesperat.

Taula 2.1: Estudis d'esdeveniments inesperats que utilitzen sempre en les fonts de dades grans.
esdeveniment inesperat Sempre-en dades d'origen citació
Ocupi el moviment Gezi a Turquia refilo Budak and Watts (2015)
protestes paraigües a Hong Kong Weibo Zhang (2016)
Tirotejos de la policia a la ciutat de Nova York Aturar i registrar informes Legewie (2016)
Persona unir-se ISIS refilo Magdy, Darwish, and Weber (2016)
11 de setembre de, 2001 contra livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 de setembre de, 2001 contra missatges de buscapersones Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

En segon lloc, sempre en la recopilació de dades permet als investigadors per produir mesuraments en temps real, que pot ser important en entorns en què els polítics volen no només aprendre de comportament existent, sinó també respondre-hi. Per exemple, les dades dels mitjans de comunicació social poden ser utilitzats per orientar les respostes als desastres naturals (Castillo 2016) .

En conclusió, sempre-en els sistemes de dades permeten als investigadors per estudiar els esdeveniments inesperats i proporcionar informació en temps real als responsables polítics. No ho vaig fer, però, proposo que sempre-en els sistemes de dades permeten als investigadors rastrejar els canvis durant llargs períodes de temps. Això és degut al fet que molts sistemes de dades grans estan en constant canvi, un procés anomenat deriva (Secció 2.3.2.4).