2.3.1.2 Siempre activado

Siempre-en grandes volúmenes de datos permite el estudio de los acontecimientos inesperados y medición en tiempo real.

Muchos sistemas de datos grandes son siempre activa; están recopilando datos constantemente. Esta característica siempre activa proporciona a los investigadores datos longitudinales (es decir, los datos en el tiempo). Estar siempre activo tiene dos implicaciones importantes para la investigación.

En primer lugar, siempre en la recopilación de datos permite a los investigadores estudiar los acontecimientos inesperados de maneras que no eran posibles anteriormente. Por ejemplo, los investigadores interesados ​​en el estudio de la protesta Occupy Gezi en Turquía en el verano de 2013 se suele centrarse en el comportamiento de los manifestantes durante el evento. Cerén Budak y Duncan Watts (2015) fueron capaces de hacer más mediante el uso de la naturaleza siempre activa de Twitter para estudiar el uso de Twitter-manifestantes antes, durante y después del evento. Y, ellos fueron capaces de crear un grupo de comparación de no participantes (o participantes que no aleatoriamente Sobre la protesta), antes, durante y después del evento (Figura 2.1). En total su panel de ex post incluye los tweets de 30.000 personas de más de dos años. Aumentando los datos de uso común de las protestas con esta otra información, Budak y Watts fueron capaces de aprender mucho más: eran capaces de estimar qué tipo de personas eran más propensos a participar en las protestas Gezi y estimar los cambios en las actitudes de participantes y no participantes, tanto a corto plazo (comparación de pre-Gezi que durante Gezi) y en el largo plazo (comparación de pre-Gezi a la post-Gezi).

Figura 2.1: Diseño utilizado por Budak y Watts (2015) para estudiar las protestas en Gezi en Turquía en el verano de 2013. Mediante el uso de la naturaleza siempre activa de Twitter, los investigadores crearon lo que llamaron un panel posterior que incluía acerca 30.000 personas de más de dos años. En contraste, el estudio típico que se centró en los participantes durante las protestas, el panel posterior añade 1) datos de los participantes antes y después del evento, y 2) los datos de los no participantes antes, durante y después del evento. Esta estructura de datos enriquecido habilitado Budak y Watts para estimar qué tipo de personas eran más propensos a participar en las protestas Gezi y estimar los cambios en las actitudes de los participantes y no participantes, tanto a corto plazo (comparación de pre-Gezi que durante Gezi) y en el largo plazo (comparación de pre-gezi a la post-gezi).

Figura 2.1: Diseño utilizado por Budak and Watts (2015) para estudiar las protestas en Gezi en Turquía en el verano de 2013. Mediante el uso de la naturaleza siempre activa de Twitter, los investigadores crearon lo que llamaron un panel posterior que incluía acerca 30.000 personas de más de dos años. En contraste, el estudio típico que se centró en los participantes durante las protestas, el panel posterior añade 1) datos de los participantes antes y después del evento, y 2) los datos de los no participantes antes, durante y después del evento. Esta estructura de datos enriquecido habilitado Budak y Watts para estimar qué tipo de personas eran más propensos a participar en las protestas Gezi y estimar los cambios en las actitudes de los participantes y no participantes, tanto a corto plazo (comparación de pre-Gezi que durante Gezi) y en el largo plazo (comparación de pre-gezi a la post-gezi).

Es cierto que algunas de estas estimaciones se podría haber hecho sin siempre en fuentes de recolección de datos (por ejemplo, las estimaciones a largo plazo de un cambio de actitud), aunque la recaudación de dichos datos para 30.000 personas habría sido bastante caro. Y, incluso teniendo en cuenta un presupuesto ilimitado, no puedo pensar en ningún otro método que esencialmente permite a los investigadores a viajar en el tiempo y observar directamente el comportamiento participantes en el pasado. La alternativa más cercana sería recoger los informes retrospectivos de comportamiento, pero estos informes sería de granularidad limitado y precisión cuestionable. Tabla 2.1 proporciona otros ejemplos de estudios que usan siempre-en la fuente de datos para estudiar un evento inesperado.

Tabla 2.1: Estudios de eventos inesperados que utilizan siempre en las fuentes de datos grandes.
Evento inesperado Siempre-en datos de origen Citación
Ocupe el movimiento Gezi en Turquía Gorjeo Budak and Watts (2015)
protestas paraguas en Hong Kong Weibo Zhang (2016)
Tiroteos de la policía en la ciudad de Nueva York Detener y registrar informes Legewie (2016)
Persona unirse ISIS Gorjeo Magdy, Darwish, and Weber (2016)
11 de septiembre de, 2001 contra livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 de septiembre de, 2001 contra mensajes de buscapersonas Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

En segundo lugar, siempre en la recopilación de datos permite a los investigadores para producir mediciones en tiempo real, que puede ser importante en entornos en los que los políticos quieren no sólo aprender de comportamiento existente, sino también responder a ella. Por ejemplo, los datos de los medios de comunicación social pueden ser utilizados para orientar las respuestas a los desastres naturales (Castillo 2016) .

En conclusión, siempre-en los sistemas de datos permiten a los investigadores para estudiar los eventos inesperados y proporcionar información en tiempo real a los responsables políticos. No lo hice, sin embargo, propongo que siempre-en los sistemas de datos permiten a los investigadores rastrear los cambios durante largos períodos de tiempo. Esto es debido a que muchos sistemas de datos grandes están en constante cambio, un proceso llamado deriva (Sección 2.3.2.4).