Siempre-en grandes volúmenes de datos permite el estudio de los acontecimientos inesperados y medición en tiempo real.
Muchos sistemas de datos grandes son siempre activa; están recopilando datos constantemente. Esta característica siempre activa proporciona a los investigadores datos longitudinales (es decir, los datos en el tiempo). Estar siempre activo tiene dos implicaciones importantes para la investigación.
En primer lugar, la recopilación de datos permanente permite a los investigadores estudiar eventos inesperados de maneras que de otro modo no serían posibles. Por ejemplo, los investigadores interesados en estudiar las protestas de Occupy Gezi en Turquía en el verano de 2013 se centrarían típicamente en el comportamiento de los manifestantes durante el evento. Ceren Budak y Duncan Watts (2015) pudieron hacer más mediante el uso de la naturaleza siempre activa de Twitter para estudiar a los manifestantes que utilizaron Twitter antes, durante y después del evento. Y, pudieron crear un grupo de comparación de no participantes antes, durante y después del evento (figura 2.2). En total, su panel ex post incluyó los tweets de 30,000 personas durante dos años. Al aumentar los datos comúnmente utilizados de las protestas con esta otra información, Budak y Watts pudieron aprender mucho más: pudieron estimar qué tipo de personas eran más propensas a participar en las protestas Gezi y estimar los cambios en las actitudes de los manifestantes. participantes y no participantes, tanto en el corto plazo (comparando pre-Gezi como durante Gezi) y en el largo plazo (comparando pre-Gezi con post-Gezi).
Un escéptico podría señalar que algunas de estas estimaciones podrían haberse realizado sin fuentes de recopilación de datos siempre activas (por ejemplo, estimaciones a largo plazo del cambio de actitud), y eso es correcto, aunque dicha recopilación de datos para 30,000 personas habría sido bastante costoso. Sin embargo, incluso con un presupuesto ilimitado, no puedo pensar en ningún otro método que permita esencialmente a los investigadores retroceder en el tiempo y observar directamente el comportamiento de los participantes en el pasado. La alternativa más cercana sería recopilar informes retrospectivos de comportamiento, pero estos informes serían de granularidad limitada y precisión cuestionable. La tabla 2.1 proporciona otros ejemplos de estudios que usan una fuente de datos siempre activa para estudiar un evento inesperado.
Evento inesperado | Fuente de datos siempre activa | Citación |
---|---|---|
Ocupar el movimiento Gezi en Turquía | Gorjeo | Budak and Watts (2015) |
Protestas paraguas en Hong Kong | Zhang (2016) | |
Tiroteos de la policía en la ciudad de Nueva York | Informes de detención y registro | Legewie (2016) |
Persona que se une al ISIS | Gorjeo | Magdy, Darwish, and Weber (2016) |
Ataque del 11 de septiembre de 2001 | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
Ataque del 11 de septiembre de 2001 | mensajes de buscapersonas | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Además de estudiar eventos inesperados, los sistemas de big data siempre activos también permiten a los investigadores producir estimaciones en tiempo real, que pueden ser importantes en entornos donde los responsables de las políticas, en el gobierno o en la industria, desean responder en función de la conciencia situacional. Por ejemplo, los datos de las redes sociales pueden usarse para guiar la respuesta de emergencia ante desastres naturales (Castillo 2016) y una variedad de diferentes fuentes de datos grandes pueden usarse para producir estimaciones en tiempo real de la actividad económica (Choi and Varian 2012) .
En conclusión, los sistemas de datos permanentes permiten a los investigadores estudiar eventos inesperados y proporcionar información en tiempo real a los responsables de la formulación de políticas. Sin embargo, no creo que los sistemas de datos permanentes estén bien adaptados para rastrear cambios durante períodos de tiempo muy largos. Esto se debe a que muchos sistemas de big data cambian constantemente, un proceso que denominaré deriva más adelante en el capítulo (sección 2.3.7).