Always-on big data permite o estudo de eventos inesperados e medición en tempo real.
Moitos sistemas de datos grandes son sempre ligado; están constantemente a recollida de datos. Isto always-on ofrece aos investigadores datos lonxitudinais (é dicir, os datos ao longo do tempo). Sendo always-on ten dúas implicacións importantes para a investigación.
En primeiro lugar, a recopilación de datos sempre permite que os investigadores estuden acontecementos inesperados de maneira que non sería posible. Por exemplo, os investigadores interesados en estudar as protestas de Occupy Gezi en Turquía no verán de 2013 normalmente centraríanse no comportamento dos manifestantes durante o evento. Ceren Budak e Duncan Watts (2015) puideron facer máis usando a natureza sempre de Twitter para estudar aos manifestantes que usaron Twitter antes, durante e despois do evento. E, foron capaces de crear un grupo comparativo de non participantes antes, durante e despois do evento (figura 2.2). En total, o seu panel ex-post incluíu os tweets de 30.000 persoas ao longo de dous anos. Ao aumentar os datos máis usados das protestas con esta outra información, Budak e Watts puideron aprender moito máis: foron capaces de estimar que tipos de persoas tiñan máis probabilidades de participar nas protestas de Gezi e estimar os cambios nas actitudes de participantes e non participantes, tanto a curto prazo (comparando pre-Gezi a durante Gezi) e a longo prazo (comparando pre-Gezi con post-Gezi).
Un escéptico pode indicar que algunhas destas estimacións poderían ter sido feitas sen sempre nas fontes de recopilación de datos (por exemplo, estimacións a longo prazo do cambio de actitude), e iso é correcto, aínda que tal recolección de datos para 30.000 persoas sería bastante caro. Incluso se lle dá un orzamento ilimitado, non se me ocorre ningún outro método que permita aos investigadores viaxar no tempo e observar directamente o comportamento dos participantes no pasado. A alternativa máis próxima sería recompilar informes retrospectivos de comportamento, pero estes informes terían unha granularidade limitada e precisión cuestionable. A táboa 2.1 proporciona outros exemplos de estudos que utilizan unha fonte de datos sempre para estudar un evento inesperado.
Evento inesperado | Sempre fonte de datos | Cita |
---|---|---|
Ocupar o movemento de Gezi en Turquía | Budak and Watts (2015) | |
Protocolo paraugas en Hong Kong | Zhang (2016) | |
Tiros de policía en Nova York | Informes de alto e pouco | Legewie (2016) |
Persoa que se une a ISIS | Magdy, Darwish, and Weber (2016) | |
Ataque do 11 de setembro de 2001 | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
Ataque do 11 de setembro de 2001 | mensaxes de buscapersonas | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Ademais de estudar eventos inesperados, os sistemas de datos sempre en grande permiten aos investigadores producir estimacións en tempo real, que poden ser importantes nos ámbitos onde os responsables políticos -en goberno ou industria- queiran responder con base na conciencia situacional. Por exemplo, os datos de redes sociais poden utilizarse para orientar a resposta de emerxencia a desastres naturais (Castillo 2016) e poden utilizarse diversas fontes de datos grandes que producen estimacións en tempo real da actividade económica (Choi and Varian 2012) .
En conclusión, os sistemas de datos sempre permiten aos investigadores que estudan eventos inesperados e proporcionen información en tempo real aos responsables políticos. Non obstante, non creo que os sistemas de datos sempre son adecuados para rastrexar cambios durante longos períodos de tempo. Isto ocorre porque moitos grandes sistemas de datos están cambiando constantemente: un proceso que eu chamaré á deriva máis tarde no capítulo (sección 2.3.7).