2.3.1.2 Always-on

Toujours sur les grandes données permet l'étude des événements inattendus et mesure en temps réel.

De nombreux grands systèmes de données sont toujours sur; ils sont constamment recueillent des données. Cette caractéristique toujours sur fournit aux chercheurs des données longitudinales (c.-à-données au fil du temps). Être toujours sur a deux conséquences importantes pour la recherche.

Tout d'abord, toujours sur la collecte de données permet aux chercheurs d'étudier les événements inattendus d'une manière qui ne sont pas possible auparavant. Par exemple, les chercheurs intéressés à l'étude de la Occuper manifestations Gezi en Turquie à l'été 2013 seraient généralement l'accent sur le comportement des manifestants lors de l'événement. Ceren Budak et Duncan Watts (2015) ont été en mesure de faire plus en utilisant la nature toujours sur de Twitter pour étudier Twitter- en utilisant les manifestants avant, pendant et après l'événement. Et, ils ont réussi à créer un groupe de comparaison des non-participants (ou les participants qui ne tweet sur la manifestation) avant, pendant et après l'événement (Figure 2.1). Au total leur panneau ex post inclus les tweets de 30.000 personnes de plus de deux ans. En augmentant les données couramment utilisées des manifestations avec cette autre information, Budak et Watts ont pu apprendre beaucoup plus: ils étaient en mesure d'estimer quels types de personnes étaient plus susceptibles de participer aux manifestations Gezi et d'estimer les changements dans les attitudes des participants et non-participants, tant à court terme (comparaison pré-Gezi au cours de Gezi) et à long terme (comparaison pré-Gezi post-Gezi).

Figure 2.1: Conception utilisée par Budak et Watts (2015) pour étudier la Occuper manifestations Gezi en Turquie à l'été 2013. En utilisant la nature toujours sur de Twitter, les chercheurs ont créé ce qu'ils ont appelé un panel ex-post qui comprenait environ 30.000 personnes de plus de deux ans. En revanche, l'étude typique qui mettait l'accent sur les participants pendant les manifestations, le panneau ex post ajoute 1) les données des participants avant et après l'événement et 2) les données de non-participants avant, pendant et après l'événement. Cette structure de données enrichi activé Budak et Watts pour estimer quels types de personnes étaient plus susceptibles de participer aux manifestations Gezi et d'estimer les changements dans les attitudes des participants et non-participants, tant à court terme (comparaison pré-Gezi au cours Gezi) et à long terme (comparaison pré-Gezi post-Gezi).

Figure 2.1: Conception utilisée par Budak and Watts (2015) pour étudier la Occuper manifestations Gezi en Turquie à l'été 2013. En utilisant la nature toujours sur de Twitter, les chercheurs ont créé ce qu'ils ont appelé un panel ex-post qui comprenait environ 30.000 personnes de plus de deux ans. En revanche, l'étude typique qui mettait l'accent sur les participants pendant les manifestations, le panneau ex post ajoute 1) les données des participants avant et après l'événement et 2) les données de non-participants avant, pendant et après l'événement. Cette structure de données enrichi activé Budak et Watts pour estimer quels types de personnes étaient plus susceptibles de participer aux manifestations Gezi et d'estimer les changements dans les attitudes des participants et non-participants, tant à court terme (comparaison pré-Gezi au cours Gezi) et à long terme (comparaison pré-Gezi post-Gezi).

Il est vrai que certains de ces estimations pourraient avoir été faites sans toujours sur les sources de collecte de données (par exemple, les estimations à long terme du changement d'attitude), même si une telle collecte de données pour 30.000 personnes aurait été très coûteux. Et, même donné un budget illimité, je ne peux pas penser à toute autre méthode qui permet essentiellement aux chercheurs de voyager dans le temps et d' observer directement le comportement des participants dans le passé. L'alternative la plus proche serait de recueillir des rapports rétrospectifs de comportement, mais ces rapports serait de granularité limitée et une précision douteuse. Le tableau 2.1 présente d'autres exemples d'études qui utilisent une source inépuisable de données pour étudier un événement inattendu.

Tableau 2.1: Les études d'événements imprévus en utilisant toujours sur des sources de données grandes.
Événement imprévu Toujours sur la source de données Citation
Mouvement Occupy Gezi en Turquie Gazouillement Budak and Watts (2015)
Parapluie manifestations à Hong Kong Weibo Zhang (2016)
Fusillades de la police à New York Stop-and-frisk rapports Legewie (2016)
Personne rejoindre ISIS Gazouillement Magdy, Darwish, and Weber (2016)
11 septembre 2001 attaque livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 septembre 2001 attaque messages de téléavertisseur Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Deuxièmement, toujours sur la collecte des données permet aux chercheurs de produire des mesures en temps réel, qui peut être importante dans les milieux où les décideurs veulent pas seulement apprendre de comportement existant mais aussi répondre. Par exemple, les données de médias sociaux peuvent être utilisés pour guider les réponses aux catastrophes naturelles (Castillo 2016) .

En conclusion, toujours sur les systèmes de données permettent aux chercheurs d'étudier des événements imprévus et de fournir des informations en temps réel aux décideurs politiques. Je ne suis pas, cependant, propose que ce toujours sur les systèmes de données permettent aux chercheurs de suivre les changements sur de longues périodes de temps. C'est parce que beaucoup de grands systèmes de données sont en constante évolution, une dérive de processus appelé (section 2.3.2.4).