2.3.1.2 Always-on

Întotdeauna pe date mari , permite studiul unor evenimente neașteptate și măsurători în timp real.

Multe sisteme de date mari sunt întotdeauna pe; acestea sunt de colectare a datelor în mod constant. Această caracteristică întotdeauna pe oferă cercetătorilor cu date longitudinale (de exemplu, date în timp). Fiind mereu pe are două implicații importante pentru cercetare.

În primul rând, întotdeauna pe date de colectare a permite cercetatorilor sa studieze evenimente neașteptate în moduri care nu erau posibile în prealabil. De exemplu, cercetătorii interesați în studierea Ocupati protestele Gezi din Turcia, în vara anului 2013 se va concentra în mod tipic asupra comportamentului protestatarilor în timpul evenimentului. Ceren Budak și Duncan Watts (2015) au fost în măsură să facă mai mult folosind natura întotdeauna pe Twitter pentru a studia Twitter folosind protestatari înainte, în timpul și după eveniment. Și, ei au reușit să creeze un grup de comparatie de non-participanți (sau participanți care nu au tweet despre protestul) înainte, în timpul și după eveniment (Figura 2.1). În total panoul lor ex-post a inclus tweet - uri de 30.000 de oameni de peste doi ani. Prin cresterea frecvent utilizate datele din protestele acestei alte informații, Budak și Watts au putut să învețe mult mai mult: ei au putut să estimeze ce fel de oameni au mai multe sanse de a participa la protestele Gezi și pentru a estima schimbările în atitudini participanți și non-participanți, atât pe termen scurt (comparând pre-Gezi la timpul Gezi), cât și pe termen lung (compararea pre-Gezi post-Gezi).

Figura 2.1: Proiectarea utilizată de Budak și Watts (2015) pentru a studia Ocupati protestele Gezi din Turcia, în vara anului 2013. Utilizând natura întotdeauna pe Twitter, cercetatorii au creat ceea ce au numit un panou ex-post care a inclus aproximativ 30.000 de oameni de peste doi ani. Spre deosebire de studiul tipic, care sa concentrat asupra participanților în timpul protestelor, panoul ex post adaugă 1) date de la participanți, înainte și după eveniment și 2), datele de la care nu sunt participanți înainte, în timpul și după eveniment. Această structură de date îmbogățit a permis Budak și Watts pentru a estima ce fel de oameni au mai multe sanse de a participa la protestele Gezi și pentru a estima schimbările în atitudinea participanților și non-participanți, atât pe termen scurt (comparând pre-Gezi la timpul Gezi), cât și pe termen lung (compararea pre-gezi post-gezi).

Figura 2.1: Proiectarea utilizată de Budak and Watts (2015) pentru a studia Ocupati protestele Gezi din Turcia , în vara anului 2013. Utilizând natura întotdeauna pe Twitter, cercetatorii au creat ceea ce au numit un panou ex-post care a inclus aproximativ 30.000 de oameni de peste doi ani. Spre deosebire de studiul tipic, care sa concentrat asupra participanților în timpul protestelor, panoul ex post adaugă 1) date de la participanți, înainte și după eveniment și 2), datele de la care nu sunt participanți înainte, în timpul și după eveniment. Această structură de date îmbogățit a permis Budak și Watts pentru a estima ce fel de oameni au mai multe sanse de a participa la protestele Gezi și pentru a estima schimbările în atitudinea participanților și non-participanți, atât pe termen scurt (comparând pre-Gezi la timpul Gezi), cât și pe termen lung (compararea pre-gezi post-gezi).

Este adevărat că unele dintre aceste estimări ar fi putut fi realizate fără întotdeauna pe sursele de colectare a datelor (de exemplu, estimările pe termen lung ale schimbării de atitudine), cu toate că astfel de colectare de date pentru 30.000 de oameni ar fi fost destul de scumpe. Și, având în vedere chiar un buget nelimitat, eu nu pot gândi la orice altă metodă care permite în mod esențial cercetătorilor să călătorească înapoi în timp și de a observa în mod direct comportamentul participanților în trecut. Cea mai apropiată alternativă ar fi de a colecta rapoarte retrospective ale comportamentului, dar aceste rapoarte ar fi de granularitate limitate și precizie discutabilă. Tabelul 2.1 furnizează alte exemple de studii care folosesc o întotdeauna pe sursa de date pentru a studia un eveniment neașteptat.

Tabelul 2.1: Studii de evenimente neașteptate folosind mereu pe surse de date mari.
eveniment neașteptat Întotdeauna la sursă de date Citare
Mișcarea Occupy Gezi în Turcia Stare de nervozitate Budak and Watts (2015)
Protestele umbrelă din Hong Kong Weibo Zhang (2016)
Tiruri de poliție din New York City Stop-and-zbengui rapoarte Legewie (2016)
Persoana care unește ISIS Stare de nervozitate Magdy, Darwish, and Weber (2016)
11 septembrie 2001 de atac livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 septembrie 2001 de atac mesaje pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

În al doilea rând, întotdeauna pe datele de colectare a le permite cercetătorilor să producă măsurători în timp real, care pot fi importante în setările în cazul în care factorii de decizie politică doresc să nu învețe doar din comportamentul existent dar, de asemenea, să răspundă la ea. De exemplu, datele sociale mass - media pot fi folosite pentru a ghida răspunsurile la dezastre naturale (Castillo 2016) .

In concluzie, întotdeauna pe date sisteme permit cercetătorilor să studieze evenimente neașteptate și oferă informații în timp real pentru factorii de decizie politică. Nu am, cu toate acestea, propunem că întotdeauna pe date sisteme permit cercetătorilor să urmărească schimbările pe perioade lungi de timp. Asta se datorează faptului că multe sisteme mari de date se schimbă în mod constant-un proces numit de drift (Secțiunea 2.3.2.4).