2.3.1.2 Alltid-på

Alltid-på store data gjør studiet av uventede hendelser og måling i sanntid.

Mange store datasystemer er alltid-på; de er stadig å samle inn data. Dette alltid-på karakteristisk gir forskere med longitudinelle data (dvs. data over tid). Å være alltid-på har to viktige implikasjoner for forskning.

Først alltid-på datainnsamling gjør at forskere å studere uventede hendelser på en måte som ikke var mulig tidligere. For eksempel vil forskere interessert i å studere Occupy Gezi protester i Tyrkia i løpet av sommeren 2013 typisk fokusere på oppførselen til demonstrantene under arrangementet. Ceren Budak og Duncan Watts (2015) var i stand til å gjøre mer ved hjelp av alltid-på natur Twitter for å studere Twitter-bruker demonstranter før, under og etter arrangementet. Og de var i stand til å skape en sammenlikningsgruppe av ikke-deltakere (eller deltakere som ikke tweet om protest) før, under og etter arrangementet (figur 2.1). Totalt sin ex-post panel inkludert tweets av 30.000 personer over to år. Ved å forsterke de mest brukte data fra protestene med annen informasjon, Budak og Watts var i stand til å lære mye mer: de var i stand til å anslå hva slags folk var mer sannsynlig til å delta i Gezi protester og å estimere endringer i holdninger deltakere og ikke-deltakere, både på kort sikt (sammenligne pre-Gezi til under Gezi) og på lang sikt (sammenligne pre-Gezi til post-Gezi).

Figur 2.1: Design brukes av Budak og Watts (2015) for å studere Occupy Gezi protester i Tyrkia i løpet av sommeren 2013. Ved hjelp av alltid-på natur Twitter, forskerne laget det de kalte en ex-post panel som inkluderte om 30.000 personer over to år. I motsetning til typisk studie som fokuserte på deltakerne under protestene, legger ex-post panel 1) data fra deltakere før og etter arrangementet og 2) data fra ikke-deltakere før, under og etter arrangementet. Dette beriket datastruktur aktivert Budak og Watts å anslå hva slags folk var mer sannsynlig til å delta i Gezi protester og å estimere endringer i holdningene til deltakere og ikke-deltakere, både på kort sikt (sammenligne pre-Gezi til under Gezi) og på lang sikt (sammenligne pre-Gezi til post-Gezi).

Figur 2.1: Design brukes av Budak and Watts (2015) for å studere Occupy Gezi protester i Tyrkia i løpet av sommeren 2013. Ved hjelp av alltid-på natur Twitter, forskerne laget det de kalte en ex-post panel som inkluderte om 30.000 personer over to år. I motsetning til typisk studie som fokuserte på deltakerne under protestene, legger ex-post panel 1) data fra deltakere før og etter arrangementet og 2) data fra ikke-deltakere før, under og etter arrangementet. Dette beriket datastruktur aktivert Budak og Watts å anslå hva slags folk var mer sannsynlig til å delta i Gezi protester og å estimere endringer i holdningene til deltakere og ikke-deltakere, både på kort sikt (sammenligne pre-Gezi til under Gezi) og på lang sikt (sammenligne pre-Gezi til post-Gezi).

Det er sant at noen av disse anslagene kunne vært gjort uten alltid-på datainnsamlings kilder (f.eks langsiktige estimater av holdningsendring), selv om slike datainnsamling for 30.000 mennesker ville ha vært ganske dyrt. Og selv gitt et ubegrenset budsjett, jeg kan ikke tenke meg noen annen metode som i hovedsak gir forskere til å reise tilbake i tid og direkte observere deltakerne atferd i det siste. Det nærmeste alternativet ville være å samle retrospektive rapporter om atferd, men disse rapportene vil være av begrenset detaljnivå og tvilsom nøyaktighet. Tabell 2.1 gir andre eksempler på studier som bruker en alltid-på datakilde for å studere en uventet hendelse.

Tabell 2.1: Studier av uventede hendelser ved hjelp av alltid-på store datakilder.
uforutsett hendelse Alltid-på datakilde Sitering
Occupy Gezi bevegelse i Tyrkia Twitter Budak and Watts (2015)
Umbrella protester i Hong Kong Weibo Zhang (2016)
Opptak av politiet i New York by Stopp-og-Frisk rapporter Legewie (2016)
Person bli ISIS Twitter Magdy, Darwish, and Weber (2016)
11 september 2001 angrep livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 september 2001 angrep personsøker meldinger Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

For det andre, alltid-på datainnsamling gjør at forskere å produsere sanntidsmålinger, som kan være viktig i miljøer hvor politikere ønsker å ikke bare lære av eksisterende atferd, men også svare på det. For eksempel kan sosiale medier data brukes til å veilede reaksjoner på naturkatastrofer (Castillo 2016) .

I konklusjonen, alltid-på data systemer gjør forskerne å studere uventede hendelser og gi sanntidsinformasjon til beslutningstakere. Jeg visste imidlertid ikke foreslå at det alltid-på datasystemene gjør at forskerne å spore endringer over lengre tid. Det er fordi mange store datasystemer er i stadig endring-en prosess som kalles drift (avsnitt 2.3.2.4).