Alltid-på store data gjør studiet av uventede hendelser og måling i sanntid.
Mange store datasystemer er alltid-på; de er stadig å samle inn data. Dette alltid-på karakteristisk gir forskere med longitudinelle data (dvs. data over tid). Å være alltid-på har to viktige implikasjoner for forskning.
For det første gjør det alltid mulig for forskere å studere uventede hendelser på måter som ellers ikke ville være mulig. For eksempel vil forskere som er interessert i å studere Occupy Gezi-protestene i Tyrkia sommeren 2013, typisk fokusere på oppførselen til demonstranter under arrangementet. Ceren Budak og Duncan Watts (2015) var i stand til å gjøre mer ved å bruke Twitter's alltid-natur for å studere demonstranter som brukte Twitter før, under og etter arrangementet. Og de klarte å skape en sammenligningsgruppe av ikke-deltakere før, under og etter hendelsen (figur 2.2). Totalt sett inneholdt deres ex- postpanel tweets på 30.000 mennesker over to år. Ved å øke de brukte dataene fra protestene med denne andre informasjonen, var Budak og Watts i stand til å lære mye mer: de var i stand til å anslå hvilke typer folk som var mer sannsynlig å delta i Gezi-protestene og å estimere endringene i holdninger til deltakere og ikke-deltakere, både på kort sikt (sammenligner pre-Gezi til under Gezi) og på lang sikt (sammenligner pre-Gezi med post-Gezi).
En skeptiker kan påpeke at noen av disse estimatene kunne ha blitt gjort uten at det alltid er på datasamlingskilder (f.eks. Langsiktige estimater av holdningsendring), og det er riktig, selv om en slik datainnsamling for 30 000 mennesker ville vært ganske dyrt. Selv gitt et ubegrenset budsjett, kan jeg imidlertid ikke tenke på noen annen metode som i hovedsak gjør det mulig for forskere å reise tilbake i tid og observere deltakernees adferd i fortiden. Det nærmeste alternativet ville være å samle tilbakevirkende rapporter om atferd, men disse rapportene ville være av begrenset grad og tvilsom nøyaktighet. Tabell 2.1 gir andre eksempler på studier som bruker en kontinuerlig datakilde for å studere en uventet hendelse.
Uventet hendelse | Alltid-på datakilde | Sitering |
---|---|---|
Oppta Gezi-bevegelse i Tyrkia | Budak and Watts (2015) | |
Paraplyprotester i Hong Kong | Zhang (2016) | |
Skyting av politiet i New York City | Stop-and-frisk rapporter | Legewie (2016) |
Person ble med i ISIS | Magdy, Darwish, and Weber (2016) | |
11. september 2001 angrep | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11. september 2001 angrep | personsøker meldinger | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
I tillegg til å studere uventede hendelser gjør det alltid mulig for forskere å produsere sanntids estimater, noe som kan være viktig i innstillinger der beslutningstakere i offentlig eller næringsliv ønsker å svare ut fra situasjonell bevissthet. For eksempel kan sosiale medier data brukes til å veilede nødhjelp til naturkatastrofer (Castillo 2016) og en rekke forskjellige store datakilder kan brukes til å produsere sanntidsoverslag over økonomisk aktivitet (Choi and Varian 2012) .
Som konklusjon, gjør alltid-på datasystemer forskere til å studere uventede hendelser og gi sanntidsinformasjon til beslutningstakere. Jeg tror imidlertid ikke at alltid-på datasystemer er velegnet til å spore endringer over svært lange perioder. Det skyldes at mange store datasystemer stadig skifter - en prosess som jeg skal ringe drift senere i kapitlet (avsnitt 2.3.7).