Altid-på store data muliggør studiet af uventede begivenheder og real-time måling.
Mange store datasystemer er altid-on; de konstant at indsamle data. Dette altid-på karakteristik giver forskere med langsgående data (dvs. data over tid). Bliver altid-on har to vigtige konsekvenser for forskning.
For det første gør det muligt for forskere at studere uventede begivenheder på måder, der ellers ikke ville være mulige. For eksempel vil forskere, der er interesseret i at studere Occupy Gezi protesterne i Tyrkiet sommeren 2013, typisk fokusere på demonstranters adfærd under arrangementet. Ceren Budak og Duncan Watts (2015) var i stand til at gøre mere ved at bruge Twitter's altid karakter til at studere demonstranter, der brugte Twitter før, under og efter arrangementet. Og de kunne skabe en sammenligningsgruppe af ikke-deltagere før, under og efter arrangementet (figur 2.2). I alt indgik deres ex- postpanel tweets på 30.000 mennesker over to år. Ved at øge de almindeligt anvendte data fra protesterne med disse andre oplysninger, var Budak og Watts i stand til at lære meget mere: de var i stand til at estimere, hvilke former for personer der var mere tilbøjelige til at deltage i Gezi-protesterne og at estimere ændringer i holdninger til deltagere og ikke-deltagere, både på kort sigt (sammenligning af pre-Gezi til under Gezi) og på lang sigt (sammenligning af pre-Gezi med post-Gezi).
En skeptiker kan påpege, at nogle af disse estimater kunne have været lavet uden altid indsamlede dataindsamlingskilder (fx langsigtede estimater af holdningsændring), og det er korrekt, selv om en sådan dataindsamling for 30.000 mennesker ville have været ret dyrt. Selv hvis jeg får et ubegrænset budget, kan jeg dog ikke tænke på nogen anden metode, der i det væsentlige tillader forskere at rejse tilbage i tiden og direkte observere deltagernes adfærd i fortiden. Det nærmeste alternativ ville være at samle tilbagevirkende rapporter om adfærd, men disse rapporter ville have begrænset granularitet og tvivlsom nøjagtighed. tabel 2.1 giver andre eksempler på undersøgelser, der bruger en permanent datakilde til at studere en uventet begivenhed.
Uventet begivenhed | Alltid-på datakilde | Citation |
---|---|---|
Optag Gezi bevægelse i Tyrkiet | Budak and Watts (2015) | |
Paraply protester i Hong Kong | Zhang (2016) | |
Skydninger af politiet i New York City | Stop-and-frisk rapporter | Legewie (2016) |
Person tilsluttes ISIS | Magdy, Darwish, and Weber (2016) | |
11. september 2001 angreb | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11. september 2001 angreb | personsøgerbeskeder | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Ud over at studere uventede begivenheder gør det også muligt for forskere at producere estimater i realtid, hvilket kan være vigtigt i indstillinger, hvor politiske beslutningstagere - i regeringen eller industrien - vil reagere på baggrund af situationsbevidsthed. For eksempel kan sociale medier data bruges til at vejlede beredskab til naturkatastrofer (Castillo 2016) og en række forskellige store datakilder kan bruges til at producere real-time estimater af økonomisk aktivitet (Choi and Varian 2012) .
Afslutningsvis gør det altid muligt for forskere at studere uventede begivenheder og give realtidsinformation til beslutningstagere. Jeg tror imidlertid ikke, at altid-on-datasystemer er velegnede til at spore ændringer i meget lange perioder. Det skyldes, at mange store datasystemer konstant ændrer sig - en proces, som jeg kalder drift senere i kapitlet (afsnit 2.3.7).