Alltid på big data möjliggör studier av oväntade händelser och realtidsmätning.
Många stora datasystem är alltid-på; de ständigt samla in data. Detta alltid-på karakteristiska förser forskare med longitudinella data (dvs. data över tid). Att alltid-på har två viktiga konsekvenser för forskningen.
För det första gör det alltid möjligt för forskare att studera oväntade händelser på sätt som annars inte skulle vara möjliga. Forskare som är intresserade av att studera Occupy Gezi-protesterna i Turkiet sommaren 2013 skulle till exempel fokusera på beteendeens beteende under evenemanget. Ceren Budak och Duncan Watts (2015) kunde göra mer genom att alltid använda Twitter för att studera demonstranter som använde Twitter före, under och efter evenemanget. Och de kunde skapa en jämförelsegrupp av icke-deltagare före, under och efter händelsen (figur 2.2). Totalt omfattade deras ex-postpanel tweetsna på 30 000 personer över två år. Genom att förstärka de allmänt använda data från protesterna med denna övrig information kunde Budak och Watts lära sig mycket mer: de kunde beräkna vilka typer av människor som var mer benägna att delta i Gezi-protesterna och att uppskatta förändringar i attityder deltagare och icke-deltagare, både på kort sikt (jämföra pre-Gezi till under Gezi) och på sikt (jämföra pre-Gezi med post-Gezi).
En skeptiker kan påpeka att några av dessa uppskattningar kunde ha gjorts utan att alltid ha på datainsamlingskällor (t.ex. långsiktiga uppskattningar av attitydförändring), och det är korrekt, även om en sådan datainsamling för 30 000 personer skulle ha varit ganska dyr. Även om man får en obegränsad budget, kan jag inte tänka på någon annan metod som i huvudsak gör det möjligt för forskare att resa tillbaka i tid och direkt observera deltagarnas beteende tidigare. Det närmaste alternativet skulle vara att samla retroaktiva rapporter om beteende, men dessa rapporter skulle vara av begränsad grad och tveksamt noggrannhet. tabell 2.1 ger andra exempel på studier som använder en kontinuerlig datakälla för att studera en oväntad händelse.
Oväntad händelse | Alltid på datakälla | Citat |
---|---|---|
Uppta Gezi-rörelsen i Turkiet | Budak and Watts (2015) | |
Paraply protester i Hong Kong | Zhang (2016) | |
Skott av polis i New York City | Stop-and-frisk rapporter | Legewie (2016) |
Person som går med i ISIS | Magdy, Darwish, and Weber (2016) | |
11 september 2001 attack | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11 september 2001 attack | personsökarmeddelanden | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Förutom att studera oväntade händelser gör det också möjligt för forskare att producera realtidsuppskattningar, vilket kan vara viktigt i inställningar där politiska beslutsfattare - i regering eller näringsliv - vill svara på grundval av situationsmedvetenhet. Exempelvis kan sociala medier data användas för att vägleda akutmottagning mot naturkatastrofer (Castillo 2016) och en mängd olika stora datakällor kan användas för att skapa realtidskalkyler av ekonomisk aktivitet (Choi and Varian 2012) .
Sammanfattningsvis möjliggör kontinuerliga datasystem forskare att studera oväntade händelser och ge realtidsinformation till beslutsfattare. Jag tror emellertid inte att datasystem alltid är lämpade för att spåra förändringar under mycket långa perioder. Det beror på att många stora datasystem ständigt förändras - en process som jag kommer att kalla drift senare i kapitlet (avsnitt 2.3.7).