2.3.1.2 Always-on

Always-on big data maakt de studie van onverwachte gebeurtenissen en real-time meting.

Veel grote datasystemen zijn always-on; ze voortdurend verzamelen van gegevens. Dit always-on karakteristieke biedt onderzoekers met longitudinale gegevens (dat wil zeggen, gegevens in de tijd). Omdat het always-on heeft twee belangrijke implicaties voor onderzoek.

Ten eerste, always-on data verzamelen stelt onderzoekers in staat om onverwachte gebeurtenissen te studeren op manieren die niet mogelijk waren eerder. Bijvoorbeeld, onderzoekers die geïnteresseerd zijn in het bestuderen van de Occupy Gezi protesten in Turkije in de zomer van 2013 richten zich doorgaans op het gedrag van demonstranten tijdens het evenement. Ceren Budak en Duncan Watts (2015) waren in staat om meer met behulp van de always-on karakter van Twitter om Twitter-gebruik van demonstranten te bestuderen tijdens doen, en na het evenement. En, waren ze in staat om een ​​vergelijking groep van niet-deelnemers (of deelnemers die niet twitteren over het protest) te creëren voor, tijdens en na het evenement (Figuur 2.1). In totaal zijn opgenomen hun ex-post panel de tweets van 30.000 mensen meer dan twee jaar. Door de uitbreiding van de veelgebruikte gegevens van de protesten met deze andere informatie, Budak en Watts waren in staat om veel meer te leren: ze waren in staat om in te schatten wat voor soort mensen hadden meer kans om deel te nemen aan de Gezi protesten en de veranderingen in de houding van schatten deelnemers en niet-deelnemers, zowel op de korte termijn (het vergelijken van pre-Gezi om tijdens Gezi) en in de lange termijn (het vergelijken van pre-Gezi post-Gezi).

Figuur 2.1: Design gebruikt door Budak en Watts (2015) aan de studie van de Occupy Gezi protesten in Turkije in de zomer van 2013. Door het gebruik van de always-on karakter van Twitter, de onderzoekers gemaakt wat zij noemden een ex-post panel dat ongeveer opgenomen 30.000 mensen meer dan twee jaar. In tegenstelling tot de typische onderzoek dat gericht is op de deelnemers tijdens de protesten, de ex-post panel voegt 1) gegevens van de deelnemers voor en na het evenement en 2) gegevens van niet-deelnemers voor, tijdens en na het evenement. Deze verrijkte datastructuur ingeschakeld Budak en Watts in te schatten wat voor soort mensen hadden meer kans om deel te nemen aan de Gezi protesten en de veranderingen in de houding van de deelnemers en niet-deelnemers te schatten, zowel op de korte termijn (het vergelijken van pre-Gezi om tijdens Gezi) en op de lange termijn (het vergelijken van pre-Gezi post-Gezi).

Figuur 2.1: Design gebruikt door Budak and Watts (2015) aan de studie van de Occupy Gezi protesten in Turkije in de zomer van 2013. Door het gebruik van de always-on karakter van Twitter, de onderzoekers gemaakt wat zij noemden een ex-post panel dat ongeveer opgenomen 30.000 mensen meer dan twee jaar. In tegenstelling tot de typische onderzoek dat gericht is op de deelnemers tijdens de protesten, de ex-post panel voegt 1) gegevens van de deelnemers voor en na het evenement en 2) gegevens van niet-deelnemers voor, tijdens en na het evenement. Deze verrijkte datastructuur ingeschakeld Budak en Watts in te schatten wat voor soort mensen hadden meer kans om deel te nemen aan de Gezi protesten en de veranderingen in de houding van de deelnemers en niet-deelnemers te schatten, zowel op de korte termijn (het vergelijken van pre-Gezi om tijdens Gezi) en op de lange termijn (het vergelijken van pre-Gezi post-Gezi).

Het is waar dat een aantal van deze schattingen had kunnen worden zonder always-on verzameling gegevensbronnen (bijvoorbeeld op lange termijn ramingen van attitudeverandering), hoewel verzamelen van dergelijke gegevens van 30.000 mensen heel duur zou zijn geweest. En, zelfs gezien een onbeperkt budget, ik kan niet denken aan een andere methode die in wezen stelt onderzoekers in staat om terug te reizen in de tijd en de deelnemers gedrag direct waar te nemen in het verleden. De dichtstbijzijnde alternatief zou zijn om retrospectieve meldingen van gedrag te verzamelen, maar deze rapporten van beperkte granulariteit en twijfelachtige nauwkeurigheid zou zijn. Tabel 2.1 geeft andere voorbeelden van studies die gebruik maken van een always-on gegevensbron om een ​​onverwachte gebeurtenis te bestuderen.

Tabel 2.1: Studies van onverwachte gebeurtenissen met behulp van always-on big data bronnen.
onverwachte gebeurtenis Always-on data source Citaat
Occupy Gezi beweging in Turkije tjilpen Budak and Watts (2015)
Paraplu protesten in Hong Kong Weibo Zhang (2016)
Schietpartijen van de politie in New York City Stop-and-Frisk rapporten Legewie (2016)
Persoon toetreden ISIS tjilpen Magdy, Darwish, and Weber (2016)
11 september 2001 aanval livejournal.com Cohn, Mehl, and Pennebaker (2004)
11 september 2001 aanval pager berichten Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Ten tweede, always-on data verzamelen stelt onderzoekers in staat om real-time metingen, die van belang zijn in de instellingen waar de beleidsmakers willen niet alleen leren van de bestaande gedrag, maar ook reageren op het kan produceren. Zo kan bijvoorbeeld social media gegevens worden gebruikt om reacties op natuurrampen te begeleiden (Castillo 2016) .

Tot slot, always-on data systemen kunnen onderzoekers op onverwachte gebeurtenissen te bestuderen en bieden real-time informatie voor beleidsmakers. Ik heb echter niet voorstellen dat always-on data systemen kunnen onderzoekers om veranderingen gedurende lange perioden van tijd te volgen. Dat komt omdat veel grote datasystemen constant veranderen-een proces genaamd drift (paragraaf 2.3.2.4).