Always-on big data maakt de studie van onverwachte gebeurtenissen en real-time meting.
Veel grote datasystemen zijn always-on; ze voortdurend verzamelen van gegevens. Dit always-on karakteristieke biedt onderzoekers met longitudinale gegevens (dat wil zeggen, gegevens in de tijd). Omdat het always-on heeft twee belangrijke implicaties voor onderzoek.
Ten eerste, always-on data verzamelen stelt onderzoekers in staat om onverwachte gebeurtenissen te studeren op manieren die niet mogelijk waren eerder. Bijvoorbeeld, onderzoekers die geïnteresseerd zijn in het bestuderen van de Occupy Gezi protesten in Turkije in de zomer van 2013 richten zich doorgaans op het gedrag van demonstranten tijdens het evenement. Ceren Budak en Duncan Watts (2015) waren in staat om meer met behulp van de always-on karakter van Twitter om Twitter-gebruik van demonstranten te bestuderen tijdens doen, en na het evenement. En, waren ze in staat om een vergelijking groep van niet-deelnemers (of deelnemers die niet twitteren over het protest) te creëren voor, tijdens en na het evenement (Figuur 2.1). In totaal zijn opgenomen hun ex-post panel de tweets van 30.000 mensen meer dan twee jaar. Door de uitbreiding van de veelgebruikte gegevens van de protesten met deze andere informatie, Budak en Watts waren in staat om veel meer te leren: ze waren in staat om in te schatten wat voor soort mensen hadden meer kans om deel te nemen aan de Gezi protesten en de veranderingen in de houding van schatten deelnemers en niet-deelnemers, zowel op de korte termijn (het vergelijken van pre-Gezi om tijdens Gezi) en in de lange termijn (het vergelijken van pre-Gezi post-Gezi).
Het is waar dat een aantal van deze schattingen had kunnen worden zonder always-on verzameling gegevensbronnen (bijvoorbeeld op lange termijn ramingen van attitudeverandering), hoewel verzamelen van dergelijke gegevens van 30.000 mensen heel duur zou zijn geweest. En, zelfs gezien een onbeperkt budget, ik kan niet denken aan een andere methode die in wezen stelt onderzoekers in staat om terug te reizen in de tijd en de deelnemers gedrag direct waar te nemen in het verleden. De dichtstbijzijnde alternatief zou zijn om retrospectieve meldingen van gedrag te verzamelen, maar deze rapporten van beperkte granulariteit en twijfelachtige nauwkeurigheid zou zijn. Tabel 2.1 geeft andere voorbeelden van studies die gebruik maken van een always-on gegevensbron om een onverwachte gebeurtenis te bestuderen.
onverwachte gebeurtenis | Always-on data source | Citaat |
---|---|---|
Occupy Gezi beweging in Turkije | tjilpen | Budak and Watts (2015) |
Paraplu protesten in Hong Kong | Zhang (2016) | |
Schietpartijen van de politie in New York City | Stop-and-Frisk rapporten | Legewie (2016) |
Persoon toetreden ISIS | tjilpen | Magdy, Darwish, and Weber (2016) |
11 september 2001 aanval | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
11 september 2001 aanval | pager berichten | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Ten tweede, always-on data verzamelen stelt onderzoekers in staat om real-time metingen, die van belang zijn in de instellingen waar de beleidsmakers willen niet alleen leren van de bestaande gedrag, maar ook reageren op het kan produceren. Zo kan bijvoorbeeld social media gegevens worden gebruikt om reacties op natuurrampen te begeleiden (Castillo 2016) .
Tot slot, always-on data systemen kunnen onderzoekers op onverwachte gebeurtenissen te bestuderen en bieden real-time informatie voor beleidsmakers. Ik heb echter niet voorstellen dat always-on data systemen kunnen onderzoekers om veranderingen gedurende lange perioden van tijd te volgen. Dat komt omdat veel grote datasystemen constant veranderen-een proces genaamd drift (paragraaf 2.3.2.4).