2.3.1.2 Sok-on

Sok-on data gedé nyandak ulikan kajadian kaduga jeung ukuran real-time.

Loba sistem data gedé sok-on; aranjeunna terus ngumpulkeun data. ciri ieu sok di nyadiakeun panalungtik jeung data longitudinal (ie, data dumasar kana waktu). Keur sok-on ngabogaan dua implikasi penting pikeun panalungtikan.

Kahiji, sok-on data koleksi nyandak panalungtik pikeun diajar kajadian teu kaduga ku cara nu éta teu mungkin saméméhna. Contona, panalungtik kabetot dina ngulik ngeusian protes Gezi di Turki dina usum panas 2013 ilaharna bakal fokus dina paripolah démonstran salila acara. Ceren Budak jeung Duncan Watts (2015) éta bisa ngalakukeun leuwih ku cara make sipat sok-on tina Twitter pikeun diajar Twitter-ngagunakeun démonstran saméméh, salila, sarta sanggeus acara. Jeung, maranéhanana éta bisa nyieun grup ngabandingkeun non pamilon (atawa pamilon nu teu tweet ngeunaan protes teh) saméméh, salila, sarta sanggeus acara (Gambar 2.1). Dina total panel ex-post maranéhanana kaasup nu tweets tina 30.000 urang leuwih dua taun. Ku augmenting data ilahar dipaké ti protes jeung inpo nu sejen ieu, Budak jeung Watts éta bisa diajar leuwih: maranéhanana éta bisa estimasi naon rupa jalma éta leuwih gampang pikeun ilubiung dina protes Gezi jeung estimasi parobahan sikap tina pamilon jeung non-pamilon, boh di istilah pondok-the (ngabandingkeun pre-Gezi ka salila Gezi) jeung istilah lila-the (ngabandingkeun pre-Gezi posting-Gezi).

Gambar 2.1: Desain anu digunakeun ku Budak jeung Watts (2015) pikeun diajar ngeusian protes Gezi di Turki dina usum panas tina 2013. Ku ngagunakeun alam sok-on tina Twitter, panalungtik dijieun naon anu maranehna disebut panel ex-post nu kaasup ngeunaan 30.000 jelema leuwih dua taun. Kontras ulikan has nu fokus kana pamilon salila protes, nu panel ex-post nambihan 1) data ti pamilon saméméh jeung sanggeus kajadian jeung 2) data ti non-pamilon saméméh, salila, sarta sanggeus acara. struktur data enriched ieu diaktipkeun Budak jeung Watts ka estimasi naon rupa jalma éta leuwih gampang pikeun ilubiung dina protes Gezi jeung estimasi parobahan sikap pamilon jeung non-pamilon, boh di istilah pondok-the (ngabandingkeun pre-Gezi ka mangsa Gezi) jeung istilah lila-the (ngabandingkeun pre-Gezi posting-Gezi).

Gambar 2.1: Desain anu digunakeun ku Budak and Watts (2015) pikeun diajar di ngeusian protes Gezi di Turki dina usum panas tina 2013. Ku ngagunakeun alam sok-on tina Twitter, panalungtik dijieun naon anu maranehna disebut panel ex-post nu kaasup ngeunaan 30.000 jelema leuwih dua taun. Kontras ulikan has nu fokus kana pamilon salila protes, nu panel ex-post nambihan 1) data ti pamilon saméméh jeung sanggeus kajadian jeung 2) data ti non-pamilon saméméh, salila, sarta sanggeus acara. struktur data enriched ieu diaktipkeun Budak jeung Watts ka estimasi naon rupa jalma éta leuwih gampang pikeun ilubiung dina protes Gezi jeung estimasi parobahan sikap pamilon jeung non-pamilon, boh di istilah pondok-the (ngabandingkeun pre-Gezi ka mangsa Gezi) jeung istilah lila-the (ngabandingkeun pre-Gezi posting-Gezi).

Memang bener yén sababaraha tina perkiraan ieu bisa geus dijieun tanpa sok dina sumber koleksi data (misalna perkiraan jangka panjang parobahan dangong), sanajan kumpulan data saperti keur 30.000 urang geus tangtu cukup mahal. Jeung, komo dibikeun an anggaran taya, kuring teu bisa mikir nu mana wae metoda sejen nu dasarna ngamungkinkeun panalungtik pikeun ngarambat deui dina waktu jeung langsung niténan pamilon paripolah dina jaman baheula. Nu alternatif pangdeukeutna bakal pikeun ngumpulkeun laporan retrospective tina paripolah, tapi laporan ieu bakal of granularity kawates jeung akurasi questionable. Table 2.1 nyadiakeun conto séjén studi anu ngagunakeun hiji sok di sumber data pikeun diajar hiji kajadian teu kaduga.

Table 2.1: Studi kajadian kaduga ngagunakeun sok dina sumber data gedé.
kajadian teu kaduga Sok-on data sumber nyalukan
Ngeusian gerakan Gezi di Turki Twitter Budak and Watts (2015)
protes payung di Hong Kong Weibo Zhang (2016)
Shootings pulisi di New York City Ngeureunkeun-jeung-frisk laporan Legewie (2016)
Person ngahijikeun ISIS Twitter Magdy, Darwish, and Weber (2016)
September 11, 2001 serangan livejournal.com Cohn, Mehl, and Pennebaker (2004)
September 11, 2001 serangan talatah pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Kadua, sok-on data koleksi nyandak panalungtik pikeun ngahasilkeun ukuran real-time, nu bisa jadi penting dina setélan mana makers kawijakan hayang teu saukur diajar ti paripolah aya tapi ogé ngabales eta. Contona, data média sosial bisa dipaké pikeun pituduh réspon bencana alam (Castillo 2016) .

Dina kacindekan, sok-on data sistem ngaktifkeun panalungtik pikeun diajar kajadian kaduga sarta méré informasi real-time ka makers kawijakan. Mah teu kitu, ngajukeun yén anu sok-on data sistem ngaktifkeun panalungtik pikeun lagu robah leuwih perioda panjang waktu. Nu sabab loba sistem data gedé nu terus ngarobah-prosés nu disebut drift (Bagéan 2.3.2.4).