Sok-on data gedé nyandak ulikan kajadian kaduga jeung ukuran real-time.
Loba sistem data gedé sok-on; aranjeunna terus ngumpulkeun data. ciri ieu sok di nyadiakeun panalungtik jeung data longitudinal (ie, data dumasar kana waktu). Keur sok-on ngabogaan dua implikasi penting pikeun panalungtikan.
Kahiji, sok-on data koleksi nyandak panalungtik pikeun diajar kajadian teu kaduga ku cara nu éta teu mungkin saméméhna. Contona, panalungtik kabetot dina ngulik ngeusian protes Gezi di Turki dina usum panas 2013 ilaharna bakal fokus dina paripolah démonstran salila acara. Ceren Budak jeung Duncan Watts (2015) éta bisa ngalakukeun leuwih ku cara make sipat sok-on tina Twitter pikeun diajar Twitter-ngagunakeun démonstran saméméh, salila, sarta sanggeus acara. Jeung, maranéhanana éta bisa nyieun grup ngabandingkeun non pamilon (atawa pamilon nu teu tweet ngeunaan protes teh) saméméh, salila, sarta sanggeus acara (Gambar 2.1). Dina total panel ex-post maranéhanana kaasup nu tweets tina 30.000 urang leuwih dua taun. Ku augmenting data ilahar dipaké ti protes jeung inpo nu sejen ieu, Budak jeung Watts éta bisa diajar leuwih: maranéhanana éta bisa estimasi naon rupa jalma éta leuwih gampang pikeun ilubiung dina protes Gezi jeung estimasi parobahan sikap tina pamilon jeung non-pamilon, boh di istilah pondok-the (ngabandingkeun pre-Gezi ka salila Gezi) jeung istilah lila-the (ngabandingkeun pre-Gezi posting-Gezi).
Memang bener yén sababaraha tina perkiraan ieu bisa geus dijieun tanpa sok dina sumber koleksi data (misalna perkiraan jangka panjang parobahan dangong), sanajan kumpulan data saperti keur 30.000 urang geus tangtu cukup mahal. Jeung, komo dibikeun an anggaran taya, kuring teu bisa mikir nu mana wae metoda sejen nu dasarna ngamungkinkeun panalungtik pikeun ngarambat deui dina waktu jeung langsung niténan pamilon paripolah dina jaman baheula. Nu alternatif pangdeukeutna bakal pikeun ngumpulkeun laporan retrospective tina paripolah, tapi laporan ieu bakal of granularity kawates jeung akurasi questionable. Table 2.1 nyadiakeun conto séjén studi anu ngagunakeun hiji sok di sumber data pikeun diajar hiji kajadian teu kaduga.
kajadian teu kaduga | Sok-on data sumber | nyalukan |
---|---|---|
Ngeusian gerakan Gezi di Turki | Budak and Watts (2015) | |
protes payung di Hong Kong | Zhang (2016) | |
Shootings pulisi di New York City | Ngeureunkeun-jeung-frisk laporan | Legewie (2016) |
Person ngahijikeun ISIS | Magdy, Darwish, and Weber (2016) | |
September 11, 2001 serangan | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
September 11, 2001 serangan | talatah pager | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Kadua, sok-on data koleksi nyandak panalungtik pikeun ngahasilkeun ukuran real-time, nu bisa jadi penting dina setélan mana makers kawijakan hayang teu saukur diajar ti paripolah aya tapi ogé ngabales eta. Contona, data média sosial bisa dipaké pikeun pituduh réspon bencana alam (Castillo 2016) .
Dina kacindekan, sok-on data sistem ngaktifkeun panalungtik pikeun diajar kajadian kaduga sarta méré informasi real-time ka makers kawijakan. Mah teu kitu, ngajukeun yén anu sok-on data sistem ngaktifkeun panalungtik pikeun lagu robah leuwih perioda panjang waktu. Nu sabab loba sistem data gedé nu terus ngarobah-prosés nu disebut drift (Bagéan 2.3.2.4).