Sentiasa ke data besar membolehkan kajian kejadian yang tidak diduga dan pengukuran masa nyata.
Banyak sistem data yang besar selalu-on; mereka sentiasa mengumpul data. ciri sentiasa ke ini menyediakan penyelidik dengan data membujur (iaitu, data dari masa ke masa). Sebagai sentiasa ke mempunyai dua implikasi penting untuk penyelidikan.
Pertama, pengumpulan data selalu membolehkan penyelidik mempelajari peristiwa yang tidak dijangka dengan cara yang tidak mungkin dilakukan. Sebagai contoh, para penyelidik yang berminat untuk mengkaji protes Menduduki Gezi di Turki pada musim panas 2013 akan menumpukan kepada tingkah laku penunjuk perasaan semasa acara tersebut. Ceren Budak dan Duncan Watts (2015) dapat melakukan lebih banyak lagi dengan menggunakan sifat Twitter secara aktif untuk mempelajari penunjuk perasaan yang menggunakan Twitter sebelum, semasa, dan selepas acara tersebut. Dan, mereka dapat membuat kumpulan perbandingan bukan peserta sebelum, semasa, dan selepas kejadian (angka 2.2). Keseluruhannya, panel ex-post mereka termasuk tweet sebanyak 30,000 orang dalam tempoh dua tahun. Dengan menambah data yang biasa digunakan dari protes dengan maklumat lain ini, Budak dan Watts dapat belajar lebih banyak: mereka dapat menganggarkan jenis orang yang lebih mungkin untuk menyertai protes Gezi dan untuk menganggarkan perubahan sikap peserta dan bukan peserta, dalam jangka pendek (membandingkan pra-Gezi hingga semasa Gezi) dan dalam jangka panjang (membandingkan pra-Gezi dengan post-Gezi).
Seorang yang skeptik mungkin menunjukkan bahawa beberapa anggaran ini boleh dibuat tanpa sumber kutipan data yang selalu (contohnya, anggaran jangka panjang perubahan sikap), dan itu benar, walaupun pengumpulan data sedemikian untuk 30,000 orang akan agak mahal. Walaupun diberi anggaran yang tidak terhad, bagaimanapun, saya tidak dapat memikirkan kaedah lain yang pada asasnya membolehkan para penyelidik untuk bergerak kembali dalam masa dan terus memerhatikan tingkah laku para peserta pada masa lalu. Alternatif yang terdekat adalah untuk mengumpul laporan tindak balas retrospektif, tetapi laporan ini akan mempunyai ketaksamaan terhad dan ketepatan dipersoalkan. Jadual 2.1 menyediakan contoh-contoh lain kajian yang menggunakan sumber data sentiasa untuk mengkaji peristiwa yang tidak dijangka.
Acara yang tidak dijangka | Sumber data sentiasa ada | Petikan |
---|---|---|
Menduduki pergerakan Gezi di Turki | Budak and Watts (2015) | |
Bantahan payung di Hong Kong | Zhang (2016) | |
Penangkapan polis di New York City | Laporan berhenti-dan-frisk | Legewie (2016) |
Orang yang menyertai ISIS | Magdy, Darwish, and Weber (2016) | |
Serangan 11 September 2001 | livejournal.com | Cohn, Mehl, and Pennebaker (2004) |
Serangan 11 September 2001 | mesej pager | Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011) |
Di samping mempelajari peristiwa-peristiwa yang tidak dijangka, sistem data yang selalu digunakan juga membolehkan para penyelidik menghasilkan anggaran masa nyata, yang boleh menjadi penting dalam tetapan di mana pembuat dasar-dalam kerajaan atau industri-mahu bertindak balas berdasarkan kesedaran keadaan. Sebagai contoh, data media sosial boleh digunakan untuk membimbing tindak balas kecemasan kepada bencana alam (Castillo 2016) dan pelbagai sumber data besar yang berbeza boleh digunakan untuk menghasilkan anggaran masa nyata aktiviti ekonomi (Choi and Varian 2012) .
Sebagai kesimpulan, sistem data selalu membolehkan penyelidik mempelajari peristiwa yang tidak dijangka dan memberikan maklumat masa nyata kepada pembuat dasar. Saya tidak, bagaimanapun, berfikir bahawa sistem data selalu sesuai untuk menjejak perubahan dalam tempoh masa yang sangat lama. Itu kerana banyak sistem data besar sentiasa berubah-satu proses yang saya panggil akan hanyut kemudian dalam bab (bahagian 2.3.7).