2.3.1.2 Sentiasa-on

Sentiasa ke data besar membolehkan kajian kejadian yang tidak diduga dan pengukuran masa nyata.

Banyak sistem data yang besar selalu-on; mereka sentiasa mengumpul data. ciri sentiasa ke ini menyediakan penyelidik dengan data membujur (iaitu, data dari masa ke masa). Sebagai sentiasa ke mempunyai dua implikasi penting untuk penyelidikan.

Pertama, sentiasa ke data koleksi membolehkan penyelidik mengkaji kejadian yang tidak diduga dengan cara yang tidak mungkin sebelumnya. Sebagai contoh, penyelidik berminat untuk mengkaji Menduduki protes Gezi di Turki pada musim panas tahun 2013 biasanya akan memberi tumpuan kepada tingkah laku penunjuk perasaan pada majlis itu. Ceren Budak dan Duncan Watts (2015) dapat melakukan lebih banyak dengan menggunakan sifat sentiasa ke Twitter untuk mengkaji Twitter-menggunakan penunjuk perasaan sebelum, semasa, dan selepas acara itu. Dan, mereka dapat membuat kumpulan perbandingan bukan peserta (atau peserta yang tidak tweet tentang bantahan) sebelum, semasa, dan selepas peristiwa itu (Rajah 2.1). Dalam jumlah panel ex-post mereka termasuk tweet 30,000 orang lebih dua tahun. Dengan menambah data yang biasa digunakan dari protes dengan maklumat lain ini, Budak dan Watts dapat belajar banyak lagi: mereka dapat menganggarkan apa jenis orang lebih cenderung untuk mengambil bahagian dalam protes Gezi dan untuk menganggarkan perubahan dalam sikap peserta dan bukan peserta, baik dalam jangka pendek (membandingkan pra-Gezi ke semasa Gezi) dan dalam jangka masa panjang (membandingkan pra-Gezi untuk hantar-Gezi).

Rajah 2.1: Reka bentuk yang digunakan oleh Budak dan Watts (2015) untuk mengkaji Menduduki protes Gezi di Turki pada musim panas tahun 2013. Dengan menggunakan sifat sentiasa ke Twitter, penyelidik mencipta apa yang mereka dipanggil panel ex-post yang termasuk kira-kira 30,000 orang dalam tempoh dua tahun. Sebaliknya kajian khas yang memberi tumpuan kepada peserta semasa protes, panel ex-post menambah 1) data daripada peserta sebelum dan selepas acara dan 2) data daripada bukan peserta sebelum, semasa dan selepas aktiviti. Struktur data diperkaya membolehkan Budak dan Watts untuk menganggarkan apa jenis orang lebih cenderung untuk mengambil bahagian dalam protes Gezi dan untuk menganggarkan perubahan dalam sikap peserta dan bukan peserta, baik dalam jangka pendek (membandingkan pra-Gezi ke semasa Gezi) dan dalam jangka masa panjang (membandingkan pra-Gezi untuk hantar-Gezi).

Rajah 2.1: Reka bentuk yang digunakan oleh Budak and Watts (2015) untuk mengkaji Menduduki protes Gezi di Turki pada musim panas tahun 2013. Dengan menggunakan sifat sentiasa ke Twitter, penyelidik mencipta apa yang mereka dipanggil panel ex-post yang termasuk kira-kira 30,000 orang dalam tempoh dua tahun. Sebaliknya kajian khas yang memberi tumpuan kepada peserta semasa protes, panel ex-post menambah 1) data daripada peserta sebelum dan selepas acara dan 2) data daripada bukan peserta sebelum, semasa dan selepas aktiviti. Struktur data diperkaya membolehkan Budak dan Watts untuk menganggarkan apa jenis orang lebih cenderung untuk mengambil bahagian dalam protes Gezi dan untuk menganggarkan perubahan dalam sikap peserta dan bukan peserta, baik dalam jangka pendek (membandingkan pra-Gezi ke semasa Gezi) dan dalam jangka masa panjang (membandingkan pra-Gezi untuk hantar-Gezi).

Ia adalah benar bahawa beberapa anggaran ini boleh dibuat tanpa sentiasa ke sumber pengumpulan data (contohnya, anggaran jangka panjang perubahan sikap), walaupun koleksi data itu bagi 30,000 orang akan menjadi agak mahal. Dan, walaupun diberi bajet yang tidak terhad, saya tidak boleh berfikir apa-apa kaedah lain yang pada dasarnya membolehkan penyelidik untuk perjalanan kembali ke masa dan terus memerhatikan tingkah laku peserta pada masa lalu. Alternatif paling hampir yang boleh untuk mengumpul laporan retrospektif tingkah laku, tetapi laporan ini akan menjadi butiran terhad dan ketepatan dipersoalkan. Jadual 2.1 memberikan contoh-contoh lain kajian yang digunakan sentiasa ke sumber data untuk mengkaji peristiwa yang tidak dijangka.

Jadual 2.1: Kajian terhadap kejadian yang tidak diduga menggunakan sentiasa ke sumber data yang besar.
peristiwa yang tidak dijangka Sentiasa ke data sumber Citation
Menduduki pergerakan Gezi di Turki Twitter Budak and Watts (2015)
protes payung di Hong Kong Weibo Zhang (2016)
Tembakan polis di New York City Stop-dan-pemeriksaan badan laporan Legewie (2016)
Orang menyertai ISIS Twitter Magdy, Darwish, and Weber (2016)
September 11, 2001 serangan livejournal.com Cohn, Mehl, and Pennebaker (2004)
September 11, 2001 serangan mesej pager Back, Küfner, and Egloff (2010) , Pury (2011) , Back, Küfner, and Egloff (2011)

Kedua, sentiasa ke data koleksi membolehkan penyelidik untuk menghasilkan ukuran masa sebenar, yang boleh menjadi penting dalam tetapan di mana pembuat dasar mahu bukan hanya belajar daripada apa yang sedia ada tetapi juga bertindak balas kepadanya. Sebagai contoh, data media sosial boleh digunakan untuk membimbing balas kepada bencana alam (Castillo 2016) .

Kesimpulannya, sentiasa ke data sistem membolehkan penyelidik untuk mengkaji kejadian yang tidak diduga dan menyediakan maklumat masa sebenar kepada pembuat dasar. Saya tidak, bagaimanapun, mencadangkan bahawa sentiasa ke data sistem membolehkan penyelidik untuk mengesan perubahan dalam jangka masa yang panjang. Ini kerana banyak sistem data yang besar yang sentiasa berubah-a drift proses dipanggil (Seksyen 2.3.2.4).