2.3.1.1 Big

Dataset yang besar adalah alat untuk mencapai tujuan; mereka tidak berakhir dalam diri mereka.

Yang pertama dari tiga karakteristik yang baik dari data besar adalah yang paling dibahas: ini adalah data besar. sumber data ini bisa besar dalam tiga cara yang berbeda: banyak orang, banyak informasi per orang, atau banyak pengamatan dari waktu ke waktu. Memiliki dataset besar memungkinkan beberapa tipe tertentu dari heterogenitas penelitian-mengukur, mempelajari peristiwa langka, mendeteksi perbedaan kecil, dan membuat estimasi kausal dari data pengamatan. Hal ini juga tampaknya menyebabkan jenis tertentu kecerobohan.

Hal pertama yang ukuran sangat berguna bergerak di luar rata-rata untuk membuat perkiraan untuk subkelompok tertentu. Misalnya, Gary Raja, Jennifer Pan, dan Molly Roberts (2013) diukur probabilitas bahwa posting media sosial di China akan disensor oleh pemerintah. Dengan sendirinya probabilitas rata-rata ini penghapusan tidak sangat membantu untuk memahami mengapa pemerintah menyensor beberapa posting tetapi tidak yang lain. Tapi, karena dataset mereka termasuk 11 juta posting, Raja dan rekan juga menghasilkan perkiraan untuk kemungkinan sensor untuk posting di 85 kategori terpisah (misalnya, pornografi, Tibet, dan Lalu Lintas di Beijing). Dengan membandingkan probabilitas sensor untuk posting dalam kategori yang berbeda, mereka dapat lebih memahami tentang bagaimana dan mengapa pemerintah menyensor beberapa jenis posting. Dengan 11 ribu posting (bukan 11 juta posting), mereka tidak akan mampu menghasilkan perkiraan khusus kategori ini.

Kedua, ukuran sangat berguna untuk belajar dari peristiwa langka. Misalnya, Goel dan rekan (2015) ingin mempelajari cara yang berbeda bahwa tweets bisa pergi virus. Karena air terjun besar re-tweet yang sangat jarang-sekitar satu dalam 3.000-mereka perlu mempelajari lebih dari satu miliar tweet dalam rangka untuk menemukan cukup air terjun besar untuk analisis mereka.

Ketiga, dataset besar memungkinkan para peneliti untuk mendeteksi perbedaan kecil. Bahkan, banyak fokus pada data besar di industri adalah sekitar perbedaan-perbedaan kecil: andal mendeteksi perbedaan antara 1% dan 1,1% klik melalui sebuah iklan dapat diterjemahkan ke dalam jutaan dolar dalam pendapatan tambahan. Dalam beberapa pengaturan ilmiah, perbedaan-perbedaan kecil seperti mungkin tidak tertentu yang penting (bahkan jika mereka signifikan secara statistik). Tapi, dalam beberapa pengaturan kebijakan, perbedaan kecil tersebut dapat menjadi penting bila dilihat secara agregat. Sebagai contoh, jika ada dua intervensi kesehatan masyarakat dan salah satu yang sedikit lebih efektif daripada yang lain, kemudian beralih ke intervensi lebih efektif bisa berakhir menghemat ribuan nyawa tambahan.

Akhirnya, set data yang besar sangat meningkatkan kemampuan kita untuk membuat estimasi kausal dari data pengamatan. Meskipun dataset besar tidak mendasar mengubah masalah dengan membuat inferensi kausal dari data pengamatan, pencocokan dan percobaan-dua alam teknik yang peneliti telah dikembangkan untuk membuat klaim kausal dari pengamatan data baik sangat menguntungkan dari dataset besar. Saya akan menjelaskan dan menggambarkan klaim ini secara lebih rinci nanti dalam bab ini ketika saya menjelaskan strategi penelitian.

Meskipun ukuran besar umumnya properti baik bila digunakan dengan benar, saya telah memperhatikan bahwa ukuran besar umumnya mengarah ke kesalahan konseptual. Untuk beberapa alasan, ukuran besar tampaknya untuk memimpin peneliti mengabaikan bagaimana data mereka dihasilkan. Sementara ukuran besar tidak mengurangi perlu khawatir tentang kesalahan acak, itu benar-benar meningkatkan perlu khawatir tentang kesalahan sistematis, jenis-jenis kesalahan yang saya akan menjelaskan lebih bawah yang timbul dari bias dalam bagaimana data dibuat dan dikumpulkan. Dalam dataset kecil, baik random error dan kesalahan sistematis dapat menjadi penting, tetapi dalam kesalahan acak yang besar dataset yang dapat rata-rata pergi dan kesalahan sistematis mendominasi. Para peneliti yang tidak berpikir tentang kesalahan sistematik akan berakhir dengan menggunakan dataset yang besar untuk mendapatkan estimasi yang tepat dari hal yang salah; mereka akan justru tidak akurat (McFarland and McFarland 2015) .