Dataset yang besar adalah alat untuk mencapai tujuan; mereka tidak berakhir dalam diri mereka.
Fitur yang paling banyak dibahas dari sumber data besar adalah bahwa mereka BESAR. Banyak makalah, misalnya, mulai dengan mendiskusikan — dan kadang-kadang menyombongkan — tentang berapa banyak data yang mereka analisis. Misalnya, sebuah makalah yang diterbitkan di Science yang mempelajari tren penggunaan kata dalam korpus Google Books termasuk yang berikut (Michel et al. 2011) :
“Korpus [Kami] berisi lebih dari 500 miliar kata, dalam bahasa Inggris (361 miliar), Prancis (45 miliar), Spanyol (45 miliar), Jerman (37 miliar), Cina (13 miliar), Rusia (35 miliar), dan Ibrani (2 milyar). Karya tertua diterbitkan pada tahun 1500-an. Dekade awal diwakili oleh hanya beberapa buku per tahun, yang terdiri dari beberapa ratus ribu kata. Pada 1800, korpus tumbuh hingga 98 juta kata per tahun; pada 1900, 1,8 miliar; dan pada tahun 2000, 11 miliar. Korpus tidak bisa dibaca oleh manusia. Jika Anda mencoba untuk hanya membaca entri berbahasa Inggris dari tahun 2000 saja, dengan kecepatan yang wajar dari 200 kata / menit, tanpa gangguan untuk makanan atau tidur, itu akan memakan waktu 80 tahun. Urutan huruf adalah 1000 kali lebih panjang daripada genom manusia: Jika Anda menulisnya dalam garis lurus, itu akan mencapai Bulan dan kembali 10 kali lipat. ”
Skala data ini tidak diragukan lagi mengesankan, dan kita semua beruntung bahwa tim Google Books telah merilis data ini kepada publik (pada kenyataannya, beberapa kegiatan di akhir bab ini memanfaatkan data ini). Tapi, setiap kali Anda melihat sesuatu seperti ini, Anda harus bertanya: apakah semua data itu benar-benar melakukan sesuatu? Mungkinkah mereka melakukan penelitian yang sama jika data bisa mencapai Bulan dan kembali hanya sekali? Bagaimana jika data hanya bisa mencapai puncak Gunung Everest atau puncak Menara Eiffel?
Dalam hal ini, penelitian mereka, pada kenyataannya, memiliki beberapa temuan yang membutuhkan korpus kata-kata yang sangat besar dalam jangka waktu yang lama. Misalnya, satu hal yang mereka gali adalah evolusi tata bahasa, khususnya perubahan dalam tingkat konjugasi kata kerja tidak beraturan. Karena beberapa kata kerja tidak teratur cukup langka, sejumlah besar data perlu mendeteksi perubahan dari waktu ke waktu. Namun, terlalu sering, para peneliti tampaknya memperlakukan ukuran sumber data besar sebagai akhir— “lihat berapa banyak data yang dapat saya hancurkan” —surat daripada sarana untuk beberapa tujuan ilmiah yang lebih penting.
Menurut pengalaman saya, studi tentang kejadian langka adalah salah satu dari tiga ujung ilmiah tertentu yang memungkinkan dataset besar untuk diaktifkan. Yang kedua adalah studi tentang heterogenitas, seperti yang dapat diilustrasikan oleh studi oleh Raj Chetty dan rekan (2014) tentang mobilitas sosial di Amerika Serikat. Di masa lalu, banyak peneliti telah mempelajari mobilitas sosial dengan membandingkan hasil kehidupan orang tua dan anak-anak. Temuan yang konsisten dari literatur ini adalah bahwa orang tua yang diuntungkan cenderung memiliki anak yang diuntungkan, tetapi kekuatan hubungan ini bervariasi dari waktu ke waktu dan antar negara (Hout and DiPrete 2006) . Baru-baru ini, bagaimanapun, Chetty dan rekan mampu menggunakan catatan pajak dari 40 juta orang untuk memperkirakan heterogenitas dalam mobilitas antargenerasi lintas wilayah di Amerika Serikat (gambar 2.1). Mereka menemukan, misalnya, bahwa probabilitas bahwa seorang anak mencapai kuintil teratas distribusi pendapatan nasional mulai dari keluarga di kuintil bawah adalah sekitar 13% di San Jose, California, tetapi hanya sekitar 4% di Charlotte, North Carolina. Jika Anda melihat gambar 2.1 sejenak, Anda mungkin mulai bertanya-tanya mengapa mobilitas antargenerasi lebih tinggi di beberapa tempat daripada yang lain. Chetty dan rekan memiliki pertanyaan yang persis sama, dan mereka menemukan bahwa daerah dengan mobilitas tinggi memiliki segregasi perumahan yang lebih sedikit, ketimpangan pendapatan yang lebih sedikit, sekolah dasar yang lebih baik, modal sosial yang lebih besar, dan stabilitas keluarga yang lebih besar. Tentu saja, korelasi ini saja tidak menunjukkan bahwa faktor-faktor ini menyebabkan mobilitas yang lebih tinggi, tetapi mereka menyarankan mekanisme yang mungkin dapat dieksplorasi dalam pekerjaan lebih lanjut, yang persis apa yang telah dilakukan Chetty dan rekannya dalam pekerjaan berikutnya. Perhatikan bagaimana ukuran data sangat penting dalam proyek ini. Jika Chetty dan rekan telah menggunakan catatan pajak 40 ribu orang daripada 40 juta, mereka tidak akan dapat memperkirakan heterogenitas daerah dan mereka tidak akan pernah dapat melakukan penelitian selanjutnya untuk mencoba mengidentifikasi mekanisme yang menciptakan variasi ini.
Akhirnya, selain mempelajari kejadian langka dan mempelajari heterogenitas, dataset besar juga memungkinkan peneliti untuk mendeteksi perbedaan kecil. Faktanya, sebagian besar fokus pada data besar dalam industri adalah tentang perbedaan kecil ini: mendeteksi secara andal perbedaan antara 1% dan 1,1% rasio klik-tayang pada iklan dapat diterjemahkan menjadi jutaan dolar dalam pendapatan tambahan. Namun dalam beberapa pengaturan ilmiah, perbedaan kecil semacam itu mungkin tidak terlalu penting, bahkan jika mereka signifikan secara statistik (Prentice and Miller 1992) . Namun, dalam beberapa pengaturan kebijakan, mereka dapat menjadi penting ketika dilihat secara agregat. Sebagai contoh, jika ada dua intervensi kesehatan masyarakat dan yang satu lebih efektif daripada yang lain, maka memilih intervensi yang lebih efektif bisa berakhir dengan menyelamatkan ribuan nyawa tambahan.
Meskipun besar pada umumnya merupakan properti yang baik ketika digunakan dengan benar, saya telah memperhatikan bahwa terkadang dapat menyebabkan kesalahan konseptual. Untuk beberapa alasan, kebesaran tampaknya mengarahkan para peneliti untuk mengabaikan bagaimana data mereka dihasilkan. Sementara bigness tidak mengurangi kebutuhan untuk khawatir tentang kesalahan acak, itu benar-benar meningkatkan kebutuhan untuk khawatir tentang kesalahan sistematis, jenis-jenis kesalahan yang akan saya jelaskan di bawah ini yang muncul dari bias dalam bagaimana data dibuat. Sebagai contoh, dalam sebuah proyek yang akan saya uraikan nanti dalam bab ini, peneliti menggunakan pesan yang dihasilkan pada 11 September 2001 untuk menghasilkan garis waktu emosional resolusi tinggi dari reaksi terhadap serangan teroris (Back, Küfner, and Egloff 2010) . Karena para peneliti memiliki banyak sekali pesan, mereka tidak perlu khawatir tentang apakah pola yang mereka amati — meningkatkan kemarahan sepanjang hari — dapat dijelaskan dengan variasi acak. Ada begitu banyak data dan polanya sangat jelas sehingga semua uji statistik statistik menyarankan bahwa ini adalah pola nyata. Tapi, tes statistik ini tidak tahu bagaimana data dibuat. Kenyataannya, ternyata banyak pola yang disebabkan oleh bot tunggal yang menghasilkan lebih banyak pesan tanpa makna sepanjang hari. Menghapus bot yang satu ini benar-benar menghancurkan beberapa temuan kunci di koran (Pury 2011; Back, Küfner, and Egloff 2011) . Cukup sederhana, para peneliti yang tidak berpikir tentang kesalahan sistematis menghadapi risiko menggunakan dataset besar mereka untuk mendapatkan perkiraan yang tepat dari kuantitas yang tidak penting, seperti konten emosional pesan tidak bermakna yang dihasilkan oleh bot otomatis.
Kesimpulannya, dataset besar bukan merupakan akhir dari dirinya sendiri, tetapi mereka dapat memungkinkan beberapa jenis penelitian termasuk studi tentang kejadian langka, perkiraan heterogenitas, dan deteksi perbedaan kecil. Dataset besar juga tampaknya menyebabkan beberapa peneliti mengabaikan bagaimana data mereka dibuat, yang dapat mengarahkan mereka untuk mendapatkan perkiraan yang tepat dari kuantitas yang tidak penting.