Set data yang besar adalah satu cara untuk berakhir; mereka tidak berakhir pada diri mereka sendiri.
Ciri yang paling banyak dibincangkan mengenai sumber data besar adalah bahawa mereka adalah BESAR. Banyak kertas, sebagai contoh, bermula dengan membincangkan-dan kadang-kadang membual-mengenai berapa data yang mereka analisa. Contohnya, kertas kerja yang diterbitkan dalam Sains mengkaji trend penggunaan kata dalam corpus Buku Google termasuk yang berikut (Michel et al. 2011) :
"Korpus [kami] mengandungi lebih daripada 500 bilion perkataan, dalam bahasa Inggeris (361 bilion), Perancis (45 bilion), Sepanyol (45 bilion), Jerman (37 bilion), Cina (13 bilion), Rusia (35 bilion) (2 bilion). Kerja tertua telah diterbitkan pada tahun 1500an. Dasawarsa awal diwakili oleh hanya beberapa buku setahun, terdiri daripada beberapa ratus ribu perkataan. Menjelang tahun 1800, korpus berkembang kepada 98 juta perkataan setiap tahun; menjelang 1900, 1.8 bilion; dan menjelang 2000, 11 bilion. Korpus tidak boleh dibaca oleh manusia. Sekiranya anda cuba membaca hanya entri Bahasa Inggeris dari tahun 2000 sahaja, dengan kadar yang berpatutan sebanyak 200 perkataan / min, tanpa gangguan untuk makanan atau tidur, diperlukan 80 tahun. Urutan huruf adalah 1000 kali lebih lama daripada genom manusia: Jika anda menuliskannya dalam garis lurus, ia akan mencapai Bulan dan kembali 10 kali. "
Skala data ini tidak dapat dinafikan, dan kami semua bernasib baik bahawa pasukan Buku Google telah mengeluarkan data ini kepada orang awam (sebenarnya, beberapa aktiviti pada akhir bab ini menggunakan data ini). Tetapi, apabila anda melihat sesuatu seperti ini, anda harus bertanya: adakah semua data itu benar-benar melakukan apa-apa? Bolehkah mereka melakukan penyelidikan yang sama jika data boleh sampai ke Bulan dan hanya sekali? Bagaimana jika data hanya boleh sampai ke puncak Gunung Everest atau puncak Menara Eiffel?
Dalam kes ini, penyelidikan mereka, sebenarnya, mempunyai beberapa penemuan yang memerlukan korpus kata-kata besar dalam tempoh yang panjang. Sebagai contoh, satu perkara yang mereka pelajari adalah evolusi tatabahasa, terutamanya perubahan dalam konjugasi kata kerja yang tidak teratur. Oleh kerana beberapa kata kerja tidak lazim agak jarang berlaku, sejumlah besar data diperlukan untuk mengesan perubahan dari masa ke masa. Sering kali, bagaimanapun, para penyelidik nampaknya merawat saiz sumber data besar sebagai akhir- "melihat seberapa banyak data yang saya dapat mengatasi" -lebih daripada cara untuk beberapa objektif saintifik yang lebih penting.
Dalam pengalaman saya, kajian peristiwa langka adalah salah satu daripada tiga hujung saintifik tertentu yang dataset besar cenderung untuk membolehkan. Yang kedua adalah kajian heterogenitas, seperti yang dapat digambarkan oleh kajian oleh Raj Chetty dan rakan-rakan (2014) mengenai mobiliti sosial di Amerika Syarikat. Di masa lalu, ramai penyelidik telah mempelajari pergerakan sosial dengan membandingkan hasil kehidupan ibu bapa dan anak-anak. Tinjauan yang konsisten dari kesusasteraan ini adalah bahawa ibu bapa yang beruntung cenderung mempunyai anak-anak beruntung, tetapi kekuatan hubungan ini berubah dari masa ke masa dan di seluruh negara (Hout and DiPrete 2006) . Walau bagaimanapun, baru-baru ini, Chetty dan rakan-rakannya dapat menggunakan rekod cukai daripada 40 juta orang untuk menganggarkan heterogeneity dalam mobiliti intergenerational di seluruh rantau di Amerika Syarikat (angka 2.1). Mereka mendapati, sebagai contoh, kebarangkalian bahawa seorang kanak-kanak mencapai kuintil teratas pengedaran pendapatan negara bermula dari keluarga dalam kuintil bawah adalah kira-kira 13% di San Jose, California, tetapi hanya kira-kira 4% di Charlotte, Carolina Utara. Sekiranya anda melihat angka 2.1 sesaat, anda mungkin akan tertanya-tanya mengapa mobiliti antara generasi lebih tinggi di beberapa tempat daripada yang lain. Chetty dan rakan-rakannya mempunyai persoalan yang sama, dan mereka mendapati bahawa kawasan mobiliti tinggi mempunyai pemisahan kurang kediaman, kurang ketaksamaan pendapatan, sekolah rendah yang lebih baik, modal sosial yang lebih tinggi, dan kestabilan keluarga yang lebih besar. Sudah tentu, korelasi ini sahaja tidak menunjukkan bahawa faktor-faktor ini menyebabkan mobiliti yang lebih tinggi, tetapi mereka mencadangkan kemungkinan mekanisme yang dapat diterokai dalam kerja lebih lanjut, yang sebenarnya dilakukan oleh Chetty dan rekan dalam kerja berikutnya. Perhatikan bagaimana saiz data itu benar-benar penting dalam projek ini. Jika Chetty dan rekannya telah menggunakan rekod cukai sebanyak 40 ribu orang berbanding 40 juta, mereka tidak akan dapat menganggarkan heterogen serantau dan mereka tidak akan dapat melakukan penyelidikan seterusnya untuk cuba mengenal pasti mekanisme yang membuat variasi ini.
Akhirnya, sebagai tambahan untuk mengkaji peristiwa-peristiwa langka dan mengkaji heterogenitas, dataset besar juga membolehkan para penyelidik untuk mengesan perbezaan kecil. Malah, tumpuan utama terhadap data besar dalam industri adalah mengenai perbezaan kecil ini: dengan pasti mengesan perbezaan antara kadar klik klik sebanyak 1% dan 1.1% pada iklan boleh diterjemahkan kepada berjuta-juta dolar dalam pendapatan tambahan. Walau bagaimanapun, dalam beberapa tetapan saintifik, perbezaan kecil ini mungkin tidak penting, walaupun mereka secara statistiknya signifikan (Prentice and Miller 1992) . Tetapi, dalam beberapa tetapan dasar, mereka boleh menjadi penting apabila dilihat secara agregat. Sebagai contoh, jika terdapat dua campur tangan kesihatan awam dan satu adalah lebih berkesan daripada yang lain, maka memilih campur tangan yang lebih berkesan dapat menampung ribuan kehidupan tambahan.
Walaupun selalunya amalan yang baik apabila digunakan dengan betul, saya perhatikan bahawa kadang-kadang boleh menyebabkan ralat konseptual. Atas sebab tertentu, kebendaan nampaknya memimpin para penyelidik untuk mengabaikan bagaimana data mereka dihasilkan. Walaupun bigness tidak mengurangkan keperluan untuk bimbang tentang ralat rawak, ia sebenarnya meningkatkan keperluan untuk bimbang tentang kesalahan sistematik, jenis kesalahan yang saya akan menerangkan di bawah yang timbul dari bias dalam bagaimana data dibuat. Sebagai contoh, dalam satu projek yang akan saya huraikan dalam bab ini, penyelidik menggunakan mesej yang dihasilkan pada 11 September 2001 untuk menghasilkan garis masa emosi resolusi tinggi reaksi terhadap serangan pengganas (Back, Küfner, and Egloff 2010) . Kerana penyelidik mempunyai banyak mesej, mereka tidak perlu bimbang sama ada corak yang mereka dapati-kemarahan yang semakin meningkat sepanjang hari-boleh dijelaskan oleh variasi rawak. Terdapat begitu banyak data dan coraknya begitu jelas sehingga semua statistik statistik statistik mencadangkan bahawa ini adalah corak sebenar. Tetapi, ujian statistik ini tidak mengetahui bagaimana data dicipta. Malah, ternyata banyak pola yang dikaitkan dengan bot tunggal yang menghasilkan mesej yang lebih banyak dan lebih bermakna sepanjang hari. Mengeluarkan satu bot ini memusnahkan beberapa penemuan penting dalam karya tulis (Pury 2011; Back, Küfner, and Egloff 2011) . Sederhana, penyelidik yang tidak berfikir tentang ralat sistematik menghadapi risiko menggunakan dataset besar mereka untuk mendapatkan taksiran tepat kuantiti yang tidak penting, seperti kandungan emosi mesej yang tidak bermakna yang dihasilkan oleh bot automatik.
Kesimpulannya, dataset besar bukanlah akhir dalam diri mereka, tetapi mereka dapat membolehkan beberapa jenis penyelidikan termasuk kajian peristiwa langka, anggaran heterogenitas, dan pengesanan perbezaan kecil. Pangkalan data besar juga nampaknya membawa beberapa penyelidik untuk mengabaikan bagaimana data mereka dicipta, yang boleh membawa mereka untuk mendapatkan perkiraan yang tepat dari kuantiti yang tidak penting.