Sumber data yang besar ada di mana-mana, tetapi menggunakannya untuk penyelidikan sosial boleh menjadi rumit. Dalam pengalaman saya, ada sesuatu seperti peraturan "tidak makan siang percuma" untuk data: jika anda tidak memasukkan banyak kerja mengumpulnya, maka anda mungkin perlu memasukkan banyak kerja memikirkannya dan menganalisisnya.
Sumber-sumber data yang besar hari ini-dan kemungkinan esok-akan cenderung mempunyai 10 ciri. Tiga daripada ini umumnya (tetapi tidak selalu) berguna untuk penyelidikan: besar, selalu-aktif, dan tidak aktif. Tujuh secara amnya (tetapi tidak semestinya) bermasalah untuk penyelidikan: tidak lengkap, tidak boleh diakses, tidak mewakili, hanyut, secara algoritma dikelirukan, kotor, dan sensitif. Banyak ciri-ciri ini akhirnya timbul kerana sumber data besar tidak dicipta untuk tujuan penyelidikan sosial.
Berdasarkan idea-idea dalam bab ini, saya fikir terdapat tiga cara utama bahawa sumber data besar akan menjadi yang paling berharga untuk penyelidikan sosial. Pertama, mereka boleh membolehkan penyelidik membuat keputusan antara ramalan teori bersaing. Contoh-contoh pekerjaan seperti Farber (2015) (pemandu teksi New York) dan King, Pan, and Roberts (2013) (penapisan di China). Kedua, sumber data yang besar boleh membolehkan pengukuran yang lebih baik untuk dasar melalui pembasmian. Satu contoh kerja semacam ini adalah Ginsberg et al. (2009) (Google Flu Trends). Akhirnya, sumber data besar boleh membantu penyelidik membuat anggaran kausal tanpa menjalankan eksperimen. Contoh kerja seperti ini ialah Mas and Moretti (2009) (kesan sebaya ke atas produktiviti) dan Einav et al. (2015) (kesan harga permulaan pada lelongan di eBay). Walau bagaimanapun, setiap pendekatan ini memerlukan penyelidik untuk membawa banyak data, seperti definisi kuantiti yang penting untuk menganggarkan atau dua teori yang membuat ramalan bersaing. Oleh itu, saya fikir cara terbaik untuk memikirkan apa yang boleh dilakukan oleh sumber data besar ialah mereka dapat membantu para penyelidik yang dapat mengajukan pertanyaan yang menarik dan penting.
Sebelum membuat kesimpulan, saya fikir ia adalah wajar memandangkan sumber data besar mungkin mempunyai kesan penting kepada hubungan antara data dan teori. Setakat ini, bab ini telah mengambil pendekatan penyelidikan empirikal yang didorong oleh teori. Tetapi sumber data besar juga membolehkan para penyelidik melakukan teori yang didorong secara empirikal . Iaitu, melalui pengumpulan berhati-hati tentang fakta empirikal, corak, dan teka-teki, penyelidik boleh membina teori baru. Alternatif ini, pendekatan pertama untuk teori bukanlah sesuatu yang baru, dan ia adalah yang paling kuat diartikulasikan oleh Barney Glaser dan Anselm Strauss (1967) dengan panggilan mereka untuk teori berasaskan . Pendekatan data-pertama ini, bagaimanapun, tidak menyiratkan "akhir teori," seperti yang telah dituntut dalam beberapa kewartawanan di sekitar penyelidikan dalam era digital (Anderson 2008) . Sebaliknya, apabila persekitaran data berubah, kita harus mengharapkan pengimbangan semula dalam hubungan antara data dan teori. Dalam dunia di mana pengumpulan data mahal, masuk akal untuk mengumpulkan hanya data yang dicadangkan oleh teori-teori yang paling berguna. Tetapi, di dunia di mana jumlah data yang sangat banyak telah tersedia secara percuma, masuk akal juga cuba pendekatan pertama-data (Goldberg 2015) .
Seperti yang telah saya tunjukkan dalam bab ini, penyelidik boleh belajar banyak dengan menonton orang. Dalam tiga bab yang akan datang, saya akan menerangkan bagaimana kita boleh mengetahui lebih banyak dan perkara yang berbeza jika kita menyesuaikan koleksi data kita dan berinteraksi dengan orang lebih banyak lagi dengan bertanya soalan (bab 3), menjalankan eksperimen (bab 4), dan bahkan melibatkan mereka dalam proses penyelidikan secara langsung (bab 5).