Sumber data besar ada di mana-mana, tetapi menggunakannya untuk penelitian sosial bisa jadi rumit. Menurut pengalaman saya, ada sesuatu seperti aturan "tidak ada makan siang gratis" untuk data: jika Anda tidak mengumpulkan banyak pekerjaan untuk mengumpulkannya, maka Anda mungkin harus banyak bekerja memikirkannya dan menganalisanya.
Sumber data besar hari ini — dan kemungkinan besok — akan cenderung memiliki 10 karakteristik. Tiga di antaranya umumnya (tetapi tidak selalu) bermanfaat untuk penelitian: besar, selalu aktif, dan tidak reaktif. Tujuh umumnya (tetapi tidak selalu) bermasalah untuk penelitian: tidak lengkap, tidak dapat diakses, tidak representatif, hanyut, bingung secara algoritme, kotor, dan sensitif. Banyak dari karakteristik ini akhirnya muncul karena sumber data besar tidak diciptakan untuk tujuan penelitian sosial.
Berdasarkan ide-ide dalam bab ini, saya pikir ada tiga cara utama bahwa sumber data besar akan sangat berharga untuk penelitian sosial. Pertama, mereka dapat memungkinkan para peneliti untuk memutuskan antara prediksi teoritis yang bersaing. Contoh pekerjaan semacam ini termasuk Farber (2015) (pengemudi Taksi New York) dan King, Pan, and Roberts (2013) (sensor di Cina). Kedua, sumber data besar dapat memungkinkan peningkatan pengukuran untuk kebijakan melalui nowcasting. Contoh dari jenis pekerjaan ini adalah Ginsberg et al. (2009) (Google Pantau Flu Dunia). Akhirnya, sumber data besar dapat membantu peneliti membuat perkiraan kausal tanpa menjalankan eksperimen. Contoh pekerjaan semacam ini adalah Mas and Moretti (2009) (efek rekan pada produktivitas) dan Einav et al. (2015) (efek harga mulai di lelang di eBay). Masing-masing pendekatan ini, bagaimanapun, cenderung membutuhkan peneliti untuk membawa banyak data, seperti definisi kuantitas yang penting untuk memperkirakan atau dua teori yang membuat prediksi bersaing. Jadi, saya pikir cara terbaik untuk berpikir tentang apa yang dapat dilakukan oleh sumber data besar adalah mereka dapat membantu peneliti yang dapat mengajukan pertanyaan yang menarik dan penting.
Sebelum menyimpulkan, saya berpikir bahwa perlu mempertimbangkan bahwa sumber data besar mungkin memiliki efek penting pada hubungan antara data dan teori. Sejauh ini, bab ini telah mengambil pendekatan penelitian empiris yang digerakkan oleh teori. Tetapi sumber data besar juga memungkinkan para peneliti untuk melakukan teori yang didorong secara empiris . Artinya, melalui akumulasi fakta empiris, pola, dan teka-teki yang cermat, para peneliti dapat membangun teori-teori baru. Alternatif ini, pendekatan data-pertama untuk teori bukanlah hal yang baru, dan itu paling kuat diartikulasikan oleh Barney Glaser dan Anselm Strauss (1967) dengan panggilan mereka untuk teori grounded . Pendekatan data-pertama ini, bagaimanapun, tidak menyiratkan "akhir teori," seperti yang telah diklaim dalam beberapa jurnalisme sekitar penelitian di era digital (Anderson 2008) . Sebaliknya, ketika lingkungan data berubah, kita harus mengharapkan penyeimbangan ulang dalam hubungan antara data dan teori. Di dunia di mana pengumpulan data mahal, masuk akal untuk mengumpulkan hanya data yang menurut teori akan menjadi yang paling berguna. Namun, di dunia di mana sejumlah besar data sudah tersedia secara gratis, masuk akal untuk juga mencoba pendekatan data-pertama (Goldberg 2015) .
Seperti yang telah saya tunjukkan dalam bab ini, peneliti dapat belajar banyak dengan mengamati orang. Dalam tiga bab berikutnya, saya akan menjelaskan bagaimana kita dapat belajar lebih banyak dan hal-hal yang berbeda jika kita menyesuaikan pengumpulan data dan berinteraksi dengan orang lain secara langsung dengan mengajukan pertanyaan (Bab 3), menjalankan eksperimen (Bab 4), dan bahkan melibatkan mereka dalam proses penelitian secara langsung (Bab 5).