Sumber data gedhe ing ngendi wae, nanging digunakake kanggo riset sosial bisa angel. Ing pengalaman, ana sing kaya aturan "ora ana makan siang gratis" kanggo data: yen sampeyan ora nglebokake akeh karya sing dikumpulake, sampeyan mesthine kudu nyelehake akeh karya sing dipikir lan nganalisa.
Sumber data gedhe ing dina iki-lan kemungkinan sesuk bakal cenderung duwe 10 karakteristik. Telu iki umume (nanging ora mesthi) mbiyantu riset: gedhe, tansah-on, lan ora aktif. Pitu umume (nanging ora mesthi) masalah kanggo riset: ora lengkap, ora bisa diakses, nonrepresentative, drifting, algorithmically confounded, kotor, lan sensitif. Akeh karakteristik iki pungkasane muncul amarga sumber data gedhe ora digawe kanggo tujuan riset sosial.
Adhedhasar gagasan ing bab iki, aku mikir yen ana telung cara utama sing sumber data gedhe bakal paling penting kanggo riset sosial. Pisanan, padha bisa ngidini peneliti nemtokake antarane prediksi teoritis. Conto-conto karya iki kalebu Farber (2015) (Pemandu Taxi Taxi New York) lan King, Pan, and Roberts (2013) (penyensoran ing China). Kapindho, sumber data gedhe bisa ngaktifake pangukuran luwih apik kanggo privasi liwat pamrih. Conto saka karya iki yaiku Ginsberg et al. (2009) (Google Flu Trends). Akhire, sumber data sing gedhe bisa mbantu peneliti nggawe perkiraan kausal tanpa eksperimen. Conto-conto karya iki yaiku Mas and Moretti (2009) (efek peer ing produktivitas) lan Einav et al. (2015) (efek saka rega wiwitan ing lelongan ing eBay). Nanging, saben pendekatan iki cenderung mbutuhake panaliti kanggo nggawa akeh data, kayata definisi kuantitas sing penting kanggo ngira utawa loro teori sing nggawe ramalan saingan. Mangkono, aku mikir cara sing paling apik kanggo mikir babagan apa sumber data gedhe sing bisa dilakoni yaiku supaya dheweke bisa mbantu peneliti sing bisa njaluk pitakonan menarik lan penting.
Sadurunge concluding, aku mikir yen worth considering sing gedhe sumber data bisa duwe pengaruh penting ing hubungan antarane data lan teori. Supaya adoh, bab iki wis njupuk pendekatan riset empiris sing didhukung. Nanging sumber data sing gedhe uga ndadekake para panaliti nindakake teori kanthi mimpin . Mangkono, kanthi akumulasi ati-ati saka fakta empiris, pola, lan teka-teki, peneliti bisa mbangun teori-teori anyar. Téori alternatif, dhéfinisi data pisanan iki ora anyar, lan iki paling disenengi déning Barney Glaser lan Anselm Strauss (1967) kanthi nyebut dhasar teori kasebut . Nanging, pendekatan data sing pisanan ora nyatakake "pungkasan teori," kaya sing wis diklaim ing sawetara jurnalisme watara riset ing umur digital (Anderson 2008) . Luwih, amarga owah-owahan lingkungan data, kita kudu nyengkuyung reaksi maneh ing hubungan antarane data lan teori. Ing donya ing ngendi koleksi data larang, mung bisa kanggo ngumpulake data sing mung ditemtokake dening teori-teori kasebut. Nanging, ing jagad sing jumlah data wis cumawis gratis, bisa uga digunakna kanggo nyoba pendekatan data-pertama (Goldberg 2015) .
Kaya sing wis dituduhake ing bab iki, peneliti bisa sinau akeh kanthi nonton wong. Ing bab telung bab sabanjure, aku bakal njlèntrèhaké cara kita bisa mangerteni luwih akeh lan beda yen kita ngarang koleksi data kita lan sesambungan karo wong luwih langsung kanthi takon pitakonan (bab 3), nglakokake eksperimen (bab 4), lan malah nglibatake ing proses riset langsung (bab 5).