sumber data badag anu madhab, tapi ngagunakeun éta pikeun panalungtikan sosial tiasa tricky. Dina pangalaman kuring, aya hiji hal kawas "euweuh bébas dahar beurang" aturan pikeun data: lamun teu nempatkeun dina loba karya ngumpulkeun eta, teras anjeun meureun akang gaduh nempatkeun dina loba karya pikir ngeunaan eta na analisa eta.
Sumber data badag tina dinten-na kamungkinan isukan-baris condong mibanda 10 ciri. Tilu tina ieu umumna (tapi teu salawasna) mantuan pikeun panalungtikan: badag, salawasna-on, sarta nonreactive. Tujuh umumna (tapi teu salawasna) masalah pikeun panalungtikan: teu lengkep, inaccessible, nonrepresentative, drifting, algorithmically ngabingungkeun, kotor, jeung sénsitip. Loba ciri ieu pamustunganana timbul lantaran sumber data badag teu dijieun pikeun tujuan panalungtikan sosial.
Dumasar gagasan dina ieu bab, Jigana eta aya tilu cara utama anu sumber data badag bakal paling berharga pikeun panalungtikan sosial. Kahiji, aranjeunna bisa ngaktipkeun peneliti mutuskeun antara competing prediksi teoritis. Conto jenis ieu karya kaasup Farber (2015) (drivers New York Angkot) jeung King, Pan, and Roberts (2013) (carana ngawasan di Cina). Kadua, sumber data badag bisa ngaktipkeun ukur ningkat pikeun kawijakan ngaliwatan nowcasting. Conto jenis ieu karya téh Ginsberg et al. (2009) (Google Flu Tren). Tungtungna, sumber data badag bisa mantuan peneliti nyieun perkiraan kausal tanpa ngajalankeun percobaan. Conto jenis ieu karya téh Mas and Moretti (2009) (épék peer on produktivitas) jeung Einav et al. (2015) (efek harga mimiti di auctions di eBay). Unggal geus deukeut ieu, kumaha oge, nuju ka merlukeun peneliti mawa pisan kana data, kayaning ngartikeun kuantitas anu penting keur estimasi atanapi dua téori yén nyieun prediksi competing. Ku kituna, kuring pikir cara pangalusna keur mikir ngeunaan naon sumber data badag tiasa ngalakukeun nyaeta aranjeunna tiasa ngabantu peneliti anu bisa nanyakeun metot sarta penting.
Sateuacan concluding, Jigana yén éta téh patut tempo yén sumber data badag bisa boga pangaruh penting dina hubungan antara data jeung teori. Sajauh, ieu bab geus dicokot pendekatan panalungtikan empiris téori-disetir. Tapi sumber data badag ogé ngaktipkeun peneliti mun ngalakukeun theorizing disetir émpiris. Nyaeta, ngaliwatan akumulasi ati fakta empirik, pola, sarta puzzles, peneliti tiasa ngawangun tiori anyar. Alternatif, pendekatan data-hareup ieu téori teu anyar, sarta eta ieu paling forcefully diucapkeun ku Barney Glaser na Anselm Strauss (1967) kalayan panggero maranéhanana pikeun téori grounded. Data-hareup pendekatan ieu, kumaha ogé, teu imply "Nepi ka tungtun taun téori," salaku geus diaku di sababaraha journalism sabudeureun panalungtikan dina umur digital (Anderson 2008) . Rada, salaku parobahan lingkungan data, urang kedah nyangka a rebalancing dina hubungan antara data jeung teori. Dina dunya dimana pendataan éta mahal, eta dijieun rasa pikeun ngumpulkeun wungkul data yen teori nyarankeun bakal paling mangpaat. Tapi, dina dunya mana jumlahna loba pisan data anu geus sadia haratis, ngajadikeun rasa ka ogé coba pendekatan data-hareup (Goldberg 2015) .
Salaku Kuring geus ditémbongkeun dina ieu bab, peneliti tiasa diajar pisan ku ningali jalma. Dina tilu bab salajengna, abdi gé ngajelaskeun kumaha urang tiasa diajar sarta béda hal lamun urang tukang ngaput pendataan kami sarta berinteraksi sareng jalma leuwih langsung ku nanyakeun aranjeunna patarosan (bab 3), ngajalankeun percobaan (bab 4), sarta malah ngalibetkeun aranjeunna dina prosés panalungtikan langsung (bab 5).