Ang mga pinagmumulan ng malaking data sa lahat ng dako, ngunit ang paggamit nito para sa panlipunang pananaliksik ay maaaring nakakalito. Sa aking karanasan, mayroong isang bagay na tulad ng isang "walang libreng tanghalian" tuntunin para sa data: kung hindi mo ilagay sa isang pulutong ng mga trabaho sa pagkolekta ito, pagkatapos ay malamang na kailangan mong ilagay sa isang pulutong ng mga trabaho isipin ang tungkol dito at pag-aaral ito.
Ang malaking pinagkukunan ng data ng ngayon-at malamang bukas-ay may posibilidad na magkaroon ng 10 mga katangian. Tatlo sa mga ito ay karaniwang (ngunit hindi palaging) kapaki-pakinabang para sa pananaliksik: malaki, palagi, at di-aktibo. Ang pitong ay karaniwang (ngunit hindi laging) may problemang para sa pananaliksik: hindi kumpleto, hindi naa-access, hindi pangkalahatan, Pag-anod, nakakalito sa algorithm, marumi, at sensitibo. Marami sa mga katangiang ito ay ganap na lumitaw dahil ang mga malalaking pinagkukunan ng data ay hindi nilikha para sa layunin ng panlipunang pananaliksik.
Batay sa mga ideya sa kabanatang ito, sa palagay ko ay may tatlong pangunahing paraan na ang mga malaking pinagkukunan ng data ay magiging pinakamahalaga para sa panlipunang pananaliksik. Una, maaari nilang paganahin ang mga mananaliksik upang magpasya sa pagitan ng nakikipagkumpitensya mga panteorya na hula. Kabilang sa mga halimbawa ng ganitong uri ng trabaho ang Farber (2015) (mga driver ng New York Taxi) at King, Pan, and Roberts (2013) (censorship sa China). Pangalawa, ang mga malalaking pinagmumulan ng data ay maaaring paganahin ang pinahusay na pagsukat para sa patakaran sa pamamagitan ng pag-aktibo. Ang isang halimbawa ng ganitong uri ng trabaho ay ang Ginsberg et al. (2009) (Google Flu Trends). Sa wakas, ang malaking pinagkukunan ng data ay maaaring makatulong sa mga mananaliksik na gumawa ng mga pang-unawa na walang kinikilingan na walang mga eksperimento. Ang mga halimbawa ng ganitong uri ng trabaho ay ang Mas and Moretti (2009) (mga epekto sa pagiging produktibo sa pagiging produktibo) at Einav et al. (2015) (epekto ng panimulang presyo sa mga auction sa eBay). Ang bawat isa sa mga pamamaraang ito, gayunpaman, ay nangangailangan ng mga mananaliksik na magdala ng maraming sa data, tulad ng kahulugan ng isang dami na mahalaga sa pagtantya o dalawang teorya na gumawa ng mga nakikipagkumpitensya na hula. Kaya, sa palagay ko ang pinakamahusay na paraan upang mag-isip tungkol sa kung ano ang maaaring gawin ng malaking pinagmumulan ng data ay makakatulong sila sa mga mananaliksik na maaaring magtanong ng mga kawili-wili at mahahalagang tanong.
Bago matapos, sa tingin ko na ito ay nagkakahalaga ng pagsasaalang-alang na ang malaking pinagkukunan ng data ay maaaring magkaroon ng isang mahalagang epekto sa relasyon sa pagitan ng data at teorya. Sa ngayon, ang kabanatang ito ay nakuha ang diskarte ng teorya na hinimok ng empirical na pananaliksik. Ngunit ang malaking pinagkukunan ng data ay nagbibigay-daan din sa mga mananaliksik na gawin ang empirically driven theorizing . Iyon ay, sa pamamagitan ng maingat na akumulasyon ng empirical na mga katotohanan, mga pattern, at mga palaisipan, ang mga mananaliksik ay maaaring magtayo ng mga bagong teorya. Ang alternatibong data-first approach na ito sa teorya ay hindi bago, at ito ay pinaka-puwersang articulated sa pamamagitan ng Barney Glaser at Anselm Strauss (1967) sa kanilang tawag para sa pinagbabatayan teorya . Gayunman, ang data-first approach na ito ay hindi nagpapahiwatig ng "dulo ng teorya," na na-claim sa ilan sa mga journalism sa paligid ng pananaliksik sa digital age (Anderson 2008) . Sa halip, habang nagbabago ang kapaligiran ng data, dapat naming asahan ang isang rebalancing sa ugnayan sa pagitan ng data at teorya. Sa isang mundo kung saan mahal ang pagkolekta ng datos, naging makatuwiran upang kolektahin lamang ang data na iminumungkahi ng mga teorya ay ang pinakamahalagang gamit. Ngunit, sa isang mundo kung saan ang napakalaking halaga ng data ay magagamit nang libre, makabuluhan din na subukan ang isang data-first approach (Goldberg 2015) .
Tulad ng ipinakita ko sa kabanatang ito, ang mga mananaliksik ay maaaring matuto ng maraming sa pamamagitan ng pagmamasid sa mga tao. Sa susunod na tatlong kabanata, ilalarawan ko kung paano namin matututunan ang higit pa at iba't ibang mga bagay kung sasagutin namin ang aming koleksyon ng data at makipag-ugnay sa mga taong mas direkta sa pamamagitan ng pagtatanong sa kanila (kabanata 3), pagpapatakbo ng mga eksperimento (kabanata 4), at kahit na kinasasangkutan nila sa proseso ng pananaliksik nang direkta (kabanata 5).