Visur yra dideli duomenų šaltiniai, tačiau jų naudojimas socialiniams tyrimams gali būti sudėtingas. Mano patirtis rodo, kad yra duomenų apie "be nemokamų pietų" taisyklę: jei jūs neužsiimsite daug darbo, rinkdami ją, jūs turbūt turėsite įdėti daug darbo ir galvoti apie tai. analizuojant jį.
Dideli duomenų šaltiniai šiandien ir greičiausiai rytoj turės 10 charakteristikų. Trys iš jų paprastai (bet ne visada) naudingi moksliniams tyrimams: dideli, nuolatiniai ir nereaguojantys. Septynios paprastai (bet ne visada) yra problemiškos moksliniams tyrimams: neišsamios, neprieinamos, nereprezentatyvios, dreifuojančios, algoritminiu būdu sugadintos, nešvarios ir jautrios. Daugelis šių ypatybių galiausiai atsiranda dėl to, kad socialinių tyrimų tikslais nebuvo sukurti dideli duomenų šaltiniai.
Remiantis šio skyriaus idėjomis, manau, kad yra trys pagrindiniai būdai, kodėl dideli duomenų šaltiniai bus labiausiai naudingi socialiniams tyrimams. Pirma, jie gali suteikti mokslininkams galimybę pasirinkti tarp konkuruojančių teorinių prognozių. Tokio darbo pavyzdžiai yra " Farber (2015) ("New York Taxi" vairuotojai) ir " King, Pan, and Roberts (2013) (Cenzūra Kinijoje). Antra, dideli duomenų šaltiniai gali padėti patobulinti politikos matavimus, naudojant "nowcasting". Tokio darbo pavyzdys yra Ginsberg et al. (2009) ("Google" gripo tendencijos). Galiausiai dideli duomenų šaltiniai gali padėti mokslininkams atlikti priežastinius įvertinimus be eksperimentų. Tokio darbo pavyzdžiai yra Mas and Moretti (2009) (vienodi efektai našumui) ir Einav et al. (2015) (Pradinės kainos poveikis aukcionuose "eBay"). Vis dėlto kiekviename iš šių metodų reikalaujama, kad mokslininkai daug atsineštų duomenims, pvz., Įvertinimui svarbaus kiekio apibrėžimui, arba dvi teorijas, kurios sukuria konkuruojančias prognozes. Taigi manau, kad geriausias būdas galvoti apie tai, ką gali padaryti dideli duomenų šaltiniai, yra tai, kad jie gali padėti mokslininkams, kurie gali užduoti įdomius ir svarbius klausimus.
Prieš baigdamas, manau, verta manyti, kad dideli duomenų šaltiniai gali turėti reikšmingą įtaką duomenų ir teorijos santykiui. Iki šiol šiame skyriuje nagrinėjamas teorinių empirinių tyrimų metodas. Tačiau dideli duomenų šaltiniai taip pat leidžia tyrėjams atlikti empiriškai pagrįstą teorizavimą . Tai reiškia, kad, rūpestingai sukaupus empirinius faktus, modelius ir galvosūkius, mokslininkai gali kurti naujas teorijas. Ši alternatyva, pirmasis duomenų pirmasis požiūris į teoriją nėra naujas, o Barney Glaser ir Anselmas Straussas (1967) Juos griežčiau suformulavo su savo raginimo įžvelgti teoriją . Tačiau šis pirmojo požiūrio metodas nereiškia "teorijos pabaigos", kaip teigė kai kurie žurnalistai apie skaitmeninio amžiaus tyrimus (Anderson 2008) . Priešingai, keičiant duomenų aplinką, turėtume tikėtis, kad duomenų ir teorijos santykis bus subalansuotas. Pasaulyje, kuriame duomenų surinkimas buvo brangus, buvo prasminga rinkti tik tuos duomenis, kuriuos teigiamos teorijos turėtų būti naudingiausios. Tačiau pasaulyje, kuriame daugybė duomenų jau yra nemokamai, reikėtų išbandyti ir pirmąjį duomenų metodą (Goldberg 2015) .
Kaip parodžiau šiame skyriuje, mokslininkai gali daug išmokti žiūrėdami žmones. Kituose trimis skyriuose apibūdinsiu, kaip mes galime sužinoti daugiau ir skirtingų dalykų, jei mes pritaikysime savo duomenų rinkimą ir tiesiogiai bendrausime su žmonėmis, klausdami jų (3 skyrius), atlikdami eksperimentus (4 skyrius) ir net įtraukdami juos į tyrimo procese tiesiogiai (5 skyrius).