Visur ir lieli datu avoti, taču to izmantošana sociālajos pētījumos var būt sarežģīta. Pēc manas pieredzes datiem ir kaut kas līdzīgs "bez brīvā pusdienām" noteikumam: ja jūs nevelciet daudz darba, vācot to, tad jums, iespējams, būs jāvelta daudz darba, domā par to un analizējot to.
Lielie datu avoti, kas šodien un, iespējams, rīt, parasti būs 10 pazīmes. Trīs no tiem parasti (bet ne vienmēr) ir noderīgi pētniecībai: lieli, vienmēr pastāvīgi un nereaģējoši. Septiņi parasti (bet ne vienmēr) ir problemātiski pētījumiem: nepilnīgi, nepieejami, nereprezentatīvi, dreifējoši, algoritmiski sajaukti, netīri un jutīgi. Galu galā daudzi no šiem raksturlielumiem rodas tāpēc, ka sociālo pētījumu mērķiem netika izveidoti lieli datu avoti.
Pamatojoties uz šīs nodaļas idejām, es domāju, ka ir trīs galvenie veidi, kā lielie datu avoti būs visvērtīgākie sociālajiem pētījumiem. Pirmkārt, viņi var dot pētniekiem iespēju izvēlēties starp konkurējošām teorētiskām prognozēm. Šāda veida darba piemēri ir Farber (2015) (Ņujorkas taksometru vadītāji) un King, Pan, and Roberts (2013) (cenzūra Ķīnā). Otrkārt, lielie datu avoti ļauj uzlabot politikas mērījumus, izmantojot tūlītēju aplikāciju. Šāda veida darba piemērs ir Ginsberg et al. (2009) (Google gripas tendences). Visbeidzot, lielie datu avoti var palīdzēt pētniekiem veikt cēloņsakarības, neveicot eksperimentus. Šāda veida darba piemēri ir Mas and Moretti (2009) (vienādranga ietekme uz ražīgumu) un Einav et al. (2015) (sākuma cenas ietekme uz eBay izsolēm). Tomēr katra no šīm pieejām prasa, lai pētnieki daudz ņem vērā datus, piemēram, noteiktu daudzumu, kas ir svarīgs novērtēšanai, vai divas teorijas, kas rada konkurējošas prognozes. Tādējādi, manuprāt, labākais veids, kā domāt par to, ko lielie datu avoti var izdarīt, ir tas, ka viņi var palīdzēt pētniekiem, kuri var uzdot interesantus un svarīgus jautājumus.
Pirms noslēgšanas es domāju, ka ir vērts apsvērt, ka lieli datu avoti var būtiski ietekmēt attiecības starp datiem un teoriju. Līdz šim šajā nodaļā ir izmantota teorētisko empīrisko pētījumu pieeja. Taču lieli datu avoti arī ļauj pētniekiem veikt empīriski veltītu teorētisko darbību . Tas ir, rūpīgi apkopojot empīriskos faktus, modeļus un mīklas, pētnieki var veidot jaunas teorijas. Šī alternatīva, datu pirmā pieeja teorijai nav nekas jauns, un Barney Glaser un Anselm Strauss (1967) to vissmagāk formulēja ar savu aicinājumu pamatot teoriju . Tomēr šī pirmās pieejas pieeja nenozīmē "teorijas beigas", kā apgalvots daži no žurnālistikiem ap pētniecību digitālajā laikmetā (Anderson 2008) . Drīzāk, mainoties datu videi, vajadzētu sagaidīt līdzsvaru starp datiem un teoriju. Pasaulē, kurā datu vākšana bija dārga, ir jēga savākt tikai tos datus, uz ko norāda teorijas, ka tas būs visnoderīgākais. Taču pasaulē, kurā milzīgs datu apjoms jau ir pieejams bez maksas, ir lietderīgi arī izmēģināt pirmās pieejas pieeju (Goldberg 2015) .
Kā esmu parādījis šajā nodaļā, pētnieki var daudz uzzināt, skatoties cilvēkus. Nākamajās trīs nodaļās aprakstīšu, kā mēs varam uzzināt vairāk un dažādas lietas, ja pielāgojam datu vākšanu un vairāk sazināsimies ar cilvēkiem, uzdodot viņiem jautājumus (3. nodaļa), veicot eksperimentus (4. nodaļa) un pat iesaistot tos tieši pētniecības procesā (5. nodaļa).