Suured andmeallikad on kõikjal, kuid nende kasutamine sotsiaalsete uuringute jaoks võib olla keeruline. Minu kogemuste põhjal on midagi sellist nagu "tasuta lõunasöögi" reegel andmete jaoks: kui te ei pane seda palju koguda, siis on sul tõenäoliselt vaja palju tööd selle üle mõelda ja analüüsides seda.
Tänapäeval ja tõenäoliselt homsetel suurtel andmeallikatel on tavaliselt 10 tunnust. Kolm neist on üldiselt (kuid mitte alati) teadusuuringute jaoks kasulikud: suur, pidev ja mittereaktiivne. Seitse on üldiselt (kuid mitte alati) uurimisprobleemide jaoks problemaatiline: mittetäielik, ligipääsmatu, mittesepresentatiivne, triivitav, algoritmiliselt segane, määrdunud ja tundlik. Lõppkokkuvõttes tekivad paljud neist omadustest, sest sotsiaalsete uuringute eesmärgil ei loodud suuri andmeallikaid.
Sellel peatükil olevate ideede põhjal arvan, et kolme peamist võimalust, et suured andmeallikad on sotsiaalsete uuringute jaoks kõige väärtuslikumad. Esiteks võivad nad võimaldada teadlastel otsustada konkureerivate teoreetiliste prognooside vahel. Seda tüüpi näidete hulka kuuluvad Farber (2015) (New Yorgi taksojuhid) ja King, Pan, and Roberts (2013) (Hiina tsensuur). Teiseks, suured andmesideallikad võimaldavad poliitikat täiustada mõõtmisega, kasutades selleks nüüdisaegseid kanaleid. Sellise töö näide on Ginsberg et al. (2009) (Google Flu Trends). Lõpuks võivad suured andmeallikad aidata teadlastel teha põhjuslikke prognoose ilma eksperimentideta. Sellise töö näited on Mas and Moretti (2009) (vastastikused mõjud tootlikkusele) ja Einav et al. (2015) (eBay alghindade mõju oksjonitel). Mõlemad lähenemisviisid nõuavad siiski, et teadlased nõuaksid andmete kogumist palju, näiteks hinnangulise koguse määratlemist või konkureerivate prognooside teket. Seega arvan, et parim viis mõelda, mida suurte andmeallikate abil saab teha, on see, et nad saavad aidata teadlasi, kes saavad esitada huvitavaid ja olulisi küsimusi.
Enne lõpetamist arvan, et tasub kaaluda, et suured andmeallikad võivad oluliselt mõjutada andmete ja teooria suhet. Siiani on käesolevas peatükis kasutatud teooriapõhiste empiiriliste uuringute lähenemisviisi. Kuid ka suured andmeallikad võimaldavad teadlastel teha empiiriliselt juhitud teooriat . See tähendab, et empiiriliste faktide, mustrite ja mõistatuste hoolikalt kogunemisel saavad teadlased luua uusi teooriaid. See alternatiivne teoreetiline lähenemisviis ei ole uus, ja Barney Glaser ja Anselm Strauss (1967) on seda kõige tugevamalt sõnastanud oma põhjendatud teooriaga . Kuid see andmepõhine lähenemisviis ei tähenda "teooria lõppu", nagu mõned ajakirjanikud on väitnud digitaalajastul uurimistegevuses (Anderson 2008) . Kui andmekeskkond muutub, peaksime eeldama andmete ja teooria suhete tasakaalustamist. Maailmas, kus andmete kogumine oli kallis, oli mõistlik koguda ainult neid andmeid, mida teooriad viitavad, oleks kõige kasulikum. Kuid maailmas, kus tohutu hulga andmeid on juba tasuta saadaval, on mõistlik proovida ka andmete esimest lähenemist (Goldberg 2015) .
Nagu ma selles peatükis näidanud, saavad teadlased palju õppida, vaadates inimesi. Järgmistes kolmes peatükis kirjeldan, kuidas me saame rohkem ja erinevaid asju õppida, kui kohandame oma andmete kogumist ja suhtleme inimestega otsesemalt, küsides neile küsimusi (3. peatükk), käimas eksperimente (4. peatükk) ja isegi neid kaasates uurimisprotsessi otse (peatükk 5).