Grutte gegevensboarnen binne oeral, mar har gebrûk meitsje foar sosjale ûndersyksjen kin hurd binne. Yn myn ûnderfining is der wat te wêzen as in "gjin frije lunch" regel foar gegevens: as jo net in soad wurk sammele hawwe, dan binne jo wierskynlik in protte wurk te meitsjen oer it tinke en analyzing it.
De grutte gegevensboarnen fan hjoed - en wierskynlik moarn - sille neier 10 skaaimerken hawwe. Trije dêrfan binne algemien (mar net altyd) nuttich foar ûndersyk: grut, altyd, en net reaktyf. Sân binne oer it generaal (mar net altyd) problematysk foar ûndersyk: ûnfolslein, net te besjen, net represintatyf, driftend, algoritmysk konfrontearre, dreaun en gefoelich. In protte fan dizze karriêre ûntstiet úteinlik omdat grutte data boarnen net foar it doel fan sosjale ûndersiken ûntfongen binne.
Op grûn fan 'e ideeën yn dit haadstik tink ik dat der trije wichtige manieren binne dat grutte data boarnen de meast weardefol wêze foar sosjale ûndersyk. Earst kinne se ûndersikers ynskeakelje om te hifkjen tusken konkurrearje teoretyske foarsjennings. Foarbylden fan dizze soarte wurk binne ûnder oare Farber (2015) (New York Taxi-bestjoerders) en King, Pan, and Roberts (2013) (sensure yn Sina). Twadder, grutte gegevensboarnen kinne in ferbettere mjitmeitsje foar belied troch hjoeddedei. In foarbyld fan dizze soarte wurk is Ginsberg et al. (2009) (Google Flu Trends). Uteinlik kinne grutte gegevensboarnen helpe ûndersikers meitsje kusale skatten sûnder eksperiminten út te fieren. Foarbylden fan dizze soarte wurk binne Mas and Moretti (2009) (peer-effekten op produktiviteit) en Einav et al. (2015) (effekt fan startpriis op auctions by eBay). Elk fan dy oanwêzigen neamt lykwols om ûndersikers te ferfangen om in protte oan de gegevens te bringen, lykas de definysje fan in kwantiteit dy't wichtich is om te skiven of twa teoryen dy't konkurrearjende foarbylden meitsje. Sa tink ik de bêste manier om te tinken oer wat grutte gegevensboarnen dwaan kinne, dat se helpûndersikers kinne helpe dy't nijsgjirrige en wichtige fragen freegje.
Foardat it konkludearjen is, tink ik dat it belang is dat de grutte data boarnen in wichtige ynfloed hawwe op 'e relaasje tusken gegevens en teory. Boppedat hat dit haadstik de oanpak fan teory-ûndersocht empirysk ûndersyk nommen. Mar grutte gegevensboarnen kinne de ûndersikers ek stimulearje mei empirysk teorisearjen . Dat is, troch de soarchfâldige akkumulaasje fan empiryske feiten, patroanen en puzels, kinne ûndersikers nije teoryen bouwe. Dit alternatyf, data-earste oanpak nei teory is net nij, en it waard meast sterk artikulearre troch Barney Glaser en Anselm Strauss (1967) mei har oprop oan grûnde teory . Dizze gegevens-earste oanpak lykwols betsjuttet net "de ein fan 'e teory", sa't yn guon fan' e sjoernalistyk om ûndersyk dien is yn 'e digitale tiid (Anderson 2008) . Lykwols, as it gegevensmooglikheid feroaret, moatte wy in rebalâns ferwachtsje yn 'e relaasje tusken gegevens en teory. Yn in wrâld dêr't databesammelje djoer wie, wie it sin nedich om allinich de gegevens te sammeljen dy't teoryen sizze dat it meast brûkber wêze sil. Mar, yn in wrâld dêr't enoarme mjittingen fan gegevens al fergees beskikber binne, is it sin te meitsjen om ek in data-earste oanpak te probearjen (Goldberg 2015) .
As ik yn dit haadstik sjen litte, kinne ûndersikers in protte leare troch minsken te sjen. Yn 'e folgjende trije haadstikken sil ik beskriuwe hoe't wy mear en ferskillende dingen leare kinne as wy ús gegevens sammelje en mei minsken mear direktearje troch har fragen te freegjen (haadstik 3), rinnende eksperiminten (haadstik 4), en sels oanwêzigens yn it ûndersyksproses direkt (haadstik 5).