Store datakilder er overalt, men bruk av dem for sosial forskning kan være vanskelig. Etter min erfaring er det noe som en "ingen gratis lunsj" -regel for data: hvis du ikke legger mye arbeid i å samle det, så er du sannsynligvis nødt til å legge mye arbeid på å tenke på det og analysere det.
Dagens store datakilder - og sannsynlig i morgen - vil ha 10 egenskaper. Tre av disse er generelt (men ikke alltid) nyttige for forskning: stor, alltid på og ikke-reaktiv. Syv er generelt (men ikke alltid) problematiske for forskning: ufullstendig, utilgjengelig, ikke representativ, drivende, algoritmisk forvirret, skitten og sensitiv. Mange av disse karakteristikkene oppstår til slutt fordi store datakilder ikke ble opprettet for samfunnsforskning.
Basert på ideene i dette kapittelet tror jeg at det er tre hovedveier at store datakilder vil være mest verdifulle for samfunnsforskning. For det første kan de gjøre det mulig for forskere å bestemme mellom konkurrerende teoretiske spådommer. Eksempler på denne typen arbeid er Farber (2015) New York Taxi Drivere) og King, Pan, and Roberts (2013) (censur i Kina). For det andre kan store datakilder muliggjøre forbedret måling for politikk gjennom nåkasting. Et eksempel på denne typen arbeid er Ginsberg et al. (2009) (Google Flu Trends). Endelig kan store datakilder hjelpe forskere med årsakssammendrag uten å kjøre eksperimenter. Eksempler på denne typen arbeid er Mas and Moretti (2009) (peer-effekter på produktivitet) og Einav et al. (2015) (effekt av startpris på auksjoner på eBay). Hver av disse tilnærmingene har imidlertid en tendens til å kreve at forskere tar mye med dataene, for eksempel definisjonen av en kvantitet som er viktig å estimere eller to teorier som gir konkurrerende prediksjoner. Derfor tror jeg den beste måten å tenke på hvilke store datakilder kan gjøre er at de kan hjelpe forskere som kan stille interessante og viktige spørsmål.
Før jeg konkluderer, synes jeg det er verdt å vurdere at store datakilder kan ha en viktig effekt på forholdet mellom data og teori. Hittil har dette kapitlet tatt tilnærming til teoridrevet empirisk forskning. Men store datakilder gjør det også mulig for forskere å gjøre empirisk drevet teoretisering . Det er, gjennom nøye akkumulering av empiriske fakta, mønstre og puslespill, kan forskere bygge nye teorier. Denne alternative, data-første tilnærmingen til teorien er ikke ny, og den ble mest kraftig formulert av Barney Glaser og Anselm Strauss (1967) med deres kall for grunnet teori . Denne data-første tilnærmingen innebærer imidlertid ikke "teoriens slutt", som det hevdes i noen av journalistikken rundt forskning i den digitale tidsalderen (Anderson 2008) . Snarere, ettersom datamiljøet endres, bør vi forvente en rebalansering i forholdet mellom data og teori. I en verden der datainnsamling var dyrt, var det fornuftig å samle kun dataene som teorier foreslår, vil være mest nyttige. Men i en verden der enorme mengder data allerede er tilgjengelige gratis, er det fornuftig å også prøve en data-første tilnærming (Goldberg 2015) .
Som jeg har vist i dette kapittelet, kan forskere lære mye ved å se på folk. I de neste tre kapitlene skal jeg beskrive hvordan vi kan lære mer og forskjellige ting om vi skreddersyr vår datasamling og samhandler med mennesker mer direkte ved å stille spørsmål til dem (kapittel 3), kjører eksperimenter (kapittel 4) og til og med involverer dem i forskningsprosessen direkte (kapittel 5).