Store datakilder er overalt, men at bruge dem til social forskning kan være vanskelig. Efter min erfaring er der noget som en "ingen gratis frokost" regel for data: hvis du ikke lægger meget arbejde i at samle det, så er du sandsynligvis nødt til at lægge meget arbejde på det og analysere det.
De store datakilder i dag - og sandsynligvis i morgen - vil have en tendens til at have 10 karakteristika. Tre af disse er generelt (men ikke altid) nyttige til forskning: store, altid på og ikke-reaktive. Syv er generelt (men ikke altid) problematiske for forskning: ufuldstændig, utilgængelig, ikke repræsentativ, drivende, algoritmisk forvirret, beskidt og følsom. Mange af disse karakteristika opstår i sidste ende fordi store datakilder ikke er skabt med henblik på social forskning.
Baseret på ideerne i dette kapitel mener jeg, at der er tre hovedmåder, som store datakilder vil være mest værdifulde for social forskning. For det første kan de sætte forskere i stand til at afgøre mellem konkurrerende teoretiske forudsigelser. Eksempler på denne type arbejde er Farber (2015) (New York Taxachauffører) og King, Pan, and Roberts (2013) (censur i Kina). For det andet kan store datakilder muliggøre forbedret måling for politik gennem nucasting. Et eksempel på denne form for arbejde er Ginsberg et al. (2009) (Google Flu Trends). Endelig kan store datakilder hjælpe forskere med at lave årsagsoverslag uden at køre eksperimenter. Eksempler på denne type arbejde er Mas and Moretti (2009) (peer-effekter på produktivitet) og Einav et al. (2015) (effekt af startpris på auktioner på eBay). Hver af disse tilgange har imidlertid tendens til at kræve, at forskere lægger meget på dataene, såsom definitionen af en mængde, der er vigtig for at estimere eller to teorier, der skaber konkurrerende forudsigelser. Jeg synes således, at den bedste måde at tænke på, hvad store datakilder kan gøre, er, at de kan hjælpe forskere, som kan stille interessante og vigtige spørgsmål.
Før jeg konkluderer, mener jeg, at det er værd at overveje, at store datakilder kan have en vigtig indvirkning på forholdet mellem data og teori. Hidtil har dette kapitel taget tilnærmelse til teori-drevet empirisk forskning. Men store datakilder giver også forskere mulighed for at gøre empirisk drevet teoretisering . Det vil sige ved at forsigtige akkumulering af empiriske fakta, mønstre og puslespil kan forskere opbygge nye teorier. Denne alternative, data-første tilgang til teori er ikke ny, og den blev mest kraftigt formuleret af Barney Glaser og Anselm Strauss (1967) med deres opfordring til jordet teori . Denne data-første tilgang betyder imidlertid ikke "slutningen af teorien", som det hævdes i nogle af journalistik omkring forskning i den digitale tidsalder (Anderson 2008) . I takt med at datamiljøet ændrer sig, bør vi forvente en rebalancering af forholdet mellem data og teori. I en verden, hvor dataindsamling var dyrt, gav det mening at samle kun de data, som teorierne foreslår, vil være mest nyttige. Men i en verden, hvor enorme mængder data allerede er tilgængelige gratis, giver det også mening at også prøve en data-første tilgang (Goldberg 2015) .
Som jeg har vist i dette kapitel, kan forskere lære meget ved at se på folk. I de næste tre kapitler beskriver jeg hvordan vi kan lære mere og forskellige ting, hvis vi skræddersy vores dataindsamling og interagerer mere direkte med mennesker ved at stille dem spørgsmål (kapitel 3), køre eksperimenter (kapitel 4) og endda involvere dem i forskningsprocessen direkte (kapitel 5).