Big data er oprettet og indsamlet af regeringerne til andre formål end forskning formål. Ved hjælp af disse data til forskning, derfor kræver nyorientering.
En idealiseret billede af social forskning forestiller sig en videnskabsmand, der har en idé og derefter indsamle data til at teste denne idé. Denne stil af forskning fører til en stram tilpasning mellem forskningsspørgsmål og data, men det er begrænset, fordi en enkelt forsker ofte ikke har de nødvendige ressourcer til at indsamle de data, de har brug for, såsom store, rige og nationalt repræsentative data. Derfor har en masse social forskning i fortiden brugte store sociale undersøgelser, såsom General Social Survey (GSS), American National Election Study (ANES), og Panel Study of Income Dynamics (PSID). Disse storstilet undersøgelse er generelt drevet af et team af forskere, og de er designet til at skabe data, der kan bruges af mange forskere. På grund af målene for disse store undersøgelser, er stor omhu lagt i at designe dataindsamlingen og forberede de resulterende data til brug for forskere. Disse data er af forskere og for forskere.
De fleste sociale forskning ved hjælp af digitale kilder alder, dog er fundamentalt anderledes. I stedet for at bruge data indsamlet af forskere og for forskere, bruger datakilder, der er oprettet og indsamlet af virksomheder og regeringer til deres egne formål, såsom at gøre en fortjeneste, at yde en service, eller administrere en lov. Disse private og offentlige datakilder er kommet for at blive kaldt store data. Doing forskning med big data er anderledes end at gøre forskning med data, der oprindeligt blev oprettet til forskning. Sammenlign for eksempel en social media website, såsom Twitter, med en traditionel opinionsundersøgelse såsom General Social Survey (GSS). Twitter vigtigste mål er at yde en service til sine brugere og at opnå en fortjeneste. I processen med at nå disse mål, skaber Twitter data, der kan være nyttige for at studere visse aspekter af den offentlige mening. Men i modsætning til General Social Survey (GSS), Twitter er ikke primært fokuseret på social forskning.
Den store data sigt er frustrerende vag, og det grupperer mange forskellige ting. Med henblik på social forskning, jeg synes, det er nyttigt at skelne mellem to slags store datakilder:. Regeringens administrative registre og business administrative registre Offentlige administrative registre er data, der er skabt af regeringer som led i deres rutinemæssige aktiviteter. Disse former for registreringer er blevet brugt af forskere i fortiden-såsom demografer studerer fødsel, er ægteskabet, og død optegnelser-men regeringer i stigende grad indsamling og frigive detaljerede optegnelser i analyserbare former. For eksempel New York regeringen installeret digitale målere inde i hver taxa i byen. Disse målere registrere alle former for data om hver taxatur inklusive føreren, starttidspunkt og placering, stop tid og sted, og billetprisen. I en undersøgelse, som jeg vil fortælle senere i dette kapitel, Henry Farber (2015) repurposed disse data til at løse en grundlæggende debat i arbejdskraft økonomi om forholdet mellem timeløn og antallet af arbejdstimer.
Den anden hovedtype af big data for social forskning er business administrative registre. Disse er data, som erhvervslivet skaber og indsamle som en del af deres rutinemæssige aktiviteter. Disse business administrative registre kaldes ofte digitale spor, og omfatter ting som søgemaskine forespørgsel logs, sociale medier indlæg, og kalde poster fra mobiltelefoner. Kritisk, disse forretninger administrative registre er ikke kun om online adfærd. For eksempel er butikker, der bruger check-out scannere skaber realtid mål for medarbejdernes produktivitet. I en undersøgelse, som jeg vil fortælle dig om senere i dette kapitel, Alexandre Mas og Enrico Moretti (2009) repurposed denne supermarked check-out data at undersøge, hvordan en arbejderstat produktivitet påvirkes af produktivitet deres jævnaldrende.
Da begge disse eksempler illustrerer, tanken om nyorientering er grundlæggende for at lære fra store data. I min erfaring, samfundsforskere og data videnskabsfolk tilgang til denne nyorientering meget forskelligt. Samfundsforskere, der er vant til at arbejde med data beregnet til forskning, er hurtige til at påpege problemerne med repurposed data samtidig ignorerer sine styrker. På den anden side, data forskerne er hurtige til at påpege fordelene ved repurposed data samtidig ignorerer sine svagheder. Naturligvis ville den bedste fremgangsmåde være en hybrid. Det vil sige, forskerne nødt til at forstå de særlige kendetegn ved disse nye datakilder-både gode og dårlige-og derefter finde ud af at lære af dem. Og det er planen for resten af dette kapitel. Dernæst vil jeg beskrive ti fælles karakteristika for erhvervslivet og offentlige administrative data. Efter dette, vil jeg beskrive tre forskningsprojekter tilgange, der kan bruges med disse data, metoder, der er velegnede til de særlige kendetegn ved disse data.