Big data er laget og samlet inn av regjeringer for andre enn forskning formål. Ved hjelp av disse dataene for forskning, derfor krever gjenbruk.
En idealisert syn på samfunnsforskning forestiller en vitenskapsmann som har en idé og deretter samle inn data for å teste den ideen. Denne stilen av forskning fører til en tett passform mellom problemstilling og data, men det er begrenset fordi en person forsker ofte ikke har de ressursene som trengs for å samle inn data de trenger, for eksempel store, rike og nasjonalt representative data. Derfor har en rekke samfunnsforskning i det siste brukt store sosiale undersøkelser, for eksempel General Social Survey (GSS), American National Election Study (ANES), og Panel Study of Income Dynamics (PSID). Disse storstilt undersøkelse er vanligvis drevet av et team av forskere og de er designet for å skape data som kan brukes av mange forskere. På grunn av målene med disse store undersøkelser, er stor omsorg satt i utformingen av datainnsamling og forbereder den resulterende data for bruk av forskere. Disse dataene er av forskere og for forskere.
De fleste samfunnsforskning ved hjelp av digitale alder kilder, men er fundamentalt annerledes. I stedet for å bruke data samlet inn av forskere og for forskere, bruker den datakilder som ble opprettet og samlet inn av bedrifter og regjeringer for egne formål, for eksempel å gjøre en fortjeneste, å tilby en tjeneste, eller administrere en lov. Disse næringsliv og offentlige datakilder har kommet for å bli kalt store data. Drive forskning med stor data er annerledes enn å gjøre forskning med data som opprinnelig ble opprettet for forskning. Sammenlign for eksempel, en sosial media nettsted, for eksempel Twitter, med en tradisjonell opinionen undersøkelse som General Social Survey (GSS). hovedmål Twitter er til å gi et tilbud til sine brukere, og for å gjøre en fortjeneste. I prosessen med å oppnå disse målene, skaper Twitter data som kan være nyttig for å studere visse aspekter av opinionen. Men, i motsetning til General Social Survey (GSS), er Twitter ikke først og fremst fokusert på samfunnsforskning.
Begrepet big data er frustrerende vage, og det grupper sammen mange forskjellige ting. Ved anvendelsen av samfunnsforskning, tror jeg det er nyttig å skille mellom to typer store datakilder:. Offentlige administrative registre og økonomiske-administrative registre Offentlige administrative registre er data som er opprettet av myndighetene som en del av sine rutinemessige aktiviteter. Slike poster har blitt brukt av forskere i det siste, for eksempel demografer studerer fødsel, er ekteskap, og død poster-men regjeringene stadig å samle inn og slippe detaljerte registreringer i analyser former. For eksempel New York regjeringen installert digitale meter inne i hver taxi i byen. Disse målerne registrere alle typer data om hver drosjetur inkludert sjåføren, starttid og plassering, stopp tid og sted, og fare. I en studie som jeg skal fortelle senere i dette kapitlet, Henry Farber (2015) igjen tatt i bruk disse dataene for å ta en grunnleggende debatt i arbeidsmarkedsøkonomi om forholdet mellom timelønn og antall timer arbeidet.
Den andre hovedtypen av big data for samfunnsforskning er forretnings administrative registre. Dette er data som virksomheten skaper og samle som en del av sine rutinemessige aktiviteter. Disse forretnings administrative registre blir ofte kalt digitale spor, og inkluderer ting som søkemotor søkeloggene, sosiale medier innlegg, og kaller poster fra mobiltelefoner. Kritisk, disse forretnings administrative registre er ikke bare om atferd på nettet. For eksempel er butikker som bruker utsjekking skannere skape sanntids tiltak av arbeidstakernes produktivitet. I en studie som jeg skal fortelle deg om senere i dette kapitlet, Alex Mas og Enrico Moretti (2009) igjen tatt i bruk denne supermarked utsjekking data for å studere hvordan en arbeider produktivitet er påvirket av produktiviteten til sine jevnaldrende.
Som begge disse eksemplene illustrerer, er ideen om gjenbruk er grunnleggende for å lære av store data. I min erfaring, samfunnsvitere og dataforskere tilnærming til dette gjenbruk svært forskjellig. Samfunnsvitere, som er vant til å jobbe med data er utformet for forskning, er raske til å påpeke problemene med ombygginger data samtidig som de ignorerer sine styrker. På den annen side, dataforskere er raske til å påpeke fordelene ved ombygginger data samtidig som de ignorerer sine svakheter. Naturligvis ville den beste tilnærmingen være en hybrid. Det vil si at forskerne trenger for å forstå egenskapene til disse nye datakilder, både gode og dårlige-og deretter finne ut hvordan å lære av dem. Og, er at planen for resten av dette kapitlet. Deretter vil jeg beskrive ti felles kjennetegn ved næringsliv og offentlige administrative data. Etter det, vil jeg beskrive tre forskningsspørsmål som kan brukes sammen med disse dataene, tilnærminger som er godt egnet til egenskapene til disse dataene.