I den analoge alderen samler data om atferd - hvem gjør hva, og når-var dyrt, og derfor relativt sjeldent. Nå, i den digitale tidsalderen, registreres, oppbevares og analyseres atferdene av milliarder mennesker. For eksempel, hver gang du klikker på et nettsted, ringe på mobiltelefonen din eller betale for noe med kredittkortet ditt, opprettes en digital oversikt over oppførselen din og lagres av en bedrift. Fordi disse typer data er et biprodukt av folks daglige handlinger, kalles de ofte digitale spor . I tillegg til disse sporene som bedrifter har, har regjeringer også utrolig rike data om både mennesker og bedrifter. Sammen er disse virksomhetene og regjeringens registre ofte kalt store data .
Den stadig stigende oversvømmelsen av store data betyr at vi har flyttet fra en verden hvor atferdsdata var knappe til en verden hvor atferdsdata er rikelig. Et første skritt for å lære av store data er å innse at det er en del av en bredere kategori av data som har blitt brukt til samfunnsforskning i mange år: observasjonsdata . Grovt er observasjonsdata data som resulterer fra å observere et sosialt system uten å intervenere på noen måte. En viktig måte å tenke på er at observasjonsdata er alt som ikke innebærer å snakke med mennesker (f.eks. Undersøkelser, temaet i kapittel 3) eller forandring av folks omgivelser (for eksempel eksperimenter, temaet i kapittel 4). I tillegg til virksomhetsregistre og regjeringer inneholder observasjonsdata også ting som avisartikler og satellittbilder.
Dette kapittelet har tre deler. Først i avsnitt 2.2 beskriver jeg store datakilder mer detaljert og klargjør en grunnleggende forskjell mellom dem og dataene som tidligere har vært brukt til samfunnsforskning. I avsnitt 2.3 beskriver jeg ti vanlige egenskaper ved store datakilder. Å forstå disse egenskapene gjør det mulig å raskt gjenkjenne styrkenes og svakhetene i eksisterende kilder og hjelpe deg med å utnytte de nye kildene som vil være tilgjengelige i fremtiden. Til slutt, i avsnitt 2.4 beskriver jeg tre hovedforskningsstrategier som du kan bruke til å lære av observasjonsdata: telle ting, forutse ting og tilnære et eksperiment.