I den analoge alder, samle inn data om adferd-hvem gjør hva når-var dyrt, og derfor relativt sjelden. Nå, i den digitale tidsalder, er atferd av milliarder av mennesker registrert, lagret, og analyzable. For eksempel, hver gang du klikker på en nettside, ringe på mobiltelefonen, eller betale for noe med kredittkortet ditt, er en digital registrering av din oppførsel opprettet og lagret av en bedrift. Fordi disse dataene er et biprodukt av folks daglige handlinger, blir de ofte kalt digitale spor. I tillegg til disse sporene holdt av bedrifter, regjeringer har også utrolig rike data om både mennesker og bedrifter, data som ofte er digitalisert og analyzable. Sammen disse næringsliv og offentlige registre kalles ofte store data.
Den stadig økende flom av big data betyr at vi har flyttet fra en verden der atferdsdata var knappe til en verden der atferdsdata er rikelig. Men, fordi disse typer data er relativt nytt, en uheldig mengde forskning bruke dem ser ut som forskere blindt jage tilgjengelige data. Dette kapitlet i stedet, og tilbyr en prinsipiell tilnærming til å forstå de ulike datakilder og hvordan de kan brukes. Dette rikere forståelse skal hjelpe deg bedre matche dine forskningsspørsmål til aktuelle datakilder. Eller, hvis slike eksisterende kilder mangler, overbevise deg til å samle inn dine egne data ved hjelp av ideene i fremtidige kapitler.
Et første skritt for å lære av store data er å innse at det er en del av en bredere kategori av data som har blitt brukt for samfunnsforskning i mange år: observasjonsdata. Grovt sett er observasjonsdata data som resultat av å observere et sosialt system uten å gripe på noen måte. En rå måte å tenke på det er at observasjonsdata er alt som ikke involverer å snakke med folk (for eksempel undersøkelser, tema for kapittel 3) eller endre folks omgivelser (f.eks eksperimenter, tema for kapittel 4). Derfor, i tillegg til næringslivet og offentlige registre, observasjonsdata omfatter også ting som teksten i avisartikler og satellittbilder.
Dette kapittelet har tre deler. Først i kapittel 2.2 beskriver jeg store data i mer detalj og avklare en fundamental forskjell mellom det og data som vanligvis har vært brukt for samfunnsforskning i det siste. Deretter, i kapittel 2.3 beskriver jeg ti felles kjennetegn ved store datakilder. Forstå disse egenskapene gjør oss i stand til raskt å gjenkjenne de styrker og svakheter ved eksisterende kilder og vil hjelpe oss å utnytte de nye kilder som vil bli opprettet i fremtiden. Til slutt, i kapittel 2.4 beskriver jeg tre hovedforskningsstrategier som du kan bruke til å lære av observasjonsdata: telle ting, prognoser ting, og tilnærmet et eksperiment.