I den analoge alder samler data om adfærd - hvem gør hvad, og hvornår - var dyrt og derfor relativt sjældent. Nu i den digitale tidsalder registreres, opbevares og analyseres adfærd af milliarder mennesker. For eksempel, hver gang du klikker på et websted, skal du ringe til din mobiltelefon eller betale for noget med dit kreditkort, oprettes og gemmes en digital registrering af din adfærd af en virksomhed. Fordi disse typer af data er et biprodukt af folks daglige handlinger, kaldes de ofte digitale spor . Ud over disse spor i virksomhederne har regeringerne også utrolig rige data om både mennesker og virksomheder. Sammen kaldes disse forretnings- og regeringsarkiver ofte store data .
Den stadig stigende oversvømmelse af store data betyder, at vi er flyttet fra en verden, hvor adfærdsmæssige data var knappe til en verden, hvor adfærdsmæssige data er rigelige. Et første skridt til at lære af store data er at indse, at det er en del af en bredere kategori af data, der i mange år har været anvendt til social forskning: observationsdata . Omhyggeligt er observationsdata alle data, der følger af at observere et socialt system uden at intervenere på en eller anden måde. En rå måde at tænke på er at observationsdata er alt, hvad der ikke indebærer at tale med mennesker (f.eks. Undersøgelser, emnet i kapitel 3) eller forandring af folks omgivelser (f.eks. Eksperimenter, emnet i kapitel 4). Således omfatter der i tillæg til forretnings- og regeringsoptegnelser også observationsdata også ting som avisartikler og satellitbilleder.
Dette kapitel har tre dele. For det første beskriver jeg i større afsnit i større datakilder mere detaljeret og præciserer en grundlæggende forskel mellem dem og de data, der typisk har været anvendt til social forskning i fortiden. Derefter beskriver jeg i afsnit 2.3 ti generelle karakteristika ved store datakilder. At forstå disse egenskaber gør det muligt hurtigt at genkende styrken og svaghederne i eksisterende kilder og hjælpe dig med at udnytte de nye kilder, der vil være tilgængelige i fremtiden. Endelig beskriver jeg i afsnit 2.4 tre hovedforskningsstrategier, som du kan bruge til at lære af observationsdata: tæller ting, prognoserer ting og nærmer et eksperiment.