I den analoga åldern samlar man data om beteende - vem gör vad, och när-var dyrt och därför relativt sällsynt. Nu, i den digitala tidsåldern, uppspelas beteenden av miljarder människor, lagras och analyseras. Till exempel, varje gång du klickar på en webbplats, ring ett samtal på din mobiltelefon eller betala för något med ditt kreditkort skapas en digital registrering av ditt beteende och lagras av ett företag. Eftersom dessa typer av data är en biprodukt av människors dagliga handlingar, kallas de ofta digitala spår . Förutom dessa spår som innehas av företag har regeringarna också otroligt rik data om både människor och företag. Tillsammans kallas dessa affärer och regeringsrekord ofta för stora data .
Den ständigt stigande översvämningen av stora data betyder att vi har flyttat från en värld där beteendeuppgifter var knappa till en värld där beteendeuppgifter är rikliga. Ett första steg för att lära sig stora data inser att det ingår i en bredare kategori av data som har använts för social forskning i många år: observationsdata . Grovt är observationsdata några data som följer av att man observerar ett socialt system utan att ingripa på något sätt. Ett grovt sätt att tänka på är att observationsdata är allt som inte involverar att prata med människor (t.ex. undersökningar, ämnet i kapitel 3) eller förändring av människors miljöer (t.ex. experiment, ämnet i kapitel 4). Således innehåller förutom företags- och regeringsrekord även observationsdata saker som texterna i tidningsartiklar och satellitfoton.
Detta kapitel har tre delar. För det första beskriver jag i större delen större datakällor i avsnitt 2.2 och klargör en grundläggande skillnad mellan dem och de data som vanligtvis har använts för social forskning i det förflutna. Sedan beskriver jag i avsnitt 2.3 tio gemensamma egenskaper hos stora datakällor. Förstå dessa egenskaper gör att du snabbt kan känna igen styrkor och svagheter i befintliga källor och hjälper dig att utnyttja de nya källor som kommer att finnas tillgängliga i framtiden. Slutligen beskriver jag i avsnitt 2.4 tre huvudforskningsstrategier som du kan använda för att lära av observationsdata: räkna saker, prognosera saker och approximera ett experiment.