En l'edat analògica, la recollida de dades sobre el comportament -quan fa què, i quan- era car i, per tant, relativament poc freqüent. Ara, en l'era digital, els comportaments de milers de milions de persones es registren, emmagatzemen i analitzen. Per exemple, cada vegada que feu clic a un lloc web, fa una trucada al telèfon mòbil o paga alguna cosa amb la vostra targeta de crèdit, un registre digital del vostre comportament es crea i emmagatzema per una empresa. Com que aquests tipus de dades són un subproducte de les accions quotidianes de la gent, sovint es denominen traces digitals . A més d'aquests rastres de les empreses, els governs també tenen dades increïblement riques tant sobre persones com sobre empreses. Junts, aquests registres empresarials i governamentals solen anomenar-se grans dades .
La creixent inundació de grans dades significa que ens hem mudat d'un món on les dades de comportament eren escassos en un món on les dades de comportament són abundants. Un primer pas per aprendre de grans dades és adonar-se que forma part d'una categoria més àmplia de dades que s'ha utilitzat durant molts anys per a la investigació social: dades observacionals . Aproximadament, les dades d'observació són dades que resulten d'observar un sistema social sense intervenir d'alguna manera. Una forma crua de pensar és que les dades d'observació són tot allò que no implica conversar amb persones (per exemple, les enquestes, el tema del capítol 3) o el canvi dels entorns de les persones (per exemple, els experiments, el tema del capítol 4). Així, a més dels registres empresarials i governamentals, les dades d'observació també inclouen coses com el text dels articles de premsa i les fotos de satèl·lit.
Aquest capítol té tres parts. En primer lloc, a la secció 2.2, descric les grans fonts de dades amb més detall i aclareix una diferència fonamental entre elles i les dades que, habitualment, s'han utilitzat per a la investigació social en el passat. A continuació, a la secció 2.3, descriu deu característiques comunes de grans fonts de dades. La comprensió d'aquestes característiques us permet reconèixer ràpidament els punts forts i febles de les fonts existents i us ajudarà a aprofitar les noves fonts que estaran disponibles en el futur. Finalment, a la secció 2.4, descric tres estratègies principals de recerca que podeu utilitzar per aprendre a partir de dades observacionals: comptar coses, predir coses i aproximar-ne un experiment.