En l'era analògica, la recollida de dades sobre el comportament-que fa el que quan-era car, i per tant, relativament poc comú. Ara, en l'era digital, els comportaments de milers de milions de persones es registren, emmagatzemen, i analitzable. Per exemple, cada vegada que es fa clic a una pàgina web, fer una trucada al seu telèfon mòbil, o pagar per alguna cosa amb la targeta de crèdit, un registre digital del seu comportament és creat i emmagatzemat per una empresa. A causa de que aquestes dades són un subproducte de cada dia les accions de les persones, que sovint es diuen els rastres digitals. A més d'aquestes restes en poder de les empreses, els governs també tenen dades molt riques sobre les persones i les empreses, les dades que sovint és digitalitzada i analitzable. En conjunt, aquests registres comercials i governamentals són sovint anomenats grans volums de dades.
La sempre creixent flux de dades gran significa que hem passat d'un món on era escàs a un món on les dades de comportament és abundant dades de comportament. Però, a causa que aquests tipus de dades són relativament nous, un desafortunat quantitat d'investigació amb ells s'assembla als científics persegueixen cegament dades disponibles. En aquest capítol, en canvi, ofereix un enfocament basat en principis per a la comprensió de les diferents fonts de dades i com es pot utilitzar. Aquesta comprensió més rica ha d'ajudar a adaptar-se millor a les seves preguntes d'investigació a fonts adequades de dades. O bé, si aquestes fonts existents es manca, convèncer els que vostè pugui recollir les seves pròpies dades utilitzant les idees en futurs capítols.
Un primer pas per aprendre a partir de dades gran és adonar-se que és part d'una categoria més àmplia de dades que s'han utilitzat per a la investigació social des de fa molts anys: dades d'observació. A grans trets, les dades d'observació és qualsevol dades que resulta de l'observació d'un sistema social sense intervenir d'alguna manera. Una manera crua de pensar-hi és que les dades d'observació és tot el que no implica parlar amb la gent (per exemple, enquestes, el tema del capítol 3) o entorns canviants de les persones (per exemple, experiments, el tema del capítol 4). Per tant, a més dels registres comercials i governamentals, les dades d'observació també inclou coses com el text dels articles periodístics i fotos de satèl·lit.
Aquest capítol consta de tres parts. En primer lloc, a la Secció 2.2, es descriuen les grans dades amb més detall i aclarir una diferència fonamental entre aquest i les dades que s'han utilitzat generalment per a la investigació social en el passat. A continuació, a la Secció 2.3, descric deu característiques comunes de les fonts de dades grans. La comprensió d'aquestes característiques ens permet reconèixer ràpidament les fortaleses i debilitats de les fonts existents i ens ajudarà a posar les noves fonts que es crearan en el futur. Finalment, en la secció 2.4, es descriuen tres estratègies principals d'investigació que es poden utilitzar per aprendre de les dades d'observació: les coses de comptatge, les coses de predicció, i s'aproxima a un experiment.