U analognom dobu, prikupljanje podataka o ponašanju-tko što radi kada-je skupo, te se stoga relativno rijetke. Sada, u digitalnom dobu, ponašanja milijardi ljudi se snimaju, pohranjuju i analizabilnih. Na primjer, svaki put kliknete na web stranicu, upućivanje poziva na svoj mobilni telefon, ili platiti za nešto sa svoje kreditne kartice, digitalni zapis o svom ponašanju se stvara i pohranjuje u posao. Budući da ti podaci su sporedni produkt ljudi svaki dan akcije, oni često nazivaju digitalne tragove. Osim tih tragova koje drže tvrtke, vlade imaju nevjerojatno bogate podatke o ljudima i tvrtkama, podataka koji se često digitalizirani i analizabilnih. Zajedno ovi poslovni i službeni zapisi često nazivaju velike podatke.
Uvijek diže poplava velikih podataka znači da smo se preselili iz svijeta gdje se podaci ponašanja bio rijedak u svijetu u kojem bihevioralna podataka ima u izobilju. Ali, jer ovi tipovi podataka su relativno novi, nesretni broj istraživanja pomoću njih izgleda kao znanstvenika slijepo jurnjava dostupnih podataka. Ovo poglavlje, umjesto toga, nudi načelan pristup za razumijevanje različitih izvora podataka i kako se oni mogu koristiti. To bogatiji razumijevanje treba pomoći da bolje odgovaraju vašim istraživačka pitanja na odgovarajuće izvore podataka. Ili, ako se takve postojeći izvori nedostaje, uvjeriti da prikupljanje vlastitih podataka pomoću ideje u budućim poglavljima.
Prvi korak u učenju iz velikog podataka je shvatiti da je to dio šireg kategorije podataka koji se koristi za društvena istraživanja već dugi niz godina: promatranja podataka. Otprilike, promatranja podataka je bilo podataka koji proizlazi iz promatranja društvenog sustava bez intervencije na neki način. Grubi način razmišljati o tome da je promatranja podataka je sve što ne uključuje razgovor s ljudima (primjerice, ankete, na temu poglavlja 3) ili mijenjanje ljudi okruženja (npr pokuse, na temu poglavlju 4). Dakle, pored poslovne i državne evidencije, promatranja podaci također uključuje stvari kao što su tekst novinskih članaka i satelitskim fotografijama.
Ovo poglavlje ima tri dijela. Prvo, u poglavlju 2.2, opisujem velikih podatke u više detalja i pojasniti temeljnu razliku između njega i podataka koji su uglavnom bili korišteni za društvena istraživanja u prošlosti. Zatim, u poglavlju 2.3, opisujem deset zajedničkih obilježja velikih izvora podataka. Razumijevanje tih obilježja nam omogućuje da brzo prepoznati prednosti i slabosti postojećih izvora i pomoći će nam da iskoriste nove izvore koji će biti izrađen u budućnosti. Konačno, u poglavlju 2.4, opisujem tri glavne istraživačke strategije koje možete koristiti kako bi naučili od promatranja podataka: računajući stvari, predviđanja stvari i približnih eksperiment.