U analognom dobu, sakupljanje podataka o ponašanju - ko radi šta, a kada - bio je skup, a time i relativno retkost. Sada, u digitalnom dobu, ponašanja milijardi ljudi se snimaju, čuvaju i analiziraju. Na primer, svaki put kada kliknete na web lokaciju, uputite poziv na svoj mobilni telefon ili platite nešto s vaše kreditne kartice, digitalni zapis o vašem ponašanju kreira i čuva preduzeće. Zbog toga što su ove vrste podataka nuspojava svakodnevnih radnji ljudi, one se često nazivaju digitalnim tragovima . Pored ovih tragova koje drže preduzeća, vlade takođe imaju neverovatno bogate podatke o ljudima i preduzećima. Zajedno ove poslove i državni zapisi često se zovu veliki podaci .
Neprekidna poplava velikih podataka znači da smo se preselili iz svijeta gdje su podaci o ponašanju bili oskudni svijetu gdje su podaci o ponašanju brojni. Prvi korak ka učenju iz velikih podataka jeste shvatanje da je deo šire kategorije podataka koji se već dugi niz godina koristi za društvena istraživanja: podaci o opservaciji . Očigledno, podaci o posmatranju su svi podaci koji proizlaze iz posmatranja društvenog sistema bez intervencije na neki način. Sirovi način razmišljanja o tome je da su podaci o opservaciji sve što ne uključuje razgovore s ljudima (npr. Istraživanja, tema poglavlja 3) ili promena okruženja ljudi (npr. Eksperimenti, tema poglavlja 4). Tako, pored poslovnih i državnih zapisa, podaci o opservaciji uključuju i stvari poput tekstova novinskih članaka i satelitskih fotografija.
Ovo poglavlje ima tri dijela. Prvo, u odjeljku 2.2, detaljnije opisujem velike izvore podataka i razjašnjavam osnovnu razliku između njih i podataka koji su u prošlosti obično korišteni za društvena istraživanja. Zatim, u odjeljku 2.3, opisujem deset zajedničkih karakteristika velikih izvora podataka. Razumevanje ovih karakteristika omogućava vam da brzo prepoznate snage i slabosti postojećih izvora i pomoći će vam da iskoristite nove izvore koji će biti dostupni u budućnosti. Na kraju, u odeljku 2.4, opisujem tri glavne strategije istraživanja koje možete koristiti za učenje iz opservacionih podataka: računanje stvari, predviđanje stvari i aproksimiranje eksperimenta.