Analogiaikana kerää tietoja käyttäytymisestä - kuka tekee mitä ja milloin - oli kallista ja siksi suhteellisen harvinaista. Digitaalisen aikakauden aikana miljardien ihmisten käyttäytyminen tallennetaan, tallennetaan ja analysoidaan. Esimerkiksi aina, kun napsautat verkkosivustoa, soitat puhelun matkapuhelimeesi tai maksat luottokortillasi, yrityksesi luo ja tallentaa digitaalisen tietueen käyttäytymisestäsi. Koska nämä tietotyypit ovat sivutuotteiden ihmisten jokapäiväisiä toimintoja, niitä kutsutaan usein digitaalisina jälkiä . Yritysten hallussa olevien jälkien lisäksi hallituksilla on myös uskomattoman rikas tiedot sekä ihmisistä että yrityksistä. Yhdessä nämä liike- ja hallintotietueet kutsutaan usein suuriksi tiedoiksi .
Suurten tietojen jatkuvasti kasvava tulva tarkoittaa, että olemme siirtyneet maailmasta, jossa käyttäytymistietojen määrä on vähäinen maailmaan, jossa käyttäytymistieto on runsaasti. Ensimmäinen askel suuriin tietoihin oppimiseen on se, että se on osa laajempaa tietoryhmää, jota on käytetty yhteiskunnalliseen tutkimukseen monien vuosien ajan: havainnointitietoja . Huomattavasti havainnointitietoja ovat kaikki tiedot, jotka johtuvat sosiaalisen järjestelmän tarkkailusta puuttumatta jollakin tavalla. Raaka tapa ajatella sitä on se, että havainnointitiedot ovat kaikki, mitä ei ole puhuttaessa ihmisten kanssa (esim. Tutkimukset, luvun 3 aihe) tai ihmisten ympäristön muuttaminen (esim. Kokeilut, luku 4). Siten liike- ja hallintotietueiden lisäksi tarkkailutietoihin kuuluvat myös sanomalehtien artikkelin ja satelliittikuvien tekstit.
Tässä luvussa on kolme osaa. Ensinnäkin 2.2 kohdassa kuvaillaan suuria tietolähteitä yksityiskohtaisemmin ja selvennetään niiden välistä perustavaa laatua olevaa eroa ja tietoja, joita on tyypillisesti käytetty aiemmin sosiaaliseen tutkimukseen. Sitten kohdassa 2.3 kuvataan kymmenen suurien tietolähteiden yhteisiä ominaisuuksia. Näiden ominaisuuksien ymmärtäminen mahdollistaa nykyisten lähteiden vahvuuksien ja heikkouksien tunnistamisen nopeasti ja auttaa sinua hyödyntämään tulevaisuudessa saatavia uusia lähteitä. Lopuksi osassa 2.4 kuvataan kolmea tärkeintä tutkimusstrategiaa, joita voit käyttää havainnointiin liittyvistä tiedoista: laskemalla asioita, ennustamalla asioita ja lähentämällä kokeilua.