Në epokën analoge, mbledhja e të dhënave për sjelljen - kush bën çfarë, dhe kur - ishte e shtrenjtë dhe prandaj relativisht e rrallë. Tani, në epokën dixhitale, sjelljet e miliarda njerëzve regjistrohen, ruhen dhe analizohen. Për shembull, sa herë që klikoni në një faqe interneti, bëni një telefonatë në telefonin tuaj celular ose paguani diçka me kartën tuaj të kreditit, një rekord dixhital i sjelljes tuaj krijohet dhe ruhet nga një biznes. Për shkak se këto lloje të të dhënave janë një nënprodukt i veprimeve të përditshme të njerëzve, ato shpesh quhen gjurmë digjitale . Përveç këtyre gjurmëve që mbahen nga bizneset, qeveritë gjithashtu kanë të dhëna tepër të pasura për njerëzit dhe bizneset. Së bashku këto të dhëna të biznesit dhe të qeverisë shpesh quhen të dhëna të mëdha .
Vërshimi gjithnjë në rritje i të dhënave të mëdha do të thotë se ne kemi lëvizur nga një botë ku të dhënat e sjelljes ishin të pakta në një botë ku të dhënat e sjelljes janë të shumta. Një hap i parë për të mësuar nga të dhënat e mëdha është të kuptosh se është pjesë e një kategorie më të gjerë të të dhënave që është përdorur për hulumtime sociale për shumë vite: të dhënat e vëzhgimit . Përafërsisht, të dhënat e vëzhgimit janë të gjitha të dhënat që rezultojnë nga vëzhgimi i një sistemi shoqëror pa ndërhyrë në një farë mënyre. Një mënyrë e papërpunuar për të menduar për këtë është se të dhënat e vëzhgimit janë gjithçka që nuk përfshin bisedën me njerëzit (p.sh., sondazhet, tema e kapitullit 3) ose ndryshimi i mjediseve të njerëzve (p.sh., eksperimentet, tema e kapitullit 4). Kështu, përveç të dhënave të biznesit dhe qeverisë, të dhënat e vëzhgimit gjithashtu përfshijnë gjëra të tilla si teksti i artikujve të gazetave dhe fotot satelitore.
Ky kapitull ka tre pjesë. Së pari, në seksionin 2.2, unë përshkruaj burimet e mëdha të të dhënave në më shumë detaje dhe sqaroj një dallim thelbësor mes tyre dhe të dhënave që zakonisht janë përdorur për hulumtime sociale në të kaluarën. Pastaj, në seksionin 2.3, unë përshkruaj dhjetë karakteristika të përbashkëta të burimeve të mëdha të të dhënave. Kuptimi i këtyre karakteristikave ju mundëson që të njihni shpejt pikat e forta dhe dobësitë e burimeve ekzistuese dhe do t'ju ndihmojnë të shfrytëzoni burimet e reja që do të jenë të disponueshme në të ardhmen. Së fundi, në seksionin 2.4, unë i përshkruaj tri strategjitë kryesore të hulumtimit që mund t'i përdorni për të mësuar nga të dhënat e vëzhgimit: numërimi i gjërave, parashikimi i gjërave dhe përafrimi i një eksperimenti.