Në moshën analog, mbledhjen e të dhënave në lidhje me sjelljen, kush bën çfarë, kur, ishte e shtrenjtë, dhe për këtë arsye, relativisht të rralla. Tani, në moshën dixhitale, sjelljet e miliarda njerëz janë të regjistruar, ruajtur, dhe analyzable. Për shembull, çdo herë që të klikoni mbi një faqe interneti, të bëjë një telefonatë në telefonin tuaj celular, ose të paguajnë për diçka me kartën tuaj të kreditit, një rekord digjitale e sjelljes tuaj është krijuar dhe ruhet nga një biznes. Për shkak se këto të dhëna janë një nga-produkt i çdo veprimeve të njerëzve në ditë, ata janë quajtur shpesh gjurmë dixhitale. Përveç këtyre gjurmëve të mbajtura nga bizneset, qeveritë gjithashtu kanë të dhëna tepër të pasura për të dy njerëzit dhe bizneset, të dhënat e të cilave është shpesh digjitalizuar dhe analyzable. Së bashku këto shënime të biznesit dhe të qeverisë janë quajtur shpesh të dhëna të mëdha.
gjithnjë në rritje përmbytja e të dhënave të mëdha do të thotë se ne kemi lëvizur nga një botë ku të dhënat e sjelljes ka qenë të pakta në një botë ku të dhënat e sjelljes është plentiful. Por, për shkak se këto të dhëna lloje janë relativisht të reja, një shumë për të ardhur keq e hulumtimit për përdorimin e tyre duket si shkencëtarët verbërisht ndiqte dhëna në dispozicion. Ky kapitull, në vend të kësaj, ofron një qasje parimore për të kuptuar burimet e ndryshme të të dhënave dhe si mund të përdoren. Ky kuptim më të pasur duhet të ju ndihmojë të përshtaten më mirë pyetjeve tuaja të kërkimit të burimeve të përshtatshme të të dhënave. Ose, në qoftë se burimet e tilla ekzistuese mungojnë, të bindur ju për të mbledhur të dhënat tuaja duke përdorur idetë në kapitujt e ardhshëm.
Një hap i parë për të mësuar nga të dhënat e madhe është që të kuptojnë se ajo është pjesë e një kategori më të gjerë të të dhënave që është përdorur për hulumtime sociale për shumë vite: të dhënave vëzhgimor. Afërsisht, të dhënat vëzhgimor është çdo e dhënë që rezulton nga respektuar një sistem social, pa ndërhyrë në një farë mënyre. Një mënyrë e papërpunuar për të menduar për këtë është se të dhënat vëzhgimor është çdo gjë që nuk ka të bëjë duke folur me njerëzit (p.sh., vëzhgime, tema e kapitullit 3) ose ndryshimin e ambienteve të njerëzve (p.sh., eksperimente, tema e Kapitullit 4). Kështu, përveç biznesit dhe qeveritare të dhënave, të dhënat vëzhgimor gjithashtu përfshin gjëra të tilla si tekstin e artikuj gazetash dhe fotot satelitore.
Ky kapitull ka tre pjesë. Së pari, në nenin 2.2, I përshkruar të dhëna të mëdha në më shumë detaje dhe për të sqaruar një ndryshim themelor në mes të saj dhe të dhënat që janë në përgjithësi përdoret për hulumtime shoqërore në të kaluarën. Pastaj, në nenin 2.3, I përshkruar dhjetë karakteristika të përbashkëta të burimeve të mëdha të të dhënave. Kuptimi këto karakteristika na mundëson të shpejt të njohin anët e forta dhe të dobëta të burimeve ekzistuese dhe do të na ndihmojë të shfrytëzuar burime të reja që do të krijohen në të ardhmen. Së fundi, në nenin 2.4, I përshkruaj tri strategji kryesore të hulumtimit që mund të përdorni për të mësuar nga të dhënat vëzhgimor: gjëra të numërimit, parashikimin e gjërave, dhe përafrimit një eksperiment.