Adin analogikoan, jarrerari buruzko datuak biltzen ditu, nork egiten du, eta noiz garestia zen eta, beraz, nahiko arraroa. Orain, adin digitalean, milaka milioika pertsonen portaera grabatu, gorde eta analizatu egiten dira. Esate baterako, webgune batean klik egiten duzun bakoitzean, dei bat egin zure telefono mugikorrean edo zure kreditu txartelarekin zerbait ordaindu, zure negozioa sortu eta gordetako zure negozioaren erregistro digitala sortzen da. Datu mota hauek pertsonen eguneroko ekintzen ondoriozkoak dira, sarritan aztarnen digitala deitzen zaie. Enpresek egindako aztarnen gainaz gain, gobernuek ere jende eta negozioei buruzko datu aberatsak dituzte. Elkarrekin negozio eta gobernu erregistro horiek askotan deitzen zaizkie datuak .
Datu handien uholde gorakorra denez, mundu osora joan ginen mundu osora joateko portaera datuak datu ugari biltzen zituela. Datu handienetatik ikasteko lehenengo pausoa urte askotan zehar gizarte ikerketarako erabili den datu multzo zabalago baten parte da. Behatokiaren datuak . Gutxi gorabehera, behaketa-datuak nolabaiteko esku-hartzerik gabe sistema sozial bat behatzea lortzen duen edozein datu da. Horretarako gogo bizia da observational data pertsona guztiekin (adibidez, inkestak, 3. kapituluaren gaia) edo pertsonen inguruneak aldatzen ez dituztenak (adib., Esperimentuak, 4. kapituluaren gaia). Horrela, negozio eta gobernu erregistroez gain, behaketa datuek egunkariaren eta sateliteen argazkien testuen antzekoak ere barne hartzen dituzte.
Kapitulu honek hiru zati ditu. Lehenik eta behin, 2.2 atalean, datu-iturri handiak zehatz-mehatz deskribatzen ditut eta haien artean funtsezko desberdintasuna argitu eta iraganean gizarte-ikerketarako erabili ohi ditugun datuak zehaztu. Ondoren, 2.3 atalean, datu-iturri handien hamar ezaugarri komunak deskribatzen ditut. Ezaugarri horiek ulertzeak lehendik dauden iturrien indarguneak eta ahuleziak azkar ezagutu eta etorkizunean erabilgarri dauden iturri berriak aprobetxatuko lagunduko dizu. Azkenean, 2.4 atalean, hiru datu-estrategia nagusiak deskribatzen ditut: behaketa-datuetatik ikasitakoa erabil dezakezu: gauzak zenbatzea, aurreikuspenak eta esperimentua hurbiltzea.