Ing jaman analog, ngempalaken data babagan prilaku-sing nglakoni apa, lan nalika wis larang, lan mulane relatif langka. Saiki, ing jaman digital, perilaku miliaran wong dicathet, disimpen, lan bisa di analisa. Contone, saben-saben sampeyan ngeklik situs web, nelpon ing ponsel, utawa mbayar soko karo kertu kredit, rekaman prilaku digital sampeyan digawe lan disimpen dening bisnis. Amarga jinis data iki minangka asil barang-barang saben dina saben wong, sing asring kasebut disebut jejer digital . Saliyane jejak iki sing dianakake dening perusahaan, pemerintah uga duwe data sing sugih banget babagan wong lan bisnis. Bebarengan karo bisnis lan cathetan pemerintah iki asring diarani data gedhe .
Data banjir gedhe sing saya tambah-tambah berarti kita wis pindhah saka jagad sing ana data perilaku sing langka kanggo donya ing ngendi data perilaku akeh. Langkah pisanan kanggo sinau saka data gedhe nyatakake yèn bagéan saka kategori data sing luwih jembar sing wis digunakake kanggo riset sosial kanggo akèh taun: data observasional . Akeh, data observasional yaiku data sing bakal ngasilake sistem sosial tanpa intervensi ing sawetara cara. Cara kritis kanggo mikir babagan data observasional yaiku kabeh sing ora kena ngomong karo wong (umpamane, survey, topik bab 3) utawa ngganti lingkungan wong (contone, eksperimen, topik bab 4). Mangkono, saliyane rekening bisnis lan pemerintah, data observasi uga kalebu bab kaya teks artikel koran lan foto satelit.
Bab iki nduweni telung bagean. Kawitan, ing bagean 2.2, aku njlèntrèhaké sumber data sing gedhé luwih rinci lan njlentrehake prabédan dhasar ing antarané lan data sing biasané digunakake kanggo riset sosial ing jaman sadurungé. Banjur, ing bagean 2.3, aku nemtokake sepuluh ciri umum sumber data gedhe. Ngerteni ciri-cirine iki mbisakake sampeyan kanthi cepet ngenali kekuwatan lan kelemahane sumber sing ana lan bakal mbantu sampeyan nggunakake sumber-sumber anyar sing bakal kasedhiya ing mangsa ngarep. Pungkasan, ing bagean 2.4, aku nemtokake telung strategi riset utama sing bisa digunakake kanggo sinau saka data observasional: ngétung, prakiraan bab, lan ngira eksperimen.