Sa analog na edad, ang pagkolekta ng data tungkol sa pag-uugali-na gumagawa ng kung ano, at kung kailan-mahal, at sa gayon medyo bihirang. Ngayon, sa digital age, ang pag-uugali ng bilyun-bilyong tao ay naitala, nakaimbak, at maaaring suriin. Halimbawa, sa tuwing mag-click ka sa isang website, tumawag sa iyong mobile phone, o magbayad ng isang bagay sa iyong credit card, isang digital record ng iyong pag-uugali ay nilikha at nakaimbak ng isang negosyo. Dahil ang mga uri ng data na ito ay isang byproduct ng mga araw-araw na aksyon ng mga tao, sila ay madalas na tinatawag na mga digital na bakas . Bilang karagdagan sa mga bakas na ito na ginagampanan ng mga negosyo, ang mga pamahalaan ay mayroon ding mga hindi mapaniniwalaan o kapani-paniwala na mayaman na data tungkol sa parehong mga tao at mga negosyo. Magkasama ang mga rekord ng negosyo at pamahalaan ay madalas na tinatawag na malaking data .
Ang patuloy na pagbangon ng malaking data ay nangangahulugan na kami ay lumipat mula sa isang mundo kung saan ang data sa pag-uugali ay mahirap makuha sa isang mundo kung saan ang data ng pag-uugali ay marami. Ang unang hakbang sa pag-aaral mula sa malaking data ay napagtatanto na ito ay bahagi ng isang mas malawak na kategorya ng data na ginamit para sa panlipunang pananaliksik para sa maraming mga taon: pagmamasid data . Sa pangkalahatan, ang data ng pagmamasid ay anumang data na nagreresulta mula sa pagmamasid sa isang sistemang panlipunan nang hindi pumipigil sa ilang paraan. Ang isang krudo na paraan upang mag-isip tungkol dito ay ang data ng pagmamasid ay ang lahat ng bagay na hindi nagsasangkot sa pakikipag-usap sa mga tao (halimbawa, mga survey, ang paksa ng kabanata 3) o pagbabago ng mga kapaligiran ng mga tao (halimbawa, mga eksperimento, ang paksa ng kabanata 4). Sa gayon, bilang karagdagan sa mga talaan ng negosyo at pamahalaan, ang data ng pagmamasid ay nagsasama rin ng mga bagay na tulad ng teksto ng mga artikulo sa pahayagan at mga larawan sa satelayt.
Ang kabanatang ito ay may tatlong bahagi. Una, sa seksyon 2.2, ilarawan ko ang mga malaking pinagkukunan ng data nang mas detalyado at linawin ang isang pangunahing pagkakaiba sa pagitan nila at ng data na kadalasang ginagamit para sa panlipunang pananaliksik sa nakaraan. Pagkatapos, sa seksyon 2.3, inilalarawan ko ang sampung karaniwang katangian ng malaking pinagkukunan ng data. Ang pag-unawa sa mga katangiang ito ay nagbibigay-daan sa mabilis mong makilala ang mga lakas at kahinaan ng mga umiiral na mapagkukunan at tutulungan ka na gamitin ang mga bagong mapagkukunan na magagamit sa hinaharap. Sa wakas, sa seksyon 2.4, naglalarawan ako ng tatlong pangunahing diskarte sa pananaliksik na maaari mong gamitin upang matuto mula sa data ng pagmamasid: pagbibilang ng mga bagay, pagtataya ng mga bagay, at pagtatantya ng isang eksperimento.