Dalam era analog, mengumpul data tentang tingkah laku-siapa yang melakukan apa, dan apabila-mahal, dan dengan itu agak jarang berlaku. Kini, dalam era digital, tingkah laku berbilion orang telah direkodkan, disimpan, dan dianalisa. Sebagai contoh, setiap kali anda mengklik pada laman web, membuat panggilan ke telefon bimbit anda atau membayar sesuatu dengan kad kredit anda, rekod digital tingkah laku anda dibuat dan disimpan oleh perniagaan. Kerana jenis data ini merupakan hasil sampingan tindakan harian orang, mereka sering disebut jejak digital . Selain jejak ini yang dipegang oleh perniagaan, kerajaan juga mempunyai data yang sangat kaya tentang kedua-dua orang dan perniagaan. Bersama-sama perniagaan dan rekod kerajaan ini sering disebut data besar .
Data banjir besar yang semakin meningkat bermakna kita telah berpindah dari dunia di mana data tingkah laku adalah terhad kepada dunia di mana data tingkah laku berleluasa. Langkah pertama untuk belajar dari data besar adalah menyedari bahawa ia adalah sebahagian daripada kategori data yang lebih luas yang telah digunakan untuk penyelidikan sosial selama bertahun-tahun: data pemerhatian . Secara kasar, data pemerhatian adalah sebarang data yang hasil daripada memerhatikan sistem sosial tanpa campur tangan dalam beberapa cara. Cara kasar untuk memikirkannya adalah bahawa data pemerhatian adalah segala-galanya yang tidak melibatkan bercakap dengan orang (misalnya, tinjauan, topik bab 3) atau mengubah persekitaran orang (mis. Eksperimen, topik bab 4). Oleh itu, sebagai tambahan kepada rekod perniagaan dan kerajaan, data pemerhatian juga termasuk perkara-perkara seperti teks artikel akhbar dan gambar satelit.
Bab ini mempunyai tiga bahagian. Pertama, dalam bahagian 2.2, saya menerangkan sumber data besar dengan lebih terperinci dan menjelaskan perbezaan asas antara mereka dan data yang biasanya digunakan untuk penyelidikan sosial pada masa lalu. Kemudian, dalam bahagian 2.3, saya terangkan sepuluh ciri umum sumber data besar. Memahami ciri-ciri ini membolehkan anda dengan cepat mengenali kekuatan dan kelemahan sumber sedia ada dan akan membantu anda memanfaatkan sumber-sumber baru yang akan tersedia pada masa akan datang. Akhirnya, dalam bahagian 2.4, saya menerangkan tiga strategi penyelidikan utama yang boleh anda gunakan untuk belajar dari data pemerhatian: mengira perkara, meramalkan perkara, dan menghampiri eksperimen.