Dalam usia analog, mengumpul data mengenai kelakuan-yang melakukan apa apabila-mahal, dan oleh itu, agak jarang berlaku. Sekarang, dalam era digital, tingkah laku berbilion-bilion orang direkodkan, disimpan, dan analyzable. Sebagai contoh, setiap kali anda klik pada laman web, membuat panggilan pada telefon bimbit anda, atau membayar untuk sesuatu dengan kad kredit anda, rekod digital tingkah laku anda dicipta dan disimpan oleh perniagaan. Oleh kerana data ini adalah oleh-produk daripada setiap tindakan hari rakyat, mereka sering dipanggil kesan digital. Selain kesan ini dipegang oleh perniagaan, kerajaan juga mempunyai data yang terlalu besar mengenai kedua-dua orang dan perniagaan, data yang sering digital dan analyzable. Bersama-sama ini rekod perniagaan dan kerajaan yang sering disebut data yang besar.
Banjir sentiasa meningkat data besar bermakna kita telah berpindah dari dunia di mana data tingkah laku adalah terhad kepada dunia di mana data tingkah laku memang banyak. Tetapi, kerana ini data jenis yang agak baru, satu jumlah yang malang penyelidikan menggunakan mereka kelihatan seperti ahli-ahli sains secara membuta tuli mengejar data. Bab ini, sebaliknya, menawarkan satu pendekatan yang berprinsip untuk memahami pelbagai sumber data dan bagaimana ia boleh digunakan. Pemahaman ini lebih kaya akan membantu anda sepadan dengan soalan kajian anda lebih baik untuk sumber yang sepatutnya data. Atau, jika sumber sedia ada yang kurang, meyakinkan anda untuk mengumpul data anda sendiri menggunakan idea-idea dalam bab-bab masa depan.
Langkah pertama untuk belajar dari data yang besar adalah untuk menyedari bahawa ia adalah sebahagian daripada kategori yang lebih luas daripada data yang telah digunakan untuk penyelidikan sosial selama bertahun-tahun: data pemerhatian. Secara kasarnya, data pemerhatian apa-apa data yang terhasil daripada memerhatikan sistem sosial tanpa campur tangan dalam beberapa cara. Cara yang mentah untuk berfikir tentang hal itu adalah bahawa data pemerhatian adalah segala-galanya yang tidak melibatkan bercakap dengan orang-orang (contohnya, kaji selidik, topik Bab 3) atau menukar persekitaran rakyat (contoh, eksperimen, topik Bab 4). Oleh itu, sebagai tambahan kepada rekod perniagaan dan kerajaan, data pemerhatian juga termasuk perkara-perkara seperti teks rencana akhbar dan gambar satelit.
Bab ini mempunyai tiga bahagian. Pertama, dalam Seksyen 2.2, saya menerangkan data yang besar dengan lebih terperinci dan menjelaskan perbezaan asas antara ia dan data yang secara amnya telah digunakan untuk penyelidikan sosial pada masa lalu. Kemudian, dalam Seksyen 2.3, saya menerangkan sepuluh ciri-ciri umum sumber data yang besar. Memahami ciri-ciri ini membolehkan kita untuk segera mengenali kekuatan dan kelemahan sumber yang sedia ada dan akan membantu kita menggunakan sumber-sumber baru yang akan diwujudkan pada masa hadapan. Akhir sekali, dalam Seksyen 2.4, saya menerangkan tiga strategi penyelidikan utama yang anda boleh gunakan untuk belajar daripada data pemerhatian: perkara-perkara mengira, perkara ramalan, dan yang hampir satu eksperimen.