Di era analog, mengumpulkan data tentang perilaku-siapa yang melakukan apa saat-mahal, dan karena itu, relatif jarang. Sekarang, di era digital, perilaku miliaran orang dicatat, disimpan, dan dianalisis. Misalnya, setiap kali Anda mengklik pada sebuah situs web, membuat panggilan pada ponsel Anda, atau membayar sesuatu dengan kartu kredit Anda, catatan digital dari perilaku Anda dibuat dan disimpan oleh sebuah bisnis. Karena data ini merupakan produk sampingan dari setiap hari tindakan orang-orang, mereka sering disebut jejak digital. Selain jejak ini diselenggarakan oleh bisnis, pemerintah juga memiliki data yang sangat kaya tentang kedua orang dan bisnis, data yang yang sering digital dan dianalisa. Bersama-sama bisnis dan pemerintah catatan ini sering disebut data besar.
Banjir yang terus meningkat dari data yang besar berarti bahwa kita telah pindah dari dunia di mana data perilaku langka untuk sebuah dunia di mana data perilaku berlimpah. Tapi, karena data jenis ini relatif baru, jumlah malang penelitian menggunakan mereka terlihat seperti ilmuwan membabi buta mengejar data yang tersedia. bab ini, sebaliknya, menawarkan pendekatan berprinsip untuk memahami sumber data yang berbeda dan bagaimana mereka dapat digunakan. pemahaman yang lebih kaya ini akan membantu Anda lebih cocok pertanyaan penelitian Anda ke sumber yang tepat dari data. Atau, jika sumber yang ada seperti kurang, meyakinkan Anda untuk mengumpulkan data sendiri menggunakan ide-ide dalam bab-bab mendatang.
Langkah pertama yang belajar dari data besar adalah untuk menyadari bahwa itu adalah bagian dari kategori yang lebih luas dari data yang telah digunakan untuk penelitian sosial selama bertahun-tahun: data pengamatan. Kira-kira, data pengamatan adalah data yang dihasilkan dari mengamati sistem sosial tanpa intervensi dalam beberapa cara. Sebuah cara yang kasar untuk berpikir tentang hal ini adalah bahwa data pengamatan adalah segala sesuatu yang tidak melibatkan berbicara dengan orang-orang (misalnya, survei, topik Bab 3) atau mengubah lingkungan masyarakat (misalnya, percobaan, topik Bab 4). Dengan demikian, selain bisnis dan pemerintah catatan, data pengamatan juga termasuk hal-hal seperti teks artikel surat kabar dan foto satelit.
Bab ini memiliki tiga bagian. Pertama, dalam Bagian 2.2, saya menggambarkan data yang besar secara lebih rinci dan menjelaskan perbedaan mendasar antara itu dan data yang secara umum telah digunakan untuk penelitian sosial di masa lalu. Kemudian, dalam Bagian 2.3, saya menggambarkan sepuluh karakteristik umum dari sumber data yang besar. Memahami karakteristik ini memungkinkan kita untuk dengan cepat mengenali kekuatan dan kelemahan dari sumber yang ada dan akan membantu kami memanfaatkan sumber-sumber baru yang akan dibuat di masa depan. Akhirnya, dalam Bagian 2.4, saya menggambarkan tiga strategi penelitian utama yang dapat Anda gunakan untuk belajar dari data pengamatan: menghitung hal, peramalan hal, dan mendekati eksperimen.