Data besar dibuat dan dikumpulkan oleh perusahaan dan pemerintah untuk tujuan selain penelitian. Menggunakan data ini untuk penelitian, oleh karena itu, membutuhkan repurposing.
Cara pertama yang banyak orang hadapi penelitian sosial di era digital adalah melalui apa yang sering disebut big data . Terlepas dari meluasnya penggunaan istilah ini, tidak ada konsensus tentang apa data besar itu. Namun, salah satu definisi yang paling umum dari data besar berfokus pada "3 Vs": Volume, Variety, dan Velocity. Kira-kira, ada banyak data, dalam berbagai format, dan itu dibuat terus-menerus. Beberapa penggemar data besar juga menambahkan "V" lainnya seperti Veracity dan Value, sedangkan beberapa kritik menambahkan Vs seperti Vague dan hampa. Daripada 3 "Vs" (atau 5 "Vs" atau 7 "Vs"), untuk tujuan penelitian sosial, saya pikir tempat yang lebih baik untuk memulai adalah 5 "Ws": Siapa, Apa, Dimana, Kapan , dan mengapa. Bahkan, saya pikir banyak tantangan dan peluang yang diciptakan oleh sumber data besar hanya berasal dari satu "W": Mengapa.
Di era analog, sebagian besar data yang digunakan untuk penelitian sosial dibuat untuk tujuan melakukan penelitian. Di era digital, bagaimanapun, sejumlah besar data sedang dibuat oleh perusahaan dan pemerintah untuk tujuan selain penelitian, seperti menyediakan layanan, menghasilkan laba, dan mengatur hukum. Orang kreatif, bagaimanapun, telah menyadari bahwa Anda dapat menggunakan kembali data perusahaan dan pemerintah ini untuk penelitian. Berpikir kembali ke analogi seni di bab 1, seperti halnya Duchamp mengubah-ubah objek yang ditemukan untuk menciptakan karya seni, para ilmuwan sekarang dapat menggunakan kembali data yang ditemukan untuk membuat penelitian.
Meskipun tidak diragukan lagi ada peluang besar untuk melakukan repurposing, menggunakan data yang tidak dibuat untuk tujuan penelitian juga menghadirkan tantangan baru. Bandingkan, misalnya, layanan media sosial, seperti Twitter, dengan survei pendapat publik tradisional, seperti Survei Sosial Umum. Tujuan utama Twitter adalah memberikan layanan kepada para penggunanya dan mendapatkan keuntungan. Survei Sosial Umum, di sisi lain, difokuskan pada pembuatan data tujuan umum untuk penelitian sosial, terutama untuk penelitian opini publik. Perbedaan dalam tujuan ini berarti bahwa data yang dibuat oleh Twitter dan yang dibuat oleh Survei Sosial Umum memiliki properti yang berbeda, meskipun keduanya dapat digunakan untuk mempelajari opini publik. Twitter beroperasi dalam skala dan kecepatan yang tidak dapat dijembatani oleh Survei Sosial Umum, tetapi, tidak seperti Survei Sosial Umum, Twitter tidak dengan hati-hati mengambil sampel pengguna dan tidak bekerja keras untuk mempertahankan perbandingan dari waktu ke waktu. Karena kedua sumber data ini sangat berbeda, tidak masuk akal untuk mengatakan bahwa Survei Sosial Umum lebih baik daripada Twitter atau sebaliknya. Jika Anda ingin mengukur setiap jam suasana global (misalnya, Golder and Macy (2011) ), Twitter adalah yang terbaik. Di sisi lain, jika Anda ingin memahami perubahan jangka panjang dalam polarisasi sikap di Amerika Serikat (misalnya, DiMaggio, Evans, and Bryson (1996) ), maka General Social Survey adalah pilihan terbaik. Secara umum, daripada mencoba untuk menyatakan bahwa sumber data besar lebih baik atau lebih buruk daripada jenis data lainnya, bab ini akan mencoba untuk mengklarifikasi jenis pertanyaan penelitian mana yang sumber data besar memiliki sifat yang menarik dan untuk jenis pertanyaan apa mereka mungkin tidak ideal.
Ketika berpikir tentang sumber data besar, banyak peneliti segera fokus pada data online yang dibuat dan dikumpulkan oleh perusahaan, seperti log mesin telusur dan pos media sosial. Namun, fokus sempit ini menyisakan dua sumber penting lainnya dari data besar. Pertama, semakin banyak sumber data perusahaan berasal dari perangkat digital di dunia fisik. Sebagai contoh, dalam bab ini, saya akan memberi tahu Anda tentang sebuah penelitian yang mengubah data pemeriksaan supermarket untuk mempelajari bagaimana produktivitas pekerja dipengaruhi oleh produktivitas rekan-rekannya (Mas and Moretti 2009) . Kemudian, di bab-bab selanjutnya, saya akan memberi tahu Anda tentang para peneliti yang menggunakan catatan panggilan dari ponsel (Blumenstock, Cadamuro, and On 2015) dan data penagihan yang dibuat oleh utilitas listrik (Allcott 2015) . Seperti yang diilustrasikan contoh-contoh ini, sumber data perusahaan besar lebih dari sekadar perilaku online.
Sumber penting kedua dari data besar yang dilewatkan oleh fokus sempit pada perilaku online adalah data yang dibuat oleh pemerintah. Data pemerintah ini, yang peneliti sebut catatan administrasi pemerintah , termasuk hal-hal seperti catatan pajak, catatan sekolah, dan catatan statistik vital (misalnya, pencatatan kelahiran dan kematian). Pemerintah telah menciptakan data semacam ini untuk, dalam beberapa kasus, ratusan tahun, dan ilmuwan sosial telah mengeksploitasi mereka selama hampir selama ada ilmuwan sosial. Apa yang telah berubah, bagaimanapun, adalah digitalisasi, yang telah membuatnya secara dramatis lebih mudah bagi pemerintah untuk mengumpulkan, mengirimkan, menyimpan, dan menganalisis data. Sebagai contoh, dalam bab ini, saya akan memberi tahu Anda tentang sebuah studi yang mengubah data dari meteran taksi digital pemerintah New York City untuk mengatasi perdebatan mendasar dalam ekonomi tenaga kerja (Farber 2015) . Kemudian, di bab-bab selanjutnya, saya akan memberi tahu Anda tentang bagaimana catatan pemungutan suara yang dikumpulkan pemerintah digunakan dalam survei (Ansolabehere and Hersh 2012) dan percobaan (Bond et al. 2012) .
Saya pikir ide repurposing adalah dasar untuk belajar dari sumber data besar, dan sebagainya, sebelum berbicara lebih spesifik tentang properti dari sumber data besar (bagian 2.3) dan bagaimana ini dapat digunakan dalam penelitian (bagian 2.4), saya ingin untuk menawarkan dua buah saran umum tentang repurposing. Pertama, dapat tergoda untuk memikirkan kontras yang saya tetapkan sebagai antara data “ditemukan” dan data “dirancang”. Itu sudah dekat, tapi itu tidak benar. Meskipun, dari perspektif peneliti, sumber data besar "ditemukan," mereka tidak jatuh dari langit. Sebaliknya, sumber data yang "ditemukan" oleh para peneliti dirancang oleh seseorang untuk beberapa tujuan. Karena data "ditemukan" dirancang oleh seseorang, saya selalu menyarankan agar Anda mencoba memahami sebanyak mungkin tentang orang-orang dan proses yang membuat data Anda. Kedua, ketika Anda melakukan repurposing data, sering sangat membantu untuk membayangkan dataset yang ideal untuk masalah Anda dan kemudian membandingkan dataset yang ideal dengan yang Anda gunakan. Jika Anda tidak mengumpulkan data Anda sendiri, mungkin ada perbedaan penting antara apa yang Anda inginkan dan apa yang Anda miliki. Memperhatikan perbedaan ini akan membantu memperjelas apa yang Anda dapat dan tidak dapat pelajari dari data yang Anda miliki, dan mungkin menyarankan data baru yang harus Anda kumpulkan.
Dalam pengalaman saya, ilmuwan sosial dan ilmuwan data cenderung mendekati repurposing dengan sangat berbeda. Ilmuwan sosial, yang terbiasa bekerja dengan data yang dirancang untuk penelitian, biasanya cepat untuk menunjukkan masalah dengan data yang repurposed sementara mengabaikan kekuatannya. Di sisi lain, para ilmuwan data biasanya cepat menunjukkan manfaat data repurposed sementara mengabaikan kelemahannya. Secara alami, pendekatan terbaik adalah hibrida. Artinya, para peneliti harus memahami karakteristik sumber data besar — baik dan buruk — dan kemudian mencari cara untuk belajar dari mereka. Dan, itu adalah rencana untuk sisa bab ini. Pada bagian berikutnya, saya akan menjelaskan sepuluh karakteristik umum dari sumber data besar. Kemudian, di bagian berikutnya, saya akan menjelaskan tiga pendekatan penelitian yang dapat bekerja dengan baik dengan data tersebut.