Data besar dibuat dan dikumpulkan oleh pemerintah untuk tujuan selain penelitian. Dengan menggunakan data ini untuk penelitian, oleh karena itu, membutuhkan repurposing.
Pandangan ideal dari penelitian sosial membayangkan seorang ilmuwan memiliki ide dan kemudian mengumpulkan data untuk menguji gagasan itu. Gaya ini penelitian mengarah ke cocok ketat antara pertanyaan penelitian dan data, tetapi terbatas karena seorang peneliti individu sering tidak memiliki sumber daya yang dibutuhkan untuk mengumpulkan data yang mereka butuhkan, seperti data yang besar, kaya, dan nasional-perwakilan. Oleh karena itu, banyak penelitian sosial di masa lalu telah menggunakan survei sosial berskala besar, seperti Survei Sosial Umum (SSU), Amerika Studi Pemilu Nasional (ANES), dan Panel Studi Penghasilan Dinamika (PSID). Ini survei skala besar umumnya dijalankan oleh tim peneliti dan mereka dirancang untuk membuat data yang dapat digunakan oleh banyak peneliti. Karena tujuan dari survei berskala besar ini, hati-hati dimasukkan ke dalam merancang pengumpulan data dan mempersiapkan data yang dihasilkan untuk digunakan oleh para peneliti. Data-data ini oleh para peneliti dan peneliti.
Kebanyakan penelitian sosial menggunakan sumber era digital, bagaimanapun, secara fundamental berbeda. Alih-alih menggunakan data yang dikumpulkan oleh peneliti dan bagi para peneliti, menggunakan sumber data yang dibuat dan dikumpulkan oleh perusahaan dan pemerintah untuk tujuan mereka sendiri seperti membuat keuntungan, memberikan pelayanan, atau pemberian hukum. Sumber data bisnis dan pemerintah ini datang untuk disebut data besar. Melakukan penelitian dengan data besar adalah berbeda dari melakukan penelitian dengan data yang pada awalnya diciptakan untuk penelitian. Bandingkan, misalnya, situs media sosial, seperti Twitter, dengan survei opini publik tradisional seperti Survei Sosial Umum (GSS). tujuan utama Twitter adalah untuk memberikan layanan kepada penggunanya dan untuk membuat keuntungan. Dalam proses mencapai tujuan ini, Twitter menciptakan data yang mungkin berguna untuk mempelajari aspek-aspek tertentu dari opini publik. Tapi, tidak seperti Survei Sosial Umum (SSU), Twitter tidak terutama difokuskan pada penelitian sosial.
Data besar istilah putus asa samar-samar, dan kelompok bersama-sama banyak hal yang berbeda. Untuk keperluan penelitian sosial, saya pikir akan sangat membantu untuk membedakan antara dua jenis sumber data yang besar. Catatan administrasi pemerintah dan catatan administrasi bisnis catatan administrasi pemerintah adalah data yang dibuat oleh pemerintah sebagai bagian dari kegiatan rutin mereka. Jenis-jenis catatan telah digunakan oleh para peneliti di masa-seperti seperti demografi mempelajari kelahiran, catatan-tapi pernikahan, dan kematian pemerintah semakin mengumpulkan dan merilis catatan rinci dalam bentuk dianalisis. Misalnya, pemerintah New York City dipasang meter digital dalam setiap taksi di kota. meter ini merekam semua jenis data tentang masing-masing naik taksi termasuk sopir, waktu mulai dan lokasi, waktu berhenti dan lokasi, dan tarif. Dalam sebuah penelitian yang saya akan memberitahu nanti di bab ini, Henry Farber (2015) repurposed data ini untuk mengatasi perdebatan mendasar dalam ekonomi tenaga kerja tentang hubungan antara upah per jam dan jumlah jam kerja.
Jenis utama kedua data besar untuk penelitian sosial adalah catatan administrasi bisnis. Ini adalah data bahwa bisnis membuat dan mengumpulkan sebagai bagian dari kegiatan rutin mereka. Catatan administrasi bisnis ini sering disebut jejak digital, dan mencakup hal-hal seperti log permintaan mesin pencari, posting media sosial, dan catatan panggilan dari ponsel. Kritis, catatan administrasi bisnis ini bukan hanya tentang perilaku online. Misalnya, toko yang menggunakan check-out scanner menciptakan langkah-langkah real-time dari produktivitas pekerja. Dalam sebuah penelitian yang saya akan memberitahu Anda tentang kemudian dalam bab ini, Alexandre Mas dan Enrico Moretti (2009) repurposed supermarket ini check-out data mempelajari bagaimana produktivitas pekerja dipengaruhi oleh produktivitas rekan-rekan mereka.
Karena kedua contoh ini menggambarkan, ide repurposing merupakan dasar untuk belajar dari data besar. Dalam pengalaman saya, ilmuwan sosial dan ilmuwan data yang mendekati untuk ini repurposing sangat berbeda. ilmuwan sosial, yang terbiasa bekerja dengan data yang dirancang untuk penelitian, yang cepat untuk menunjukkan masalah dengan data repurposed sementara mengabaikan kekuatan. Di sisi lain, para ilmuwan data cepat menunjukkan manfaat dari data yang repurposed sementara mengabaikan kelemahan. Tentu, pendekatan terbaik akan hibrida. Artinya, peneliti perlu memahami karakteristik sumber-sumber baru data-baik dan buruk-dan kemudian mencari cara untuk belajar dari mereka. Dan, itu adalah rencana untuk sisa bab ini. Selanjutnya, saya akan menjelaskan sepuluh karakteristik umum dari data bisnis dan pemerintah administrasi. Setelah itu, saya akan menjelaskan tiga pendekatan penelitian yang dapat digunakan dengan data ini, pendekatan yang sangat cocok dengan karakteristik data ini.