Data besar diciptakan dan dipungut oleh kerajaan untuk tujuan selain daripada penyelidikan. Dengan menggunakan data ini untuk penyelidikan, oleh itu, memerlukan membuat semula.
Pandangan terunggul penyelidikan sosial membayangkan seorang saintis yang mempunyai idea dan kemudian mengumpul data untuk menguji idea itu. Ini gaya penyelidikan membawa kepada patut yang ketat antara persoalan kajian dan data, tetapi ia adalah terhad kerana penyelidik individu selalunya tidak mempunyai sumber yang diperlukan untuk mengumpul data yang mereka perlukan, seperti data besar, kaya, dan nasional wakil. Oleh itu, banyak penyelidikan sosial pada masa lalu telah digunakan kaji selidik sosial besar-besaran, seperti Tinjauan Umum Sosial (GSS), Kajian Pilihan Raya Kebangsaan Amerika (Anes), dan Panel Kajian Pendapatan Dynamics (PSID). Ini kaji selidik skala besar biasanya dikendalikan oleh pasukan penyelidik dan mereka direka untuk mewujudkan data yang boleh digunakan oleh ramai penyelidik. Oleh kerana matlamat ini kaji selidik berskala besar, berhati-dimasukkan ke dalam mereka bentuk pengumpulan data dan menyediakan data yang dihasilkan untuk digunakan oleh penyelidik. Data ini oleh pengkaji dan penyelidik.
Kebanyakan penyelidikan sosial menggunakan sumber era digital, bagaimanapun, adalah berbeza. Daripada menggunakan data yang dikumpul oleh penyelidik dan penyelidik, ia menggunakan sumber data yang telah diwujudkan dan dipungut oleh perniagaan dan kerajaan untuk tujuan mereka sendiri seperti membuat keuntungan, menyediakan perkhidmatan, atau mentadbir undang-undang. Ini perniagaan dan kerajaan sumber data telah dipanggil data yang besar. Melakukan penyelidikan dengan data yang besar adalah berbeza daripada melakukan penyelidikan dengan data yang pada asalnya dicipta untuk penyelidikan. Membandingkan, sebagai contoh, sebuah laman web media sosial seperti Twitter, dengan kaji selidik pendapat awam tradisional seperti Survey Sosial Am (GSS). matlamat utama Twitter adalah untuk menyediakan perkhidmatan kepada pengguna dan untuk membuat keuntungan. Dalam proses mencapai matlamat ini, Twitter mewujudkan data yang mungkin berguna untuk mengkaji aspek-aspek tertentu dari pandangan awam. Tetapi, tidak seperti Survey Sosial Am (GSS), Twitter tidak terutamanya tertumpu kepada penyelidikan sosial.
Data yang besar jangka adalah frustratingly samar-samar, dan ia bersama-sama kumpulan banyak perkara yang berbeza. Bagi maksud penyelidikan sosial, saya fikir ia adalah berguna untuk membezakan antara dua jenis sumber data yang besar. Rekod pentadbiran kerajaan dan rekod pentadbiran perniagaan rekod pentadbiran kerajaan adalah data yang dicipta oleh kerajaan sebagai sebahagian daripada aktiviti rutin mereka. Ini jenis rekod telah digunakan oleh penyelidik pada masa lalu-itu sebagai demografi belajar kelahiran, perkahwinan dan kematian rekod-tetapi kerajaan semakin mengumpul dan melepaskan rekod terperinci dalam bentuk analyzable. Sebagai contoh, kerajaan New York City dipasang meter digital dalam setiap teksi di bandar. Ini meter merekodkan semua jenis data tentang setiap perjalanan dengan teksi termasuk pemandu, masa mula dan lokasi, masa berhenti dan lokasi, dan tambang. Dalam satu kajian yang saya akan memberitahu kemudian dalam bab ini, Henry Farber (2015) dibuat semula data ini untuk menangani perdebatan asas dalam bidang ekonomi buruh tentang hubungan antara upah dan jumlah jam bekerja.
Jenis utama kedua data yang besar untuk penyelidikan sosial adalah rekod pentadbiran perniagaan. Ini adalah data yang perniagaan membuat dan mengumpul sebagai sebahagian daripada aktiviti rutin mereka. Rekod-rekod pentadbiran perniagaan sering dipanggil kesan digital, dan termasuk perkara-perkara seperti enjin carian Pertanyaan balak, jawatan media sosial, dan rekod panggilan dari telefon bimbit. Kritikal, rekod-rekod pentadbiran perniagaan tidak hanya kira-kira tingkah laku dalam talian. Sebagai contoh, kedai-kedai yang menggunakan pengimbas daftar keluar ekspres mewujudkan langkah-langkah masa sebenar produktiviti pekerja. Dalam satu kajian yang saya akan memberitahu anda tentang kemudian dalam bab ini, Alexandre Mas dan Enrico Moretti (2009) dibuat semula pasar raya ini daftar keluar ekspres data untuk mengkaji bagaimana produktiviti pekerja dipengaruhi oleh produktiviti rakan-rakan mereka.
Kerana kedua-dua contoh ini menggambarkan, idea membuat semula adalah asas kepada pembelajaran dari data yang besar. Dalam pengalaman saya, ahli-ahli sains sosial dan ahli-ahli sains data mendekati ini tujuan semula sangat berbeza. ahli sains sosial, yang biasa dengan bekerja dengan data direka untuk penyelidikan, adalah cepat untuk menunjukkan masalah dengan data dibuat semula dan mengabaikan kekuatannya. Sebaliknya, ahli-ahli sains data adalah cepat untuk menunjukkan manfaat data dibuat semula dan mengabaikan kelemahan. Sememangnya, pendekatan yang terbaik adalah hibrid. Iaitu, penyelidik perlu memahami ciri-ciri sumber-sumber baru data-baik dan buruk-dan kemudian memikirkan bagaimana untuk belajar daripada mereka. Dan, iaitu pelan bagi baki bab ini. Seterusnya, saya akan menerangkan sepuluh ciri-ciri umum data pentadbiran perniagaan dan kerajaan. Selepas itu, saya akan menerangkan tiga pendekatan penyelidikan yang boleh digunakan dengan data ini, pendekatan yang amat sesuai dengan ciri-ciri data ini.