Data besar dicipta dan dikumpulkan oleh syarikat dan kerajaan untuk tujuan selain penyelidikan. Dengan menggunakan data ini untuk penyelidikan, oleh karena itu, memerlukan penentuan kembali.
Cara pertama yang banyak orang menemui penyelidikan sosial dalam era digital adalah melalui apa yang sering disebut data besar . Walaupun penggunaan istilah ini meluas, tidak ada kata sepakat tentang data besar apa pun. Walau bagaimanapun, salah satu definisi data yang paling umum memfokuskan pada "3 Vs": Kelantangan, Pelbagai, dan Halaju. Secara kasar, terdapat banyak data, dalam pelbagai format, dan itu terus dibuat. Beberapa peminat data besar juga menambah "Vs" lain seperti Veracity dan Value, sedangkan beberapa pengkritik menambahkan Vs seperti Vague dan Vacuous. Daripada 3 "Vs" (atau 5 "Vs atau 7" Vs), untuk tujuan penyelidikan sosial, saya rasa tempat yang lebih baik untuk bermula adalah 5 "Ws": Siapa, Apa, Di mana, Bila , dan mengapa. Sebenarnya, saya rasa banyak cabaran dan peluang yang dicipta oleh sumber data yang besar mengikuti hanya satu "W": Mengapa.
Dalam zaman analog, kebanyakan data yang digunakan untuk penyelidikan sosial dicipta untuk tujuan melakukan penyelidikan. Walau bagaimanapun, dalam era digital, sejumlah besar data sedang dibuat oleh syarikat dan kerajaan untuk tujuan selain penyelidikan, seperti menyediakan perkhidmatan, menjana keuntungan, dan mentadbir undang-undang. Walau bagaimanapun, orang-orang kreatif telah menyedari bahawa anda boleh menilai semula data korporat dan kerajaan ini untuk penyelidikan. Berpikir kembali kepada analogi seni dalam bab 1, seperti Duchamp mengembalikan objek yang dijumpai untuk menciptakan seni, para saintis kini dapat mengembalikan data yang diperoleh untuk membuat penyelidikan.
Walaupun ada peluang besar untuk menanti semula, menggunakan data yang tidak dicipta untuk tujuan penyelidikan juga memberikan cabaran baru. Bandingkan, sebagai contoh, perkhidmatan media sosial, seperti Twitter, dengan tinjauan pendapat umum tradisional, seperti Penyiasatan Sosial Umum. Matlamat utama Twitter adalah untuk memberikan perkhidmatan kepada penggunanya dan untuk membuat keuntungan. Kajian Sosial Umum, sebaliknya, memberi tumpuan kepada penciptaan data am untuk penyelidikan sosial, khususnya untuk penyelidikan pendapat umum. Perbezaan dalam matlamat ini bermakna bahawa data yang dibuat oleh Twitter dan yang dibuat oleh Kajian Sosial Umum mempunyai sifat yang berbeza, walaupun kedua-duanya boleh digunakan untuk mengkaji pendapat umum. Twitter beroperasi pada skala dan kelajuan bahawa Penyiasatan Sosial Umum tidak dapat dipadankan, tetapi, tidak seperti Penyiasatan Sosial Umum, Twitter tidak mencontohi pengguna dengan berhati-hati dan tidak bekerja keras untuk mengekalkan perbandingan berbanding dengan masa. Kerana kedua-dua sumber data ini sangat berbeza, tidak masuk akal untuk mengatakan bahawa Tinjauan Sosial Umum lebih baik daripada Twitter atau sebaliknya. Jika anda mahukan langkah-langkah per jam global (misalnya, Golder and Macy (2011) ), Twitter adalah yang terbaik. Sebaliknya, jika anda ingin memahami perubahan jangka panjang dalam polarisasi sikap di Amerika Syarikat (contohnya, DiMaggio, Evans, and Bryson (1996) ), maka Kajian Sosial Umum adalah pilihan terbaik. Secara umumnya, bukannya cuba untuk membantah bahawa sumber data besar lebih baik atau lebih buruk daripada jenis data lain, bab ini akan cuba untuk memperjelas jenis soalan penyelidikan yang mana sumber data besar mempunyai sifat yang menarik dan jenis soalan yang mungkin tidak mereka ideal.
Apabila memikirkan sumber data besar, ramai penyelidik dengan segera menumpukan pada data dalam talian yang dibuat dan dikumpulkan oleh syarikat, seperti log mesin enjin dan jawatan media sosial. Walau bagaimanapun, tumpuan sempit ini meninggalkan dua sumber data penting yang penting. Pertama, semakin banyak sumber data korporat yang besar datang dari peranti digital di dunia fizikal. Sebagai contoh, dalam bab ini, saya akan memberitahu anda mengenai satu kajian yang memaparkan data check-out pasaraya untuk mengkaji bagaimana produktiviti pekerja dipengaruhi oleh produktiviti rakan-rakannya (Mas and Moretti 2009) . Kemudian, dalam bab-bab kemudian, saya akan memberitahu anda tentang penyelidik yang menggunakan rekod panggilan dari telefon bimbit (Blumenstock, Cadamuro, and On 2015) dan data pengebilan yang dibuat oleh utiliti elektrik (Allcott 2015) . Sebagai contoh-contoh ini menggambarkan, sumber data korporat yang besar adalah lebih daripada sekadar tingkah laku dalam talian.
Sumber utama data penting yang kedua yang tidak disengajakan oleh tumpuan sempit pada tingkah laku dalam talian adalah data yang dibuat oleh kerajaan. Data kerajaan ini, yang mana penyelidik memanggil rekod pentadbiran kerajaan , termasuk perkara seperti rekod cukai, rekod sekolah, dan rekod statistik penting (contohnya, pendaftaran kelahiran dan kematian). Kerajaan telah mencipta data semacam ini, dalam beberapa kes, beratus-ratus tahun, dan para saintis sosial telah mengeksploitasi mereka selama hampir selama ada saintis sosial. Walau bagaimanapun, apa yang telah berubah ialah pendigitan, yang menjadikannya lebih mudah bagi kerajaan untuk mengumpul, menghantar, menyimpan, dan menganalisis data. Sebagai contoh, dalam bab ini, saya akan memberitahu anda tentang kajian yang membongkar data dari metro teksi digital kerajaan New York City untuk menangani perdebatan asas dalam ekonomi buruh (Farber 2015) . Kemudian, dalam bab-bab yang akan datang, saya akan memberitahu anda tentang bagaimana rekod mengundi kerajaan yang digunakan dalam tinjauan (Ansolabehere and Hersh 2012) dan eksperimen (Bond et al. 2012) .
Saya fikir idea menanti semula adalah asas untuk belajar dari sumber data besar, jadi, sebelum bercakap lebih khusus mengenai sifat-sifat sumber data besar (bahagian 2.3) dan bagaimana ini boleh digunakan dalam penyelidikan (seksyen 2.4), saya ingin untuk menawarkan dua keping nasihat umum mengenai penentuan semula. Pertama, ia boleh menggoda untuk memikirkan kontras yang saya telah tentukan sebagai antara data "dijumpai" dan "direka" data. Itulah yang dekat, tetapi ia tidak betul. Walaupun, dari perspektif penyelidik, sumber data besar "didapati," mereka tidak hanya jatuh dari langit. Sebaliknya, sumber data yang "dijumpai" oleh penyelidik direka oleh seseorang untuk tujuan tertentu. Oleh kerana data "dijumpai" dirancang oleh seseorang, saya selalu mengesyorkan agar anda cuba memahami sebanyak mungkin orang dan proses yang mencipta data anda. Kedua, apabila anda menaikkan data, sering kali sangat berguna untuk membayangkan dataset yang ideal untuk masalah anda dan kemudian membandingkan dataset yang ideal dengan yang anda gunakan. Jika anda tidak mengumpul data anda sendiri, mungkin ada perbezaan penting antara apa yang anda mahukan dan apa yang anda miliki. Melihat perbezaan ini akan membantu menjelaskan apa yang anda boleh dan tidak dapat belajar dari data yang anda miliki, dan mungkin mencadangkan data baru yang harus anda kumpulkan.
Dalam pengalaman saya, saintis sosial dan saintis data cenderung untuk mendekati semula dengan sangat berbeza. Ahli sains sosial, yang terbiasa bekerja dengan data yang direka untuk penyelidikan, biasanya cepat untuk menunjukkan masalah dengan data yang ditimbulkan kembali sambil mengabaikan kekuatannya. Sebaliknya, para saintis data biasanya cepat menunjukkan manfaat data yang ditimbulkan kembali sambil mengabaikan kelemahannya. Sememangnya, pendekatan terbaik adalah hibrid. Iaitu, para penyelidik perlu memahami ciri-ciri sumber data yang besar-baik baik dan buruk-dan kemudian mencari cara untuk belajar dari mereka. Dan, itulah rancangan untuk sisa bab ini. Di bahagian seterusnya, saya akan menerangkan sepuluh ciri umum sumber data besar. Kemudian, dalam bahagian berikut, saya akan menerangkan tiga pendekatan penyelidikan yang boleh berfungsi dengan baik dengan data tersebut.