Tidak kira berapa besar data besar anda, mungkin tidak mempunyai maklumat yang anda mahukan.
Kebanyakan sumber data yang besar tidak lengkap , dalam erti kata bahawa mereka tidak mempunyai maklumat yang anda mahu untuk penyelidikan anda. Ini adalah ciri umum data yang dicipta untuk tujuan selain penyelidikan. Banyak saintis sosial telah mengalami pengalaman menangani ketidaklengkapan, seperti tinjauan yang tidak menanyakan soalan yang diperlukan. Malangnya, masalah ketidaksempurnaan cenderung lebih melampau dalam data besar. Dalam pengalaman saya, data besar cenderung kehilangan tiga jenis maklumat yang berguna untuk penyelidikan sosial: maklumat demografi mengenai peserta, tingkah laku pada platform lain, dan data untuk mengoperasionalkan pembinaan teori.
Daripada ketiga-tiga jenis ketidaklengkapan itu, masalah data yang tidak lengkap untuk mengendalikan pembentukan teori adalah yang paling sukar untuk diselesaikan. Dan dalam pengalaman saya, ia sengaja diabaikan. Secara kasar, pembentukan teori adalah idea-idea abstrak yang ahli-ahli sains sosial mengkaji dan mengoperasikan satu teori membina cara mencadangkan beberapa cara untuk menangkap yang membina dengan data yang dapat dilihat. Malangnya, proses yang mudah dibunyikan ini sering menjadi agak sukar. Contohnya, bayangkan cuba untuk menguji secara empirik tuntutan yang mudah kerana orang yang lebih pintar mendapat lebih banyak wang. Untuk menguji tuntutan ini, anda perlu mengukur "kecerdasan." Tetapi apakah kecerdasan itu? Gardner (2011) berhujah bahawa terdapat lapan jenis kecerdasan yang berbeza. Dan adakah terdapat prosedur yang boleh dengan tepat mengukur mana-mana bentuk kecerdasan ini? Walaupun banyak kerja psikologi, soalan-soalan ini masih tidak mempunyai jawapan yang jelas.
Oleh itu, walaupun tuntutan yang agak mudah-orang yang lebih pintar memperoleh lebih banyak wang-boleh menjadi sukar untuk menilai secara empirik kerana sukar untuk mengoperasionalkan pembentukan teori dalam data. Contoh-contoh lain yang membina teoretikal yang penting tetapi sukar untuk beroperasi termasuk "norma," "modal sosial," dan "demokrasi." Ahli-ahli sains sosial memanggil pertandingan antara konstruktor teoritis dan kesahan membina data (Cronbach and Meehl 1955) . Oleh kerana senarai pendek ini membayangkan, membina kesahihan adalah masalah yang saintis-saintis sosial telah berjuang untuk masa yang sangat lama. Tetapi dalam pengalaman saya, masalah membina kesahihan adalah lebih besar apabila bekerja dengan data yang tidak dicipta untuk tujuan penyelidikan (Lazer 2015) .
Apabila anda menilai hasil penyelidikan, satu cara yang cepat dan berguna untuk menilai kesahihan membina adalah untuk mengambil keputusan, yang biasanya dinyatakan dari segi pembinaan, dan menyatakannya semula dari segi data yang digunakan. Sebagai contoh, pertimbangkan dua kajian hipotesis yang menyatakan bahawa orang yang lebih pintar mendapat lebih banyak wang. Dalam kajian pertama, penyelidik mendapati bahawa orang-orang yang mendapat skor yang baik pada Ujian Matriks Progresif Raven - ujian yang dipelajari dengan baik mengenai kecerdasan analitik (Carpenter, Just, and Shell 1990) -membuat pendapatan yang dilaporkan lebih tinggi mengenai pulangan cukai mereka. Dalam kajian kedua, penyelidik mendapati bahawa orang di Twitter yang menggunakan perkataan lebih panjang lebih cenderung menyebutkan jenama mewah. Dalam kedua-dua kes, para penyelidik boleh menuntut bahawa mereka telah menunjukkan bahawa orang yang lebih pintar mendapat lebih banyak wang. Walau bagaimanapun, dalam kajian pertama, teori-teori pembinaan telah dijalankan dengan baik oleh data, sedangkan pada kedua mereka tidak. Selanjutnya, sebagai contoh ini menggambarkan, lebih banyak data tidak secara automatik menyelesaikan masalah dengan kesahihan konstruktif. Anda harus meragui hasil kajian kedua sama ada ia melibatkan satu juta tweet, satu juta tweet, atau tweet trilion. Bagi para penyelidik yang tidak akrab dengan idea membina kesahihan, jadual 2.2 menyediakan beberapa contoh kajian yang telah membina teoretikal membina menggunakan data jejak digital.
Sumber data | Membina teori | Rujukan |
---|---|---|
Log e-mel dari universiti (meta-data sahaja) | Hubungan sosial | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Siaran media sosial pada Weibo | Penglibatan sivik | Zhang (2016) |
Log e-mel daripada firma (meta-data dan teks lengkap) | Sesuai kebudayaan dalam organisasi | Srivastava et al. (2017) |
Walaupun masalah data tidak lengkap untuk menangkap pembinaan teori agak sukar untuk dipecahkan, terdapat penyelesaian umum untuk jenis ketidaksempurnaan yang lain: maklumat demografi yang tidak lengkap dan maklumat tidak lengkap mengenai tingkah laku pada platform lain. Penyelesaian pertama adalah untuk mengumpul data yang anda perlukan; Saya akan memberitahu anda tentang perkara itu dalam bab 3 apabila saya memberitahu anda tentang tinjauan. Penyelesaian utama kedua adalah untuk melakukan data saintis yang menuntut kesimpulan atribut pengguna dan ahli sains sosial memanggil imputasi . Dalam pendekatan ini, penyelidik menggunakan maklumat yang mereka ada pada sesetengah orang untuk menyimpulkan sifat orang lain. Penyelesaian yang ketiga mungkin adalah untuk menggabungkan pelbagai sumber data. Proses ini kadang-kadang dipanggil hubungan rekod . Metafora kegemaran saya untuk proses ini ditulis oleh Dunn (1946) dalam perenggan yang pertama dari kertas pertama yang pernah ditulis dalam perkaitan rekod:
"Setiap orang di dunia mencipta Buku Kehidupan. Buku ini bermula dengan kelahiran dan berakhir dengan kematian. Halaman-halamannya terdiri daripada rekod peristiwa utama dalam kehidupan. Hubungan rakaman adalah nama yang diberikan kepada proses pemasangan halaman-halaman buku ini ke dalam jumlah. "
Apabila Dunn menulis petikan itu dia membayangkan bahawa Buku Kehidupan boleh merangkumi peristiwa kehidupan utama seperti kelahiran, perkahwinan, perceraian, dan kematian. Walau bagaimanapun, kini begitu banyak maklumat tentang orang yang dicatatkan, Buku Kehidupan boleh menjadi potret yang amat terperinci, jika halaman yang berbeza (iaitu, jejak digital kita) boleh terikat bersama. Buku Kehidupan ini boleh menjadi sumber yang hebat untuk penyelidik. Tetapi, ia juga boleh dipanggil pangkalan data kehancuran (Ohm 2010) , yang boleh digunakan untuk semua jenis tujuan yang tidak beretika, seperti yang saya akan terangkan dalam bab 6 (Etika).