Tidak peduli seberapa "big data" "besar" Anda mungkin tidak memiliki informasi yang Anda inginkan.
Kebanyakan sumber data yang besar tidak lengkap, dalam arti bahwa mereka tidak memiliki informasi yang Anda akan ingin untuk penelitian Anda. Ini adalah fitur umum dari data yang diciptakan untuk tujuan selain penelitian. Banyak ilmuwan sosial telah memiliki pengalaman berurusan dengan ketidaklengkapan, seperti survei yang ada yang tidak mengajukan pertanyaan yang Anda inginkan. Sayangnya, masalah ketidaklengkapan cenderung lebih ekstrim dalam data besar. Dalam pengalaman saya, data besar cenderung hilang tiga jenis informasi yang berguna untuk penelitian sosial: demografi, perilaku pada platform lain, dan data untuk mengoperasionalkan konstruksi teoritis.
Ketiga bentuk-bentuk ketidaklengkapan diilustrasikan dalam sebuah studi oleh Gueorgi Kossinets dan Duncan Watts (2006) tentang evolusi jaringan sosial di sebuah universitas. Kossinets dan Watts mulai dengan log email dari universitas, yang memiliki informasi yang tepat tentang siapa yang mengirim email kepada siapa pada waktu apa (para peneliti tidak memiliki akses ke konten dari email). catatan email ini terdengar seperti dataset menakjubkan, tapi, mereka-meskipun ukuran mereka dan rincian-dasarnya tidak lengkap. Misalnya, log email tidak termasuk data tentang karakteristik demografi siswa, seperti jenis kelamin dan usia. Selanjutnya, log email tidak menyertakan informasi tentang komunikasi melalui media lain, seperti panggilan telepon, pesan teks, atau percakapan tatap muka. Akhirnya, log email tidak langsung mencakup informasi tentang hubungan, konstruksi teoritis dalam banyak teori yang ada. Kemudian dalam bab ini, ketika saya berbicara tentang strategi penelitian, Anda akan melihat bagaimana Kossinets dan Watts memecahkan masalah ini.
Dari ketiga jenis ketidaklengkapan, masalah data tidak lengkap untuk mengoperasionalkan konstruksi teoritis adalah yang paling sulit untuk memecahkan, dan dalam pengalaman saya, sering sengaja diabaikan oleh para ilmuwan data. Kira-kira, konstruksi teoritis ide-ide abstrak yang mempelajari ilmuwan sosial, namun, sayangnya, konstruksi ini tidak selalu dapat jelas didefinisikan dan diukur. Sebagai contoh, mari kita bayangkan mencoba untuk secara empiris menguji klaim tampaknya sederhana bahwa orang yang lebih cerdas mendapatkan lebih banyak uang. Untuk menguji klaim ini Anda akan perlu untuk mengukur "kecerdasan." Tapi, apa intelijen? Misalnya, Gardner (2011) mengemukakan bahwa sebenarnya ada delapan bentuk yang berbeda dari kecerdasan. Dan, ada prosedur yang secara akurat dapat mengukur setiap bentuk-bentuk kecerdasan? Meskipun sejumlah besar pekerjaan oleh psikolog, pertanyaan-pertanyaan ini masih tidak memiliki jawaban ambigu. Dengan demikian, bahkan relatif sederhana klaim-orang yang lebih cerdas mendapatkan lebih banyak uang-akan sulit untuk menilai secara empiris karena akan sulit untuk mengoperasionalkan konstruksi teoritis dalam data. Contoh lain dari konstruksi teoritis yang penting tapi sulit untuk mengoperasionalkan termasuk "norma," "modal sosial," dan "demokrasi." Para ilmuwan sosial menyebut pertandingan antara konstruk teoritis dan keabsahan data konstruk (Cronbach and Meehl 1955) . Dan, sebagai daftar ini konstruksi menunjukkan, validitas konstruk adalah masalah bahwa para ilmuwan sosial telah berjuang dengan untuk waktu yang sangat lama, bahkan ketika mereka bekerja dengan data yang dikumpulkan untuk tujuan penelitian. Ketika bekerja dengan data yang dikumpulkan untuk tujuan selain penelitian, masalah validitas konstruk bahkan lebih menantang (Lazer 2015) .
Saat Anda membaca makalah penelitian, salah satu cara yang cepat dan berguna untuk menilai kekhawatiran tentang validitas konstruk adalah untuk mengambil klaim utama di koran, yang biasanya dinyatakan dalam hal konstruksi, dan re-mengekspresikannya dalam hal data yang digunakan. Sebagai contoh, pertimbangkan dua studi hipotetis yang mengklaim untuk menunjukkan bahwa lebih banyak orang cerdas mendapatkan lebih banyak uang:
Dalam kedua kasus, para peneliti bisa menegaskan bahwa mereka telah menunjukkan bahwa lebih banyak orang cerdas mendapatkan lebih banyak uang. Tapi, di studi pertama konstruksi teoritis baik dioperasionalkan oleh data, dan dalam kedua mereka tidak. Selanjutnya, sebagai contoh ini menggambarkan, lebih banyak data tidak otomatis memecahkan masalah dengan validitas konstruk. Anda harus meragukan hasil studi 2 apakah itu melibatkan satu juta tweets, satu miliar tweets, atau satu triliun tweet. Bagi peneliti tidak akrab dengan ide validitas konstruk, Tabel 2.2 memberikan beberapa contoh dari penelitian yang telah dioperasionalkan konstruksi teoritis menggunakan jejak data digital.
jejak digital | konstruksi teoritis | Kutipan |
---|---|---|
email log dari sebuah universitas (meta-data) | Hubungan sosial | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
posting media sosial di Weibo | Keterlibatan masyarakat | Zhang (2016) |
log email dari sebuah perusahaan (meta-data dan teks lengkap) | Budaya fit dalam suatu organisasi | Goldberg et al. (2015) |
Meskipun masalah data tidak lengkap untuk konstruksi teoritis operasionalisasi cukup sulit untuk memecahkan, ada tiga solusi umum untuk masalah informasi demografis lengkap dan informasi yang tidak lengkap pada perilaku pada platform lainnya. Yang pertama adalah untuk benar-benar mengumpulkan data yang Anda butuhkan; Saya akan memberitahu Anda tentang contoh bahwa dalam Bab 3 ketika saya memberitahu Anda tentang survei. Sayangnya, jenis pengumpulan data tidak selalu mungkin. Solusi utama kedua adalah untuk melakukan apa yang para ilmuwan panggilan data user-atribut inferensi dan apa yang para ilmuwan sosial sebut imputasi. Dalam pendekatan ini, peneliti menggunakan informasi yang mereka miliki di beberapa orang untuk menyimpulkan atribut orang lain. ketiga mungkin solusi-satu yang digunakan oleh Kossinets dan Watts-adalah untuk menggabungkan beberapa sumber data. Proses ini kadang-kadang disebut penggabungan atau merekam linkage. Metafora favorit saya untuk proses ini diusulkan dalam paragraf pertama kertas pertama yang pernah ditulis pada catatan linkage (Dunn 1946) :
"Setiap orang di dunia menciptakan Kitab Kehidupan. Buku ini dimulai dengan kelahiran dan berakhir dengan kematian. halamannya terdiri dari catatan peristiwa prinsip dalam hidup. Rekam linkage adalah nama yang diberikan untuk proses perakitan halaman buku ini ke dalam volume. "
Bagian ini ditulis pada tahun 1946, dan pada waktu itu, orang-orang berpikir bahwa Kitab Kehidupan dapat mencakup peristiwa besar dalam hidup seperti kelahiran, perkawinan, perceraian, dan kematian. Namun, sekarang begitu banyak informasi tentang orang-orang dicatat, dalam Kitab Kehidupan bisa menjadi potret sangat rinci, jika mereka halaman yang berbeda (yaitu, jejak digital kami), dapat terikat bersama-sama. Buku ini Kehidupan bisa menjadi sumber daya yang besar bagi para peneliti. Tapi, Kitab Kehidupan bisa juga disebut database kehancuran (Ohm 2010) , yang dapat digunakan untuk semua jenis tujuan tidak etis, seperti yang dijelaskan lebih lanjut di bawah ketika saya berbicara tentang sifat sensitif dari informasi yang dikumpulkan oleh sumber data yang besar di bawah dan pada Bab 6 (Etika).