Tidak peduli seberapa besar data besar Anda, mungkin tidak memiliki informasi yang Anda inginkan.
Sebagian besar sumber data besar tidak lengkap , dalam arti mereka tidak memiliki informasi yang Anda inginkan untuk riset Anda. Ini adalah fitur umum dari data yang dibuat untuk tujuan selain dari penelitian. Banyak ilmuwan sosial telah memiliki pengalaman menangani ketidaklengkapan, seperti survei yang sudah ada yang tidak menanyakan pertanyaan yang diperlukan. Sayangnya, masalah ketidaklengkapan cenderung lebih ekstrim dalam data besar. Dalam pengalaman saya, data besar cenderung kehilangan tiga jenis informasi yang berguna untuk penelitian sosial: informasi demografis tentang peserta, perilaku pada platform lain, dan data untuk mengoperasionalkan konstruksi teoretis.
Dari tiga jenis ketidaklengkapan, masalah data yang tidak lengkap untuk mengoperasionalkan konstruksi teoritis adalah yang paling sulit untuk dipecahkan. Dan dalam pengalaman saya, sering kali secara tidak sengaja terabaikan. Secara kasar, konstruk teoretis adalah gagasan abstrak yang dipelajari oleh para ilmuwan sosial dan mengoperasionalkan suatu konstruk teoretis yang berarti mengusulkan beberapa cara untuk menangkap konstruk tersebut dengan data yang dapat diamati. Sayangnya, proses sederhana yang terdengar ini ternyata cukup sulit. Sebagai contoh, mari kita bayangkan mencoba menguji secara empiris klaim sederhana bahwa orang-orang yang lebih pandai menghasilkan lebih banyak uang. Untuk menguji klaim ini, Anda perlu mengukur “kecerdasan.” Tetapi apakah kecerdasan itu? Gardner (2011) berpendapat bahwa sebenarnya ada delapan bentuk kecerdasan yang berbeda. Dan apakah ada prosedur yang dapat secara akurat mengukur setiap bentuk kecerdasan ini? Meskipun ada banyak pekerjaan yang dilakukan oleh para psikolog, pertanyaan-pertanyaan ini masih belum memiliki jawaban yang jelas.
Dengan demikian, bahkan klaim yang relatif sederhana — orang yang lebih pandai menghasilkan lebih banyak uang — dapat sulit untuk dinilai secara empiris karena dapat sulit untuk mengoperasionalkan konstruksi teoritis dalam data. Contoh lain dari konstruk teoritis yang penting tetapi sulit untuk dioperasionalkan termasuk "norma," "modal sosial," dan "demokrasi." Ilmuwan sosial menyebut pertandingan antara konstruk teoritis dan validitas konstruk data (Cronbach and Meehl 1955) . Seperti yang tersirat dari daftar konstruk singkat ini, validitas konstruk adalah masalah yang para ilmuwan sosial telah berjuang dengan untuk waktu yang sangat lama. Tetapi dalam pengalaman saya, masalah validitas konstruk bahkan lebih besar ketika bekerja dengan data yang tidak dibuat untuk tujuan penelitian (Lazer 2015) .
Ketika Anda menilai hasil penelitian, satu cara cepat dan berguna untuk menilai validitas konstruk adalah dengan mengambil hasil, yang biasanya dinyatakan dalam bentuk konstruk, dan mengungkapkannya kembali dalam bentuk data yang digunakan. Sebagai contoh, pertimbangkan dua studi hipotetis yang mengklaim untuk menunjukkan bahwa orang yang lebih pandai menghasilkan lebih banyak uang. Dalam studi pertama, peneliti menemukan bahwa orang-orang yang mendapat skor baik pada Tes Raven Progressive Matrices — tes kecerdasan analitik yang dipelajari dengan baik (Carpenter, Just, and Shell 1990) —memiliki pendapatan yang dilaporkan lebih tinggi pada pengembalian pajak mereka. Dalam studi kedua, peneliti menemukan bahwa orang-orang di Twitter yang menggunakan kata-kata yang lebih panjang lebih cenderung menyebutkan merek-merek mewah. Dalam kedua kasus, para peneliti ini dapat mengklaim bahwa mereka telah menunjukkan bahwa orang yang lebih pandai menghasilkan lebih banyak uang. Namun, dalam studi pertama konstruk teoritis dioperasionalkan dengan baik oleh data, sementara pada yang kedua tidak. Selanjutnya, seperti contoh ini mengilustrasikan, lebih banyak data tidak secara otomatis memecahkan masalah dengan validitas konstruk. Anda harus meragukan hasil dari studi kedua apakah itu melibatkan satu juta tweet, satu miliar tweet, atau satu triliun tweet. Untuk peneliti yang tidak akrab dengan gagasan validitas konstruk, tabel 2.2 memberikan beberapa contoh penelitian yang telah mengoperasionalkan konstruk teoritis menggunakan data jejak digital.
Sumber data | Konstruksi teoritis | Referensi |
---|---|---|
Log email dari universitas (hanya meta-data) | Hubungan sosial | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Pos media sosial di Weibo | Keterlibatan masyarakat | Zhang (2016) |
Log email dari perusahaan (meta-data dan teks lengkap) | Kecocokan budaya dalam suatu organisasi | Srivastava et al. (2017) |
Meskipun masalah data yang tidak lengkap untuk menangkap konstruksi teoritis cukup sulit untuk dipecahkan, ada solusi umum untuk jenis ketidaklengkapan umum lainnya: informasi demografis yang tidak lengkap dan informasi yang tidak lengkap tentang perilaku pada platform lain. Solusi pertama adalah benar-benar mengumpulkan data yang Anda butuhkan; Saya akan memberi tahu Anda tentang hal itu di bab 3 ketika saya memberi tahu Anda tentang survei. Solusi utama kedua adalah melakukan apa yang para ilmuwan data sebut inferensi pengguna-atribut dan ilmuwan sosial menyebutnya imputasi . Dalam pendekatan ini, peneliti menggunakan informasi yang mereka miliki pada beberapa orang untuk menyimpulkan atribut orang lain. Solusi ketiga yang mungkin adalah menggabungkan beberapa sumber data. Proses ini terkadang disebut hubungan catatan . Metafora favorit saya untuk proses ini ditulis oleh Dunn (1946) dalam paragraf pertama dari makalah pertama yang pernah ditulis tentang hubungan rekaman:
“Setiap orang di dunia menciptakan Buku Kehidupan. Buku ini dimulai dengan kelahiran dan berakhir dengan kematian. Halaman-halamannya terdiri dari catatan peristiwa-peristiwa utama dalam kehidupan. Rekam tautan adalah nama yang diberikan untuk proses merakit halaman-halaman buku ini menjadi sebuah volume. ”
Ketika Dunn menulis bagian itu, dia membayangkan bahwa Kitab Kehidupan dapat mencakup peristiwa besar dalam kehidupan seperti kelahiran, pernikahan, perceraian, dan kematian. Namun, sekarang begitu banyak informasi tentang orang dicatat, Buku Kehidupan dapat menjadi potret yang sangat rinci, jika halaman-halaman yang berbeda (yaitu jejak digital kami) dapat diikat bersama. Buku Kehidupan ini bisa menjadi sumber besar bagi para peneliti. Tapi, itu juga bisa disebut database reruntuhan (Ohm 2010) , yang dapat digunakan untuk semua jenis tujuan yang tidak etis, seperti yang akan saya jelaskan di bab 6 (Etika).