Data yang dipegang oleh perusahaan dan pemerintah sulit diakses oleh para peneliti.
Pada bulan Mei 2014, Badan Keamanan Nasional AS membuka pusat data di Utah pedesaan dengan nama yang canggung, Pusat Komunitas Inisiatif Keamanan Dunia Cyber Komprehensif. Namun, pusat data ini, yang kemudian dikenal sebagai Pusat Data Utah, dilaporkan memiliki kemampuan yang luar biasa. Satu laporan menyatakan bahwa ia mampu menyimpan dan memproses semua bentuk komunikasi termasuk “isi lengkap email pribadi, panggilan telepon seluler, dan pencarian Google, serta segala macam jejak data pribadi — tanda terima parkir, rencana perjalanan, pembelian toko buku , dan digital 'pocket litter' lainnya (Bamford 2012) . Selain meningkatkan kekhawatiran tentang sifat sensitif dari banyak informasi yang ditangkap dalam data besar, yang akan dijelaskan lebih lanjut di bawah ini, Pusat Data Utah adalah contoh ekstrim dari sumber data kaya yang tidak dapat diakses oleh para peneliti. Secara lebih umum, banyak sumber data besar yang akan berguna dikendalikan dan dibatasi oleh pemerintah (misalnya, data pajak dan data pendidikan) atau perusahaan (misalnya, pertanyaan ke mesin pencari dan meta-data panggilan telepon). Oleh karena itu, meskipun sumber data ini ada, mereka tidak berguna untuk tujuan penelitian sosial karena tidak dapat diakses.
Dalam pengalaman saya, banyak peneliti yang berbasis di universitas salah memahami sumber ketidaksesuaian ini. Data ini tidak dapat diakses bukan karena orang di perusahaan dan pemerintah bodoh, malas, atau tidak peduli. Sebaliknya, ada hambatan hukum, bisnis, dan etika yang serius yang mencegah akses data. Misalnya, beberapa perjanjian layanan-istilah untuk situs web hanya mengizinkan data digunakan oleh karyawan atau untuk meningkatkan layanan. Jadi bentuk-bentuk pembagian data tertentu dapat mengekspos perusahaan untuk mengesahkan tuntutan hukum dari pelanggan. Ada juga risiko bisnis yang besar bagi perusahaan yang terlibat dalam berbagi data. Coba bayangkan bagaimana tanggapan publik jika data pencarian pribadi secara tidak sengaja bocor keluar dari Google sebagai bagian dari proyek penelitian universitas. Pelanggaran data seperti itu, jika ekstrim, bahkan mungkin menjadi risiko eksistensial bagi perusahaan. Jadi Google — dan sebagian besar perusahaan besar — sangat menghindari risiko untuk berbagi data dengan para peneliti.
Bahkan, hampir semua orang yang berada dalam posisi untuk menyediakan akses ke sejumlah besar data mengetahui kisah Abdur Chowdhury. Pada 2006, ketika dia menjadi kepala penelitian di AOL, dia dengan sengaja merilis ke komunitas riset apa yang dia pikir adalah pertanyaan pencarian yang dianonimkan dari 650.000 pengguna AOL. Sejauh yang saya tahu, Chowdhury dan para peneliti di AOL memiliki niat baik, dan mereka berpikir bahwa mereka telah menganonimkan data. Tapi mereka salah. Dengan cepat ditemukan bahwa data tidak anonim seperti yang para peneliti pikirkan, dan wartawan dari New York Times mampu mengidentifikasi seseorang dalam dataset dengan mudah (Barbaro and Zeller 2006) . Setelah masalah ini ditemukan, Chowdhury menghapus data dari situs web AOL, tetapi sudah terlambat. Data telah diposkan ulang di situs web lain, dan mungkin akan tetap tersedia saat Anda membaca buku ini. Chowdhury dipecat, dan chief technology officer AOL mengundurkan diri (Hafner 2006) . Seperti yang ditunjukkan contoh ini, manfaat bagi individu tertentu di dalam perusahaan untuk memfasilitasi akses data sangat kecil dan skenario terburuknya sangat buruk.
Peneliti dapat, bagaimanapun, terkadang mendapatkan akses ke data yang tidak dapat diakses oleh masyarakat umum. Beberapa pemerintah memiliki prosedur yang dapat diikuti oleh para peneliti untuk mengajukan permohonan akses, dan seperti contoh di bab ini, para peneliti terkadang dapat memperoleh akses ke data perusahaan. Misalnya, Einav et al. (2015) bermitra dengan seorang peneliti di eBay untuk mempelajari lelang online. Saya akan berbicara lebih banyak tentang penelitian yang berasal dari kolaborasi ini nanti di bab ini, tetapi saya menyebutkannya sekarang karena memiliki keempat bahan yang saya lihat dalam kemitraan yang sukses: minat peneliti, kemampuan peneliti, minat perusahaan, dan kemampuan perusahaan . Saya telah melihat banyak kolaborasi potensial gagal karena peneliti atau mitra — baik itu perusahaan atau pemerintah — tidak memiliki salah satu dari bahan-bahan ini.
Bahkan jika Anda mampu mengembangkan kemitraan dengan bisnis atau mendapatkan akses ke data pemerintah yang terbatas, bagaimanapun, ada beberapa kerugian untuk Anda. Pertama, Anda mungkin tidak dapat membagikan data Anda dengan peneliti lain, yang berarti bahwa peneliti lain tidak akan dapat memverifikasi dan memperluas hasil Anda. Kedua, pertanyaan-pertanyaan yang dapat Anda ajukan mungkin terbatas; perusahaan tidak memungkinkan penelitian yang dapat membuat mereka terlihat buruk. Akhirnya, kemitraan ini dapat menciptakan setidaknya munculnya konflik kepentingan, di mana orang mungkin berpikir bahwa hasil Anda dipengaruhi oleh kemitraan Anda. Semua kerugian ini dapat diatasi, tetapi penting untuk menjadi jelas bahwa bekerja dengan data yang tidak dapat diakses oleh semua orang memiliki sisi baik dan buruk.
Singkatnya, banyak data besar tidak dapat diakses oleh para peneliti. Ada hambatan hukum, bisnis, dan etika yang serius yang mencegah akses data, dan hambatan ini tidak akan hilang karena teknologi meningkat karena bukan hambatan teknis. Beberapa pemerintah nasional telah menetapkan prosedur untuk memungkinkan akses data untuk beberapa dataset, tetapi prosesnya terutama ad hoc di tingkat negara bagian dan lokal. Juga, dalam beberapa kasus, peneliti dapat bermitra dengan perusahaan untuk mendapatkan akses data, tetapi ini dapat menciptakan berbagai masalah bagi para peneliti dan perusahaan.