Data yang dimiliki oleh perusahaan dan pemerintah sulit bagi para peneliti untuk mengakses.
Pada bulan Mei 2014, US National Agenda Keamanan membuka pusat data di pedesaan Utah yang memiliki nama canggung, Intelijen Masyarakat Komprehensif Nasional Cybersecurity Initiative Data Center. Namun, ini pusat data, yang telah datang untuk dikenal sebagai Utah Data Center, dilaporkan memiliki kemampuan luar biasa. Satu laporan menuduh bahwa Utah Data Center mampu menyimpan dan memproses semua bentuk komunikasi termasuk "isi lengkap email pribadi, telepon seluler, dan pencarian Google, serta segala macam data pribadi penerimaan jalan-parkir, jadwal perjalanan , pembelian toko buku, dan digital `sampah lainnya saku '" (Bamford 2012) . Selain kekhawatiran peningkatan tentang sifat sensitif dari banyak informasi yang ditangkap di data besar, yang akan dijelaskan lebih lanjut di bawah, Utah Data Center adalah contoh ekstrim dari sumber data yang kaya yang tidak bisa diakses para peneliti. Lebih umum, banyak sumber data besar yang akan berguna untuk peneliti dikendalikan dan dibatasi oleh pemerintah (misalnya, data pajak dan data pendidikan) dan perusahaan (misalnya, permintaan untuk mesin dan panggilan telepon meta-data pencarian). Oleh karena itu, data ini tidak akan segera tersedia untuk para peneliti di universitas, dan sebagian besar bahkan tidak akan tersedia untuk para peneliti di pemerintah atau perusahaan.
Dalam pengalaman saya, banyak peneliti yang berbasis di universitas salah paham sumber terjangkaunya ini. Data-data ini tidak dapat diakses karena orang-orang di perusahaan dan pemerintah yang bodoh, malas, atau tidak peduli. Sebaliknya, ada yang serius hukum, teknis, bisnis, dan hambatan etis yang mencegah akses data. Sebagai contoh, beberapa istilah-of-service perjanjian untuk website hanya memungkinkan data yang akan digunakan oleh karyawan atau untuk meningkatkan layanan. Jadi bentuk-bentuk tertentu dari berbagi data dapat mengekspos perusahaan untuk tuntutan hukum sah dari pelanggan. Ada juga risiko usaha besar untuk perusahaan yang terlibat dalam berbagi data. Coba bayangkan bagaimana publik akan merespon jika data penelusuran pribadi sengaja bocor keluar dari Google sebagai bagian dari proyek penelitian universitas. Seperti pelanggaran data, jika ekstrim, bahkan mungkin menjadi resiko eksistensial bagi perusahaan. Jadi Google-dan sebagian besar perusahaan-sangat menghindari risiko tentang berbagi data dengan peneliti.
Bahkan, hampir semua orang yang berada dalam posisi untuk memberikan akses ke sejumlah besar data tahu cerita dari Abdur Chowdhury. Pada tahun 2006, ketika ia adalah kepala penelitian AOL, ia sengaja merilis apa yang dia pikir yang anonim permintaan pencarian dari 650.000 pengguna AOL untuk komunitas riset. Sejauh yang saya tahu, Chowdhury dan peneliti di AOL memiliki niat baik dan mereka berpikir bahwa mereka telah anonim data. Tapi, mereka salah. Hal ini dengan cepat menemukan bahwa data tidak sebagai anonim sebagai peneliti berpikir, dan wartawan dari New York Times mampu mengidentifikasi orang dalam dataset dengan mudah (Barbaro and Zeller Jr 2006) . Setelah masalah ini ditemukan, Chowdhury dihapus data dari situs AOL, tapi sudah terlambat. Data telah diumumkan di website lain, dan mungkin akan tetap tersedia ketika Anda membaca buku ini. Karena usahanya untuk berbagi data dengan komunitas riset, Chowdhury dipecat, dan kepala kantor teknologi AOL mengundurkan diri (Hafner 2006) . Sebagai contoh ini menunjukkan, manfaat bagi individu-individu tertentu dalam perusahaan untuk memfasilitasi akses data yang cukup kecil dan skenario terburuk mengerikan.
Penelitian bisa, bagaimanapun, mendapatkan akses ke data yang tidak dapat diakses untuk masyarakat umum. Pemerintah memiliki prosedur yang peneliti dapat mengikuti untuk mengajukan permohonan akses, dan sebagai contoh kemudian dalam bab ini, peneliti kadang-kadang dapat memperoleh akses ke data perusahaan. Misalnya, Einav et al. (2015) bermitra dengan peneliti di eBay untuk mempelajari jejak digital dari lelang online. Saya akan berbicara lebih banyak tentang penelitian yang berasal dari kerjasama ini nanti dalam bab (Bagian 2.4.3.2), tapi saya menyebutkan sekarang karena memiliki semua empat dari bahan-bahan yang saya lihat dalam kemitraan yang sukses: peneliti tertarik, kemampuan peneliti, kepentingan perusahaan, dan kemampuan perusahaan. Dengan kata lain, Einav dan rekan tertarik dan mampu belajar lelang online. Dan, eBay juga. Namun, saya telah melihat banyak kemungkinan kerjasama gagal karena baik peneliti atau perusahaan tidak memiliki salah satu dari bahan-bahan ini.
Bahkan jika Anda mampu mengembangkan kemitraan dengan bisnis, namun, ada beberapa kerugian untuk Anda. Pertama, pertanyaan-pertanyaan yang dapat Anda bertanya dengan data dengan kemungkinan akan terbatas; perusahaan tidak mungkin untuk memungkinkan penelitian yang bisa membuat mereka terlihat buruk. Kedua, Anda mungkin tidak dapat berbagi data dengan peneliti lainnya, yang berarti bahwa peneliti lain tidak akan dapat memverifikasi dan memperpanjang hasil Anda. Selanjutnya, kemitraan ini dapat membuat setidaknya munculnya konflik kepentingan, di mana orang mungkin berpikir bahwa hasil dipengaruhi oleh kemitraan Anda. Semua kerugian tersebut dapat diatasi, tetapi penting untuk menjadi jelas bahwa bekerja dengan data yang tidak dapat diakses oleh semua orang memiliki kedua keuntungan dan kerugian.
Singkatnya, banyak data yang besar tidak dapat diakses para peneliti. Ada yang serius hukum, teknis, bisnis, dan hambatan etis yang mencegah akses data, dan hambatan-hambatan ini tidak akan pergi. pemerintah nasional umumnya telah menetapkan prosedur untuk memungkinkan akses data, namun proses dapat lebih ad hoc di tingkat negara bagian dan lokal. Juga, dalam beberapa kasus, peneliti dapat bermitra dengan perusahaan untuk memperoleh akses data, tetapi hal ini dapat menciptakan berbagai masalah bagi para peneliti.