Data yang dipegang oleh syarikat dan kerajaan adalah sukar bagi penyelidik untuk mengakses.
Pada bulan Mei 2014, Agensi Keselamatan Negara AS membuka pusat data di luar bandar Utah dengan nama yang canggung, Pusat Data Inisiatif Keselamatan Siber Nasional Komprehensif Komuniti. Walau bagaimanapun, pusat data ini, yang telah dikenali sebagai Pusat Data Utah, dilaporkan mempunyai keupayaan yang mengagumkan. Satu laporan mendakwa bahawa ia dapat menyimpan dan memproses segala bentuk komunikasi termasuk "kandungan lengkap e-mel peribadi, panggilan telefon, dan carian Google, serta segala macam laluan data peribadi-resit letak kereta, perjalanan perjalanan, pembelian kedai buku , dan sampah poket digital lain " (Bamford 2012) . Di samping menimbulkan kebimbangan mengenai sifat sensitif dari banyak maklumat yang ditangkap dalam data besar, yang akan diterangkan di bawah lagi, Utah Data Center adalah contoh ekstrim dari sumber data kaya yang tidak dapat diakses oleh penyelidik. Secara umumnya, banyak sumber data besar yang berguna berguna dikawal dan disekat oleh kerajaan (contohnya, data cukai dan data pendidikan) atau syarikat (misalnya, pertanyaan kepada enjin pencarian dan meta-data panggilan telefon). Oleh itu, walaupun sumber data ini wujud, mereka tidak berguna untuk tujuan penyelidikan sosial kerana mereka tidak boleh diakses.
Dalam pengalaman saya, banyak penyelidik yang berpusat di universiti salah faham sumber ketidakaksesan ini. Data ini tidak dapat diakses kerana orang di syarikat dan kerajaan adalah bodoh, malas, atau tidak peduli. Sebaliknya, terdapat halangan undang-undang, perniagaan, dan etika yang serius yang menghalang akses data. Sebagai contoh, beberapa perjanjian terma-perkhidmatan untuk laman web hanya membenarkan data untuk digunakan oleh pekerja atau untuk meningkatkan perkhidmatan. Oleh itu, bentuk perkongsian data tertentu boleh mendedahkan syarikat kepada tindakan undang-undang yang sah dari pelanggan. Terdapat juga risiko perniagaan yang besar kepada syarikat yang terlibat dalam perkongsian data. Cuba bayangkan bagaimana orang ramai akan bertindak balas sekiranya data carian peribadi secara tidak sengaja bocor dari Google sebagai sebahagian daripada projek penyelidikan universiti. Pelanggaran seperti itu, jika melampau, mungkin menjadi risiko eksistensi bagi syarikat itu. Oleh itu, Google dan syarikat-syarikat yang paling besar-sangat membahayakan tentang perkongsian data dengan penyelidik.
Malah, hampir semua orang yang berada dalam kedudukan untuk menyediakan akses kepada banyak data mengetahui kisah Abdur Chowdhury. Pada tahun 2006, ketika dia menjadi ketua penyelidikan di AOL, dia sengaja dilepaskan kepada komuniti penyelidikan yang dianggapnya sebagai pertanyaan carian tanpa nama dari 650,000 pengguna AOL. Setakat yang dapat saya katakan, Chowdhury dan para penyelidik di AOL mempunyai niat yang baik, dan mereka menyangka bahawa mereka telah tidak dikenali data. Tetapi mereka salah. Ia dengan cepat mendapati data tersebut tidak dikenali sebagai pemikiran penyelidik, dan pemberita dari New York Times dapat mengenal pasti seseorang dalam dataset dengan mudah (Barbaro and Zeller 2006) . Setelah masalah ini ditemui, Chowdhury mengeluarkan data dari laman web AOL, tetapi sudah terlambat. Data telah diposkan semula di laman web lain, dan mungkin masih tersedia apabila anda membaca buku ini. Chowdhury dipecat, dan ketua pegawai teknologi AOL meletak jawatan (Hafner 2006) . Sebagai contoh ini menunjukkan, faedah untuk individu tertentu di dalam syarikat untuk memudahkan akses data adalah sangat kecil dan senario terburuk adalah buruk.
Walau bagaimanapun, penyelidik boleh mendapatkan akses kepada data yang tidak dapat diakses oleh orang awam. Sesetengah kerajaan mempunyai prosedur yang boleh diikuti oleh para penyelidik untuk memohon akses, dan sebagai contoh di dalam bab ini, para penyelidik kadangkala dapat memperoleh akses kepada data korporat. Sebagai contoh, Einav et al. (2015) bekerjasama dengan seorang penyelidik di eBay untuk mengkaji lelongan dalam talian. Saya akan bercakap lebih lanjut mengenai penyelidikan yang datang dari kolaborasi ini kemudian dalam bab ini, tetapi saya menyebutkannya sekarang kerana ia mempunyai semua empat bahan yang saya lihat dalam perkongsian yang berjaya: minat penyelidik, keupayaan penyelidik, kepentingan syarikat, dan keupayaan syarikat . Saya telah melihat banyak kerjasama yang berpotensi gagal kerana sama ada penyelidik atau rakan kongsi-sama ada syarikat atau kerajaan-kurang salah satu ramuan ini.
Walaupun anda mampu mengembangkan perkongsian dengan perniagaan atau memperoleh akses kepada data kerajaan yang terhad, namun ada beberapa kelemahan untuk anda. Pertama, anda mungkin tidak dapat berkongsi data anda dengan penyelidik lain, yang bermaksud penyelidik lain tidak dapat mengesahkan dan melanjutkan hasil anda. Kedua, soalan yang boleh anda tanyakan mungkin terhad; syarikat tidak mungkin membenarkan penyelidikan yang boleh membuat mereka kelihatan buruk. Akhirnya, perkongsian ini boleh mewujudkan sekurang-kurangnya kemunculan konflik kepentingan, di mana orang mungkin berfikir bahawa hasil anda dipengaruhi oleh perkongsian anda. Kesemua kelemahan ini boleh ditangani, tetapi penting untuk menjadi jelas bahawa bekerja dengan data yang tidak dapat diakses oleh semua orang mempunyai kedua-dua kelemahan dan kelemahan.
Ringkasnya, banyak data besar tidak boleh diakses oleh penyelidik. Terdapat halangan undang-undang, perniagaan, dan etika yang serius yang menghalang akses data, dan halangan ini tidak akan hilang kerana teknologi bertambah baik kerana ia bukan halangan teknis. Sesetengah kerajaan negara telah menetapkan prosedur untuk membolehkan akses data untuk sesetengah dataset, tetapi prosesnya terutama ad hoc di peringkat negeri dan tempatan. Juga, dalam beberapa kes, para penyelidik boleh bekerjasama dengan syarikat untuk mendapatkan akses data, tetapi ini boleh menimbulkan pelbagai masalah bagi penyelidik dan syarikat.