Data sing dianakaké perusahaan lan pemerintah angel ditindakake para panaliti.
Ing Mei 2014, US National Security Agency mbuka pusat data ing deso Utah kanthi jeneng asline, Pusat Data Inisiatif Inisiatif Cybersecurity Nasional Intelligence Community. Nanging, pusat data iki, sing wis dikenal minangka Utah Data Center, dilapurake nduweni kemampuan nggoleki. Siji laporan mratelakake sing bisa nyimpen lan proses kabeh formulir komunikasi kalebu "isi lengkap email pribadi, telpon sel telpon, lan telusuran Google, uga kabeh lintasan data pribadhi-kuitansi parkir, rencana perjalanan, pamandhangan toko buku , lan digital 'sampah saku' " (Bamford 2012) . Saliyane ningkatake keprihatinan babagan sifat sensitif saka akeh informasi sing ditangkap ing data amba, sing bakal diterangake luwih ngisor, Utah Data Center minangka conto nemen sumber data sugih sing ora bisa ditularake para peneliti. Umumé, akeh sumber data gedhe sing bakal migunani dikontrol lan diwatesi dening pamaréntah (umpamane, data pajak lan data pendidikan) utawa perusahaan (umpamane, pitakon kanggo mesin telusuran lan meta data data). Mulane, sanajan sumber data kasebut ana, ora ana guna kanggo tujuan riset sosial amarga ora bisa diakses.
Ing pengalaman saya, akeh peneliti adhedhasar universitas misunderstand sumber inaccessibility iki. Data iki ora bisa dilacak amarga wong ing perusahaan lan pemerintah dadi bodho, malas, utawa ora kepenak. Luwih, ana alangan legal, bisnis, lan etika sing serius sing nyegah akses data. Contone, sawetara persetujuan istilah layanan kanggo situs web mung ngidini data digunakake dening karyawan utawa kanggo nambah layanan kasebut. Dadi wangun data tartamtu bisa mbedakake perusahaan menyang tuntutan hukum sing sah saka pelanggan. Ana uga risiko bisnis substansial kanggo perusahaan-perusahaan sing melu bareng data. Coba bayang carane masyarakat bakal nanggapi yen data panelusuran pribadhi sacara ora sengaja metu saka Google minangka bagéan saka proyek riset universitas. Panyebaran data kuwi, yen nemen, bisa uga dadi risiko eksistensial kanggo perusahaan. Supaya Google-lan perusahaan-perusahaan gedhe-gedhe-banget-mbebayani banget babagan nuduhake data karo peneliti.
Ing kasunyatan, meh saben wong sing duwe posisi nyedhiyakake akses menyang data gedhe mangerteni crita Abdur Chowdhury. Ing taun 2006, nalika dadi kepala riset ing AOL, dheweke sengaja dibebasake menyang komunitas riset apa sing dianggep minangka pitakon panelusuran anonim saka 650.000 pengguna AOL. Nganti aku bisa ngomong, Chowdhury lan peneliti ing AOL duweni niat sing apik, lan padha ngira yen dheweke ora nyebutake data kasebut. Nanging padha salah. Data kasebut cepet-cepet ditemokake yen data kasebut ora kaya anonim kaya sing ditindakake peneliti, lan wartawan saka New York Times bisa ngenali wong ing dataset kanthi gampang (Barbaro and Zeller 2006) . Sawise masalah iki ditemokake, Chowdhury mbusak data saka situs web AOL, nanging kasep. Data wis dikirim ing situs web liya, lan mungkin isih kasedhiya nalika maca buku iki. Chowdhury dipecat, lan pejabat teknologi kepala AOL mundur (Hafner 2006) . Minangka conto iki, manfaat kanggo individu tartamtu ing perusahaan kanggo nggampangake akses data sing cilik banget lan skenario paling awon banget.
Para panaliti bisa uga duwe akses menyang data sing ora bisa diakses masyarakat umum. Sawetara pemerintah duwe cara sing bisa ditliti para panaliti kanggo ngakses akses, lan minangka conto ing acara bab iki, para peneliti sok-sok bisa entuk akses menyang data perusahaan. Contone, Einav et al. (2015) partnered karo peneliti ing eBay kanggo sinau leloron online. Aku bakal ngomong luwih akeh babagan riset sing teka saka kolaborasi iki ing bab kasebut, nanging aku sebutake saiki amarga kabeh papat urea sing aku weruh ing kemitraan sukses: minat peneliti, kemampuan peneliti, kapentingan perusahaan, lan kemampuan perusahaan . Aku wis ndeleng akeh kolaborasi potensial gagal amarga salah siji peneliti utawa partner-dadi perusahaan utawa pamaréntah-ora salah siji saka bahan kasebut.
Sanadyan sampeyan bisa ngembangake kemitraan karo bisnis utawa entuk akses menyang data pemerintah sing diwatesi, ana uga sawetara kelemahan kanggo sampeyan. Pisanan, sampeyan bakal ora bisa nuduhake data karo peneliti liyane, sing tegese peneliti liyane ora bakal bisa verifikasi lan ngluwihi asil sampeyan. Kapindho, pitakonan sing bisa takon bisa diwatesi; perusahaan ora bisa ngidini riset sing bisa nggawe dheweke katon ala. Pungkasan, kemitraan kasebut bisa nggawe paling sethithik katon konflik kapentingan, ing ngendi wong bisa mikir yen asil sampeyan dipengaruhi dening kemitraan. Kabeh downsides bisa ditangani, nanging penting kanggo dadi cetha yen nggarap data sing ora bisa diakses dening wong duwe loro upsides lan downsides.
Ing ringkesan, akeh data gedhe ora bisa ditularake dening peneliti. Ana alangan legal, bisnis, lan etika sing ngalangi akses data, lan alangan iki ora bakal ilang amarga teknologi mbenakake amarga ora dadi masalah teknis. Sawetara pemerintah nasional wis nyusun prosedur kanggo mbisakake akses data kanggo sawetara dataset, nanging proses kasebut adhok khusus ing tingkat negara lan lokal. Uga, ing sawetara kasus, peneliti bisa partner karo perusahaan kanggo entuk akses data, nanging iki bisa nggawe macem-macem masalah kanggo peneliti lan perusahaan.