Sawetara informasi sing perusahaan lan pemerintah kudu sensitif.
Perusahaan asuransi kesehatan duwe informasi rinci babagan perawatan medis sing ditampa dening pelanggan. Informasi kasebut bisa digunakake kanggo riset penting babagan kesehatan, nanging yen dadi umum, bisa nyebabake kacilakan emosi (umpamane, rasa malu) utawa gawe cilaka ekonomi (umpamane, mundhut lapangan kerja). Akeh sumber data amba liyane uga nduweni informasi sing sensitif , yaiku bagean saka alesan kenapa dheweke kerep ora bisa diakses.
Sayange, ternyata cukup angel kanggo mutusake apa informasi sing bener sensitif (Ohm 2015) , kaya sing digambarake dening Bebungah Netflix. Minangka Aku bakal njlèntrèhaké ing bab 5, ing taun 2006 Netflix nerbitaké 100 yuta rating film sing diwenehake dening meh 500.000 anggota lan duwe panggilan terbuka ing ngendi wong saka sak ndonya ngirimake algoritma sing bisa ningkatake kemampuan Netflix kanggo menehi rekomendasi film. Sadurunge ngeculake data, Netflix mbusak informasi sing jelas, kanthi identitas pribadi, kayata jeneng. Nanging, mung rong minggu sawise data dirilis Arvind Narayanan lan Vitaly Shmatikov (2008) nuduhake yen bisa sinau babagan rating film tartamtu wong nggunakake trik sing aku bakal nuduhake sampeyan ing bab 6. Senajan penyerang bisa nemokake rating film wong, isih ana sing ora sensitif ing kene. Nalika iku bisa bener ing umum, paling sethithik ana 500.000 wong ing détethe, rating film padha sensitif. Jebule, kanggo nanggepi release lan identifikasi maneh data, wong wadon lesbian sing ditampik gabung karo klompok tumindak tumrap Netflix. Mangkene carane masalah kasebut ditulis ing tuntutan hukum iki (Singel 2009) :
"Data ovie lan rating ngandhut informasi sing ... banget pribadi lan sensitif. Data film anggota nyedhiyakake kepentingan pribadi Netflix lan / utawa perjuangan kanthi maneka warna masalah pribadi, kalebu seksualitas, penyakit mental, pemulihan saka alkoholisme, lan pambedaan saka incest, penyalahgunaan fisik, kekerasan rumah tangga, jina, lan rudo pekso. "
Conto iki nuduhake yen ana informasi sing ditrapake dening sawetara wong sing sensitif ing babagan apa sing bisa katon dadi basis data jinak. Luwih, nuduhake yen pertahanan utama sing paniti panitia kanggo nglindhungi data-de-identifikasi sensitif-bisa gagal kanthi cara sing nggumunake. Iki loro gagasan dikembangake kanthi luwih rinci ing bab 6.
Bab sing pungkasan kanggo mbudidaya babagan data sing sensitif yaiku ngumpetake tanpa persetujuan wong ningkatake pitakonan sing sopan, sanajan ora ana bebaya tartamtu. Kathah manawa nonton wong sing njupuk udhara tanpa idin kasebut bisa dianggep minangka nglanggar privasi wong kasebut, ngempalaken informasi sing sensitif-lan elinga carane bisa kanggo nemtokake apa sing sensitif-tanpa idin nyiptakake masalah privasi potensial. Aku bakal bali menyang pitakonan babagan privasi ing bab 6.
Ing kesimpulan, sumber data gedhe, kayata cathetan administratif lan bisnis, ora umum digawé kanggo tujuan riset sosial. Sumber data sing gedhe ing dina iki, lan kemungkinan sesuk, cenderung duwe 10 karakteristik. Akeh situs sing umum dianggep apik kanggo riset-gedhe, tansah-on, lan nonreactive-teka saka kasunyatan ing perusahaan umur digital lan pemerintah bisa ngumpulake data ing skala sing ora bisa dicithak sadurunge. Lan akeh sifat sing biasane dianggep ala kanggo riset-ora lengkap, ora bisa diakses, ora diwenehi persepsi, mabur, sacara algoritma dikalahake, ora bisa diakses, kotor, lan sensitif-amarga saka data kasebut ora dikumpulake dening peneliti kanggo peneliti. Dadi, aku wis ngobrol babagan data pemerintah lan bisnis bebarengan, nanging ana sawetara beda antarane loro. Ing pengalaman saya, data pemerintah cenderung kurang perwakilan, kurang algorithmically confounded, lan kurang drifting. Siji tangan liyane, cathetan administratif bisnis cenderung dadi luwih gampang. Ngerteni 10 ciri umum iki minangka langkah pisanan sing mbiyantu kanggo sinau saka sumber data gedhe. Lan saiki, kita bisa dadi strategi riset sing bisa digunakake karo data iki.