Sababaraha informasi nu pausahaan jeung pamaréntah boga sensitip.
pausahaan asuransi Kaséhatan geus wincikan informasi ngeunaan miara médis ditampi ku konsumén maranéhanana. Inpo ieu bisa dianggo pikeun panalungtikan penting ngeunaan kaséhatan, tapi lamun eta janten publik, éta berpotensi ngabalukarkeun ngarugikeun emosi (misalna isin) atawa cilaka ékonomi (misalna leungitna pagawean). Loba sumber data badag lianna ogé mibanda émbaran nu sensitif, nu mangrupa bagian tina alesan naha aranjeunna mindeng inaccessible.
Hanjakal, tétéla janten rada tricky mutuskeun naon informasi sabenerna sénsitip (Ohm 2015) , salaku ieu gambar ku Hadiah Netflix. Salaku I bakal ngajelaskeun dina bab 5, taun 2006 Netflix dileupaskeun 100 juta ratings pilem disadiakeun ku ampir 500.000 anggota sarta miboga hiji panggero kabuka mana jalma ti sakuliah dunya dikintunkeun algoritma anu bisa ningkatkeun kabisa Netflix pikeun nyarankeun pilem. Méméh ngaleupaskeun data, Netflix dihapus informasi identifying pribadi sagala atra, kayaning ngaran. Tapi, ngan dua minggu sanggeus data dirilis Arvind Narayanan na Vitaly Shmatikov (2008) némbongkeun yén ieu mungkin ngalenyepan ratings pilem jalma husus urang maké trik nu kuring gé nunjukkeun anjeun surah 6. Sanajan hiji lawan bisa manggihan hiji ratings pilem jalma, aya kénéh teu sigana nanaon sénsitip dieu. Bari anu bisa jadi leres sacara umum, pikeun sahenteuna sababaraha 500.000 jalma di dataset nu, ratings pilem éta sénsitip. Malah dina respon kana sékrési jeung ulang idéntifikasi tina data, hiji awéwé lesbian closeted ngagabung a jas kelas-aksi ngalawan Netflix. Di dieu nu kumaha masalah ieu diwujudkeun dina gugatan kieu (Singel 2009) :
"[M] ovie na rating data ngandung émbaran ngeunaan hiji ... kacida pribadi tur sénsitip alam. data pilem anggota sacara ngungkabkeun kapentingan pribadi hiji anggota Netflix urang jeung / atawa struggles jeung sagala rupa isu kacida pribadi, kaasup seksualitas, geringna mental, recovery ti alkohol, sarta victimization ti incest, nyiksa fisik, kekerasan domestik, zinah, sareng perkosa ".
Contona kieu nunjukeun yen aya tiasa informasi yén sababaraha urang nganggap sénsitip jero ngeunaan naon bisa muncul janten database benign. Salajengna, eta nunjukeun yen nu pertahanan utama anu peneliti employ ngajaga sénsitip data-de-idéntifikasi-bisa gagal dina cara héran. Dua pamanggih anu dimekarkeun di gede jéntré dina bab 6.
Hal final tetep dina pikiran ngeunaan data sénsitip éta ngumpulkeun deui tanpa idin masarakat raises patarosan etika, sanajan henteu ngarugikeun husus disababkeun. Loba keneh ningali batur nyokot pancuran tanpa idin maranéhanana bisa dianggap hiji palanggaran privasi yén jalma, ngumpulkeun sénsitip informasi-na apal sabaraha teuas bisa mutuskeun naon anu sénsitip-tanpa idin nyiptakeun masalah privasi poténsial. Kuring gé balik deui ka patarosan ngeunaan privasi dina bab 6.
Dina kacindekan, sumber data badag, kayaning rékaman administrasi pamaréntah jeung bisnis, umumna henteu dijieun pikeun tujuan panalungtikan sosial. Sumber data badag tina dinten, sarta dipikaresep isukan, condong mibanda 10 ciri. Loba sipat nu umumna dianggap alus pikeun panalungtikan-badag, salawasna-on, sarta nonreactive-datangna tina kanyataan di pausahaan umur digital sarta pamaréntah anu bisa ngumpulkeun data dina skala anu teu mungkin saméméhna. Sarta loba sipat nu umumna dianggap goréng pikeun panalungtikan-lengkep, inaccessible, nonrepresentative, drifting, algorithmically ngabingungkeun, inaccessible, kotor, jeung sénsitip-datangna tina kanyataan yen data ieu teu dikumpulkeun ku peneliti pikeun peneliti. Sajauh, Kuring geus dikaitkeun pamaréntah jeung bisnis data ngumpul, tapi aya sababaraha beda antara dua. Dina pangalaman kuring, data pamaréntah nuju janten kirang nonrepresentative, kirang algorithmically ngabingungkeun, sarta kirang drifting. Hiji sisi séjén, rékaman administrasi bisnis condong jadi leuwih salawasna-on. Ngarti 10 ciri umum ieu téh mantuan hambalan kahiji nuju diajar ti sumber data badag. Tur ayeuna urang balikkeun panalungtikan strategi urang tiasa nganggo sareng data ieu.