Ang ilan sa mga impormasyon na mga kumpanya at mga pamahalaan ay may ay sensitibo.
Ang mga kompanya ng seguro sa kalusugan ay may detalyadong impormasyon tungkol sa pangangalagang medikal na natanggap ng kanilang mga customer. Ang impormasyong ito ay maaaring gamitin para sa mahalagang pananaliksik tungkol sa kalusugan, ngunit kung ito ay naging pampubliko, ito ay maaaring magdulot ng pinsala sa emosyon (hal., Kahihiyan) o pinsala sa ekonomiya (hal., Pagkawala ng trabaho). Maraming iba pang malalaking pinagmumulan ng data ay mayroon ding impormasyon na sensitibo , na kung saan ay bahagi ng dahilan kung bakit sila ay madalas na hindi maa-access.
Sa kasamaang palad, lumiliko ito upang maging mahirap upang magpasya kung anong impormasyon ay aktwal na sensitibo (Ohm 2015) , tulad ng inilalarawan ng Netflix Prize. Tulad ng ilalarawan ko sa kabanata 5, noong 2006 Netflix ay naglabas ng 100 milyong rating ng pelikula na ibinigay ng halos 500,000 miyembro at nagkaroon ng bukas na tawag kung saan ang mga tao mula sa buong mundo ay nagsumite ng mga algorithm na maaaring mapabuti ang kakayahan ng Netflix na magrekomenda ng mga pelikula. Bago ilabas ang data, inalis ng Netflix ang anumang halatang personal na pagkilala ng impormasyon, tulad ng mga pangalan. Ngunit, dalawang linggo lamang matapos maalis ang data na sina Arvind Narayanan at Vitaly Shmatikov (2008) nagpakita na posible na matutunan ang tungkol sa mga rating ng mga tiyak na tao na gumagamit ng trick na ipapakita ko sa iyo sa kabanata 6. Kahit na ang isang magsasalakay ay maaaring matuklasan ang isang rating ng pelikula ng tao, diyan ay hindi mukhang anumang sensitibo dito. Bagaman maaaring totoo ito sa pangkalahatan, para sa hindi bababa sa ilan sa 500,000 katao sa dataset, ang mga rating ng pelikula ay sensitibo. Sa katunayan, bilang tugon sa pag-release at muling pagkilala ng data, ang isang nakasarang lesbian na babae ay sumali sa isang suit ng class-action laban sa Netflix. Narito kung paano ipinahayag ang problema sa kasong ito (Singel 2009) :
"Ang data ng ovie at rating ay naglalaman ng impormasyon ng isang ... lubos na personal at sensitibong kalikasan. Ang data ng pelikula ng miyembro ay nagbubunyag ng personal na interes at / o pakikibaka ng miyembro ng Netflix na may iba't ibang mga personal na isyu, kabilang ang sekswalidad, sakit sa isip, pagbawi mula sa alkoholismo, at pagbibiktima mula sa incest, pisikal na pang-aabuso, karahasan sa tahanan, pangangalunya, at panggagahasa.
Ipinakikita ng halimbawang ito na maaaring magkaroon ng impormasyon na itinuturing ng ilang tao na sensitibo sa loob ng kung ano ang maaaring lumitaw na isang mabait na database. Dagdag dito, nagpapakita na ang isang pangunahing depensa na ginagamit ng mga mananaliksik upang maprotektahan ang sensitibong data-de-identification-ay maaaring mabigo sa nakakagulat na mga paraan. Ang dalawang ideya na ito ay binuo nang mas detalyado sa kabanata 6.
Ang pangwakas na bagay na dapat tandaan tungkol sa sensitibong data ay ang pagkolekta ng mga ito nang walang pagsang-ayon ng mga tao ay nagtataas ng mga etikal na tanong, kahit na walang partikular na pinsala ang sanhi. Tulad ng pagmamasid sa isang tao na nag-shower nang wala ang kanilang pahintulot ay maaaring isaalang-alang na isang paglabag sa privacy ng taong iyon, pagkolekta ng sensitibong impormasyon-at tandaan kung gaano kahirap ito upang magpasya kung ano ang sensitibo-nang walang pahintulot ay lumilikha ng mga potensyal na alalahanin sa pagkapribado. Babalik ako sa mga tanong tungkol sa privacy sa kabanata 6.
Sa konklusyon, ang mga malaking mapagkukunan ng data, tulad ng mga rekord ng pamahalaan at negosyo, ay karaniwang hindi nilikha para sa layunin ng panlipunang pananaliksik. Ang malaking pinagkukunan ng data ng ngayon, at malamang bukas, ay may posibilidad na magkaroon ng 10 mga katangian. Marami sa mga pag-aari na sa pangkalahatan ay itinuturing na mabuti para sa pananaliksik-malaki, palagi, at di-aktibo-nagmula sa katunayan sa mga digital age company at ang mga pamahalaan ay maaaring mangolekta ng data sa sukat na hindi posible dati. At marami sa mga pag-aari na sa pangkalahatan ay itinuturing na masama para sa pagsasaliksik-hindi kumpleto, hindi naa-access, hindi hinahataan, pag-anod, nakakalito sa algorithm, hindi naa-access, marumi, at sensitibo-nagmumula sa katunayan na ang mga datos na ito ay hindi nakolekta ng mga mananaliksik para sa mga mananaliksik. Sa ngayon, pinag-usapan ko ang data ng pamahalaan at negosyo nang magkasama, ngunit may ilang mga pagkakaiba sa pagitan ng dalawa. Sa aking karanasan, ang data ng gobyerno ay may kaugaliang hindi gaanong kinatawan, mas kakaiba sa algorithm, at hindi gaanong pag-anod. Isa sa iba pang mga kamay, ang mga talaan ng pang-administratibo ng negosyo ay may posibilidad na maging mas laging. Ang pag-unawa sa mga 10 pangkalahatang katangian ay isang kapaki-pakinabang na unang hakbang patungo sa pag-aaral mula sa mga malalaking pinagmumulan ng data. At ngayon bumaling kami sa mga diskarte sa pananaliksik na maaari naming gamitin sa data na ito.