Ang impormasyong panganib ay ang pinakakaraniwang panganib sa panlipunang pananaliksik; ito ay dumami nang malaki; at ito ang pinakamahirap na panganib na maunawaan.
Ang pangalawang etikal na hamon para sa digital-age research ay panganib sa impormasyon , ang potensyal para sa pinsala mula sa pagsisiwalat ng impormasyon (National Research Council 2014) . Ang impormasyong pinsala mula sa pagsisiwalat ng personal na impormasyon ay maaaring maging pang-ekonomiya (hal., Pagkawala ng trabaho), panlipunan (hal., Kahihiyan), sikolohikal (hal., Depression), o kahit kriminal (hal., Pag-aresto para sa iligal na pag-uugali). Sa kasamaang palad, ang digital age ay nagdaragdag ng kapansanan sa impormasyon na may kapansin-pansin-may higit pang impormasyon lamang tungkol sa aming pag-uugali. At ang panganib sa impormasyon ay napatunayan na napakahirap maintindihan at pamahalaan kung ihahambing sa mga panganib na mga alalahanin sa panlipunang pananaliksik na panitikan, tulad ng pisikal na panganib.
Ang isang paraan na ang social mananaliksik bawasan pang-impormasyon panganib ay "anonymization" ng data. "Anonymization" ay ang proseso ng pagtanggal halata personal na tagapagkilala tulad ng pangalan, address, at numero ng telepono mula sa data. Gayunman, ang paraan na ito ay lubhang mas mababa mabisa kaysa sa maraming mga tao mapagtanto, at ito ay, sa katunayan, malalim at sa panimula limitado. Para sa kadahilanang iyon, sa tuwing ilarawan ko "anonymization," Kukunin ko gamitin panipi upang ipaalala sa iyo na ang prosesong ito ay lumilikha ng anyo ng pagkawala ng lagda ngunit hindi tunay na pagkawala ng lagda.
Ang isang malinaw na halimbawa ng kabiguan ng "anonymization" ay mula sa huli 1990s sa Massachusetts (Sweeney 2002) . Ang Group Insurance Commission (GIC) ay isang ahensya ng gobyerno na responsable sa pagbili ng segurong pangkalusugan para sa lahat ng empleyado ng estado. Sa pamamagitan ng gawaing ito, nakolekta ng GIC ang detalyadong talaan ng kalusugan tungkol sa libu-libong empleyado ng estado. Sa pagsisikap na mag-udyok ng pananaliksik, nagpasya ang GIC na palayain ang mga talang ito sa mga mananaliksik. Gayunpaman, hindi nila ibinahagi ang lahat ng kanilang data; sa halip, sila ay "hindi nakikilala" sa mga datos na ito sa pamamagitan ng pag-alis ng impormasyon tulad ng mga pangalan at address. Gayunpaman, iniwan nila ang iba pang impormasyon na sa tingin nila ay kapaki-pakinabang para sa mga mananaliksik tulad ng demographic information (zip code, petsa ng kapanganakan, etnikidad, at sex) at medikal na impormasyon (bisitahin ang data, diagnosis, pamamaraan) (figure 6.4) (Ohm 2010) . Sa kasamaang palad, hindi sapat ang "anonymization" na protektahan ang data.
Upang ilarawan ang mga pagkukulang ng "anonymization" ng GIC, si Latanya Sweeney-isang mag-aaral na nagtapos sa MIT-bayad na $ 20 upang makuha ang mga rekord sa pagboto mula sa lungsod ng Cambridge, ang bayan ng Massachusetts na gobernador na si William Weld. Kasama sa mga talaan ng pagboto na ito ang impormasyon tulad ng pangalan, address, zip code, petsa ng kapanganakan, at kasarian. Ang katotohanan na ang medikal na data file at ang file ng botante ay nagbahagi ng mga patlang-zip code, petsa ng kapanganakan, at sex-ibig sabihin na maaaring maugnay ni Sweeney ang mga ito. Alam ni Sweeney na ang kaarawan ni Weld ay Hulyo 31, 1945, at ang mga tala ng pagboto ay kasama lamang ng anim na tao sa Cambridge sa kaarawan na iyon. Dagdag dito, sa anim na mga tao, tatlo lamang ang lalaki. At, sa tatlong lalaking iyon, isa lamang ang ibinahagi ang zip code ng Weld. Sa gayon, ipinakita ng datos sa pagboto na ang sinuman sa data ng medikal na may kumbinasyon ng petsa, kasarian, at zip code ng Weld ay si William Weld. Sa diwa, ang tatlong piraso ng impormasyon ay nagbibigay ng isang natatanging tatak ng daliri sa kanya sa data. Gamit ang katotohanang ito, nakuha ni Sweeney ang mga rekord ng medikal na Weld, at, upang ipaalam sa kanya ang kanyang gawa, siya ay nagpapadala sa kanya ng isang kopya ng kanyang mga rekord (Ohm 2010) .
Ang gawa ni Sweeney ay naglalarawan ng pangunahing istraktura ng mga pag -atake sa muling pagkakakilanlan -upang magpatibay ng isang termino mula sa komunidad ng seguridad ng computer. Sa mga pag-atake na ito, dalawang hanay ng data, alinman sa kung saan mismo ay nagpapakita ng sensitibong impormasyon, naka-link, at sa pamamagitan ng linkage na ito, ang sensitibong impormasyon ay nailantad.
Bilang tugon sa trabaho ni Sweeney, at iba pang kaugnay na trabaho, ang mga mananaliksik ngayon ay karaniwang nag-aalis ng mas maraming impormasyon-ang lahat ng tinatawag na "personal identifying information" (PII) (Narayanan and Shmatikov 2010) -dara sa proseso ng "anonymization." ngayon ay napagtanto na ang ilang mga data-tulad ng mga rekord ng medikal, mga rekord sa pananalapi, mga sagot sa mga katanungan sa survey tungkol sa iligal na pag-uugali-ay malamang na sensitibo sa paglabas kahit na pagkatapos ng "anonymization." Gayunman, ang mga halimbawa na aking ibibigay ay magmungkahi na kailangan ng mga social researcher upang baguhin ang kanilang pag-iisip. Bilang isang unang hakbang, matalino na ipalagay na ang lahat ng data ay maaaring makilala at ang lahat ng data ay potensyal na sensitibo. Sa madaling salita, sa halip na iniisip na ang peligro sa impormasyon ay nalalapat sa isang maliit na subset ng mga proyekto, dapat nating isipin na naaangkop ito-sa ilang antas-sa lahat ng mga proyekto.
Ang parehong aspeto ng reorientation na ito ay inilarawan ng Netflix Prize. Tulad ng inilarawan sa kabanata 5, ang Netflix ay naglabas ng 100 milyong rating ng pelikula na ibinigay ng halos 500,000 miyembro, at nagkaroon ng bukas na tawag kung saan ang mga tao mula sa buong mundo ay nagsumite ng mga algorithm na maaaring mapabuti ang kakayahan ng Netflix na magrekomenda ng mga pelikula. Bago ilabas ang data, inalis ng Netflix ang anumang halatang personal na pagkilala ng impormasyon, tulad ng mga pangalan. Nagpunta rin sila ng dagdag na hakbang at ipinakilala ang kaunting pag-uugali sa ilang mga tala (hal., Nagbabago ng ilang mga rating mula sa 4 na bituin hanggang 3 bituin). Gayunpaman, natuklasan nila na sa kabila ng kanilang mga pagsisikap, ang data ay hindi pa rin nakikilala.
Dalawang linggo lamang matapos maalis ang data, sina Arvind Narayanan at Vitaly Shmatikov (2008) nagpakita na posible na matutunan ang tungkol sa mga kagustuhan ng mga tiyak na tao sa pelikula. Ang lansihin sa kanilang pag-atake sa muling pagkilala ay katulad ng Sweeney's: pagsamahin ang dalawang pinagmumulan ng impormasyon, ang isa na may potensyal na sensitibong impormasyon at walang malinaw na pagkilala ng impormasyon at isa na naglalaman ng mga pagkakakilanlan ng mga tao. Ang bawat isa sa mga pinagmumulan ng data ay maaaring ligtas sa isa-isa, ngunit kapag sila ay pinagsama, ang pinagtibay na dataset ay maaaring lumikha ng panganib sa impormasyon. Sa kaso ng data ng Netflix, narito kung paano ito mangyayari. Isipin na pinili kong ibahagi ang aking mga saloobin tungkol sa aksyon at komedya ng mga pelikula sa aking mga katrabaho, ngunit hindi ko gustong ibahagi ang aking opinyon tungkol sa mga pelikula sa relihiyon at pampulitika. Maaaring gamitin ng mga katrabaho ko ang impormasyon na aking ibinahagi sa kanila upang mahanap ang aking mga tala sa data ng Netflix; ang impormasyong ibinabahagi ko ay maaaring maging isang natatanging tatak ng daliri tulad ng petsa ng kapanganakan ni William Weld, zip code, at sex. Pagkatapos, kung nakita nila ang aking natatanging tatak ng daliri sa data, maaari nilang matutunan ang aking mga rating tungkol sa lahat ng mga pelikula, kabilang ang mga pelikula na pinipili kong huwag ibahagi. Bilang karagdagan sa ganitong uri ng naka-target na atake na nakatutok sa isang tao, ipinakita rin ni Narayanan at Shmatikov na posibleng gumawa ng malawak na pag-atake -na kinasasangkutan ng maraming tao-sa pamamagitan ng pagsasama ng datos ng Netflix sa data ng rating ng personal at pelikula na pinipili ng ilang tao mag-post sa Internet Movie Database (IMDb). Medyo simple, ang anumang impormasyon na isang natatanging tatak ng daliri sa isang partikular na tao-kahit na ang kanilang hanay ng mga rating ng pelikula-ay magagamit upang kilalanin ang mga ito.
Kahit na ang Netflix data ay maaaring muling tukuyin sa alinman sa isang naka-target o malawak na pag-atake, maaaring pa rin itong lumitaw na mababa ang panganib. Pagkatapos ng lahat, ang mga rating ng pelikula ay hindi masyadong sensitibo. Bagaman maaaring totoo sa pangkalahatan, para sa ilan sa 500,000 katao sa dataset, ang mga rating ng pelikula ay maaaring maging sensitibo. Sa katunayan, bilang tugon sa re-identification, isang nakasarang lesbian na babae ang sumali sa isang suit ng class-action laban sa Netflix. Narito kung paano ipinahayag ang problema sa kanilang demanda (Singel 2009) :
"Ang data ng ovie at rating ay naglalaman ng impormasyon ng isang ... lubos na personal at sensitibong kalikasan. Ang data ng pelikula ng miyembro ay nagbubunyag ng personal na interes at / o pakikibaka ng miyembro ng Netflix na may iba't ibang mga personal na isyu, kabilang ang sekswalidad, sakit sa isip, pagbawi mula sa alkoholismo, at pagbibiktima mula sa incest, pisikal na pang-aabuso, karahasan sa tahanan, pangangalunya, at panggagahasa.
Ang muling pagkakakilanlan ng data ng Netflix Prize ay nagpapakita na ang lahat ng data ay maaaring makilala at ang lahat ng data ay maaaring sensitibo. Sa puntong ito, maaari mong isipin na ito ay nalalapat lamang sa data na nagmumungkahi na tungkol sa mga tao. Nakakagulat na hindi iyon ang kaso. Bilang tugon sa kahilingan ng Freedom of Information Law, ang New York City Government ay naglabas ng mga rekord ng bawat biyahe sa taxi sa New York noong 2013, kabilang ang pickup at drop off beses, lokasyon, at halaga ng pamasahe (pagpapabalik mula sa kabanata 2 na Farber (2015) ginamit ang katulad na data upang subukan ang mga mahahalagang teorya sa ekonomiya ng paggawa). Ang mga data na ito tungkol sa mga taxi trip ay maaaring mukhang benign dahil hindi sila mukhang magbigay ng impormasyon tungkol sa mga tao, ngunit nalaman ni Anthony Tockar na ang dataset ng taxi na ito ay naglalaman ng maraming potensyal na sensitibong impormasyon tungkol sa mga tao. Upang ilarawan, tumingin siya sa lahat ng mga biyahe na nagsisimula sa Hustler Club-isang malaking strip club sa New York-pagitan ng hatinggabi at alas-6 ng umaga at pagkatapos ay natagpuan ang kanilang mga drop-off na lokasyon. Ang paghahanap na ito ay nagsiwalat-sa esensya-isang listahan ng mga address ng ilang mga tao na madalas na (Tockar 2014) sa Hustler Club (Tockar 2014) . Mahirap isipin na ang nasa isip ng gobyerno ng lungsod kapag inilabas nito ang data. Sa katunayan, ang parehong pamamaraan na ito ay maaaring magamit upang mahanap ang mga address sa bahay ng mga tao na bisitahin ang anumang lugar sa lungsod-isang medikal na klinika, isang gusali ng pamahalaan, o isang relihiyosong institusyon.
Ang dalawang kaso ng Netflix Prize at ang data ng taxi ng New York City ay nagpapakita na ang mga medyo skilled tao ay maaaring mabigo sa wastong pagtatantya ng panganib sa impormasyon sa mga datos na ilalabas nila-at ang mga kasong ito ay walang (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Dagdag pa, sa maraming ganitong mga kaso, ang problemadong data ay libre pa rin sa online, na nagpapahiwatig ng kahirapan sa pagbubuwag ng data. Sama-samang, ang mga halimbawang ito-pati na rin ang pananaliksik sa agham ng computer tungkol sa pagkapribado-ay humantong sa isang mahalagang konklusyon. Dapat ipagpalagay ng mga mananaliksik na ang lahat ng data ay maaaring makilala at ang lahat ng data ay potensyal na sensitibo.
Sa kasamaang palad, walang simpleng solusyon sa mga katotohanan na ang lahat ng data ay potensyal na makikilala at ang lahat ng data ay potensyal na sensitibo. Gayunpaman, ang isang paraan upang mabawasan ang panganib sa impormasyon habang nagtatrabaho ka sa data ay upang lumikha at sumunod sa isang planong proteksyon ng data . Ang planong ito ay magbabawas ng pagkakataon na ang iyong data ay tumagas at babawasan ang pinsala kung ang isang tumagas ay nagaganap sa anuman. Ang mga pagtutukoy ng mga plano sa proteksyon ng data, tulad ng anyo ng pag-encrypt na gagamitin, ay magbabago sa paglipas ng panahon, ngunit ang Data Services ng UK ay nakatutulong sa pag-aayos ng mga elemento ng isang planong proteksyon ng data sa limang kategorya na tinatawag nilang limang safes : mga ligtas na proyekto, mga ligtas na tao , mga ligtas na setting, ligtas na data, at mga ligtas na output (talahanayan 6.2) (Desai, Ritchie, and Welpton 2016) . Wala sa limang safes ang isa-isa ay nagbibigay ng perpektong proteksyon. Ngunit sama-sama sila ay bumubuo ng isang malakas na hanay ng mga kadahilanan na maaaring bawasan ang panganib sa impormasyon.
Ligtas | Aksyon |
---|---|
Mga ligtas na proyekto | Nagtatakda ng mga proyekto na may data sa mga etikal |
Ligtas na mga tao | Ang access ay limitado sa mga tao na maaaring mapagkakatiwalaan sa data (hal., Mga tao na sumailalim sa etikal na pagsasanay) |
Ligtas na data | Ang data ay tinukoy at pinagsama-sama hangga't maaari |
Mga ligtas na setting | Ang data ay naka-imbak sa mga computer na may naaangkop na pisikal (halimbawa, naka-lock na kuwarto) at software (hal., Proteksyon ng password, naka-encrypt) na proteksyon |
Ligtas na output | Ang resulta ng pananaliksik ay sinusuri upang maiwasan ang mga hindi sinasadya na mga paglabag sa privacy |
Bilang karagdagan sa pagprotekta sa iyong data habang ginagamit mo ang mga ito, isang hakbang sa proseso ng pananaliksik kung saan ang panganib sa impormasyon ay partikular na kapansin-pansin ay ang pagbabahagi ng data sa iba pang mga mananaliksik. Ang pagbabahagi ng data sa mga siyentipiko ay isang pangunahing halaga ng pang-agham na pagsisikap, at lubos na pinapadali nito ang pagsulong ng kaalaman. Narito kung paano inilarawan ng UK House of Commons ang kahalagahan ng pagbabahagi ng data (Molloy 2011) :
"Ang pag-access sa data ay napakahalaga kung ang mga mananaliksik ay magpaparami, magpatunay at magtayo sa mga resulta na iniulat sa panitikan. Ang paniniwala ay dapat na, maliban kung may isang malakas na dahilan kung hindi man, ang data ay dapat na lubusang isiwalat at magagamit sa publiko. "
Gayunpaman, sa pamamagitan ng pagbabahagi ng iyong data sa isa pang mananaliksik, maaari mong dagdagan ang panganib sa impormasyon sa iyong mga kalahok. Kaya, maaaring mukhang ang pagbabahagi ng data ay lumilikha ng isang pangunahing pag-igting sa pagitan ng obligasyon na ibahagi ang data sa ibang mga siyentipiko at ang obligasyon upang mabawasan ang panganib sa impormasyon sa mga kalahok. Sa kabutihang palad, ang suliraning ito ay hindi kasing dami ng lumilitaw. Sa halip, mas mahusay na mag-isip tungkol sa pagbabahagi ng data na bumabagsak sa isang continuum, sa bawat punto sa patuloy na pagbibigay ng iba't ibang halo ng mga benepisyo sa lipunan at panganib sa mga kalahok (figure 6.6).
Sa isang sukdulan, maaari mong ibahagi ang iyong data nang walang sinuman, na nagpapahina sa panganib sa mga kalahok ngunit pinabababa din ang mga kita sa lipunan. Sa iba pang mga labis, maaari mong ilabas at kalimutan , kung saan ang data ay "hindi kilala" at nai-post para sa lahat. Kaugnay sa hindi pagpapalabas ng data, ang release at forget ay nagbibigay ng parehong mas mataas na benepisyo sa lipunan at mas mataas na panganib sa mga kalahok. Sa pagitan ng dalawang malubhang kaso na ito ay isang hanay ng mga hybrids, kabilang ang kung ano ang tatawag ako sa isang napapaderan na diskarte sa hardin . Sa ilalim ng diskarte na ito, ibinabahagi ang data sa mga taong nakakatugon sa ilang pamantayan at sinang-ayunan na nakagapos sa ilang mga alituntunin (halimbawa, pangangasiwa mula sa isang IRB at isang planong proteksyon ng data). Ang napapaderan na diskarte hardin ay nagbibigay ng maraming mga benepisyo ng release at kalimutan na may mas kaunting panganib. Siyempre, ang ganitong paraan ay lumilikha ng maraming mga katanungan-sino ang dapat magkaroon ng access, sa ilalim ng kung ano ang mga kondisyon, at kung gaano katagal, sino ang dapat magbayad upang mapanatili at pulisya ang napapaderan na hardin, atbp-ngunit hindi ito malulutas. Sa katunayan, mayroon nang mga nagtatrabaho na may pader na mga hardin sa lugar na magagamit ng mga mananaliksik sa ngayon, tulad ng data archive ng Inter-unibersidad Consortium para sa Pampulitika at Panlipunan Research sa University of Michigan.
Kaya, kung saan dapat ang data mula sa iyong pag-aaral maging sa continuum ng walang pagbabahagi, napapaderan hardin, at release at kalimutan? Depende ito sa mga detalye ng iyong data: dapat na balansehin ng mga mananaliksik ang Paggalang sa mga Tao, Paggamit, Katarungan, at Paggalang sa Batas at Pampublikong Interes. Tiningnan mula sa pananaw na ito, pagbabahagi ng data ay hindi isang natatanging etikal na palaisipan; ito ay isa lamang sa maraming mga aspeto ng pananaliksik kung saan ang mga mananaliksik ay may upang mahanap ang isang angkop na etikal na balanse.
Ang ilang mga kritiko sa pangkalahatan ay sumasalungat sa pagbabahagi ng data dahil, sa aking opinyon, sila ay nakatuon sa mga panganib nito-na walang alinlangang tunay-at binabalewala ang mga benepisyo nito. Kaya, upang hikayatin ang pagtuon sa parehong mga panganib at mga benepisyo, nais kong mag-alok ng isang pagkakatulad. Bawat taon, ang mga kotse ay may pananagutan sa libu-libong pagkamatay, ngunit hindi namin sinubukan na ipagbawal ang pagmamaneho. Sa katunayan, ang isang tawag sa pagbabawal sa pagmamaneho ay walang katotohanan dahil ang pagmamaneho ay nagbibigay-daan sa maraming magagandang bagay. Sa halip, ang mga lipunan ay naglalagay ng mga paghihigpit sa kung sino ang makapag-drive (hal., Ang pangangailangan na maging isang tiyak na edad at pumasa sa ilang mga pagsubok) at kung paano sila makapag-drive (halimbawa, sa ilalim ng limitasyon ng bilis). Ang Kapisanan ay may mga tao na may katungkulan sa pagpapatupad ng mga patakarang ito (halimbawa, pulisya), at pinarusahan natin ang mga taong nahuli na lumabag sa kanila. Ang parehong uri ng balanseng pag-iisip na nalalapat ng lipunan sa pag-uugnay sa pagmamaneho ay maaari ring mailapat sa pagbabahagi ng data. Ibig sabihin, sa halip na gumawa ng mga argumento ng absolutistang para sa o laban sa pagbabahagi ng data, sa palagay ko gagawin namin ang pinaka-progreso sa pamamagitan ng pagtuon kung paano namin mababawasan ang mga panganib at dagdagan ang mga benepisyo mula sa pagbabahagi ng data.
Upang tapusin, ang panganib sa impormasyon ay dumami nang malaki, at napakahirap na mahulaan at mabilang. Samakatuwid, pinakamahusay na ipalagay na ang lahat ng data ay maaaring makilala at potensyal na sensitibo. Upang mabawasan ang panganib sa impormasyon habang gumagawa ng pananaliksik, ang mga mananaliksik ay maaaring lumikha at sumunod sa isang plano ng proteksyon ng data. Dagdag pa, ang panganib sa impormasyon ay hindi pumipigil sa mga mananaliksik mula sa pagbabahagi ng data sa iba pang mga siyentipiko.