Impormasyon panganib ay ang pinaka-karaniwang panganib sa panlipunang pananaliksik; ito ay nadagdagan dramatically; at ito ay ang hardest panganib upang maunawaan.
Ang ikalawang etikal hamon para sa mga social edad digital pananaliksik ay pang-impormasyon panganib, ang mga potensyal na para sa pinsala mula sa pagsisiwalat ng impormasyon (Council 2014) . Na nagbibigay-kaalaman harms mula sa pagsisiwalat ng personal na impormasyon ay maaaring maging pang-ekonomiya (eg, ang pagkawala ng trabaho), social (eg, kahihiyan), sikolohikal (eg, depression), o kahit na kriminal (eg, pag-aresto para sa mga iligal na pag-uugali). Sa kasamaang palad, ang mga digital na edad ay nagdaragdag ng impormasyon panganib dramatically-doon ay lamang kaya marami sa karagdagang impormasyon tungkol sa aming pag-uugali. At, pang-impormasyon panganib ay napatunayang lubos na mahirap na maunawaan at pamahalaan kung ihahambing sa mga panganib na natural lang na mabahala sa analog edad panlipunan pananaliksik, tulad ng mga pisikal na panganib. Upang makita kung paano ang mga digital na edad ay nagdaragdag kaalaman panganib, isaalang-alang ang paglipat mula sa papel sa electronic medikal na talaan. Ang parehong mga uri ng mga talaan lumikha panganib, ngunit ang electronic records lumikha mas higit na panganib dahil sa isang napakalaking sukat sila ay ipinadala sa isang hindi awtorisadong partido o ipinagsama sa iba pang mga talaan. Social mananaliksik sa mga digital na edad ay may na tumakbo sa problema sa pang-impormasyon na panganib, sa bahagi dahil sila ay hindi lubos na maunawaan kung paano upang tumyak ng dami at pamahalaan ito. Kaya, ako pagpunta upang mag-alok ng isang kapaki-pakinabang na paraan upang isipin ang tungkol sa pang-impormasyon panganib, at pagkatapos ay ako pagpunta upang bigyan ka ng ilang mga payo para sa kung paano upang pamahalaan ang pang-impormasyon panganib sa iyong pananaliksik at sa releasing data sa iba pang mga mananaliksik.
Ang isang paraan na ang social mananaliksik bawasan pang-impormasyon panganib ay "anonymization" ng data. "Anonymization" ay ang proseso ng pagtanggal halata personal na tagapagkilala tulad ng pangalan, address, at numero ng telepono mula sa data. Gayunman, ang paraan na ito ay lubhang mas mababa mabisa kaysa sa maraming mga tao mapagtanto, at ito ay, sa katunayan, malalim at sa panimula limitado. Para sa kadahilanang iyon, sa tuwing ilarawan ko "anonymization," Kukunin ko gamitin panipi upang ipaalala sa iyo na ang prosesong ito ay lumilikha ng anyo ng pagkawala ng lagda ngunit hindi tunay na pagkawala ng lagda.
Isang matingkad na halimbawa ng kabiguan ng "anonymization" ay mula sa huli 1990s sa Massachusetts (Sweeney 2002) . Ang Group Insurance Commission (GIC) ay isang ahensiya ng gobyerno na responsable para sa pagbili ng health insurance para sa lahat ng mga empleyado ng estado. Sa pamamagitan ng akdang ito, ang GIC nakolekta detalyadong talaan sa kalusugan tungkol sa libu-libong mga empleyado ng estado. Sa isang pagsusumikap upang magsulong ng pananaliksik tungkol sa mga paraan upang mapabuti ang kalusugan, GIC nagpasya upang palabasin ang mga talang ito sa mga mananaliksik. Gayunman, hindi nila ibahagi ang lahat ng kanilang data; sa halip, sila ay "hindi kilala" ito sa pamamagitan ng pagtanggal ng impormasyon tulad ng pangalan at address. Gayunpaman, ay iniwan nila ang iba pang impormasyon na inisip nila ay maaaring maging kapaki-pakinabang para sa mga mananaliksik tulad ng demograpikong impormasyon (zip code, petsa ng kapanganakan, lahi, at kasarian) at medikal na impormasyon (pagbisita data, diagnosis, pamamaraan) (Figure 6.4) (Ohm 2010) . Sa kasamaang palad, ito "anonymization" ay hindi sapat upang protektahan ang data.
Upang ilarawan ang mga pagkukulang ng GIC "anonymization", Latanya Sweeney-pagkatapos ay isang nagtapos na estudyante sa MIT-bayad na $ 20 hanggang makakuha ng mga talaan ng pagboto mula sa lungsod ng Cambridge, ang bayan ng Massachusetts gobernador William Weld. Ang mga talaan ng pagboto kasama impormasyon tulad ng pangalan, address, zip code, petsa ng kapanganakan, at kasarian. Ang katotohanan na ang mga medikal na data ng file at ang botante file shared patlang-zip code, petsa ng kapanganakan, at sex-sinadya na Sweeney maaaring mag-link ang mga ito. Sweeney alam na birthday ni Weld ay Hulyo 31, 1945, at ang mga talaan ng pagboto kasama lamang anim na tao sa Cambridge na may birthday na. Dagdag dito, sa mga anim na tao, tatlong lamang ay mga lalaki. At, sa mga tatlong lalaking ito, isa lamang ibinahagi zip code ni Weld. Kaya, ang data sa pagboto ay nagpakita na ang sinuman sa mga medikal na data na may ni Weld kumbinasyon ng petsa ng kapanganakan, kasarian, at zip code ay William Weld. Sa kakanyahan, ang tatlong piraso ng impormasyon na ibinigay ng isang natatanging tatak ng daliri sa kaniya sa data. Paggamit ng ang katotohanang ito, Sweeney ay able sa hanapin ang mga medikal na talaan ni Weld, at upang ipaalam sa kanya ng kanyang feat, siya ipapadala sa kanya ng isang kopya ng kanyang mga talaan (Ohm 2010) .
Ni Sweeney work naglalarawan ng mga pangunahing istraktura ng pag-atake de-anonymization -para magpatibay isang kataga mula sa komunidad computer seguridad. Sa mga pag-atake, dalawang set ng data, ni ng kung saan sa pamamagitan ng mismo ay nagpapakita ng sensitibong impormasyon, ay naka-link, at sa pamamagitan linkage ito, sensitibong impormasyon ay nakalantad. Sa ilang mga paraan ang prosesong ito ay katulad sa paraan na pagluluto sa hurno soda at suka, dalawang mga sangkap na ay bukod ligtas, ay maaaring pinagsama upang makabuo ng isang pangit na kinalabasan.
Bilang tugon sa Sweeney trabaho, at iba pang kaugnay na gawain, mga mananaliksik ngayon sa pangkalahatan ay alisin marami sa karagdagang impormasyon-ang lahat ng kaya tinatawag na "Personal Pagkilala Information" (PII) (Narayanan and Shmatikov 2010) -Sa panahon ng proseso ng "anonymization." Dagdag dito, maraming mga mananaliksik ngayon mapagtanto na ang ilang mga data-tulad ng mga medikal na talaan, pinansiyal na mga rekord, mga sagot sa survey katanungan tungkol sa mga ilegal na pag-uugali-ay malamang na masyadong sensitibo sa release kahit na matapos "anonymization." Gayunman, higit pang mga kamakailang mga halimbawa na kukunin ko na ilarawan sa ibaba ay nagpapakita na ang mga social mga mananaliksik na kailangan upang baguhin ang kanilang pag-iisip. Bilang unang hakbang, ito ay matalino upang ipalagay na ang lahat ng data ay potensyal na makikilalang at ang lahat ng data ay potensyal na sensitive. Sa ibang salita, sa halip na pag-iisip na pang-impormasyon na panganib ay naaangkop sa isang maliit na subset ng mga proyekto, dapat naming ipagpalagay na ito ay sumasaklaw-sa ilang mga degree-to lahat ng mga proyekto.
Parehong mga aspeto ng ito re-orientation ay isinalarawan sa pamamagitan ng Netflix Prize. Tulad ng inilarawan sa Kabanata 5, Netflix inilabas 100 milyong mga rating ng pelikula na ibinigay sa pamamagitan ng halos 500,000 miyembro, at nagkaroon ng isang bukas na tawag kung saan ang mga tao mula sa buong mundo na isinumite algorithm na maaaring mapabuti ang Netflix kakayahan upang magrekomenda ng mga pelikula. Bago bitawan ang data, Netflix dahil anumang malinaw naman personal na nakakikilala impormasyon, tulad ng mga pangalan. Netflix ay sumuot ng dagdag na hakbang at ipinakilala bahagyang perturbations sa ilan sa mga talaan (eg, pagpapalit ng ilang mga rating mula sa 4 stars sa 3 bituin). Netflix lalong madaling panahon natuklasan, gayunpaman, na sa kabila ng kanilang mga pagsisikap, ang data ay sa pamamagitan ng walang ibig sabihin anonymous.
Lamang ng dalawang linggo pagkatapos ng data ay inilabas Narayanan and Shmatikov (2008) ay nagpakita na ito ay posible na malaman ang tungkol sa tiyak na mga tao ni kagustuhan pelikula. Ang bilis ng kamay sa kanilang pag-atake sa muling pagkilala ay katulad sa Sweeney ni: sumanib magkasama sa dalawang mga pinagkukunan ng impormasyon, ang isa na may potensyal na sensitibong impormasyon at walang alinlangan na impormasyon ng pagkakakilanlan at isa na naglalaman ng mga pagkakakilanlan ng mga tao. Bawat isa sa mga pinagmumulan ng data ay maaaring isa-isa ligtas, ngunit kapag sila ay pinagsama ang merged dataset maaaring lumikha impormasyon panganib. Sa kaso ng data Netflix, narito kung paano ito maaaring mangyari. Isipin na pinili ko upang ibahagi ang aking mga saloobin tungkol sa mga aksyon at comedy movies sa aking mga co-manggagawa, ngunit na Mas gusto ko na hindi ibahagi ang aking opinyon tungkol sa relihiyon at pampulitikang mga pelikula. My co-manggagawa ay maaaring gamitin ang impormasyon na ko na ibinahagi sa kanila upang mahanap ang aking mga talaan sa data Netflix; ang impormasyon na ako ay ibahagi ay maaaring isang natatanging fingerprint tulad ng petsa William Weld kapanganakan, zip code, at kasarian. Pagkatapos, kung makikita nila ang aking natatanging fingerprint sa data, maaari nilang malaman ang aking mga rating tungkol sa lahat ng mga pelikula, kabilang ang mga pelikula kung saan ako pumili ng hindi upang ibahagi. Bilang karagdagan sa ganitong uri ng naka-target na pag-atake na nakatutok sa isang solong tao, Narayanan and Shmatikov (2008) din ay nagpakita na ito ay posible na gawin ang isang malawak na pag-atake -one na kinasasangkutan ng maraming mga tao-sa pamamagitan ng pinagsasama ang data Netflix may mga personal at movie data rating na ang ilang mga tao na pinili upang mag-post sa Internet Movie Database (IMDb). Ang impormasyong may na ay natatangi fingerprint sa isang tiyak na tao-kahit ang kanilang mga hanay ng mga movie ratings-ay maaaring gamitin upang makilala ang mga ito.
Kahit na ang Netflix data maaaring muling kinilala sa alinman sa isang naka-target o malawak na pag-atake, ito pa rin ay maaaring lumitaw na maging mababa ang panganib. Matapos ang lahat, mga rating ng pelikula ay hindi tila napaka-sensitive. Habang na maaaring totoo sa pangkalahatan, para sa ilan sa 500,000 mga tao sa dataset, rating ng pelikula ay maaaring maging lubos na sensitive. Sa katunayan, bilang tugon sa mga de-anonymization isang closeted lesbian babae ay sumali sa isang klase-action suit laban Netflix. Narito kung paano ang problema ay ipinahayag sa kanilang demanda (Singel 2009) :
"[M] ovie at rating data ay naglalaman ng impormasyon ng isang mas mataas na personal at sensitibong kalikasan [sic]. data movie ng miyembro inilalantad personal na interes ng miyembro Netflix at / o struggles na may iba't ibang mataas na personal na mga isyu, kabilang iyag, sakit sa kaisipan, pagbawi mula sa alkoholismo, at pambibiktima mula incest, pananakit, karahasan sa tahanan, pangangalunya, at panggagahasa. "
Ang de-anonymization ng data Netflix Prize naglalarawan sa parehong na ang lahat ng data ay potensyal na nakakapagpakilalang at na ang lahat ng data ay potensyal na sensitive. Sa puntong ito, maaari mong isipin na ito ay akma lang sa data na na purports upang maging tungkol sa mga tao. Nakakagulat, na hindi ito ang kaso. Bilang tugon sa isang Freedom ng kahilingan Information Law, ang New York City Government inilabas records ng bawat biyahe sa taxi sa New York sa 2013, kabilang ang pickup at i-drop off oras, lokasyon, at pamasahe na halaga (pagpapabalik mula sa Chapter 2 na Farber (2015) ginagamit ang data na ito upang subukan ang mahalagang theories sa labor economics). Kahit na ito ng data tungkol sa taxi biyahe ay maaaring mukhang benign na ito sapagkat ito ay hindi tila sa na impormasyon tungkol sa mga tao, Anthony Tockar natanto na ito taxi dataset aktwal na nilalaman ng maraming mga potensyal na sensitibong impormasyon tungkol sa mga tao. Bilang paglalarawan, siya ay tumingin sa lahat ng mga biyahe simula sa The Hustler Club-isang malaking strip club sa New York-sa pagitan ng hatinggabi at 6:00 at pagkatapos ay natagpuan ang kanilang drop-off lokasyon. Ang paghahanap na ito nagsiwalat-in essence-isang listahan ng mga address ng mga ilang mga tao na madalas Ang Hustler Club (Tockar 2014) . Ito ay mahirap na isipin na ang city government ay nagkaroon na ito sa isip kapag ito ay inilabas ang data. Sa katunayan, ang parehong pamamaraan ay maaaring gamitin upang mahanap ang bahay address ng mga tao na bumibisita sa anumang lugar sa lungsod-isang medikal na klinika, isang pamahalaan gusali, o isang relihiyosong institusyon.
Ang dalawang mga kaso-the Netflix Prize at ang New York City taxi data-show na bigo relatibong bihasang mga tao na tama matantya ang pang-impormasyon panganib sa data na inilabas nila, at mga kasong ito ay sa pamamagitan ng walang ibig sabihin nito natatanging (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Dagdag dito, sa marami sa mga kasong ito, ang may problemang data ay pa rin malayang magagamit online, na nagpapahiwatig ng kahirapan ng kailanman pag-undo ng data release. Sama-sama ang mga halimbawang ito-pati na rin ang pananaliksik sa computer science tungkol sa privacy-leads sa isang mahalagang konklusyon. Mananaliksik ay dapat ipalagay na ang lahat ng data ay potensyal na makikilalang at ang lahat ng data ay potensyal na sensitive.
Sa kasamaang palad, walang simpleng solusyon sa ang katunayan na ang lahat ng data ay potensyal na makikilalang at ang lahat ng data ay potensyal na sensitive. Gayunman, ang isang paraan upang mabawasan ang impormasyon panganib habang ikaw ay nagtatrabaho sa data ay upang lumikha at sundin ang isang plano sa proteksyon ng data. Ang planong ito ay nababawasan ang pagkakataon na ang iyong data ay tumagas at ay mabawasan ang pinsala kung ang isang tumagas kahit papaano nangyayari. Ang mga pagtutukoy ng mga plano sa proteksyon ng data, tulad ng kung aling paraan ng encryption upang gamitin, ay magbabago sa paglipas ng panahon, ngunit ang UK Data Services helpfully aayos ang mga elemento ng isang plano sa proteksyon ng data sa 5 kategorya na tinatawag nila ang 5 safes: safe proyekto, ligtas tao , ligtas setting, safe data, at ligtas na outputs (Table 6.2) (Desai, Ritchie, and Welpton 2016) . Wala sa mga limang safes nang paisa-isa magbigay ng perpektong proteksyon. Ngunit, magkasama silang bumuo ng isang malakas na hanay ng mga kadahilanan na maaaring bawasan ang pang-impormasyon panganib.
ligtas | aksyon |
---|---|
Safe proyekto | naglilimita mga proyekto na may data sa mga na etikal |
Safe tao | access ay limitado sa mga tao na maaaring pinagkakatiwalaang may data (eg, ang mga tao ay may undergone etikal training) |
Safe data | data ay de-nakilala at pinagsama-sama sa lawak posible |
Safe setting | data ay naka-imbak sa mga computer na may naaangkop na pisikal na (eg, naka-lock room) at software (eg, password proteksyon, naka-encrypt na) mga proteksyon |
Safe output | pananaliksik output ay susuriin upang maiwasan sinasadyang privacy breaches |
Bilang karagdagan sa pagprotekta ng iyong data habang ikaw ay gumagamit ng ito, isang hakbang sa proseso ng pananaliksik na kung saan ang pang-impormasyon panganib ay partikular na kapansin-pansin ay ang pagbabahagi ng data sa iba pang mga mananaliksik. sharing Data sa mga siyentipiko ay isang pangunahing halaga ng mga pang-agham pagpupunyagi, at ito ay lubos na pasilidad sa pagsulong ng kaalaman. Narito kung paano ang UK House of Commons inilarawan ang kahalagahan ng pagbabahagi ng data:
"Access sa data ay napakahalaga kung ang mga mananaliksik ay upang kopyahin, i-verify at bumuo sa mga resulta na iniulat sa panitikan. aakala ay dapat na iyon, maliban kung mayroong isang malakas na dahilan kung hindi man, ang data ay dapat na ganap na isiwalat at ginawang magagamit sa publiko. Kaugnay nito prinsipyo, kung saan maaari, data na nauugnay sa lahat ng publiko pinondohan pananaliksik ay dapat gawin sa malawak at malayang magagamit. " (Molloy 2011)
Gayon pa man, sa pamamagitan ng pagbabahagi ng iyong data sa isa pang researcher, ikaw ay maaaring maging ang pagtaas-impormasyon panganib sa iyong mga kalahok. Kaya, ito ay maaaring mukhang na ang mga mananaliksik na nais na ibahagi ang kanilang data-o ay kinakailangan upang ibahagi ang kanilang data-ay nakaharap sa isang pangunahing pag-igting. Sa isang banda mayroon silang isang etikal obligasyon upang ibahagi ang kanilang mga data sa iba pang mga siyentipiko, lalo na kung ang orihinal na pananaliksik ay pinondohan sa publiko. Gayon pa man, sa parehong oras, ang mga mananaliksik ay may isang etikal obligasyon upang i-minimize, hangga't maaari, ang panganib ng impormasyon sa kanilang mga kalahok.
Sa kabutihang palad, ito mahirap na kalagayan ay hindi bilang malubhang bilang ito ay lilitaw. Ito ay mahalaga na mag-isip ng pagbabahagi sa kahabaan ng isang continuum mula sa walang pagbabahagi ng data sa release at kalimutan, kung saan ang data ay "hindi kilala" at nai-post para sa sinuman na ang data (Figure 6.6). Pareho sa mga matinding posisyon ay may mga panganib at mga benepisyo. Iyon ay, ito ay hindi awtomatikong ang pinaka etikal bagay na hindi ibahagi ang iyong data; tulad ng isang diskarte ay nag-aalis ng maraming mga potensyal na mga benepisyo sa lipunan. Bumabalik ka ba sa Taste, Kaugnayan, at Time, ang isang halimbawa tinalakay nang mas maaga sa kabanata, argumento laban sa data release na tumutok lamang sa mga posibleng harms at na huwag pansinin posibleng mga benepisyo ay overly tagibang; Kukunin ko ilarawan ang mga problema sa ito tagibang, overly proteksiyon diskarte nang mas detalyado sa ibaba kapag ako ay nag-aalok ng payo tungkol sa paggawa ng mga desisyon sa harap ng kawalan ng katiyakan (Seksyon 6.6.4).
Dagdag dito, sa pagitan ng mga dalawang matinding kaso ay kung ano ang kukunin ko na tinatawag na isang napapaderan hardin diskarte kung saan ang data ay ibinabahagi sa mga taong nakakatugon sa ilang mga pamantayan at na sumasang-ayon na sumunod sa ilang mga patakaran (eg, pangangasiwa mula sa isang IRB at isang plano ng data proteksyon) . Ito napapaderan hardin diskarte ay nagbibigay ng maraming mga benepisyo ng release at kalimutan na may mas mababa panganib. Of course, isang napapaderan garden diskarte lumilikha ng maraming mga katanungan-kung sino ang dapat magkaroon ng access, ang mga kundisyong, para sa kung gaano katagal, sino ang dapat magbayad upang mapanatili at pulisya ang napapaderan hardin at iba pa-ngunit ang mga ito ay hindi hindi malulutas. Sa katunayan, may ay na nagtatrabaho napapaderan hardin sa lugar na ang mga mananaliksik ay maaaring gumamit ng sa ngayon, tulad ng data archive ng Inter-university Consortium para Pampulitika at Social Research sa University of Michigan.
Kaya, kung saan ay dapat na ang data mula sa iyong pag-aaral ay sa continuum ng walang sharing, napapaderan hardin, at bitawan at kalimutan? Ito ay depende sa mga detalye ng iyong data; mananaliksik ay dapat na balanse Paggalang sa mga Tao, Beneficence, Justice, at Paggalang sa Law and Public Interest. Kapag pagtatasa naaangkop na balanse para sa iba pang mga desisyon mananaliksik humingi ng payo at pag-apruba ng IRBs, at ang data release ay maaaring maging lamang ng isa pang bahagi ng prosesong iyon. Sa ibang salita, bagaman ang ilang mga tao sa tingin ng data release bilang walang pag-asa etikal morass, kami ay mayroon sistema sa lugar upang makatulong sa mga mananaliksik balansehin ang mga uri ng etikal dilemmas.
Isang huling paraan upang isipin ang tungkol sa pagbabahagi ng data ay sa pamamagitan ng pagkakatulad. Taun-taon mga kotse ay may pananagutan para sa mga libo ng mga pagkamatay, ngunit hindi namin ay pagtatangka upang pagbawalan sa pagmamaneho. Sa katunayan, tulad ng isang tawag sa ban sa pagmamaneho ay walang katotohanan dahil sa pagmamaneho ay nagbibigay-daan sa maraming mga kahanga-hangang bagay. Sa halip, lipunan ay naglalagay paghihigpit sa kung sino ang maaaring magmaneho (eg, kailangan na maging isang tiyak na edad, kailangang na ang nakalipas ilang mga pagsubok) at kung paano sila ay maaaring drive (eg, sa ilalim ng limitasyon ng bilis). Society ay mayroon ding mga tao tasked sa enforcing mga panuntunang ito (eg, pulis); at aking parurusahan namin ang mga tao na nahuli paglabag sa mga ito. Ang parehong uri ng balanseng pag-iisip na ang lipunan ay sumasaklaw sa ipinaguutos pagmamaneho ay maaari ring ilapat sa pagbabahagi ng data. Iyon ay, sa halip na paggawa absolutist argumento para sa o laban sa pagbabahagi ng data, sa tingin ko ang pinakamalaking benepisyo ay darating mula sa ang pag-uunawa kung paano namin maaaring ibahagi ang mas maraming data mas ligtas.
Upang tapusin, pang-impormasyon panganib ay nadagdagan kapansin-pansing, at ito ay lubos na mahirap upang mahulaan at tumyak ng dami. Samakatuwid, ito ay pinakamahusay na upang ipalagay na ang lahat ng data ay potensyal na nakakapagpakilalang at potensyal na sensitive. Upang bawasan pang-impormasyon panganib habang paggawa ng pananaliksik, ang mga mananaliksik ay maaaring lumikha at sundin ang isang plano sa proteksyon ng data. Dagdag dito, pang-impormasyon panganib ay hindi maiwasan ang mga mananaliksik mula sa pagbabahagi ng data sa iba pang mga siyentipiko.