Risg Gwybodaeth yw'r risg mwyaf cyffredin mewn ymchwil gymdeithasol; mae wedi cynyddu'n ddramatig; ac mae'n risg anoddaf i'w deall.
Yr ail her foesegol ar gyfer ymchwil digidol oedran cymdeithasol yn risg gwybodaeth, y potensial ar gyfer niwed gan datgelu gwybodaeth (Council 2014) . Gallai niwed Gwybodaethol o ddatgelu gwybodaeth bersonol fod yn economaidd (ee, colli swydd), cymdeithasol (ee, embaras), seicolegol (ee, iselder), neu hyd yn oed troseddol (ee, arestio ar gyfer ymddygiad anghyfreithlon). Yn anffodus, yr oes ddigidol yn cynyddu'r risg gwybodaeth ddramatig-mae dim ond cymaint mwy o wybodaeth am ein hymddygiad. Ac, risg gwybodaeth wedi bod yn anodd iawn i ddeall a rheoli o gymharu â risgiau a oedd pryderon mewn ymchwil gymdeithasol oed analog, fel risg corfforol. I weld sut yr oes ddigidol yn cynyddu'r risg gwybodaeth, yn ystyried y newid o bapur i gofnodion meddygol electronig. Mae'r ddau fath o gofnodion yn creu risg, ond mae'r cofnodion electronig yn creu llawer mwy o risgiau oherwydd ar raddfa enfawr y gallant ei drosglwyddo i barti heb awdurdod neu uno â chofnodion eraill. ymchwilwyr cymdeithasol yn yr oes ddigidol eisoes wedi rhedeg i drafferth gyda'r risg gwybodaeth, yn rhannol oherwydd nad oeddent yn deall yn llawn sut i fesur a rheoli. Felly, dw i'n mynd i gynnig ffordd ddefnyddiol i feddwl am risg gwybodaeth, ac yna dwi'n mynd i roi rhywfaint o gyngor ar sut i reoli'r risg gwybodaeth yn eich ymchwil ac wrth ryddhau data i ymchwilwyr eraill i chi.
Un ffordd y mae ymchwilwyr cymdeithasol yn lleihau perygl gwybodaeth yw "anonymization" o ddata. "Anonymization" yw'r broses o gael gwared dynodwyr personol amlwg fel enw, cyfeiriad, a rhif ffôn gan y data. Fodd bynnag, mae'r dull hwn yn llawer llai effeithiol nag y mae llawer o bobl yn sylweddoli, ac y mae, mewn gwirionedd, yn ddwfn ac yn sylfaenol yn gyfyngedig. Am y rheswm hwnnw, pryd bynnag y byddaf yn disgrifio "anonymization," byddaf yn defnyddio dyfynodau eich atgoffa bod y broses hon yn creu ymddangosiad anhysbysrwydd ond ddim yn wir anhysbysrwydd.
Enghraifft byw o fethiant "anonymization" yn dod o ddiwedd y 1990au ym Massachusetts (Sweeney 2002) . Roedd y Comisiwn Yswiriant Group (GIC) yn asiantaeth y llywodraeth sy'n gyfrifol am brynu yswiriant iechyd ar gyfer holl weithwyr y wladwriaeth. Drwy'r gwaith hwn, casglodd y GIC cofnodion iechyd fanwl am filoedd o weithwyr y wladwriaeth. Mewn ymdrech i sbarduno ymchwil am ffyrdd i wella iechyd, penderfynodd GIC i ryddhau cofnodion hyn i ymchwilwyr. Fodd bynnag, nid oeddent yn rhannu eu holl ddata; yn hytrach, maent yn "anonymized" mae'n drwy gael gwared ar wybodaeth megis enw a chyfeiriad. Fodd bynnag, maent yn gadael gwybodaeth arall eu bod yn meddwl y gallai fod yn ddefnyddiol i ymchwilwyr megis gwybodaeth ddemograffig (cod zip, dyddiad geni, ethnigrwydd, a rhyw) a gwybodaeth feddygol (data ymweliad, diagnosis, gweithdrefn) (Ffigur 6.4) (Ohm 2010) . Yn anffodus, nid yw hyn "anonymization" yn ddigonol i ddiogelu'r data.
I ddangos diffygion y GIC "anonymization", Latanya Sweeney-wedyn yn fyfyriwr graddedig yn MIT-talu $ 20 i gaffael y cofnodion pleidleisio o ddinas Caergrawnt, y dref enedigol o Massachusetts llywodraethwr William Weld. Mae'r cofnodion pleidleisio yn cynnwys gwybodaeth megis enw, cyfeiriad, cod zip, dyddiad geni, a rhyw. Mae'r ffaith bod y ffeil meddygol data a'r cod caeau-zip a rennir ffeil pleidleisiwr, dyddiad geni, ac y gallai Sweeney eu cysylltu yn golygu rhyw. gwybod Sweeney fod pen-blwydd Weld yn oedd 31 mis Gorffennaf, 1945 ac mae'r cofnodion pleidleisio yn cynnwys dim ond chwech o bobl yng Nghaergrawnt â'r pen-blwydd. Ymhellach, o'r rhai chwech o bobl, dim ond tri yn ddynion. Ac, o'r rhai tri dyn, dim ond un a rennir cod zip Weld yn. Felly, dangosodd y data pleidleisio bod unrhyw un yn y data meddygol gyda chyfuniad Weld o ddyddiad geni, rhyw, a chod zip oedd William Weld. Yn ei hanfod, mae'r rhain tri darn o wybodaeth a ddarparwyd yn ôl bys unigryw iddo yn y data. Gan ddefnyddio'r ffaith hon, Sweeney yn gallu dod o hyd cofnodion meddygol Weld, ac i roi gwybod iddo am ei gamp, mae hi'n postio ef copi o'i gofnodion (Ohm 2010) .
Gwaith Sweeney yn dangos strwythur sylfaenol o ymosodiadau dad-anonymization -i fabwysiadu dymor gan y gymuned diogelwch cyfrifiadurol. Yn yr ymosodiadau hyn, dwy set data, nid yw'r un o'r sy'n ei ben ei hun yn datgelu gwybodaeth sensitif, yn gysylltiedig, a thrwy cysylltiad hwn, gwybodaeth sensitif yn agored. Mewn rhai ffyrdd y broses hon yn debyg i'r ffordd y soda pobi a finegr, dau sylweddau sy'n eu pen eu hunain yn ddiogel, gellir eu cyfuno i gynhyrchu canlyniad cas.
Mewn ymateb i waith Sweeney, a gwaith cysylltiedig arall, ymchwilwyr bellach yn gyffredinol yn tynnu llawer mwy o wybodaeth gyfan a elwir yn "Gwybodaeth bersonol Adnabod" (PII) (Narayanan and Shmatikov 2010) -during y broses o "anonymization." Bellach, mae llawer o ymchwilwyr yn awr sylweddoli bod rhai data-megis cofnodion meddygol, cofnodion ariannol, atebion i gwestiynau arolwg am anghyfreithlon ymddygiad-yn ôl pob tebyg yn rhy sensitif i ryddhau hyd yn oed ar ôl "anonymization." Fodd bynnag, mae enghreifftiau mwy diweddar y byddaf disgrifiwch isod yn dangos bod angen i ymchwilwyr cymdeithasol newid eu ffordd o feddwl. Fel cam cyntaf, mae'n ddoeth i gymryd yn ganiataol bod yr holl ddata o bosibl adnabod a'r holl ddata yn allai fod yn sensitif. Mewn geiriau eraill, yn hytrach na meddwl bod risg gwybodaeth yn berthnasol i is-set fach o brosiectau, dylem gymryd yn ganiataol ei fod yn berthnasol i ryw raddau i bob prosiect.
Ddwy agwedd ar yr ail-cyfeiriadedd yn cael eu darlunio gan y Wobr Netflix. Fel y disgrifir ym Mhennod 5, rhyddhawyd Netflix 100 miliwn ratings ffilm a ddarperir gan bron i 500,000 o aelodau, ac roedd galwad agored lle mae pobl o bob rhan o'r byd a gyflwynwyd algorithmau a allai wella gallu'r Netflix i argymell ffilmiau. Cyn rhyddhau'r data, dileu Netflix unrhyw wybodaeth yn amlwg yn bersonol-adnabod, fel enwau. Aeth Netflix cam ychwanegol ac wedi cyflwyno ychydig perturbations mewn rhai o'r cofnodion (ee, newid rhai ratings o 4 seren i 3 seren). Netflix darganfod yn fuan, fodd bynnag, er gwaethaf eu hymdrechion, mae'r data oedd o bell ffordd ddienw.
Dim ond pythefnos ar ôl y data eu rhyddhau Narayanan and Shmatikov (2008) yn dangos ei bod yn bosibl i ddysgu am hoffterau movie pobl benodol yn. Y gamp i'w ymosodiad ail-adnabod yn debyg i Sweeney: uno gyda'i gilydd ddwy ffynhonnell gwybodaeth, un â gwybodaeth allai fod yn sensitif ac nid oes unrhyw wybodaeth yn amlwg yn adnabod ac yn un sy'n cynnwys manylion y bobl. Gall pob un o'r rhain ffynonellau data fod yn unigol yn ddiogel, ond pan fyddant yn cael eu cyfuno gall y set ddata unedig yn creu risg gwybodaeth. Yn achos y data Netflix, dyma sut gallai ddigwydd. Dychmygwch fy mod yn dewis ei rannu fy meddyliau am weithredu a ffilmiau comedi gyda fy cyd-weithwyr, ond bod yn well gennyf beidio â rhannu fy marn am ffilmiau crefyddol a gwleidyddol. Gallai fy cyd-weithwyr ddefnyddio'r wybodaeth yr wyf wedi ei rannu gyda nhw i ddod o hyd i fy nghofnodion yn y data Netflix; gallai'r wybodaeth yr wyf yn rhannu yn ôl bys unigryw yn union fel dyddiad William Weld ei geni, cod zip, a rhyw. Yna, os ydynt yn dod o hyd fy olion bysedd unigryw yn y data, gallent ddysgu fy sgoriau am yr holl ffilmiau, gan gynnwys ffilmiau lle nad wyf yn dewis ei rannu. Yn ychwanegol at y math hwn o ymosodiad wedi'i dargedu sy'n canolbwyntio ar berson sengl, Narayanan and Shmatikov (2008) hefyd yn dangos ei bod yn bosibl i wneud-un ymosodiad eang sy'n cynnwys llawer o bobl-drwy uno data Netflix gyda data ardrethu personol a ffilm y mae rhai pobl wedi dewis i swydd ar y Gronfa Ddata Movie Rhyngrwyd (IMDb). Unrhyw wybodaeth sy'n olion bysedd unigryw i berson-hyd yn oed yn benodol eu set o ffilm graddau-gellir eu defnyddio i adnabod nhw.
Hyd yn oed er y gall y data Netflix yn cael ei ail-nodi naill ai mewn ymosodiad wedi'i dargedu neu eang, mae'n dal efallai ymddangos yn risg isel. Wedi'r cyfan, nid ratings ffilm yn ymddangos yn sensitif iawn. Er y gallai hynny fod yn wir yn gyffredinol, ar gyfer rhai o'r 500,000 o bobl yn y set ddata, efallai ratings ffilm fod yn eithaf sensitif. Yn wir, mewn ymateb i'r de-anonymization ymunodd merch lesbiaidd closeted siwt dosbarth-gweithredu yn erbyn Netflix. Dyma sut mae'r broblem mynegwyd yn eu chyngaws (Singel 2009) :
"[M] Data ovie a graddio yn cynnwys gwybodaeth o natur fwy hynod bersonol a sensitif [sic]. data ffilm yr aelod yn datgelu buddiant personol yn aelod netflix a / neu brwydrau gydag amrywiol materion personol iawn, gan gynnwys rhywioldeb, salwch meddwl, adfer o alcoholiaeth, ac erledigaeth rhag llosgach, camdriniaeth gorfforol, trais yn y cartref, godineb, a thrais rhywiol. "
Mae'r dad-anonymization o'r data Gwobr Netflix yn dangos y ddau fod yr holl ddata o bosibl adnabod a bod yr holl ddata yn allai fod yn sensitif. Ar y pwynt hwn, efallai y byddwch yn meddwl bod hyn ond yn berthnasol i ddata y sy'n honni i fod am bobl. Yn rhyfedd iawn, nid yw hynny'n wir. Mewn ymateb i gais Rhyddid Cyfraith Gwybodaeth, rhyddhawyd y Llywodraeth Ninas Efrog Newydd cofnodion o bob taith tacsi yn Efrog Newydd yn 2013, gan gynnwys y pickup a gollwng amseroedd, lleoliadau, a symiau pris (cofio o Bennod 2 bod Farber (2015) defnyddir y data hwn i brofi damcaniaethau pwysig mewn economeg llafur). Er y gallai data hwn am deithiau tacsi ymddangos yn anfalaen oherwydd nad yw'n ymddangos i fod yn wybodaeth am bobl, sylweddolodd Anthony Tockar fod y set ddata tacsi mewn gwirionedd yn cynnwys llawer o wybodaeth allai fod yn sensitif am bobl. I ddangos, oedd yn edrych ar bob taith yn dechrau am y Clwb-a Hustler glwb stribed mawr yn New York-rhwng hanner nos a 6am, ac yna hyd i eu lleoliadau gollwng. Mae'r chwiliad Datgelodd-yn ei hanfod-rhestr o gyfeiriadau rhai pobl sy'n mynychu'r Clwb Hustler (Tockar 2014) . Mae'n anodd dychmygu bod gan y llywodraeth ddinas hon mewn cof pan fydd yn rhyddhau data. Yn wir, gallai hyn un dechneg yn cael ei ddefnyddio i ddod o hyd i'r cyfeiriadau cartref y bobl sy'n ymweld ag unrhyw le yn y ddinas-clinig meddygol, adeilad y llywodraeth, neu sefydliad crefyddol.
Mae'r ddau achos-Gwobr Netflix a Dinas Efrog Newydd tacsi data-yn dangos bod pobl yn gymharol fedrus wedi methu i amcangyfrif y risg gwybodaethol yn y data y maent yn rhyddhau yn gywir, ac achosion hyn mewn unrhyw ffordd yn unigryw (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ymhellach, mewn llawer o'r achosion hyn, mae'r data problemus yn dal i fod ar gael am ddim ar-lein, sy'n dangos yr anhawster o erioed dadwneud rhyddhau data. Gyda'i gilydd enghreifftiau-gan fod y rhain ogystal ag ymchwil mewn gwyddoniaeth gyfrifiadurol am breifatrwydd-yn arwain i gasgliad pwysig. Dylai ymchwilwyr gymryd yn ganiataol bod yr holl ddata o bosibl adnabod a'r holl ddata yn allai fod yn sensitif.
Yn anffodus, nid oes ateb syml i'r ffaith bod yr holl ddata o bosibl adnabod a'r holl ddata yn allai fod yn sensitif. Fodd bynnag, un ffordd o leihau risg i wybodaeth tra byddwch yn gweithio gyda data yw creu a dilyn cynllun diogelu data. Bydd y cynllun hwn yn lleihau'r siawns y bydd eich data yn gollwng ac yn gostwng y niwed os yn gollwng rhywsut yn digwydd. Bydd manylion y cynlluniau amddiffyn data, megis pa fath o amgryptio i'w ddefnyddio, yn newid dros amser, ond mae'r Gwasanaethau Data y DU yn ddefnyddiol trefnu elfennau o gynllun diogelu data i 5 categori y maent yn galw'r 5 coffrau: prosiectau diogel, pobl yn ddiogel , lleoliadau diogel, data diogel, ac allbynnau diogel (Tabl 6.2) (Desai, Ritchie, and Welpton 2016) . Nid yw'r un o'r pum coffrau yn unigol yn rhoi amddiffyniad perffaith. Ond, gyda'i gilydd maent yn ffurfio set pwerus o ffactorau a all leihau risg gwybodaeth.
diogel | Gweithred |
---|---|
prosiectau diogel | cyfyngu prosiectau gyda data i'r rhai sydd yn foesegol |
pobl yn ddiogel | mynediad yn cael ei gyfyngu i bobl y gellir ymddiried ynddynt gyda data (hyfforddiant moesegol ee, mae pobl wedi cael) |
data diogel | data yn cael ei dad-nodi a'i hagregu i'r graddau sy'n bosibl |
lleoliadau diogel | data yn cael ei storio mewn cyfrifiaduron gyda corfforol priodol (ee, ystafell dan glo) a meddalwedd (ee, diogelu cyfrinair, amgryptio) amddiffyniadau |
allbwn yn ddiogel | cynnyrch ymchwil yn cael ei adolygu er mwyn atal ddamweiniol torri preifatrwydd |
Yn ychwanegol i warchod eich data tra byddwch yn ei ddefnyddio, un cam yn y broses ymchwil lle mae risg gwybodaeth yn arbennig o amlwg yn rhannu data gydag ymchwilwyr eraill. rhannu data ymhlith gwyddonwyr yn werth craidd yr ymdrech wyddonol, ac mae'n fawr iawn y cyfleusterau hybu gwybodaeth. Dyma sut y disgrifiwyd y DU Tŷ'r Cyffredin bwysigrwydd rhannu data:
"Mae mynediad at ddata yn hanfodol os yw ymchwilwyr yn i atgynhyrchu, gwirio ac adeiladu ar ganlyniadau sy'n cael eu hadrodd yn y llenyddiaeth. rhaid rhagdybio bod, oni bai fod rheswm cryf fel arall, dylai data gael ei ddatgelu yn llawn ac ar gael i'r cyhoedd. Yn unol â'r egwyddor hon, lle y dylai bosibl, data sy'n gysylltiedig â phob gwaith ymchwil a ariennir yn gyhoeddus yn cael ei wneud yn eang ac ar gael am ddim. " (Molloy 2011)
Eto i gyd, drwy rannu eich data gyda ymchwilydd arall, efallai y byddwch yn cynyddu risg gwybodaeth i'ch cyfranogwyr. Felly, gall ymddangos bod ymchwilwyr sy'n dymuno rhannu eu data-neu y mae'n ofynnol i rannu eu data-yn wynebu tensiwn sylfaenol. Ar y naill law mae ganddynt rwymedigaeth foesol i rannu eu data gyda gwyddonwyr eraill, yn enwedig os yw'r ymchwil wreiddiol ei ariannu'n gyhoeddus. Eto i gyd, ar yr un pryd, ymchwilwyr rwymedigaeth foesol i leihau, cymaint â phosibl, y risg gwybodaeth i'w cyfranogwyr.
Yn ffodus, nid benbleth yw hyn yn mor ddifrifol ag y mae'n ymddangos. Mae'n bwysig i feddwl am rannu ar hyd continwwm o ddim rhannu data i ryddhau ac anghofio, lle mae data yn cael ei "anonymized" ac yn postio ar gyfer unrhyw un i gael mynediad at ddata (Ffigur 6.6). Mae'r ddau swyddi eithafol hyn risgiau a manteision. Hynny yw, nid yw'n awtomatig y peth mwyaf moesegol i beidio rhannu eich data; ymagwedd o'r fath yn dileu nifer o fanteision posibl i gymdeithas. Dychwelyd at Blas, Ties, ac Amser, enghraifft a drafodwyd yn gynharach yn y bennod, dadleuon yn erbyn rhyddhau data sy'n canolbwyntio yn unig ar niwed posibl a bod yn anwybyddu manteision posibl yn rhy unochrog; 'N annhymerus' yn disgrifio'r problemau gyda'r dull unochrog, yn rhy amddiffynnol hyn yn fwy manwl yn is pan fyddaf yn cynnig cyngor ynglŷn â gwneud penderfyniadau yn wyneb ansicrwydd (Adran 6.6.4).
Ymhellach, mewn rhwng y ddau achosion eithafol yw'r hyn 'n annhymerus' a elwir yn ddull gardd furiog lle mae data yn cael ei rannu gyda phobl sy'n bodloni meini prawf penodol ac sy'n cytuno i gael eich rhwymo gan reolau penodol (ee, goruchwylio gan IRB ac mae cynlluniau diogelu data) . Mae'r dull hwn yn ardd furiog yn darparu llawer o fanteision rhyddhau ac anghofio gyda llai o risg. Wrth gwrs, mae dull gardd furiog yn creu llawer o gwestiynau-pwy ddylai gael mynediad, o dan ba amodau, am ba hyd, pwy ddylai dalu i gynnal a blismona'r ardd furiog ac ati-ond nid yw'r rhain yn anorchfygol. Yn wir, mae eisoes yn gweithio gerddi muriog yn eu lle y gall ymchwilwyr eu defnyddio ar hyn o bryd, megis yr archif data Consortiwm Rhyng-brifysgol am Gwleidyddol a Chymdeithasol Ymchwil ym Mhrifysgol Michigan.
Felly, lle y dylai'r data o'ch astudio fod ar y continwwm o ddim rannu, gardd furiog, ac yn rhyddhau ac yn anghofio? Mae'n dibynnu ar y manylion eich data; Rhaid i ymchwilwyr gydbwyso Parch at Bobl, cymwynasgarwch, Cyfiawnder, a Pharch ar gyfer y Gyfraith a Budd y Cyhoedd. Wrth asesu cydbwysedd priodol ar gyfer penderfyniadau eraill ymchwilwyr geisio cyngor a chymeradwyo IRBs, a gall rhyddhau data fod yr un rhan arall o'r broses honno. Mewn geiriau eraill, er bod rhai pobl yn meddwl am ryddhau data fel morass moesegol anobeithiol, mae gennym eisoes systemau ar waith i helpu ymchwilwyr gydbwyso y mathau hyn o benblethau moesegol.
Un ffordd terfynol i feddwl am rannu data yw drwy gydweddiad. Bob blwyddyn ceir yn gyfrifol am filoedd o farwolaethau, ond nid ydym yn ceisio i wahardd gyrru. Yn wir, byddai galwad o'r fath i wahardd gyrru fod yn hurt gan fod gyrru yn galluogi llawer o bethau gwych. Yn hytrach, mae cymdeithas yn gosod cyfyngiadau ar bwy all yrru (ee, mae angen i fod o oedran penodol, mae angen i wedi pasio profion penodol) a sut y maent yn gyrru (ee, o dan y cyfyngiad cyflymder). Mae gan Gymdeithas pobl sydd â'r dasg o orfodi'r rheolau hyn (ee, yr heddlu), ac yr ydym yn cosbi pobl sy'n cael eu dal yn eu tarfu. Gall hyn un math o feddwl cytbwys sy'n gymdeithas berthnasol i reoleiddio gyrru hefyd yn cael eu cymhwyso i rannu data. Hynny yw, yn hytrach na gwneud dadleuon absoliwtaidd blaid neu yn erbyn rhannu data, rwy'n credu y bydd y manteision mwyaf yn dod o figuring sut y gallwn rannu mwy o ddata yn fwy diogel.
I gloi, risg gwybodaeth wedi cynyddu'n aruthrol, ac mae'n anodd iawn rhagweld a mesur. Felly, mae'n well i gymryd yn ganiataol bod yr holl ddata o bosibl yn ei adnabod ac yn gallu bod yn sensitif. Er mwyn lleihau'r risg gwybodaeth wrth wneud ymchwil, gall ymchwilwyr greu a dilyn cynllun diogelu data. Ymhellach, nid yw risg gwybodaeth yn atal ymchwilwyr o rannu data gyda gwyddonwyr eraill.