Informa risko estas la plej ofta risko en socia esplorado; ĝi pliigis draste; Kaj ĝi estas la plej malfacila risko por kompreni.
La dua etika defio por ciferecaj esploradoj estas informa risko , la ebla por malutilo de malkaŝado de informoj (National Research Council 2014) . Informaj nocoj de malkaŝado de personaj informoj eblus ekonomiaj (ekzemple, perdante laborpostenon), socian (ekzemple, embarason), psikologian (ekzemple, depresion) aŭ eĉ kriminalajn (ekzemple, aresto por kontraŭleĝa konduto). Bedaŭrinde, la cifereca aĝo pliigas draste informan riskon - nur tiom multe da informoj pri nia konduto. Kaj informa risko pruvis tre malfacile kompreni kaj administri kompare kun riskoj, kiuj estis zorgoj pri analogaj sociaj esploroj, kiel fizika risko.
Unidirekta ke sociaj esploristoj malgrandiĝi informa risko estas "anonymization" de datumoj. "Anonymization" estas la procezo de forigado evidenta persona identigiloj kiel nomo, adreso, kaj telefonnumero de la datumoj. Tamen, tiu aliro estas multe malpli efika ol multaj homoj komprenas, kaj estas, fakte, profunde kaj principe limigita. Tial, kiam ajn mi priskribas "anonymization," Mi uzos citiloj memorigi vin ke ĉi tiu procezo kreas la apero de anonimeco sed ne vera anonimeco.
Viva ekzemplo de la fiasko de "anonimigo" venas de la malfruaj 1990-aj jaroj en Masaĉuseco (Sweeney 2002) . La Grupo Asekura Komisiono (GIC) estis registara agentejo respondeca pri aĉetado de sanaj asekuroj por ĉiuj ŝtataj dungitoj. Tra ĉi tiu laboro, la GIC kolektis detalajn sanajn rekordojn pri miloj da ŝtataj dungitoj. Por klopodi esplori, la GIC decidis liberigi ĉi tiujn rekordojn al esploristoj. Tamen ili ne dividis ĉiujn siajn datumojn; pli ĝuste, ili "anonimigas" ĉi tiujn datumojn forigante informojn kiel nomojn kaj adresojn. Tamen ili forlasis aliajn informojn, kiujn ili opiniis, ke ili povus esti utilaj por esploristoj kiel ekzemple demografia informo (zipkodo, naskiĝtago, etnaĵo kaj sekso) kaj medicina informo (viziti datumojn, diagnozon, proceduron) (figuro 6.4) (Ohm 2010) . Bedaŭrinde, ĉi tiu "anonimigo" ne sufiĉis por protekti la datumojn.
Por ilustri la malabundojn de la "anonimigo" de la GIC, Latanya Sweeney - tiam diplomiĝinta studento ĉe MIT-pagis $ 20 por akiri la balotajn rekordojn de la urbo de Kembriĝo, la hejmurbo de la reganto de Masaĉuseco William Weld. Ĉi tiuj balotaj rekordoj inkludis informojn kiel nomojn, adreson, zipkodon, naskiĝtagon kaj sekson. La fakto, ke la medicina datuma dosiero kaj la balotanto-dosiero dividis kampojn-kodon, naskiĝtagon kaj sekson signifis, ke Sweeney povus ligi ilin. Sweeney sciis, ke la naskiĝtago de Weld estis la 31-an de julio 1945, kaj la balotaj rekordoj inkludis nur ses homojn en Kembriĝo kun tiu naskiĝtago. Plie, el tiuj ses homoj, nur tri estis maskloj. Kaj, el tiuj tri viroj, nur unu poŝtono de Weld dividis. Tiel, la voĉdonaj datumoj montris, ke iu ajn en la kuracaj datumoj kun la kombinaĵo de naskiĝdato, sekso kaj zipkodo de Weld estis William Weld. En esenco, ĉi tiuj tri informoj provizis al li unikan fingron en la datumoj. Uzante ĉi tiun fakton, Sweeney povis lokalizi medicinajn reklamojn de Weld, kaj, por informi al li pri ŝia heroaĵo, ŝi sendis al li kopion de siaj rekordoj (Ohm 2010) .
La verko de Sweeney ilustras la bazan strukturon de re-identigado-atakoj - por preni terminon de komputila sekureca komunumo. En ĉi tiuj atakoj, du datumaj aroj, nek el kiuj mem malkaŝas sentivan informon, estas ligitaj, kaj per ĉi tiu ligo, sentema informo estas elmontrita.
En respondo al la laboro de Sweeney kaj aliaj rilataj laboroj, esploristoj nun ĝenerale forigas multe pli da informoj - ĉio nomata "persone identiganta informon" (PII) (Narayanan and Shmatikov 2010) pro la procezo de "anonimigo". Pliaj multaj esploristoj nun rimarkas, ke iuj datumoj -kiaj medicinaj rekordoj, financaj registroj, respondas al enketaj demandoj pri kontraŭleĝa konduto-verŝajne tro tro sentas por liberigi eĉ post "anonimigo". Tamen, la ekzemploj, kiujn mi proponas doni, sugestas, ke la sociaj esploristoj bezonas por ŝanĝi sian pensadon. Kiel unua paŝo, estas saĝe supozi, ke ĉiuj datumoj potenciale identigeblas kaj ĉiuj datumoj estas eble sentive. Alivorte, prefere ol pensante, ke informa risko aplikiĝas al malgranda subaro de projektoj, ni devus supozi, ke ĝi aplikiĝas - al iu grado - al ĉiuj projektoj.
Ambaŭ aspektoj de ĉi tiu reorientiĝo estas ilustritaj de la Netflix-Premio. Kiel priskribita en ĉapitro 5, Netflix publikigis 100 milionojn da filmoj donitaj de preskaŭ 500,000 membroj, kaj havis malfermitan vokon, kie homoj el la tuta mondo prezentis algoritmojn, kiuj povus plibonigi la kapablon de Netflix por rekomendi filmojn. Antaŭ liberigi la datumojn, Netflix forigis ajnan evidentan identan informon, kiel nomojn. Ili ankaŭ iris kroman paŝon kaj enkondukis malgrandajn perturbojn en iuj el la rekordoj (ekz., Ŝanĝante iujn rangojn de 4 steloj al 3 steloj). Ili baldaŭ malkovris, ke malgraŭ siaj penoj, la datumoj ankoraŭ ne estis anonimaj.
Ĝuste du semajnoj post kiam la datumoj estis liberigitaj, Arvind Narayanan kaj Vitaly Shmatikov (2008) montris, ke eblas lerni pri specifaj filmaj preferoj. La lertaĵo al ilia re-identiga atako estis simila al Sweeney: kuniĝas du informajn fontojn, unu kun potenciale sentema informo kaj ne evidente identiganta informon kaj unu kiu enhavas homajn identecojn. Ĉiu el ĉi tiuj datumoj povas esti individue sekura, sed kiam ili estas kombinitaj, la kunfandita datumeto povas krei informan riskon. En la kazo de la Netflix-datumoj, jen kiel ĝi povus okazi. Imagu, ke mi elektas miajn pensojn pri agado kaj komedio-filmoj kun miaj kunlaborantoj, sed ke mi preferas ne dividi mian opinion pri religiaj kaj politikaj filmoj. Miaj kunlaborantoj povus uzi la informojn, kiujn mi dividis kun ili por trovi miajn rekordojn en la Netflix-datumoj; la informoj, kiujn mi dividas, povus esti unika fingroproduktaĵo kiel la naskiĝtago, zipkodo kaj sekso de William Weld. Poste, se ili trovis mian unikan fingron en la datumoj, ili povus lerni miajn rangojn pri ĉiuj filmoj, inkluzive de filmoj, kiujn mi elektas ne dividi. Krom ĉi tiu speco de celita atako koncentrita al ununura persono, Narayanan kaj Shmatikov ankaŭ montris, ke ĝi eblis fari larĝan atakon - engaĝante multajn homojn - kunfandante la Netflix-datumon per personaj kaj filmaj datumoj kiujn iuj homoj elektis por afiŝi en la Interreta filma datenbazo (IMDb). Plene simple, ajna informo, kiu estas unika fingroŝiparo al specifa persono-eĉ ilia aro de filmotaksoj- povas esti uzata por identigi ilin.
Kvankam la Netflix-datumoj povas esti re-identigitaj en cela aŭ larĝa atako, ĝi eble ŝajnas esti malalta risko. Post ĉio, filmaj taksadoj ne aspektas tre sentemaj. Dum tio povus esti vera ĝenerale, por kelkaj el la 500,000 homoj en la datumaro, filmaj taksadoj povus esti sufiĉe sentemaj. Fakte, en respondo al la re-identigo, ŝlosila lesba virino aliĝis al klaso-agado kontraŭ Netflix. Jen kiel la problemo esprimis en sia proceso (Singel 2009) :
"[M] ovie kaj rating datumoj enhavas informojn pri ... tre persona kaj sentema naturo. La datumoj de la membro de la membro elmontras personan intereson kaj / aŭ luktojn de Netflix kun diversaj tre personaj aferoj, inkluzive de sekseco, mensa malsano, reakiro de alkoholismo kaj viktimo de incesto, fizika misuzo, hejma perforto, adulto kaj seksperfortado. "
La re-identigo de la Netflix-Premiaj datumoj ilustras, ke ambaŭ, ĉiuj datumoj estas ebla identigeblaj kaj ke ĉiuj datumoj estas eble sentive. Je ĉi tiu punkto, vi eble pensos, ke ĉi tio nur aplikiĝas al datumoj, kiuj pensas pri homoj. Surprize, tio ne estas la kazo. En respondo al peto pri Libereco pri Informoj, la Registaro de Novjorko publikigis rekordojn de ĉiuj taksaj veturoj en Novjorko en 2013, inkluzive de la ŝprucado kaj malplenigo de tempoj, lokoj kaj tarifoj (rememoras de ĉapitro 2, ke Farber (2015) uzis similajn datumojn por provi gravajn teoriojn en laborekonomio). Ĉi tiuj datumoj pri taksaj vojaĝoj ŝajnas benignaj, ĉar ili ŝajnas doni informon pri homoj, sed Anthony Tockar konsciis, ke ĉi taksaj datumoj efektive enhavis multajn potenciale sentivajn informojn pri homoj. Por ilustri, li rigardis ĉiujn vojaĝojn komencante ĉe la Hustler-Klubo, granda strio-klubo en Novjorko, inter la noktomezo kaj la 6-a kaj poste trovis siajn falmojn. Ĉi tiu serĉo malkaŝis - esence - listo de adresoj de iuj homoj, kiuj vizitis Hustler Club (Tockar 2014) . Estas malfacile imagi, ke la urba registaro konsideras tion, kiam ĝi liberigis la datumojn. Fakte, ĉi tiu sama tekniko povus esti uzita por trovi la hejmajn adresojn de homoj, kiuj vizitas ajnan lokon en la urbo, medicina kliniko, registara konstruaĵo aŭ religia institucio.
Ĉi tiuj du kazoj de la Netflix-Premio kaj la taksomaj datumoj de Novjorko montras, ke relative kvalifikitaj homoj malsukcesas ĝuste korekti la informan riskon en la datumoj, kiujn ili liberigas, kaj ĉi tiuj kazoj tute ne estas solaj (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Plie, en multaj tiaj kazoj, la problemaj datumoj ankoraŭ estas libere haveblaj interrete, indikante la malfacilaĵon iam maldungi datan liberigon. Kolektive, ĉi tiuj ekzemploj - same kiel esplorado pri komputika pri privateco - kondukas al grava konkludo. Esploristoj devas supozi, ke ĉiuj datumoj potenciale identigeblas kaj ĉiuj datumoj estas eble sentive.
Bedaŭrinde, ne estas simpla solvo al la faktoj, ke ĉiuj datumoj estas ebla identigebla kaj ke ĉiuj datumoj estas eble sentive. Tamen, unu maniero redukti informan riskon dum vi laboras kun datumoj estas krei kaj sekvi datum-protektprogramon . Ĉi tiu plano malpliigos la ŝancon, ke viaj datumoj disvastiĝos kaj malpliigos la difekton, se ĝi produktas ian filtron. La specifaj planoj pri datumoj pri protekto de datumoj, kiel ekzemple kodita uzo, ŝanĝos laŭlonge de la tempo, sed la UK Data Services helpas al organizi elementojn de plano pri protekto de datumoj en kvin kategoriojn, kiujn ili nomas la kvin sekurecojn : sekuraj projektoj, sekuraj homoj , sekuraj agordoj, sekuraj datumoj kaj sekuraj rezultoj (tablo 6.2) (Desai, Ritchie, and Welpton 2016) . Neniu el la kvin sekurejoj individue provizas perfektan protekton. Sed kune ili formas potencan aron de faktoroj, kiuj povas malpliigi informan riskon.
Sekura | Ago |
---|---|
Sekuraj projektoj | Limoj projektas kun datumoj al tiuj, kiuj estas etikaj |
Sekuraj homoj | Aliro estas limigita al homoj, kiuj povas fidi kun datumoj (ekz. Homoj, kiuj spertis etikan trejnadon) |
Sekuraj datumoj | La datumoj estas identigitaj kaj aldonitaj en la plej granda ebla evento |
Sekuraj agordoj | Datumoj estas stokitaj en komputiloj kun taŭga fizika (ekzemple, ŝlosita ĉambro) kaj programaro (ekzemple, protekto de pasvorto, ĉifrita) |
Sekura eligo | Esploro eligo estas reviziita por malhelpi akcidentajn privatecajn breĉojn |
Krom protekti viajn datumojn dum vi uzas ilin, unu paŝo en la esplora procezo, kie informa risko estas aparte elstara, estas datumado kun aliaj esploristoj. La interŝanĝo de datumoj inter sciencistoj estas kerna valoro de la scienca klopodo, kaj ĝi tre faciligas la progreson de scio. Jen kiel la UK House of Commons priskribis la gravecon de datumado (Molloy 2011) :
"Aliro al datumoj estas fundamenta se esploristoj reproduktu, verŝi kaj konstrui rezultojn, kiuj estas raportitaj en la literaturo. La supozo devas esti tio, se ne ekzistas forta kialo alie, datumoj devus esti plene malkaŝitaj kaj publikigitaj. "
Tamen, dividante viajn datumojn kun alia esploristo, vi eble pliiĝos informa risko al viaj partoprenantoj. Tiel, ĝi eble ŝajnas, ke interŝanĝado de datumoj kreas fundamentan streĉiĝon inter la obligacio dividi datumojn kun aliaj sciencistoj kaj la devon minimigi informan riskon al partoprenantoj. Feliĉe, ĉi tiu dilemo ne estas tiel severa kiel ĝi aspektas. Prefere, ĝi estas pli bone pensi pri datumkomunikado malpliiĝanta laŭ kontinuo, kun ĉiu punkto sur tiu kontinuaĵo provizanta malsaman miksaĵon de profitoj al la socio kaj risko al partoprenantoj (figuro 6.6).
Je unu ekstrema, vi povas dividi viajn datumojn kun neniu, kiu minimumigas riskon por partoprenantoj, sed ankaŭ malpliigas profitojn al la socio. Aliflanke, vi povas liberigi kaj forgesi , kie datumoj estas "anonimigitaj" kaj publikigitaj por ĉiuj. Relativa por ne liberigi datumojn, liberigi kaj forgesi ofertojn kaj pli altajn profitojn al la socio kaj pli altan riskon por partoprenantoj. Inter ĉi tiuj du ekstremaj kazoj estas gamo da hibridoj, inkluzive de tio, kion mi nomos murita ĝardeno . Sub ĉi tiu aliro, datumoj estas dividitaj kun homoj, kiuj renkontas certajn kriteriojn kaj kiuj konsentas ligi iujn regulojn (ekz., Kontrolo de IRB kaj datuma protekta plano). La amuzita ĝardenila aliro provizas multajn profitojn de liberigo kaj forgesas kun malpli da risko. Kompreneble, tia aliro kreas multajn demandojn - kiuj devus havi aliron, laŭ kiaj kondiĉoj kaj por kiom longe, kiuj pagos por subteni kaj policiigi la muregitan ĝardenon ktp. - Sed ĉi tiuj ne estas nesupereblaj. Fakte, jam laboras muregaj ĝardenoj en la loko, kiujn esploristoj povas uzi nun, kiel ekzemple la datuma arkivo de la Inter-universitato-Konsorcio pri Politika kaj Socia Esploro ĉe la Universitato de Miĉigano.
Do, kie la datumoj de via studo estu sur la kontinuo de ne dividado, ĝardenita ĝardeno, kaj liberigi kaj forgesi? Ĉi tio dependas de la detaloj de viaj datumoj: esploristoj devas ekvilibrigi Respekton pri Personoj, Bonfarto, Justeco kaj Respekto pri Leĝo kaj Publika Intereso. Vidita de ĉi tiu perspektivo, datumo-interŝanĝo ne estas distinga etika konfuzo; ĝi estas nur unu el la multaj aspektoj de esplorado, en kiu esploristoj devas trovi taŭgan etikan ekvilibron.
Iuj kritikistoj ĝenerale kontraŭstaras datumojn, ĉar, laŭ mia opinio, ili enfokusigas siajn riskojn, kiuj estas sen dubo realaj kaj ignoras ĝiajn avantaĝojn. Do, por instigi fokuson al ambaŭ riskoj kaj profitoj, mi ŝatus proponi analogion. Ĉiu jaro, aŭtoj respondecas pri miloj da mortoj, sed ni ne provas malpermesi veturadon. Fakte, alvoki malpermesi veturadon estus absurda ĉar veturado ebligas multajn mirindajn aferojn. Prefere, la socio limigas tiujn, kiuj povas stiri (ekz., La bezono esti certa aĝo kaj pasi certajn provojn) kaj kiel ili povas stiri (ekz., Sub la rapida limo). Socio ankaŭ havas homojn taskitajn por plenumi ĉi tiujn regulojn (ekz., Polico), kaj ni punas homojn kaptitajn. Ĉi tiu sama speco de ekvilibra pensado, kiun la socio aplikas al regula regulado, povas ankaŭ esti aplikata al datumoj. Tio estas, prefere ol fari absolutistajn argumentojn kontraŭ aŭ kontraŭ datumoj, mi pensas, ke ni progresos per tio, kiel ni povas malpliigi la riskojn kaj pliigi la profitojn de datumoj.
Por konkludi, informa risko pliiĝis draste, kaj tre malfacile antaŭdiri kaj kvantigi. Sekve, estas plej bone supozi, ke ĉiuj datumoj potenciale identigeblas kaj eble sentive. Por malpliigi informan riskon dum esplorado, esploristoj povas krei kaj sekvi planan protekton de datumoj. Plie, informa risko ne malhelpas esploristojn dividi datumojn kun aliaj sciencistoj.