Informasionele risiko is die mees algemene risiko in sosiale navorsing; dit het dramaties toegeneem; en dit is die moeilikste risiko om te verstaan.
Die tweede etiese uitdaging vir digitale-jarige navorsing is inligtingrisiko , die potensiaal vir skade deur die bekendmaking van inligting (National Research Council 2014) . Informatiewe skade aan die openbaarmaking van persoonlike inligting kan ekonomies wees (bv. 'N werk verloor), sosiale (bv. Verleentheid), sielkundige (bv. Depressie), of selfs kriminele (bv. Arrestasie vir onwettige gedrag). Ongelukkig verhoog die digitale era dramatiese inligtingrisiko-daar is net soveel meer inligting oor ons gedrag. En inligtingsrisiko het bewys dat dit baie moeilik is om te verstaan en te bestuur in vergelyking met risiko's wat betrekking het op analitiese sosiale navorsing, soos fisieke risiko.
Een manier waarop sosiale navorsers verminder inligting risiko is "anonymization" van data. "Anonymization" is die proses van die verwydering van die hand liggend persoonlike identifikasie soos naam, adres en telefoonnommer van die data. Maar hierdie benadering is dit baie minder doeltreffend as wat baie mense besef, en dit is, in werklikheid, diep en fundamenteel beperk. Om dié rede, wanneer ek beskryf "anonymization," Ek sal aanhalingstekens gebruik om jou te herinner dat hierdie proses skep die voorkoms van anonimiteit, maar nie waar anonimiteit.
'N Skitterende voorbeeld van die mislukking van "anonimisering" kom van die laat 1990's in Massachusetts (Sweeney 2002) . Die Groepsversekeringskommissie (GIC) was 'n regeringsagentskap wat verantwoordelik is vir die aankoop van gesondheidsversekering vir alle staatswerkers. Deur middel van hierdie werk het die GIC gedetailleerde gesondheidsrekords oor duisende staatswerkers ingesamel. In 'n poging om navorsing aan te spoor, het die GIC besluit om hierdie rekords aan navorsers vry te stel. Hulle het egter nie al hul data gedeel nie; In plaas daarvan het hulle hierdie data "geanonimeer" deur inligting soos name en adresse te verwyder. Hulle het egter ander inligting oorgedra wat volgens hulle nuttig kan wees vir navorsers soos demografiese inligting (poskode, geboortedatum, etnisiteit en geslag) en mediese inligting (besoekdata, diagnose, prosedure) (figuur 6.4) (Ohm 2010) . Ongelukkig was hierdie "anonymisering" nie voldoende om die data te beskerm nie.
Om die tekortkominge van die GIC-anonimering te illustreer, Latanya Sweeney-toe 'n gegradueerde student by MIT wat $ 20 betaal het om die stemrekords van Cambridge, die tuisdorp van die Massachusetts-goewerneur William Weld, te verkry. Hierdie stemrekords bevat inligting soos naam, adres, poskode, geboortedatum en geslag. Die feit dat die mediese data lêer en die kieserslêer gedeelde velde-poskode, geboortedatum en geslag beteken het dat Sweeney hulle kon koppel. Sweeney het geweet dat Weld se verjaardag op 31 Julie 1945 was en die stemrekords het slegs ses mense in Cambridge by daardie verjaardag ingesluit. Verder, van die ses mense, was slegs drie manlik. En van die drie mans het slegs een Weld se poskode gedeel. Dus, die stem data het getoon dat enigeen in die mediese data met Weld se kombinasie van geboortedatum, geslag en poskode was William Weld. In wese het hierdie drie inligtingstukke 'n unieke vingerafdruk aan hom gegee in die data. Sweeney was in staat om Weld se mediese rekords te vind, en om hom van haar prestasie in te lig, het sy 'n afskrif van sy rekords (Ohm 2010) .
Werk Sweeney se illustreer die basiese struktuur van re-identifikasie aanvalle -tot 'n term uit die rekenaar sekuriteit gemeenskap aan te neem. In hierdie aanvalle word twee data stelle, wat nie op sigself sensitiewe inligting openbaar nie, gekoppel, en deur hierdie skakel word sensitiewe inligting blootgestel.
In reaksie op Sweeney se werk en ander verwante werk verwyder navorsers nou baie meer inligting - al die sogenaamde "persoonlike identifiserende inligting" (PII) (Narayanan and Shmatikov 2010) - tydens die proses van "anonimisering". Verder het baie navorsers besef nou dat sekere data - soos mediese rekords, finansiële rekords, antwoorde om vrae oor onwettige gedrag te ondersoek - waarskynlik te sensitief is om vry te laat selfs na "anonymisering". Die voorbeelde wat ek nou gaan gee, suggereer dat sosiale navorsers nodig het om hul denke te verander. As 'n eerste stap, is dit raadsaam om aan te neem dat alle data potensieel identifiseerbaar is en dat alle data potensieel sensitief is. Met ander woorde, eerder as om te dink dat die inligtingsrisiko op 'n klein deelversameling van projekte van toepassing is, moet ons aanvaar dat dit op 'n mate van toepassing is op alle projekte.
Beide aspekte van hierdie heroriëntering word geïllustreer deur die Netflix-prys. Soos beskryf in hoofstuk 5, het Netflix 100 miljoen filmgraderings van amper 500 000 lede vrygestel, en 'n oproep gehad waar mense van regoor die wêreld algoritmes ingedien het wat Netflix se vermoë om films aan te beveel, kon verbeter. Voordat u die data vrygestel het, het Netflix enige voor die hand liggende persoonlik identifiserende inligting verwyder, soos name. Hulle het ook 'n ekstra stap gedoen en het in sommige van die rekords effense verstommings ingestel (bv. Die verandering van sommige graderings van 4 sterre na 3 sterre). Hulle het egter gou ontdek dat ondanks hul pogings die data nog nooit anoniem was nie.
Net twee weke nadat die data vrygelaat is, het Arvind Narayanan en Vitaly Shmatikov (2008) getoon dat dit moontlik was om te leer oor spesifieke mense se rolprentvoorkeure. Die truuk vir hul heridentifiseringsaanval was soortgelyk aan Sweeney's: voeg twee inligtingsbronne saam, een met potensieel sensitiewe inligting en geen duidelike inligting en een wat mense se identiteite bevat nie. Elkeen van hierdie databronne kan individueel veilig wees, maar wanneer hulle gekombineer word, kan die saamgesmelte datastel informatiewe risiko skep. In die geval van die Netflix data, hier is hoe dit kan gebeur. Stel jou voor dat ek verkies om my gedagtes oor aksie- en komediefilms met my medewerkers te deel, maar dat ek verkies om nie my mening oor godsdienstige en politieke films te deel nie. My medewerkers kan die inligting gebruik wat ek met hulle gedeel het om my rekords in die Netflix-data te vind; Die inligting wat ek deel, kan 'n unieke vingerafdruk wees, net soos William Weld se geboortedatum, poskode en seks. Dan, as hulle my unieke vingerafdruk in die data gevind het, kon hulle my graderings leer oor alle flieks, insluitend flieks wat ek kies om nie te deel nie. Benewens hierdie soort geteikende aanval wat op 'n enkele persoon gefokus is, het Narayanan en Shmatikov ook getoon dat dit moontlik was om 'n breë aanval te doen - met baie mense - deur die Netflix-data saam te voeg met persoonlike en filmgradering-data wat sommige mense gekies het om op die Internet Movie Database (IMDb) te plaas. Heel eenvoudig kan enige inligting wat 'n unieke vingerafdruk aan 'n spesifieke persoon is - selfs hul stel van filmgraderings - gebruik word om hulle te identifiseer.
Alhoewel die Netflix-data weer geidentifiseer kan word in 'n geteikende of breë aanval, blyk dit steeds lae risiko te wees. Na alles, film graderings lyk nie baie sensitief nie. Alhoewel dit in die algemeen waar is, kan sommige van die 500,000 mense in die datastel weliswaar sensitief wees. Trouens, in reaksie op die heridentifikasie, het 'n geklone lesbiese vrou by 'n klasaksiepak teen Netflix aangesluit. Hier is hoe die probleem uitgedruk is in hul regsgeding (Singel 2009) :
"[M] ovie en gradering data bevat inligting van 'n ... baie persoonlike en sensitiewe aard. Die lid se rolprentdata stel 'n Netflix-lid se persoonlike belangstelling bloot en / of sukkel met verskeie hoogs persoonlike sake, insluitende seksualiteit, geestesongesteldheid, herstel van alkoholisme, en viktimisering van bloedskande, fisieke mishandeling, huishoudelike geweld, egbreuk en verkragting.
Die heridentifisering van die Netflix-prysdata illustreer beide dat alle data potensieel identifiseerbaar is en dat alle data potensieel sensitief is. Op hierdie stadium kan jy dink dat dit net van toepassing is op data wat na bewering oor mense is. Verrassend, dit is nie die geval nie. In reaksie op 'n versoek om vryheid van inligtingsreg, het die regering van New York die verslag van elke taxirit in New York in 2013 vrygestel, insluitend die afhaal- en afleweringstye, plekke en tariefbedrae (onthou uit hoofstuk 2 dat Farber (2015) gebruik soortgelyke data om belangrike teorieë in arbeidsekonomie te toets). Hierdie inligting oor taxi-reise lyk dalk goedaardig omdat hulle nie inligting oor mense bied nie, maar Anthony Tockar het besef dat hierdie taxi-datastel eintlik baie sensitiewe inligting oor mense bevat. Om te illustreer, kyk hy na alle reise wat by die Hustler Club begin, 'n groot strookklub in New York tussen middernag en sesuur. Hierdie soektog het in wese geopenbaar - 'n lys adresse van sommige mense wat die Hustler Club besoek het (Tockar 2014) . Dit is moeilik om te dink dat die stadsregering dit in gedagte gehad het toe dit die data vrygestel het. Trouens, hierdie selfde tegniek kan gebruik word om die tuisadresse van mense wat enige plek in die stad besoek, te vind - 'n mediese kliniek, 'n regeringsgebou of 'n godsdienstige instelling.
Hierdie twee gevalle van die Netflix-prys en die New York City-taxi-data toon dat relatief geskoolde mense die inligtingrisiko nie korrek kan skat in die data wat hulle vrylaat nie. Hierdie gevalle is geensins uniek nie (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Verder, in baie sulke gevalle, is die problematiese data nog vrylik aanlyn beskikbaar, wat aandui dat dit moeilik is om 'n data-vrystelling ooit uit te skakel. Gesamentlik, hierdie voorbeelde - sowel as navorsing in rekenaarwetenskap oor privaatheid - lei tot 'n belangrike gevolgtrekking. Navorsers moet aanvaar dat alle data potensieel identifiseerbaar is en dat alle data potensieel sensitief is.
Ongelukkig is daar geen eenvoudige oplossing vir die feite dat alle data potensieel identifiseerbaar is nie en dat alle data potensieel sensitief is. Een manier om inligtingrisiko te verminder terwyl jy met data werk, is om 'n databeskermingsplan te skep en te volg. Hierdie plan sal die kans verminder dat u data sal lek en die skade verminder indien 'n lek op een of ander manier voorkom. Die besonderhede van data-beskerming planne, soos watter vorm van enkripsie om te gebruik, sal oor tyd verander, maar die UK Data Services help die elemente van 'n databeskermingsplan in vyf kategorieë om die vyf kluise te noem : veilige projekte, veilige mense , veilige instellings, veilige data en veilige uitsette (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Nie een van die vyf kluise individueel bied perfekte beskerming. Maar saam vorm hulle 'n kragtige stel faktore wat informatiewe risiko kan verminder.
Veilig | aksie |
---|---|
Veilige projekte | Beperk projekte met data aan diegene wat eties is |
Veilige mense | Toegang is beperk tot mense wat vertrou kan word met data (bv. Mense wat etiese opleiding ondergaan het) |
Veilige data | Data word ontdek en geaggregeer in die mate waarin dit moontlik is |
Veilige instellings | Data word gestoor in rekenaars met toepaslike fisiese (bv. Geslote kamer) en sagteware (bv. Wagwoordbeskerming, geïnkripteer) beskerming |
Veilige uitset | Navorsingsuitsette word hersien om toevallige oortredings van privaatheid te voorkom |
Benewens die beskerming van u data terwyl u dit gebruik, is een stap in die navorsingsproses waar informasionele risiko veral belangrik is, data-uitruiling met ander navorsers. Data-sharing onder wetenskaplikes is 'n kernwaarde van die wetenskaplike strewe, en dit vergemaklik die kennisbevordering baie. Hier is hoe die Britse Huis van Commons die belangrikheid van data-sharing beskryf het (Molloy 2011) :
"Toegang tot data is fundamenteel as navorsers moet reproduceer, verifieer en bou op resultate wat in die literatuur gerapporteer word. Die vermoede moet wees dat, tensy daar 'n sterk rede anders is, data volledig openbaar gemaak en openbaar gemaak moet word. "
Tog, deur jou data met 'n ander navorser te deel, kan jy jou informatiewe risiko verhoog. Dit kan dus blyk dat data-sharing 'n fundamentele spanning skep tussen die verpligting om data met ander wetenskaplikes te deel en die verpligting om informatiewe risiko's vir deelnemers te verminder. Gelukkig is hierdie dilemma nie so ernstig soos dit blyk nie. Inteendeel, dit is beter om te dink oor die deel van data as 'n kontinuum, met elke punt op die kontinuum wat 'n ander samestelling van voordele vir die samelewing bied en risiko vir deelnemers (figuur 6.6).
Aan die een kant kan jy jou data met niemand deel nie, wat die risiko vir deelnemers verminder, maar ook die samelewings tot die minimum beperk. Aan die ander kant, kan jy vrylating en vergeet , waar data "anoniem" is en vir almal gepos word. Relatief tot die vrystelling van data, vrylating en vergeet bied beide hoër voordele vir die samelewing en hoër risiko vir deelnemers. Tussen hierdie twee uiterste gevalle is 'n verskeidenheid basters, insluitend wat ek 'n ommuurde tuinbenadering sal noem. Onder hierdie benadering word data gedeel met mense wat aan sekere kriteria voldoen en wat ooreenstem om gebind te wees aan sekere reëls (bv. Toesig van 'n IRB en 'n databeskermingsplan). Die ommuurde tuinbenadering bied baie van die voordele van vrylating en vergeet met minder risiko. Natuurlik skep so 'n benadering baie vrae: wie moet toegang hê, onder watter omstandighede en hoe lank, wie moet betaal om die ommuurde tuin in stand te hou en te polisie? Maar dit is nie onoorkomelik nie. Trouens, daar is reeds werksmuurde tuine wat navorsers tans kan gebruik, soos die data-argief van die Inter-universiteitskonsortium vir Politieke en Sosiale Navorsing aan die Universiteit van Michigan.
So, waar moet die data van jou studie op die kontinuum van geen deel, ommuurde tuin wees, en los en vergeet? Dit hang af van die besonderhede van u data: navorsers moet die respek vir persone, voordeel, geregtigheid en respek vir reg en openbare belang balanseer. Gegewe hierdie perspektief is data-sharing nie 'n kenmerkende etiese konfrontasie nie; Dit is net een van die vele aspekte van navorsing waar navorsers 'n gepaste etiese balans moet vind.
Sommige kritici is oor die algemeen gekant teen die deel van data omdat hulle na my mening op hul risiko's fokus - wat ongetwyfeld werklik is en die voordele daarvan ignoreer. Dus, om die fokus op beide risiko's en voordele aan te moedig, wil ek graag 'n analogie bied. Elke jaar is motors verantwoordelik vir duisende sterftes, maar ons probeer nie om te bestuur nie. Trouens, 'n oproep om bestuur te verbied, sal absurd wees omdat ry baie wonderlike dinge moontlik maak. Inteendeel, die samelewing plaas beperkings op wie kan bestuur (bv. Die behoefte om 'n sekere ouderdom te wees en sekere toetse geslaag het) en hoe hulle kan bestuur (bv. Onder die spoedgrens). Die samelewing het ook mense wat verantwoordelik is om hierdie reëls te handhaaf (bv. Die polisie) en ons straf mense wat gevang word. Dieselfde soort gebalanseerde denke dat die samelewing van toepassing is op die bestuur van bestuur, kan ook toegepas word op die deel van data. Dit is eerder as om absolutistiese argumente vir of teen data-sharing te maak. Ek dink ons sal die meeste vordering maak deur te fokus op hoe ons die risiko's kan verminder en die voordele van data-sharing kan verhoog.
Ter afsluiting het inligtingrisiko dramaties toegeneem, en dit is baie moeilik om te voorspel en te kwantifiseer. Daarom is dit die beste om aan te neem dat alle data potensieel identifiseerbaar en potensieel sensitief is. Om inligtingsrisiko te verminder terwyl navorsing gedoen word, kan navorsers 'n databeskermingsplan skep en volg. Verder verhoed informatiewe risiko nie dat navorsers data met ander wetenskaplikes kan deel nie.