Risiko Information er den mest almindelige risiko i social forskning; det er steget dramatisk; og det er den sværeste risiko at forstå.
Den anden etisk udfordring for social alder digital forskning er oplysende risiko, mulighederne for skade fra videregivelse af oplysninger (Council 2014) . Informative skader fra videregivelse af personlige oplysninger kan være økonomisk (f.eks miste et job), sociale (f.eks forlegenhed), psykologiske (såsom depression), eller endda kriminel (f.eks anholdt for ulovlig adfærd). Desværre, den digitale tidsalder øger risikooplysninger dramatisk-der er bare så meget mere information om vores adfærd. Og har oplysende risiko vist sig meget vanskeligt at forstå og håndtere i forhold til risici, der var problemer i analog alder social forskning, såsom fysisk risiko. For at se hvordan den digitale tidsalder øger oplysende risiko, overveje overgangen fra papir til elektroniske patientjournaler. Begge typer af records skaber risiko, men de elektroniske journaler skabe langt større risici, fordi der på en massiv skala kan de overføres til en uautoriseret part eller fusioneret med andre poster. Sociale forskere i den digitale tidsalder er allerede løbet ind i problemer med oplysende risiko, dels fordi de ikke fuldt ud forstår, hvordan at kvantificere og styre det. Så jeg har tænkt mig at tilbyde en hjælpsom måde at tænke på oplysende risiko, og så jeg har tænkt mig at give dig nogle råd til hvordan man skal håndtere oplysende risiko i din forskning og frigive data til andre forskere.
En måde at sociale forskere mindske oplysende risiko er "anonymisering" af data. "Anonymisering" er processen med at fjerne åbenlyse personlige identifikatorer såsom navn, adresse og telefonnummer fra dataene. Men denne tilgang er meget mindre effektiv end mange mennesker er klar, og det er i virkeligheden dybt og fundamentalt begrænset. Derfor når jeg beskrive "anonymisering," Jeg vil bruge anførselstegn til at minde om, at denne proces skaber udseendet af anonymitet, men ikke sandt anonymitet.
Et levende eksempel på den fejlslagne "anonymisering" kommer fra slutningen af 1990'erne i Massachusetts (Sweeney 2002) . Gruppen Insurance Kommissionen (GIC) var et statsligt organ med ansvar for indkøb sygesikring for alle statsansatte. Gennem dette arbejde, GIC indsamlet detaljerede patientjournaler om tusindvis af statsansatte. I et forsøg på at anspore forskning om metoder til at forbedre sundheden, GIC besluttet at frigive disse registre til forskere. Men, de ikke deler alle deres data; snarere, de "anonymiseret" det ved at fjerne oplysninger såsom navn og adresse. Men de forlod andre oplysninger, som de mente kunne være nyttige for forskere, såsom demografiske oplysninger (postnummer, fødselsdato, etnicitet og køn) og medicinsk information (besøg data, diagnose, procedure) (Figur 6.4) (Ohm 2010) . Desværre er denne "anonymisering" ikke var tilstrækkelig til at beskytte dataene.
For at illustrere manglerne ved GIC "anonymisering", Latanya Sweeney-så en ph.d.-studerende på MIT-betalt $ 20 for at erhverve de stemmeberettigede optegnelser fra byen Cambridge, hjemby Massachusetts guvernør William Weld. Disse afstemningsresultaterne omfattede oplysninger såsom navn, adresse, postnummer, fødselsdato og køn. Det faktum, at den medicinske datafil og vælgeren fil delte felter-postnummer, fødselsdato og køn-betydet, at Sweeney kunne forbinde dem. Sweeney vidste, at Weld fødselsdag var den 31. juli, 1945 og de stemmeberettigede optegnelser omfattede kun seks mennesker i Cambridge med den fødselsdag. Endvidere af disse seks personer, kun tre var mænd. Og af disse tre mænd, kun én delt Weld s postnummer. viste således de stemmeberettigede data, at nogen i den medicinske data med Weld kombination af fødselsdato, køn og postnummer var William Weld. I det væsentlige, disse tre stykker af oplysninger en unikke fingeraftryk til ham i data. Ved hjælp af dette faktum, Sweeney var i stand til at lokalisere Svejsearbejde journal, og at informere ham om hendes bedrift, sendt hun ham en kopi af sine optegnelser (Ohm 2010) .
Sweeney arbejde illustrerer den grundlæggende struktur i de-anonymisering angreb -at vedtage et udtryk fra den computer sikkerhed samfund. I disse angreb, to datasæt, hvoraf ingen i sig selv afslører følsomme oplysninger, er forbundet, og gennem denne kobling, er følsomme oplysninger udsat. På nogle måder denne proces svarer til den måde, bagepulver og eddike, to stoffer, der er i sig selv sikker, kan kombineres til at frembringe en ubehagelig resultat.
Som svar på Sweeney arbejde, og andre dertil knyttede aktiviteter, forskerne nu generelt fjerne meget mere information-alle såkaldte "personligt identificerbare oplysninger" (PII) (Narayanan and Shmatikov 2010) -fastsaettes processen med "anonymisering." Yderligere, mange forskere nu indse, at visse data-såsom sygejournaler, finansielle poster, svar på undersøgelsen spørgsmål om ulovlig adfærd-er sandsynligvis for følsom til at frigive selv efter "anonymisering." Men nyere eksempler, som jeg vil beskrive nedenfor viser, at de sociale forskere har brug for at ændre deres tankegang. Som et første skridt, er det klogt at antage, at alle data er potentielt identificeres, og alt data er potentielt følsomme. Med andre ord, i stedet for at tænke, at oplysende risiko gælder for en lille delmængde af projekter, skal vi antage, at det gælder-til en vis grad, at alle projekter.
Begge aspekter af denne nyorientering er illustreret af Netflix-prisen. Som beskrevet i kapitel 5, Netflix udgivet 100 millioner film ratings fra næsten 500.000 medlemmer, og havde en åben indkaldelse, hvor folk fra hele verden indsendt algoritmer, der kunne forbedre Netflix evne til at anbefale film. Før frigive data, Netflix fjernet enhver naturligvis personligt identificerbare oplysninger, såsom navne. Netflix også gik et ekstra skridt og introducerede små forstyrrelser i nogle af posterne (f.eks skiftende nogle vurderinger fra 4 stjerner til 3 stjerner). Netflix snart opdagede dog, at på trods af deres indsats, de data, var på ingen måde anonym.
Blot to uger efter dataene blev løsladt Narayanan and Shmatikov (2008) viste, at det var muligt at lære om specifikke folks film præferencer. Kunsten at deres re-identifikation angreb lignede Sweeney s: smelte sammen to informationskilder, den ene med potentielt følsomme oplysninger, og ingen naturligvis identificere information og en, der indeholder identiteten af mennesker. Hver af disse datakilder kan være individuelt sikker, men når de kombineres den fusionerede datasæt kan skabe oplysende risiko. I tilfælde af Netflix data, her er hvordan det kunne ske. Forestil dig, at jeg vælger at dele mine tanker om handling og komedie film med mine kolleger, men at jeg foretrækker ikke at dele min mening om religiøse og politiske film. Mine kolleger kunne bruge de oplysninger, jeg har delt med dem for at finde mine plader i Netflix data de oplysninger, som jeg deler kunne være en unik fingeraftryk ligesom William Weld fødselsdato, postnummer, og køn. Så, hvis de finder min unikke fingeraftryk i data, kunne de lære mine vurderinger om alle film, herunder film, hvor jeg vælger ikke at dele. Ud over denne form for målrettet angreb fokuseret på en enkelt person, Narayanan and Shmatikov (2008) viste også, at det var muligt at gøre en bred angreb one involverer mange mennesker-ved at flette Netflix data med personlige og film vurdering af data, at nogle mennesker har valgt at skrive på Internet Movie Database (IMDb). Alle oplysninger, der er unikke fingeraftryk til en bestemt person-even deres sæt film ratings-kan bruges til at identificere dem.
Selvom Netflix data kan genbruges identificeret i enten en målrettet eller bred angreb, er det stadig kan synes at være lav risiko. Efter alt, behøver film ratings ikke synes meget følsomme. Mens der kan være sandt i almindelighed, for nogle af de 500.000 mennesker i datasættet, kan film ratings være ganske følsomme. I virkeligheden, som svar på den de-anonymisering en closeted lesbisk kvinde sluttede en class-action retssag mod Netflix. Her er hvordan problemet blev udtrykt i deres retssag (Singel 2009) :
"[M] Ovie og bedømmelse af data indeholder oplysninger af mere meget personlige og følsomme karakter [sic]. Medlemmets film data udsætter en Netflix medlem personlige interesse og / eller kampe med forskellige meget personlige spørgsmål, herunder seksualitet, psykisk sygdom, helbredelse fra alkoholisme, og repressalier fra incest, fysisk misbrug, vold i hjemmet, utroskab og voldtægt. "
Den de-anonymisering af Netflix-prisen data illustrerer både, at alle data er potentielt identificeres, og at alle data er potentielt følsomme. På dette tidspunkt, kunne man tro, at dette kun gælder for data, der angiver at være omkring mennesker. Overraskende er dette ikke tilfældet. Som svar på en Freedom of anmodning Information Law, New York regering udgivet registreringer af hver taxatur i New York i 2013, herunder afhentning og drop off tider, steder og billetpris beløb (tilbagekaldelse fra kapitel 2, at Farber (2015) bruges disse data til at teste væsentlige teorier i arbejdskraft økonomi). Selvom disse data om taxa ture kan synes godartet, fordi det ikke synes at være oplysninger om folk, Anthony Tockar indså, at dette taxi datasæt faktisk indeholdt masser af potentielt følsomme oplysninger om folk. For at illustrere, så han på alle ture starter ved The Hustler Club-en stor stripklub i New York-mellem midnat og 06:00 og derefter fundet deres drop-off steder. Denne søgning afslørede-i det væsentlige-en liste over adresser på nogle mennesker, der hyppigt The Hustler Club (Tockar 2014) . Det er svært at forestille sig, at bystyret havde dette i tankerne, da det udgivet data. I virkeligheden kunne denne samme teknik bruges til at finde de privatadresse for mennesker, der besøger ethvert sted i byen-en medicinsk klinik, en regeringsbygning, eller en religiøs institution.
Disse to sager-Netflix Prize og New York taxi data viser, at relativt dygtige folk ikke korrekt estimere den oplysende risiko i de data, de løsladt, og disse sager er på ingen måde unik (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Endvidere i mange af disse tilfælde, det problematiske data er stadig frit tilgængelige online, hvilket indikerer vanskeligheden ved nogensinde at løsne et nøgletal. Kollektivt disse eksempler-samt forskning i datalogi om privatlivets fred-fører til en vigtig konklusion. Forskerne bør antage, at alle data er potentielt identificeres, og alt data er potentielt følsomme.
Desværre er der ingen enkel løsning på det faktum, at alle data er potentielt identificeres, og alt data er potentielt følsomme. Men en måde at reducere oplysninger risiko, mens du arbejder med data er at skabe og følge en databeskyttelse plan. Denne plan vil formindsker chancen for, at dine data vil lække og vil reducere skade, hvis en lækage eller anden måde opstår. De nærmere af planer om databeskyttelse, såsom hvilken form for kryptering til at bruge, vil ændre sig over tid, men de britiske datatjenester hjælpsomt organiserer elementerne i en databeskyttelse plan i 5 kategorier, som de kalder de 5 pengeskabe: sikre projekter, sikre mennesker , trygge rammer, sikre data og sikre udgange (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Ingen af de fem pengeskabe individuelt giver perfekt beskyttelse. Men sammen danner de et kraftfuldt sæt af faktorer, der kan mindske oplysende risiko.
Sikker | Handling |
---|---|
Sikre projekter | begrænser projekter med data til dem, der er etisk |
Sikre mennesker | adgang er begrænset til folk, der kan have tillid med data (f.eks, har folk gennemgået etisk træning) |
Sikre data | data er de-identificeret og aggregeres så vidt muligt |
Sikre indstillinger | data gemmes i computere med passende fysiske (fx aflåst rum) og software (f.eks, adgangskodebeskyttelse, krypteret) beskyttelser |
Sikker udgang | forskning output er revideret for at forhindre uheld krænkelser af privatlivets fred |
Ud over at beskytte dine data, mens du bruger det, et skridt i forskningsprocessen, hvor oplysende risiko er særlig fremtrædende er at dele data med andre forskere. Datadeling blandt forskerne er en kerneværdi i den videnskabelige bestræbelse, og det i høj grad faciliteter fremme af viden. Her er hvordan det britiske Underhus beskrev betydningen af datadeling:
"Adgang til data er grundlæggende, hvis forskere til at reproducere, kontrollere og bygge videre på resultater, der er rapporteret i litteraturen. Formodningen må være, at, medmindre der er en stærk grund ellers data bør fuldt oplyst og gøres offentligt tilgængelige. I overensstemmelse med dette princip, hvor der bør gøres muligt data i forbindelse med alle offentligt finansieret forskning bredt og frit tilgængelige. " (Molloy 2011)
Men ved at dele dine data med en anden forsker, du kan være stigende oplysende risiko for dine deltagere. Således kan det synes, at forskere, der ønsker at dele deres data-eller er forpligtet til at dele deres data-står over for en grundlæggende spænding. På den ene side har de en etisk forpligtelse til at dele deres data med andre forskere, især hvis den oprindelige forskning offentligt finansieret. Men samtidig, forskere har et etisk forpligtelse til at minimere, så meget som muligt, de oplysninger risikoen deres deltagere.
Heldigvis er dette dilemma er ikke så alvorlig som det ser ud. Det er vigtigt at tænke på datadeling langs et kontinuum fra ingen datadeling at frigøre og glemme, hvor data "anonymiseret" og bogført for nogen at få adgang til (Figur 6.6). Begge disse yderpositioner har fordele og ulemper. Det vil sige, det er ikke automatisk det mest etiske ting at ikke dele dine data; en sådan tilgang eliminerer mange potentielle fordele for samfundet. Vender tilbage til Smag, Slips, og Time, et eksempel diskuteret tidligere i kapitlet, argumenter mod frigivelse af data, der fokuserer kun på mulige skader, og at ignorere mulige fordele er alt ensidig; Jeg vil beskrive problemerne med denne ensidige, alt for beskyttende tilgang mere detaljeret i det følgende, når jeg tilbyde rådgivning om at træffe beslutninger i lyset af usikkerhed (afsnit 6.6.4).
Endvidere i mellem disse to ekstreme tilfælde er, hvad jeg vil kaldes en walled garden tilgang, hvor data deles med mennesker, der opfylder visse kriterier, og der indvilliger i at være bundet af visse regler (f.eks tilsyn fra en IRB og en planer om databeskyttelse) . Denne walled garden tilgang giver mange af fordelene ved frigivelse og glemme med mindre risiko. Selvfølgelig, en walled garden tilgang skaber mange spørgsmål-hvem der skal have adgang, under hvilke betingelser for, hvor lang tid, der skal betale for at vedligeholde og politiet den walled garden osv-men disse er ikke uovervindelige. Faktisk er der allerede arbejder walled gardens på plads, at forskerne kan bruge lige nu, såsom data arkiv af Inter-universitetet Consortium for Politiske og Sociale Research ved University of Michigan.
Så hvor skal data fra dit studie være på kontinuum af ingen deling, walled garden, og slip og glemme? Det afhænger af detaljerne i dine data; forskere skal balancere Respekt for personer, Godgørenhed, retfærdighed og respekt for loven og offentlig interesse. Ved vurderingen af passende balance for andre afgørelser forskere søge råd og godkendelse af interne metoder, og frigivelse af data kan være bare en anden del af denne proces. Med andre ord, selv om nogle mennesker tænker på release data som en håbløs etisk morads, vi allerede har systemer på plads til at hjælpe forskerne afbalancere den slags etiske dilemmaer.
En sidste måde at tænke på datadeling er analogt. Hvert år biler er ansvarlig for tusindvis af dødsfald, men vi forsøger ikke at forbyde kørsel. Faktisk ville en sådan opfordring til at forbyde kørsel være absurd, fordi kørsel giver mange vidunderlige ting. Snarere, samfundet stiller begrænsninger for, hvem der kan køre (f.eks, nødt til at være en vis alder, har brug for at have bestået visse prøver), og hvordan de kan køre (f.eks under hastighedsgrænsen). Samfundet har også folk til opgave at håndhæve disse regler (f.eks politi), og vi straffer folk, der er fanget overtræder dem. Denne samme slags afbalanceret tænkning, som samfundet gælder for regulering af kørsel kan også anvendes på datadeling. Det vil sige, snarere end at gøre enevældige argumenter for eller imod deling af data, jeg tror de største fordele vil komme fra at regne ud, hvordan vi kan dele flere data mere sikkert.
Afslutningsvis er oplysende risiko steget dramatisk, og det er meget svært at forudsige og kvantificere. Derfor er det bedst at antage, at alle data er potentielt identificeres og potentielt følsomme. For at mindske oplysende risiko mens du gør forskning, kan forskerne skabe og følge en databeskyttelse plan. Endvidere betyder oplysende risiko ikke forhindre forskere i at dele data med andre forskere.