Informasjonsrisiko er den vanligste risikoen i sosial forskning; den har økt dramatisk; og det er den vanskeligste risikoen for å forstå.
Den andre etiske utfordringen for digitalalderforskning er informasjonsrisiko , potensialet for skade fra informasjonsformidling (National Research Council 2014) . Informasjonsskader ved offentliggjøring av personlig informasjon kan være økonomisk (for eksempel å miste en jobb), sosial (for eksempel forlegenhet), psykologisk (f.eks. Depresjon), eller til og med kriminell (f.eks. Arrest for ulovlig oppførsel). Dessverre øker den digitale alderen informasjonsrisiko dramatisk - det er bare så mye mer informasjon om vår oppførsel. Og informasjonsrisiko har vist seg å være svært vanskelig å forstå og håndtere sammenlignet med risikoer som var bekymringer i samfunnsforskning i analog alder, som fysisk risiko.
En måte at samfunnsforskere redusere informasjons risiko er "anonymisering" av data. "Anonymisering" er prosessen med å fjerne åpenbare personlige identifikatorer som navn, adresse og telefonnummer fra dataene. Imidlertid er denne tilnærmingen mye mindre effektive enn mange er klar, og det er faktisk dypt og fundamentalt begrenset. Av den grunn, når jeg beskrive "anonymisering," jeg skal bruke anførselstegn for å minne deg på at denne prosessen skaper inntrykk av anonymitet, men ikke sant anonymitet.
Et levende eksempel på feilen i "anonymisering" kommer fra slutten av 1990-tallet i Massachusetts (Sweeney 2002) . Konsernforsikringskommisjonen (GIC) var et byrå som var ansvarlig for å kjøpe helseforsikring for alle statlige ansatte. Gjennom dette arbeidet samlet GIC detaljerte helsjournaler om tusenvis av statsansatte. I et forsøk på å spore forskning besluttet GIC å frigjøre disse postene til forskere. De delte imidlertid ikke alle dataene sine; snarere, de "anonymiserte" disse dataene ved å fjerne informasjon som navn og adresser. De forlot imidlertid annen informasjon som de syntes kunne være nyttig for forskere som demografisk informasjon (postnummer, fødselsdato, etnisitet og kjønn) og medisinsk informasjon (besøksdata, diagnose, prosedyre) (figur 6.4) (Ohm 2010) . Dessverre var denne "anonymiseringen" ikke tilstrekkelig til å beskytte dataene.
For å illustrere manglene i GIC "anonymisering", Latanya Sweeney, da en utdannet student ved MIT-betalt $ 20 for å skaffe stemmefortegnelsene fra byen Cambridge, hjembyen til Massachusetts guvernør William Weld. Disse avstemningsrekordene inneholdt informasjon som navn, adresse, postnummer, fødselsdato og kjønn. Det faktum at den medisinske datafilen og velgerfilen delte felt-postnummer, fødselsdato og kjønn, betydde at Sweeney kunne koble dem. Sweeney visste at Welds bursdag var 31. juli 1945, og stemmesedlene omfattet kun seks personer i Cambridge med den bursdagen. Videre av de seks personer var bare tre mannlige. Og av de tre mennene delte bare én sveisens postnummer. Dermed viste stemmedataene at alle i medisinske data med Welds kombinasjon av fødselsdato, kjønn og postnummer var William Weld. I hovedsak ga disse tre delene informasjon et unikt fingeravtrykk til ham i dataene. Ved hjelp av dette faktum kunne Sweeney finne Welds medisinske journaler, og for å informere ham om hennes prestasjon, sendte hun ham en kopi av postene sine (Ohm 2010) .
Sweeneys arbeid illustrerer den grunnleggende strukturen for gjenidentifikasjonsangrep - for å vedta et begrep fra datasikkerhetssamfunnet. I disse angrepene er to datasett, som hverken av seg selv avslører sensitiv informasjon, knyttet, og gjennom denne koblingen blir sensitiv informasjon utsatt.
Som svar på Sweeneys arbeid og annet relatert arbeid fjerner forskerne generelt mye mer informasjon - all såkalt "personlig identifiserende informasjon" (PII) (Narayanan and Shmatikov 2010) - under prosessen med "anonymisering". Videre har mange forskere nå innse at visse data, som medisinske poster, økonomiske poster, svar på undersøkelser om ulovlig oppførsel, er sannsynligvis for følsomme for å slippe ut selv etter "anonymisering." Imidlertid viser eksemplene jeg skal gi, at sosialforskere trenger å forandre sin tenkning. Som et første skritt er det lurt å anta at all data er potensielt identifiserbare og alle data er potensielt sensitive. Med andre ord, i stedet for å tenke på at informasjonsrisiko gjelder for et lite delsett av prosjekter, bør vi anta at det gjelder - til en viss grad - for alle prosjekter.
Begge aspekter av denne omorienteringen er illustrert av Netflix-prisen. Som beskrevet i kapittel 5, utgav Netflix 100 millioner filmkarakterer fra nesten 500 000 medlemmer, og hadde et åpent samtal hvor folk fra hele verden sendte inn algoritmer som kunne forbedre Netflix evne til å anbefale filmer. Før du slipper dataene, fjernet Netflix noen åpenbare personlig identifiserende opplysninger, for eksempel navn. De gikk også et ekstra skritt og introduserte små forstyrrelser i noen av postene (for eksempel å endre noen vurderinger fra 4 stjerner til 3 stjerner). De oppdaget likevel at til tross for deres innsats var dataene fortsatt ikke anonyme.
Bare to uker etter at dataene ble utgitt, viste Arvind Narayanan og Vitaly Shmatikov (2008) at det var mulig å lære om bestemte folks filmpreferanser. Trikset til deres identifikasjonsangrep ligner på Sweeneys: Sammenføye to informasjonskilder, en med potensielt sensitiv informasjon og ingen åpenbart identifiserende informasjon og en som inneholder folks identiteter. Hver av disse datakilder kan være individuelt trygt, men når de kombineres, kan det sammenslåtte datasettet skape informasjonsrisiko. I tilfelle av Netflix data, her er hvordan det kan skje. Tenk deg at jeg velger å dele mine tanker om action- og komediefilmer med mine medarbeidere, men det foretrekker jeg ikke å dele min mening om religiøse og politiske filmer. Mine medarbeidere kunne bruke informasjonen jeg har delt med dem for å finne mine poster i Netflix-dataene; informasjonen jeg deler kan være et unikt fingeravtrykk, akkurat som William Welds fødselsdato, postnummer og kjønn. Så, hvis de fant mitt unike fingeravtrykk i dataene, kunne de lære min vurdering om alle filmer, inkludert filmer som jeg velger å ikke dele. I tillegg til denne typen målrettet angrep som er fokusert på en enkeltperson, viste Narayanan og Shmatikov også at det var mulig å gjøre et bredt angrep - som involverte mange mennesker - ved å slå sammen Netflix-dataene med personlige og filmverdier som noen har valgt å legge inn på Internet Movie Database (IMDb). Ganske enkelt kan informasjon som er et unikt fingeravtrykk til en bestemt person - selv deres sett med filmverdier - brukes til å identifisere dem.
Selv om Netflix-dataene kan omdefineres i enten et målrettet eller bredt angrep, kan det fremdeles virke som lavrisiko. Tross alt ser filmevalueringene ikke ut til å være veldig følsomme. Selv om det kan være sant generelt, for noen av de 500.000 personene i datasettet, kan filmvurderinger være ganske følsomme. Faktisk, som et svar på re-identifikasjonen, kom en kledd lesbisk kvinne til en klassegjøringsdrakt mot Netflix. Slik er problemet uttrykt i deres søksmål (Singel 2009) :
"[M] ovie og rating data inneholder informasjon av en ... svært personlig og sensitiv natur. Medlemmets filmdata avslører et Netflix-medlems personlige interesse og / eller kamp med ulike svært personlige problemer, inkludert seksualitet, psykisk lidelse, gjenoppretting av alkoholisme, og offer av incest, fysisk overgrep, vold i hjemmet, utroskap og voldtekt. "
Gjenkjennelsen av Netflix-prisdata viser både at alle data er potensielt identifiserbare og at alle data er potensielt sensitive. På dette tidspunktet kan du kanskje tro at dette bare gjelder data som har til hensikt å være om mennesker. Overraskende er det ikke tilfellet. Som svar på en forespørsel om frihet til informasjonslov utgitt New York City-regjeringen registre over hver taxitur i New York i 2013, inkludert opptaks- og avgangstider, steder og prisbeløp (tilbakekall fra kapittel 2 som Farber (2015) brukte lignende data for å teste viktige teorier i arbeidskraft økonomi). Disse dataene om drosjeturer kan virke gunstige fordi de ikke synes å gi informasjon om folk, men Anthony Tockar innså at dette drosjesatasettet faktisk inneholdt mye potensielt sensitiv informasjon om mennesker. For å illustrere, så han på alle turer som startet på Hustler Club-en stor stripklubb i New York mellom midnatt og klokken 6, og fant deretter deres avgangssteder. Dette søket avslørte - i hovedsak - en liste over adresser til noen personer som besøkte Hustler Club (Tockar 2014) . Det er vanskelig å forestille seg at bystyret hadde dette i tankene da det ga ut dataene. Faktisk kan denne samme teknikken brukes til å finne hjemmeadressene til folk som besøker et hvilket som helst sted i byen - en medisinsk klinikk, en regjering eller en religiøs institusjon.
Disse to tilfellene av Netflix-prisen og New York City-taxidata viser at relativt dyktige mennesker ikke klarer å korrekt estimere informasjonsrisikoen i dataene de slipper ut - og disse sakene er på ingen måte unike (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Videre, i mange slike tilfeller, er de problematiske dataene fremdeles fritt tilgjengelige på nettet, noe som indikerer vanskeligheten ved å unngår en datautgivelse. Samlet, disse eksemplene - samt forskning i datavitenskap om personvern - fører til en viktig konklusjon. Forskere bør anta at alle data er potensielt identifiserbare og alle data er potensielt sensitive.
Dessverre er det ingen enkel løsning på fakta at alle data er potensielt identifiserbare og at alle data er potensielt sensitive. Imidlertid er en måte å redusere informasjonsrisiko mens du arbeider med data, å opprette og følge en databeskyttelsesplan . Denne planen minsker sjansen for at dataene dine vil lekke og vil redusere skadene hvis det oppstår en lekkasje. Spesifikasjonene til databeskyttelsesplaner, for eksempel hvilken form for kryptering som skal brukes, vil endres over tid, men UK Data Services organiserer med fordel organene av en databeskyttelsesplan i fem kategorier som de kaller de fem safeene : sikre prosjekter, trygge personer , sikre innstillinger, sikre data og sikre utganger (tabell 6.2) (Desai, Ritchie, and Welpton 2016) . Ingen av de fem safeene gir perfekt beskyttelse. Men sammen danner de et kraftig sett med faktorer som kan redusere informasjonsrisiko.
Sikker | Handling |
---|---|
Trygge prosjekter | Begrenser prosjekter med data til de som er etiske |
Sikker folk | Tilgang er begrenset til personer som kan stole på data (f.eks. Personer som har gjennomgått etisk trening) |
Sikker data | Data blir identifisert og aggregert i den grad det er mulig |
Sikker innstilling | Data lagres i datamaskiner med egnet fysisk (f.eks. Låst rom) og programvare (f.eks. Passordbeskyttelse, kryptert) beskyttelse |
Sikker utgang | Forskningsproduksjonen vurderes for å forhindre utilsiktede brudd på personvern |
I tillegg til å beskytte dataene dine mens du bruker dem, er et trinn i forskningsprosessen der informasjonsrisiko er spesielt viktig, datadeling med andre forskere. Datadeling blant forskere er en kjerneverdi av det vitenskapelige arbeidet, og det tilrettelegger i stor grad fremskrittet av kunnskap. Slik beskriver det britiske huset om betydningen av datadeling (Molloy 2011) :
"Tilgang til data er grunnleggende om forskerne skal reprodusere, verifisere og bygge videre på resultater som er rapportert i litteraturen. Forutsetningen må være at, med mindre det er en sterk grunn ellers, bør dataene offentliggjøres og gjøres tilgjengelig for offentligheten. "
Likevel kan du ved å dele dataene dine med en annen forsker øke informasjonsrisikoen for deltakerne. Det kan således virke som datadeling skaper en grunnleggende spenning mellom forpliktelsen til å dele data med andre forskere og forpliktelsen til å minimere informasjonsrisiko for deltakerne. Heldigvis er dette dilemmaet ikke så alvorlig som det ser ut til. Det er heller bedre å tenke på datadeling som å falle langs et kontinuum, med hvert punkt på det kontinuum som gir en annen blanding av fordeler for samfunnet og risiko for deltakerne (figur 6.6).
På den ene siden kan du dele dataene dine med ingen, noe som minimerer risikoen for deltakerne, men også minimerer gevinster til samfunnet. På den andre ekstremen kan du slippe ut og glemme , hvor data er "anonymisert" og lagt ut for alle. Relativ til ikke å frigjøre data, frigjør og glemmer, gir både høyere fordeler for samfunnet og høyere risiko for deltakerne. I mellom disse to ekstreme tilfellene er et utvalg av hybrider, inkludert det jeg kaller en inngjerdet hageanstreng. Under denne tilnærmingen deles dataene med personer som oppfyller visse kriterier og som er enige om å være bundet av visse regler (f.eks. Tilsyn fra en IRB og en databeskyttelsesplan). Den inngjerdede hagen tilnærming gir mange fordeler med utgivelse og glemmer med mindre risiko. Selvfølgelig skaper en slik tilnærming mange spørsmål - hvem skal ha tilgang, under hvilke forhold og hvor lenge, hvem skal betale for å opprettholde og polere den inngjerdede hagen, etc. - men disse er ikke uoverstigelige. Faktisk er det allerede arbeidende veggerte hager på plass som forskere kan bruke akkurat nå, som for eksempel dataregisteret for Interuniversitetskonsortiet for politisk og sosial forskning ved University of Michigan.
Så, hvor skal dataene fra studien din være på kontinuum uten deling, inngjerdet hage og slippe ut og glemme? Dette avhenger av detaljene i dataene dine: Forskere må balansere Respekt for personer, fordel, rettferdighet og respekt for lov og offentlig interesse. Sett fra dette perspektivet er datadeling ikke et særegent etisk samfunn; Det er bare en av de mange aspektene av forskning der forskere må finne en passende etisk balanse.
Noen kritikere er generelt motstandsdyktig mot datadeling fordi de etter min mening er fokusert på risikoen - som utvilsomt er ekte - og ignorerer fordelene. Så, for å oppmuntre fokus på både risiko og fordeler, vil jeg gjerne tilby en analogi. Hvert år er biler ansvarlige for tusenvis av dødsfall, men vi forsøker ikke å forby bilkjøring. Faktisk ville et anrop for å forby kjøre være absurd fordi kjøring muliggjør mange fantastiske ting. Snarere plasserer samfunnet begrensninger på hvem som kan kjøre (f.eks. Behovet for å være en viss alder og å ha bestått visse tester) og hvordan de kan kjøre (f.eks. Under fartsgrensen). Samfunnet har også mennesker som har til oppgave å håndheve disse reglene (f.eks. Politiet), og vi straffer folk som blir fanget, krenker dem. Den samme slags balansert tenkning som samfunnet gjelder for å regulere kjøring, kan også brukes på datadeling. Det er, i stedet for å gjøre absolutistiske argumenter for eller mot datadeling, tror jeg vi vil gjøre mest mulig fremgang ved å fokusere på hvordan vi kan redusere risikoen og øke fordelene ved datadeling.
Til slutt har informasjonsrisiko økt dramatisk, og det er svært vanskelig å forutsi og kvantifisere. Derfor er det best å anta at all data er potensielt identifiserbare og potensielt sensitive. For å redusere informasjonsrisiko mens du forsker, kan forskere opprette og følge en databeskyttelsesplan. Videre forhindrer informasjonsrisiko ikke forskere i å dele data med andre forskere.