Informationsrisiko er den mest almindelige risiko i social forskning; det er steget dramatisk; og det er den sværeste risiko at forstå.
Den anden etiske udfordring for digital-age-forskning er informationsrisiko , potentialet for skade ved udbredelse af information (National Research Council 2014) . Informationsskader ved offentliggørelsen af personlige oplysninger kan være økonomiske (f.eks. Tabe et job), socialt (fx forlegenhed), psykologisk (f.eks. Depression) eller endog kriminel (f.eks. Anholdelse for ulovlig adfærd). Desværre øger den digitale tidsalder informationsrisikoen dramatisk - der er kun så meget mere information om vores adfærd. Og oplysningsrisiko har vist sig meget vanskeligt at forstå og styre i forhold til risici, der var bekymringer i analog aldersmæssig social forskning, såsom fysisk risiko.
En måde at sociale forskere mindske oplysende risiko er "anonymisering" af data. "Anonymisering" er processen med at fjerne åbenlyse personlige identifikatorer såsom navn, adresse og telefonnummer fra dataene. Men denne tilgang er meget mindre effektiv end mange mennesker er klar, og det er i virkeligheden dybt og fundamentalt begrænset. Derfor når jeg beskrive "anonymisering," Jeg vil bruge anførselstegn til at minde om, at denne proces skaber udseendet af anonymitet, men ikke sandt anonymitet.
Et levende eksempel på den manglende "anonymisering" kommer fra slutningen af 1990'erne i Massachusetts (Sweeney 2002) . GIC (Group Insurance Commission) var et statsligt organ med ansvar for køb af sygesikring for alle statsansatte. Gennem dette arbejde indsamlede GIC detaljerede helbredsoplysninger om tusindvis af statsansatte. I et forsøg på at stimulere forskning besluttede GIC at frigive disse poster til forskere. De deler imidlertid ikke alle deres data; De "hellere" anonymiserede disse data ved at fjerne oplysninger som navne og adresser. De forlod dog andre oplysninger, som de troede kunne være nyttige for forskere som demografisk information (postnummer, fødselsdato, etnicitet og køn) og medicinsk information (besøgsdata, diagnose, procedure) (figur 6.4) (Ohm 2010) . Desværre var denne "anonymisering" ikke tilstrækkelig til at beskytte dataene.
For at illustrere manglerne i GIC "anonymisering", Latanya Sweeney-derefter en kandidatstuderende på MIT-betalt $ 20 for at erhverve stemmeberettigelsen fra byen Cambridge, hjembyen Massachusetts guvernør William Weld. Disse stemmeoptegnelser indeholdt oplysninger som navn, adresse, postnummer, fødselsdato og køn. Det faktum, at den medicinske datafil og vælgerfilen delte felter-postnummer, fødselsdato og køn-betød, at Sweeney kunne forbinde dem. Sweeney vidste, at svejses fødselsdag var 31. juli 1945, og stemmesedlerne omfattede kun seks personer i Cambridge med den fødselsdag. Yderligere af de seks personer var kun tre mænd. Og af de tre mænd delte kun én svejsens postnummer. Således viste afstemningsdataene, at alle i de medicinske data med Welds kombination af fødselsdato, køn og postnummer var William Weld. I det væsentlige tilvejebragte disse tre stykker information et unikt fingeraftryk til ham i dataene. Med denne kendsgerning kunne Sweeney finde Welds lægejournaler, og for at informere ham om hendes feat sendte hun ham en kopi af hans optegnelser (Ohm 2010) .
Sweeneys arbejde illustrerer den grundlæggende struktur for genidentifikationsangreb - for at vedtage et begreb fra computersikkerhedssamfundet. I disse angreb er to datasæt, som hverken i sig selv afslører følsomme oplysninger, forbundet, og ved denne sammenkobling udsættes følsomme oplysninger.
Som svar på Sweeneys arbejde og andet relateret arbejde fjerner forskerne generelt meget mere information - alle såkaldte "personligt identificerende oplysninger" (PII) (Narayanan and Shmatikov 2010) - under processen med "anonymisering". Desuden er mange forskere indse nu, at visse data - f.eks. lægejournaler, finansielle oversigter, svar på spørgsmålet om ulovlig adfærd - sandsynligvis er for følsomme over for frigivelse selv efter "anonymisering." Men eksemplerne, som jeg skal give, tyder på, at sociale forskere har brug for at ændre deres tænkning. Som et første skridt er det klogt at antage, at alle data er potentielt identificerbare, og alle data er potentielt følsomme. Med andre ord, i stedet for at tænke på, at informationsrisikoen gælder for en lille delmængde af projekter, bør vi antage, at det gælder - i nogen grad - for alle projekter.
Begge aspekter af denne omorientering er illustreret af Netflix-prisen. Som beskrevet i kapitel 5 udgav Netflix 100 millioner filmvurderinger fra næsten 500.000 medlemmer og havde et åbent opkald, hvor folk fra hele verden indgav algoritmer, der kunne forbedre Netflix evne til at anbefale film. Før frigivelse af data fjernede Netflix enhver åbenlys personligt identificerende information, såsom navne. De gik også et ekstra skridt og introducerede små forstyrrelser i nogle af optegnelserne (fx ændrede nogle vurderinger fra 4 stjerner til 3 stjerner). De opdagede dog hurtigt, at dataene på trods af deres indsats stadig ikke var anonyme.
Bare to uger efter dataene blev udgivet, viste Arvind Narayanan og Vitaly Shmatikov (2008) , at det var muligt at lære om bestemte folks filmpræferencer. Tricket til deres genidentifikationsangreb lignede Sweeneys: Sammenlægge to informationskilder, en med potentielt følsomme oplysninger og ingen åbenlyst identificerende oplysninger og en, der indeholder folks identiteter. Hver af disse datakilder kan være individuelt sikker, men når de kombineres, kan det fusionerede datasæt skabe oplysningsrisiko. I tilfælde af Netflix data, her er hvordan det kunne ske. Forestil dig, at jeg vælger at dele mine tanker om action- og komediefilm med mine kolleger, men det foretrækker jeg ikke at dele min mening om religiøse og politiske film. Mine kolleger kunne bruge de oplysninger, jeg har delt med dem, for at finde mine poster i Netflix-dataene; de oplysninger, jeg deler, kunne være et unikt fingeraftryk ligesom William Welds fødselsdato, postnummer og køn. Så hvis de fandt mit unikke fingeraftryk i dataene, kunne de lære mine vurderinger om alle film, herunder film, som jeg vælger ikke at dele. Ud over denne slags målrettet angreb fokuseret på en enkeltperson viste Narayanan og Shmatikov også, at det var muligt at udføre et bredt angreb - der involverer mange mennesker - ved at slå sammen Netflix-dataene med personlige og filmdata, som nogle mennesker har valgt at indsende på Internet Movie Database (IMDb). Helt enkelt kan enhver information, der er et unikt fingeraftryk til en bestemt person - selv deres sæt filmindstillinger - bruges til at identificere dem.
Selvom Netflix-dataene kan genindpeges i enten et målrettet eller bredt angreb, kan det stadig synes at være lav risiko. Trods alt ser filmvurderingerne ikke ud til at være meget følsomme. Selvom det kan være sandt generelt, for nogle af de 500.000 mennesker i datasættet, kan filmvurderinger være ret følsomme. I virkeligheden sluttede en closeted lesbisk kvinde til en klassedragt mod Netflix som reaktion på genidentifikationen. Her er hvordan problemet blev udtrykt i deres retssag (Singel 2009) :
"[M] ovie og rating data indeholder oplysninger om en ... meget personlig og følsom karakter. Medlemmets filmdata udsætter et Netflix-medlems personlige interesse og / eller kamp med forskellige meget personlige problemer, herunder seksualitet, psykisk sygdom, genopretning fra alkoholisme og offer for incest, fysisk misbrug, vold i hjemmet, utroskab og voldtægt. "
Genidentifikationen af Netflix-prisen data viser, at alle data er potentielt identificerbare, og at alle data er potentielt følsomme. På dette tidspunkt tror du måske, at det kun gælder data, der angiveligt handler om mennesker. Overraskende er det ikke tilfældet. Som en reaktion på en anmodning om frihed til informationslov udstedte New York City-registret udgaver af hver taxitur i New York i 2013, herunder afhentning og afgangstider, lokationer og billetpriser (husk fra kapitel 2, at Farber (2015) brugte lignende data til at teste vigtige teorier inden for arbejdsmarkedsøkonomi). Disse data om taxitur kan forekomme godartede, fordi de ikke synes at give information om mennesker, men Anthony Tockar indså, at dette taxa datasæt faktisk indeholdt mange potentielt følsomme oplysninger om mennesker. For at illustrere så han på alle ture, der startede hos Hustler Club-en stor stripklub i New York mellem midnat og kl. 6 og fandt derefter deres drop-off steder. Denne søgning afslørede - i det væsentlige - en liste over adresser på nogle mennesker, der besøgte Hustler Club (Tockar 2014) . Det er svært at forestille sig, at byens regering havde det i tankerne, da det frigav dataene. Faktisk kan denne samme teknik bruges til at finde hjemmeadresserne for personer, der besøger ethvert sted i byen-en medicinsk klinik, en statsbygning eller en religiøs institution.
Disse to tilfælde af Netflix-prisen og New York City-taxa data viser, at relativt dygtige mennesker ikke kan korrekt opregne informationsrisikoen i de data, de udgiver - og disse tilfælde er på ingen måde unikke (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Desuden er de problematiske data i mange sådanne tilfælde stadig frit tilgængelige online, hvilket angiver vanskeligheden ved aldrig at fortryde en dataudgivelse. Samlet set fører disse eksempler - såvel som forskning i datalogi om privatlivets fred - til en vigtig konklusion. Forskere bør antage, at alle data er potentielt identificerbare, og alle data er potentielt følsomme.
Desværre er der ingen enkel løsning på fakta, at alle data er potentielt identificerbare, og at alle data er potentielt følsomme. En måde at reducere informationsrisiko på, mens du arbejder med data er imidlertid at oprette og følge en databeskyttelsesplan . Denne plan mindsker risikoen for, at dine data lækker og vil mindske skade, hvis en lækage opstår på en eller anden måde. Specifikationen af databeskyttelsesplaner, som hvilken form for kryptering der skal bruges, vil ændre sig over tid, men UK Data Services hjælper med at organisere elementerne i en databeskyttelsesplan i fem kategorier, som de kalder de fem pengeskabe : sikre projekter, sikre mennesker , sikre indstillinger, sikre data og sikre udgange (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Ingen af de fem pengeskabe giver perfekt beskyttelse. Men sammen udgør de et kraftfuldt sæt faktorer, der kan mindske informationsrisikoen.
Sikker | Handling |
---|---|
Sikre projekter | Grænser projekter med data til dem, der er etiske |
Sikre mennesker | Adgang er begrænset til personer, der kan stole på data (fx personer, der har gennemgået etisk træning) |
Sikker data | Data er de-identificeret og aggregeret i det omfang det er muligt |
Sikker indstillinger | Data lagres i computere med passende fysiske (f.eks. Låst rum) og software (f.eks. Adgangskodebeskyttelse, krypteret) beskyttelse |
Sikker udgang | Forskningsproduktionen gennemgås for at forhindre uheldige brud på privatlivets fred |
Ud over at beskytte dine data, mens du bruger dem, er et trin i forskningsprocessen, hvor informationsrisiko er særlig vigtig, datadeling med andre forskere. Datadeling blandt forskere er en kerneværdi af den videnskabelige indsats, og det letter i høj grad fremskridtet af viden. Sådan beskrev Det Forenede Kongerige House of Commons betydningen af datadeling (Molloy 2011) :
"Adgang til data er grundlæggende, hvis forskerne skal reproducere, verificere og bygge videre på resultater, som rapporteres i litteraturen. Formodningen skal være, at medmindre der er en stærk grund ellers, skal data offentliggøres og gøres offentligt tilgængelige. "
Ved at dele dine data med en anden forsker kan du dog øge informationsrisikoen for dine deltagere. Det kan således virke som om datadeling skaber en grundlæggende spænding mellem forpligtelsen til at dele data med andre videnskabsmænd og forpligtelsen til at minimere informationsrisikoen for deltagerne. Heldigvis er dette dilemma ikke så alvorligt som det ser ud til. Det er snarere bedre at tænke på datadeling som at falde langs et kontinuum, med hvert punkt på det kontinuum, der giver en anden blanding af fordele for samfundet og risiko for deltagerne (figur 6.6).
På den ene side kan du dele dine data med ingen, hvilket minimerer risikoen for deltagerne, men også minimerer gevinster til samfundet. På den anden side kan du frigive og glemme , hvor data er "anonymiseret" og sendt til alle. I forhold til ikke-frigivelse af data giver frigivelse og glemme både højere fordele for samfundet og højere risiko for deltagerne. I mellem disse to ekstreme tilfælde er en række hybrider, herunder hvad jeg kalder en muret have tilgang. Under denne tilgang deles data med personer, der opfylder visse kriterier, og som accepterer at være bundet af visse regler (f.eks. Tilsyn fra en IRB og en databeskyttelsesplan). Den murede haven tilgang giver mange af fordelene ved frigivelse og glemmer med mindre risiko. Selvfølgelig skaber en sådan tilgang mange spørgsmål - hvem skal have adgang, under hvilke omstændigheder og i hvor lang tid, hvem skal betale for at opretholde og polere den murede have mv. - men disse er ikke uoverstigelige. Faktisk er der allerede arbejdet murede haver på plads, som forskere kan bruge lige nu, såsom dataregisteret for Interuniversitetskonsortiet for Politisk og Social Forskning ved University of Michigan.
Så hvor skal dataene fra din undersøgelse være på kontinuum uden deling, murede have og frigive og glemme? Dette afhænger af detaljerne i dine data: Forskere skal balancere Respekt for personer, fordel, retfærdighed og respekt for lov og offentlig interesse. Set ud fra dette perspektiv er datadeling ikke et karakteristisk etisk overfald; Det er blot et af de mange aspekter af forskning, hvor forskere skal finde en passende etisk balance.
Nogle kritikere er generelt imod dataudveksling, fordi de efter min opfattelse er fokuseret på dets risici - hvilket utvivlsomt er ægte - og ignorerer dens fordele. Så for at fremme fokus på både risici og fordele vil jeg gerne tilbyde en analogi. Hvert år er biler ansvarlige for tusindvis af dødsfald, men vi forsøger ikke at forbyde kørsel. Faktisk ville et opkald til at forbyde kørsel være absurd, fordi kørsel muliggør mange vidunderlige ting. Snarere sætter samfundet begrænsninger på hvem der kan køre (fx behovet for at være en vis alder og have bestået visse tests) og hvordan de kan køre (f.eks. Under hastighedsgrænsen). Samfundet har også mennesker til opgave at håndhæve disse regler (fx politiet), og vi straffer folk, der er fanget, overtræder dem. Den samme slags afbalanceret tænkning som samfundet gælder for at regulere kørsel kan også anvendes til datadeling. Det er snarere end at lave absolutistiske argumenter for eller imod datadeling, jeg tror, at vi vil gøre mest fremskridt ved at fokusere på, hvordan vi kan reducere risiciene og øge fordelene ved dataudveksling.
Afslutningsvis er informationsrisikoen steget dramatisk, og det er meget svært at forudsige og kvantificere. Derfor er det bedst at antage, at alle data er potentielt identificerbare og potentielt følsomme. For at mindske informationsrisikoen, når man forsker, kan forskere oprette og følge en databeskyttelsesplan. Yderligere forhindrer oplysningsrisiko ikke forskere i at dele data med andre videnskabsmænd.