Informacijsko tveganje je najpogostejše tveganje pri socialnih raziskavah; dramatično se je povečal; in to je najtežje razumevanje.
Drugi etični izziv za raziskave digitalne dobe je informativno tveganje , možnost škode zaradi razkrivanja informacij (National Research Council 2014) . Informacijska škoda zaradi razkritja osebnih podatkov bi lahko bila gospodarska (npr. Izguba službe), socialna (npr. Sramota), psihološka (npr. Depresija) ali celo kazenska (npr. Aretacija zaradi nezakonitega vedenja). Na žalost digitalna doba dramatično povečuje informativno tveganje - še veliko več informacij o našem vedenju. In informativno tveganje se je izkazalo za zelo težko razumeti in obvladovati v primerjavi s tveganji, ki so se pojavljala v socialnih raziskavah analogne dobe, kot je fizično tveganje.
Eden od načinov, da socialne raziskovalci zmanjša informacijsko tveganje je "anonimne" podatkov. "Anonimizacija" je postopek odstranitve očitne osebne identifikatorje, kot so ime, naslov in telefonsko številko iz podatkov. Vendar pa je ta pristop veliko manj učinkovit kot mnogi ljudje zavedajo, in je v bistvu zelo in bistveno omejena. Zaradi tega, ko sem opisati "anonimizacijo," bom uporabil narekovaje, da vas spomnim, da je ta proces ustvarja videz anonimnosti, vendar ni res anonimnosti.
Živi primer neuspeha anonimizacije izhaja iz konca devetdesetih let 20. stoletja v Massachusettsu (Sweeney 2002) . Skupinska zavarovalna komisija (GIC) je bila vladna agencija, odgovorna za nakup zdravstvenega zavarovanja za vse državne uslužbence. S tem delom je GIC zbral podrobne zdravstvene zapise o tisočih državnih uslužbencev. V prizadevanju za spodbujanje raziskav se je GIC odločil, da te evidence izda raziskovalcem. Vendar pa niso dali vseh svojih podatkov; namesto tega so te podatke "anonimizirali" z odstranjevanjem informacij, kot so imena in naslove. Vendar so zapustili druge informacije, za katere so menili, da bi lahko bile koristne za raziskovalce, kot so demografske informacije (poštna številka, datum rojstva, etnična pripadnost in spol) in zdravstveni podatki (podatki o obiskih, diagnozi, postopek) (slika 6.4) (Ohm 2010) . Na žalost ta "anonimizacija" ni bila zadostna za zaščito podatkov.
Za ponazoritev pomanjkljivosti GIC "anonimizacije", Latanya Sweeney, potem študentka na MIT, ki je plačala 20 dolarjev za pridobitev glasovalnih evidenc iz mesta Cambridge, rojstnega mesta guvernerja Massachusettsa Williama Welda. Ti zapisi o glasovanju so vsebovali informacije, kot so ime, naslov, poštna številka, datum rojstva in spol. Dejstvo, da sta medicinska podatkovna datoteka in glasovalna datoteka skupna polja - poštna številka, datum rojstva in spol - pomenila, da bi jih Sweeney lahko povezal. Sweeney je vedel, da je Weldov rojstni dan 31. julija 1945, v glasbenih zapisih pa je bilo le šest ljudi v Cambridgeu s tem rojstnim dnevom. Nadalje, od teh šestih ljudi, so bili le trije moški. In od teh treh mož je samo ena deljena Weldova poštna številka. Tako so podatki o glasovanju pokazali, da je bil vsakdo v medicinskih podatkih z Weldovo kombinacijo datuma rojstva, spola in poštne številke William Weld. V bistvu so ti trije podatki priskrbeli edinstven prstni odtis mu v podatkih. Z uporabo tega dejstva je Sweeney lahko poiskal Weldove zdravstvene kartoteke in mu sporočil, da je njen podvig pošten, mu poslal kopijo svojih zapisov (Ohm 2010) .
Delo Sweeneyja prikazuje osnovno strukturo napadov ponovne identifikacije - sprejmite izraz iz skupnosti računalniške varnosti. V teh napadih sta povezana dva podatkovna niza, ki nista samo po sebi razkrivajo občutljivih informacij, in prek te povezave so izpostavljene občutljive informacije.
V odgovor na Sweeneyjevo delo in drugo sorodno delo raziskovalci zdaj na splošno odstranjujejo veliko več informacij - vse tako imenovane "osebne identifikacije" (PII) (Narayanan and Shmatikov 2010) - v času procesa "anonimizacije". Poleg tega mnogi raziskovalci zdaj se zavedajo, da so nekateri podatki, kot so zdravstveni zapisi, finančni zapisi, odgovori na anketna vprašanja o nezakonitem vedenju, verjetno preveč občutljivi za izpustitev tudi po "anonimizaciji". Vendar pa primeri, ki jih bom navedel, kažejo, da morajo socialni raziskovalci spremeniti svoje razmišljanje. Kot prvi korak je pametno domnevati, da so vsi podatki potencialno prepoznavni in da so vsi podatki potencialno občutljivi. Z drugimi besedami, namesto razmišljanja, da informacijsko tveganje velja za majhno podskupino projektov, bi morali domnevati, da se v določeni meri uporablja za vse projekte.
Oba vidika te preusmeritve ponazarja nagrada Netflix. Kot je opisano v poglavju 5, je Netflix izdal 100 milijonov filmskih ocen, ki jih je zagotovilo skoraj 500.000 članov, in so odprli klic, kjer so ljudje z vsega sveta predložili algoritme, ki bi izboljšali sposobnost Netflixa, da priporoči filme. Pred objavo podatkov je Netflix odstranil očitne osebne podatke, na primer imena. Prav tako so naredili dodaten korak in uvedli manjše motnje v nekaterih zapisih (npr. Spreminjanje nekaterih ocen s 4 zvezdicami na 3 zvezdice). Kmalu so ugotovili, da podatki kljub njihovim prizadevanjem še vedno niso anonimni.
Samo dva tedna po tem, ko so bili podatki objavljeni, so Arvind Narayanan in Vitaly Shmatikov (2008) pokazali, da se je mogoče naučiti o posebnih filmskih preferencah. Trik pri napadu ponovne identifikacije je bil podoben Sweeney's: združiti sta se dve informacijski viri, eden s potencialno občutljivimi informacijami in brez jasnih informacij, ki vsebujejo identitete ljudi. Vsak od teh podatkovnih virov je lahko individualno varen, vendar pa lahko združeni nabori podatkov ustvarijo informativno tveganje. V primeru podatkov Netflix-a, tukaj je, kako se lahko zgodi. Predstavljajte si, da se z mojimi sodelavci strinjam, da delim svoje misli o akcijskih in komedijskih filmih, a raje ne delim mnenja o verskih in političnih filmih. Moji sodelavci so lahko uporabili informacije, ki sem jih dala z njimi, da bi našli svoje zapise v podatkih Netflixa; informacije, ki jih delim, bi lahko bili edinstveni prstni odtis, podobno kot datum rojstva Williama Welda, poštna številka in spol. Nato, če bi našli podatke o mojem edinstvenem prstnem odtisu, bi se lahko naučili mojih ocen o vseh filmih, vključno s filmi, za katere se odločim, da jih ne delim. Poleg te vrste usmerjenega napada, osredotočenega na eno osebo, sta Narayanan in Shmatikov tudi pokazala, da je bilo mogoče storiti širok napad, ki je vključeval veliko ljudi, tako da združuje podatke Netflixa s podatki o osebnih podatkih in filmskih ocenah, ki so jih nekateri izbrali objaviti v Internet Movie Database (IMDb). Preprosto je mogoče vse informacije, ki so edinstveni prstni odtisi določeni osebi - celo njihov niz ocen filmov - uporabiti za njihovo prepoznavanje.
Čeprav se podatki Netflixa lahko ponovno identificirajo bodisi v ciljno usmerjenem ali širšem napadu, se lahko zdi še vedno nizko tvegano. Navsezadnje se ocene filmov ne zdijo zelo občutljive. Čeprav je to na splošno lahko, za nekatere od 500.000 ljudi v naboru podatkov, so ocene filmov precej občutljive. Pravzaprav je v odgovor na ponovno identifikacijo lezbična ženska, ki se je pridružila tožbi proti Netflixu, Evo, kako je bila težava izražena v svoji tožbi (Singel 2009) :
"Ovie in bonitetni podatki vsebujejo informacije ... zelo osebne in občutljive narave. Članski filmski podatki razkrivajo osebni interes člana Netflixa in / ali se bori z različnimi zelo osebnimi vprašanji, vključno s spolnostjo, duševnimi boleznimi, okrevanjem od alkoholizma in viktimizacijo zaradi incesta, telesne zlorabe, nasilja v družini, prešuštva in posilstva.
Ponovna identifikacija podatkov o nagradi Netflix kaže, da so vsi podatki potencialno prepoznavni in da so vsi podatki potencialno občutljivi. Na tej točki lahko mislite, da to velja samo za podatke, ki naj bi bili ljudje. Presenetljivo, to ni tako. Vlada New Yorka je v odgovor na prošnjo za svobodo obveščanja objavila zapise o vsakem vožnji taksija v New Yorku leta 2013, vključno s časom, krajema in izstopom iz časa vožnje, lokacijami in zneski vozovnic (odpoklic iz 2. poglavja, ki ga je Farber (2015) uporabili podobne podatke za preizkušanje pomembnih teorij v ekonomiji dela). Ti podatki o taksnih potovanjih se lahko zdijo prijazni, ker ne zdijo informacije o ljudeh, vendar je Anthony Tockar ugotovil, da ta podatkovni niz dejansko vsebuje veliko potencialno občutljivih informacij o ljudeh. Za ponazoritev je pogledal vsa potovanja, ki se začnejo v klubu Hustler - velik strip club v New Yorku - med polnočjo in 6 uro, nato pa najdejo svoje počitniške lokacije. To iskanje je razkrilo - v bistvu - seznam naslovov nekaterih ljudi, ki so obiskovali klub Hustler (Tockar 2014) . Težko si je predstavljati, da je mestna vlada to imela v mislih, ko je objavila podatke. Pravzaprav bi lahko to isto tehniko uporabili tudi pri iskanju domačih naslovov ljudi, ki obiščejo katero koli mesto v mestu - medicinsko kliniko, vladno stavbo ali versko ustanovo.
Ta dva primera nagrade Netflix in Taxi v New Yorku kažejo, da sorazmerno usposobljeni ljudje ne morejo pravilno oceniti informacijskega tveganja v podatkih, ki jih objavijo - in ti primeri nikakor niso edinstveni (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Poleg tega so v številnih takih primerih problematični podatki še vedno prosto dostopni na spletu, kar nakazuje na težavo, da bi se vedno sprostilo posredovanje podatkov. Skupaj ti primeri, pa tudi raziskave v računalništvu o zasebnosti, vodijo do pomembnega zaključka. Raziskovalci bi morali domnevati, da so vsi podatki potencialno prepoznavni in da so vsi podatki potencialno občutljivi.
Na žalost ni preproste rešitve dejstev, da so vsi podatki potencialno prepoznavni in da so vsi podatki potencialno občutljivi. Vendar pa je eden od načinov za zmanjšanje informacijskega tveganja, ko delate s podatki, ustvariti in upoštevati načrt varstva podatkov . Ta načrt bo zmanjšal možnost, da bodo vaši podatki puščali in zmanjšali škodo, če se nekakšno uhajanje nekako zgodi. Posebnosti načrtov varstva podatkov, kot je oblika šifriranja za uporabo, se bodo sčasoma spreminjale, Združene podatkovne službe pa pomagajo organizirati elemente načrta varstva podatkov v pet kategorij, ki jih imenujejo pet sefov : varni projekti, varni ljudje , varne nastavitve, varne podatke in varne izhode (tabela 6.2) (Desai, Ritchie, and Welpton 2016) . Noben od petih sefov posamično ne zagotavlja popolne zaščite. Toda skupaj tvorijo močan niz dejavnikov, ki lahko zmanjšajo informativno tveganje.
Varno | Ukrep |
---|---|
Varni projekti | Omejuje projekte s podatki na tiste, ki so etični |
Varni ljudje | Dostop je omejen na ljudi, s katerimi se lahko zaupajo podatki (npr. Ljudje, ki so bili etično usposobljeni) |
Varni podatki | Podatki se ne opredelijo in združujejo v največji možni meri |
Varne nastavitve | Podatki se shranjujejo v računalnike z ustreznim fizičnim (npr. Zaklenjena soba) in programsko opremo (npr. Zaščito z geslom, šifrirano) |
Varen izhod | Izsledki raziskav se pregledajo, da se preprečijo naključne kršitve zasebnosti |
Poleg varstva podatkov, medtem ko jih uporabljate, je korak v raziskovalnem procesu, kjer je informativno tveganje še posebej pomembno, izmenjava podatkov z drugimi raziskovalci. Izmenjava podatkov med znanstveniki je temeljna vrednota znanstvenih prizadevanj in znatno olajšuje napredovanje znanja. Zdaj je Svet Združenih narodov Združenega kraljestva opisal pomen izmenjave podatkov (Molloy 2011) :
"Dostop do podatkov je temeljnega pomena, če raziskovalci reproducirajo, preverjajo in gradijo rezultate, o katerih poročajo v literaturi. Predpostavka mora biti, da se podatki, razen če obstaja drugačen razlog, sicer v celoti razkrijejo in objavijo. "
Toda z delitvijo podatkov z drugim raziskovalcem lahko povečate informativno tveganje za svoje udeležence. Tako se zdi, da izmenjava podatkov ustvarja temeljno napetost med obveznostjo izmenjave podatkov z drugimi znanstveniki in obveznostjo, da se udeležencem kar najbolj zmanjša informativno tveganje. Na srečo ta dilema ni tako huda, kot se zdi. Namesto tega je bolje razmišljati o izmenjavi podatkov, ki sodi v kontinuum, pri čemer vsaka točka tega kontinuuma zagotavlja drugačno mešanico koristi za družbo in tveganje za udeležence (slika 6.6).
V eni ekstremi lahko svoje podatke delite z nobeno osebo, kar zmanjša tveganje za udeležence, pa tudi zmanjša dobičke družbi. V drugi ekstremi lahko spustite in pozabite , kjer so podatki "anonimni" in objavljeni za vsakogar. V zvezi z neobjavljanjem podatkov, izdajanjem in pozabljanjem ponuja tako višje koristi družbi in večje tveganje za udeležence. Med tema dvema ekstremnima primeroma je vrsta hibridov, vključno s tem, kar bom poklical z obzidnim vrtovnim pristopom. V skladu s tem pristopom se podatki delijo z ljudmi, ki izpolnjujejo določena merila in se strinjajo, da jih bodo zavezovala nekatera pravila (npr. Nadzor nad IRB in načrtom za zaščito podatkov). Pristop z obzidjem na vrtu ponuja številne prednosti sproščanja in pozabi z manjšim tveganjem. Seveda takšen pristop ustvarja veliko vprašanj, kdo bi moral imeti dostop, pod kakšnimi pogoji in koliko časa mora kdo plačati za vzdrževanje in policijo zidanega vrta itd., Vendar to ni nepremostljivo. Pravzaprav že obstajajo delovne stenske vrtove, ki jih lahko raziskovalci uporabljajo zdaj, kot je arhiv podatkov Meduniverzitetnega konzorcija za politične in družbene raziskave na Univerzi v Michiganu.
Torej, kje bi morali biti podatki iz vaše študije na kontinuumu brez delitve, obzidanega vrta in sprostitve in pozabljanja? To je odvisno od podrobnosti vaših podatkov: raziskovalci morajo uravnotežiti spoštovanje do oseb, koristi, pravičnosti ter spoštovanja prava in javnega interesa. S tega vidika si souporaba podatkov ni posebna etična zagonetka; je le eden izmed mnogih vidikov raziskav, v katerem morajo raziskovalci najti ustrezno etično ravnovesje.
Nekateri kritiki na splošno nasprotujejo izmenjavi podatkov, ker so po mojem mnenju osredotočeni na njena tveganja, ki so nedvomno resnična in ne upoštevajo njenih prednosti. Torej, če želim spodbuditi osredotočenost na tveganja in koristi, bi rad ponudil analogijo. Vsako leto so avtomobili odgovorni za tisoče smrti, vendar ne poskušamo prepovedati vožnje. Pravzaprav bi bil klic prepovedi vožnje absurden, saj vožnja omogoča veliko čudovitih stvari. Družba namesto omejuje kdo lahko vozi (npr. Potreba po določeni starosti in opraviti določene preizkuse) in kako lahko vozi (npr. Pod omejitvijo hitrosti). Družba ima tudi ljudi, ki so zadolženi za uveljavljanje teh pravil (npr. Policija), in kaznovamo ljudi, ki jih ujamejo. Tovrstno uravnoteženo razmišljanje, ki ga družba uporablja za urejanje vožnje, se lahko uporablja tudi za izmenjavo podatkov. To pomeni, da ne bomo naredili absolutističnih argumentov za izmenjavo podatkov ali proti njim, mislim, da bomo čim bolj napredovali z osredotočanjem na to, kako lahko zmanjšamo tveganja in povečamo koristi od izmenjave podatkov.
Skratka, informacijsko tveganje se je dramatično povečalo in zelo težko je napovedati in količinsko opredeliti. Zato je najbolje domnevati, da so vsi podatki potencialno prepoznavni in potencialno občutljivi. Za zmanjšanje informacijskega tveganja med raziskovanjem lahko raziskovalci oblikujejo in sledijo načrtu varstva podatkov. Poleg tega informacijsko tveganje raziskovalcem ne preprečuje, da si izmenjujejo podatke z drugimi znanstveniki.