Informacijski rizik najčešći je rizik u društvenim istraživanjima; dramatično se povećao; i to je najteži rizik za razumijevanje.
Drugi etički izazov za digitalno doba istraživanja je informativni rizik , potencijal za štetu od otkrivanja informacija (National Research Council 2014) . Informativne štete od otkrivanja osobnih podataka mogu biti ekonomske (npr. Gubljenje posla), socijalne (npr. Neugodnosti), psihološki (npr., Depresija) ili čak kazneno (npr. Uhićenje zbog ilegalnog ponašanja). Nažalost, digitalno doba dramatično povećava informacijski rizik - postoji samo toliko više informacija o našem ponašanju. I informacijski se rizik pokazao vrlo teškim za razumijevanje i upravljanje u usporedbi s rizicima koji su bili zabrinutosti u analognim dobnim društvenim istraživanjima, poput fizičkog rizika.
Jedan od načina da se društveni znanstvenici smanjuju informativnu rizik je "skrivanja" podataka. "Skrivanje" je proces uklanjanja očite osobne identifikatore kao što su ime, adresa i broj telefona sa podacima. Međutim, ovaj pristup je mnogo manje učinkovita nego što mnogi ljudi shvatiti, a to je, u stvari, duboko i fundamentalno ograničena. Iz tog razloga, kad god sam opisao "skrivanje" Ja ću koristiti navodnike da vas podsjetim da je taj proces stvara dojam anonimnosti, ali nije istina anonimnost.
Živi primjer neuspjeha "anonimizacije" dolazi od kraja 1990-ih godina u Massachusettsu (Sweeney 2002) . Grupa osiguravajuća komisija (GIC) je vladina agencija odgovorna za kupnju zdravstvenog osiguranja za sve državne zaposlenike. Kroz ovaj rad, GIC prikupio detaljne zdravstvene evidencije o tisućama državnih zaposlenika. U pokušaju poticanja istraživanja, GIC je odlučio objaviti ove zapise istraživačima. Međutim, nisu podijelili sve svoje podatke; Umjesto toga, oni "anonimiziraju" te podatke uklanjanjem podataka kao što su imena i adrese. Međutim, ostavili su ostale informacije za koje smatraju da bi mogli biti korisni za istraživače kao što su demografske informacije (poštanski broj, datum rođenja, etnička pripadnost i spol) i medicinske informacije (posjet podataka, dijagnoza, postupak) (Slika 6.4) (Ohm 2010) . Nažalost, ova "anonimizacija" nije bila dovoljna za zaštitu podataka.
Da bi ilustrirali nedostatke GIC "anonimizacije", Latanya Sweeney - tada diplomirani student na MIT-u - platio je 20 dolara za stjecanje zapisnika s glasanjem iz grada Cambridgea, rodnog mjesta guvernera Williamsa Welda u Massachusettsu. Ove evidencije o glasovanju sadržavale su informacije kao što su ime, adresa, poštanski broj, datum rođenja i spol. Činjenica da su medicinska datoteka i datoteka birača dijelili polja - poštanski broj, datum rođenja i spol - značilo je da ih Sweeney može povezati. Sweeney je znao da je Weldov rođendan bio 31. srpnja 1945., a zapisnici o glasovanju sadržavali su samo šestero ljudi u Cambridgeu s tim rođendanom. Nadalje, od tih šest ljudi, samo tri su muškarci. A od tih trojica, samo je jedan zajednički Weldov poštanski broj. Stoga bi podaci o glasovanju pokazali da je bilo tko u medicinskim podacima s Weldovom kombinacijom datuma rođenja, spola i poštanskog broja William Weld. U biti, ta tri dijela informacija pružila mu je jedinstveni otisak prsta u podacima. Upotrijebivši tu činjenicu, Sweeney je uspio pronaći Weldov medicinski zapis, a kako bi ga obavijestio o njenom podvigu, poslala mu je kopiju njegove evidencije (Ohm 2010) .
Sweeneyjev rad ilustrira osnovnu strukturu napada ponovnog identifikacije - usvojiti pojam iz zajednice računalne sigurnosti. U tim napadima povezani su dva skupova podataka, od kojih niti jedan od njih ne otkriva osjetljive podatke, a kroz tu povezanost otkrivaju se osjetljivi podaci.
Kao odgovor na Sweeneyev rad i druge srodne radnje, istraživači sada općenito uklanjaju mnogo više informacija - sve takozvane "identifikacije osobnih podataka" (Narayanan and Shmatikov 2010) tijekom procesa "anonimizacije". Nadalje, mnogi istraživači sada shvaćaju da određeni podaci - poput medicinskih zapisa, financijskih evidencija, odgovora na pitanja ankete o ilegalnom ponašanju - vjerojatno su preosjetljivi na objavljivanje čak i nakon "anonimizacije". Međutim, primjeri koje želim dati sugeriraju da su socijalni istraživači potrebni promijeniti svoje razmišljanje. Kao prvi korak, mudro je pretpostaviti da su svi podaci potencijalno identificirani, a svi podaci su potencijalno osjetljivi. Drugim riječima, a ne misliti da se informacijski rizik primjenjuje na malu podskupinu projekata, trebali bismo pretpostaviti da se u određenoj mjeri primjenjuje na sve projekte.
Oba aspekta ove preusmjeravanja ilustrirana su nagradom Netflix. Kao što je opisano u 5. poglavlju, Netflix je objavio 100 milijuna filmskih ocjena koje je pružalo gotovo 500.000 članova, a imali su i otvoreni poziv u kojem su ljudi iz cijelog svijeta podnijeli algoritme koji bi mogli poboljšati sposobnost Netflixove preporučiti filmove. Prije objavljivanja podataka, Netflix je uklonio sve vidljive podatke koji osobno identificiraju, kao što su imena. Oni su također otišli dodatni korak i uveli neznatne perturbacije u nekim zapisima (npr. Mijenjajući ocjene od 4 zvjezdice do 3 zvjezdice). Međutim, ubrzo su otkrili da, unatoč njihovim nastojanjima, podaci još uvijek nisu anonimni.
Samo dva tjedna nakon objavljivanja podataka, Arvind Narayanan i Vitaly Shmatikov (2008) pokazali su da je moguće saznati više o filmskim preferencama određenih ljudi. Trik da im se ponovno identificira napad bio je sličan Sweeneyevu: spajanje dva izvora informacija, jedan s potencijalno osjetljivim informacijama i očigledno neidentificirane informacije i one koji sadrže identitete ljudi. Svaki od tih izvora podataka može biti pojedinačno siguran, ali kada se kombiniraju, spojeni skup podataka može stvoriti informacijski rizik. U slučaju Netflix podataka, evo kako bi se to moglo dogoditi. Zamislite da se s mojim suradnicima odlučim podijeliti svoje misli o akcijskim i komedijskim filmovima, ali da ne želim dijeliti svoje mišljenje o vjerskim i političkim filmovima. Moji suradnici mogli bi upotrijebiti informacije koje sam podijelio s njima kako bi pronašli moju evidenciju u Netflixovim podacima; informacije koje dijelim mogu biti jedinstveni otisak prsta kao i datum rođenja Williama Welda, poštanski broj i seks. Zatim, ako su pronašli moj jedinstveni otisak prsta u podacima, mogli bi saznati moje ocjene o svim filmovima, uključujući filmove za koje ne želim dijeliti. Osim takvog ciljanog napada usmjerenog na jednu osobu, Narayanan i Shmatikov također su pokazali da je bilo moguće napraviti široki napad - koji uključuje mnoge ljude - spajanjem Netflix podataka s osobnim i filmskim ocjenama koje su neki ljudi odabrali za objavljivanje na Internet Movie Database (IMDb). Vrlo jednostavno, sve informacije koje su jedinstveni otisak prsta određenoj osobi - čak i njihovu skupu ocjena filmova - mogu se upotrijebiti za njihovo prepoznavanje.
Iako se Netflix podaci mogu ponovno identificirati bilo u ciljanom ili širem napadu, i dalje se može činiti da postoji niz rizika. Uostalom, ocjene filmova ne izgledaju vrlo osjetljive. Iako bi to moglo biti istinito općenito, za neke od 500.000 ljudi u skupu podataka, ocjene filmova mogu biti prilično osjetljive. Zapravo, kao odgovor na ponovnu identifikaciju, lezbijska žena povezana je s klasičnim tužbama protiv Netflixa. Evo kako je problem izražen u njihovoj tužbi (Singel 2009) :
"[M] ovie i podaci o ocjeni sadrže podatke ... vrlo osobne i osjetljive prirode. Filmski podaci članova otkrivaju osobni interes i / ili borbe članova Netflixa s raznim osobnim pitanjima, uključujući seksualnost, duševnu bolest, oporavak od alkoholizma i žrtvovanje od incesta, fizičkog zlostavljanja, obiteljskog nasilja, preljuba i silovanja. "
Ponovna identifikacija podataka Netflix nagrade pokazuje da su svi podaci potencijalno identificirani i da su svi podaci potencijalno osjetljivi. U ovom trenutku možda mislite da se to odnosi samo na podatke koji se odnose na ljude. Iznenađujuće, to nije slučaj. Kao odgovor na zahtjev za Zakon o slobodi informiranja, vlada New Yorka objavila je zapise o svakoj vožnji taksijem u New Yorku 2013. godine, uključujući i vrijeme podizanja i odustajanja, lokacije i cijene (podsjetimo se iz 2. poglavlja da Farber (2015) koristili su slične podatke za testiranje važnih teorija u ekonomiji rada). Ovi podaci o taksijima mogu izgledati dobroćudni jer ne daju informacije o ljudima, ali Anthony Tockar je shvatio da takav paket podataka za taxi sadržavao je puno potencijalno osjetljivih informacija o ljudima. Da bi ilustrirala, pogledao je sve izlete počevši od Hustlerovog kluba - velikog striptiz kluba u New Yorku - između ponoći i 6 ujutro, a potom su našli svoje odlagalište. Ovo je istraživanje otkrilo - u biti - popis adresa nekih ljudi koji su posjetili Hustlerov klub (Tockar 2014) . Teško je zamisliti da je gradska vlada to imala na umu kada je objavila podatke. Zapravo, ova ista tehnika mogla bi se koristiti za pronalaženje kućnih adresa ljudi koji posjete bilo koje mjesto u gradu - medicinsku kliniku, zgradu vlade ili vjersku ustanovu.
Ova dva slučaja nagrade Netflix i taksi taxi podataka iz New Yorka pokazuju da relativno kvalificirani ljudi ne mogu ispravno procijeniti informacijski rizik u podacima koji one otpuštaju - a ti slučajevi nisu nijedan jedinstveni (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Nadalje, u mnogim takvim slučajevima, problematični podaci su i dalje slobodno dostupni na mreži, što ukazuje na poteškoće s poništavanjem objavljivanja podataka. Kolektivno, ovi primjeri - kao i istraživanja u računalnoj znanosti o privatnosti - dovode do važnog zaključka. Istraživači bi trebali pretpostaviti da su svi podaci potencijalno identificirani, a svi podaci mogu biti osjetljivi.
Nažalost, ne postoji jednostavno rješenje činjenica da su svi podaci potencijalno identificirani i da su svi podaci potencijalno osjetljivi. Međutim, jedan od načina smanjivanja informacijskog rizika dok radite s podacima jest stvaranje i praćenje plana zaštite podataka . Ovaj plan će smanjiti vjerojatnost da će vaši podaci procuriti i da će smanjiti štetu ako se na neki način dogodi curenje. Specifičnosti planova zaštite podataka, kao što je to koji oblik šifriranja koristiti, s vremenom će se promijeniti, no UK Data Services korisno organizira elemente plana zaštite podataka u pet kategorija koje nazivaju pet sefova : sigurni projekti, sigurni ljudi , sigurne postavke, sigurne podatke i sigurne izlaze (tablica 6.2) (Desai, Ritchie, and Welpton 2016) . Nijedan od pet sefova pojedinačno ne pruža savršenu zaštitu. No, zajedno oni čine snažan skup čimbenika koji mogu smanjiti informacijski rizik.
Sef | Akcijski |
---|---|
Sigurni projekti | Ograničava projekte s podacima onima koji su etički |
Sigurni ljudi | Pristup je ograničen samo na ljude kojima se mogu vjerovati podaci (npr. Ljudi koji su prošli etički trening) |
Sigurni podaci | Podaci su de-identificirani i agregirani u najvećoj mogućoj mjeri |
Sigurne postavke | Podaci se pohranjuju u računala s odgovarajućom fizičkom (npr. Zaključanom sobom) i softverom (npr. Zaštita lozinkom, šifriranom) zaštite |
Sigurno izlaz | Istraživanje se pregledava kako bi se spriječile slučajne povrede privatnosti |
Uz zaštitu vaših podataka dok ih koristite, jedan korak u istraživačkom procesu gdje je informacijski rizik posebno istaknuti je dijeljenje podataka s drugim istraživačima. Razmjena podataka među znanstvenicima temeljna je vrijednost znanstvenog nastojanja, a uvelike olakšava napredovanje znanja. Evo kako je Velika Britanija donijela odluku o važnosti dijeljenja podataka (Molloy 2011) :
"Pristup podacima je od temeljne važnosti ako bi istraživači trebali reproducirati, potvrditi i graditi rezultate koji su objavljeni u literaturi. Pretpostavka mora biti da, osim ako postoji drugačiji razlog, podaci moraju biti potpuno otkriveni i javno dostupni. "
Ipak, dijeljenjem podataka s drugim istraživačem, možda ćete povećati informativni rizik vašim sudionicima. Stoga se može činiti da razmjena podataka stvara temeljnu napetost između obveze dijeljenja podataka s drugim znanstvenicima i obveze da se učesnicima minimizira informacijski rizik. Srećom, ova dilema nije toliko jaka kao što se čini. Umjesto toga, bolje je razmišljati o dijeljenju podataka kao o padu kontinuuma, s tim da svaka točka na tom kontinuumu pruža različitu mješavinu koristi za društvo i rizik za sudionike (slika 6.6).
Na jednom ekstremu možete podijeliti svoje podatke s nitko, što smanjuje rizik za sudionike, ali također smanjuje dobitke za društvo. Na drugom ekstremu možete otpustiti i zaboraviti , gdje su podaci "anonimni" i postavljeni za svakoga. U odnosu na ne objavljivanje podataka, izdavanje i zaboravljanje nudi veće koristi društvu i veći rizik za sudionike. Između tih dva ekstremna slučaja nalazi se niz hibrida, uključujući i ono što ću nazvati zidanim pristupom vrtu . Pod tim se pristupom podaci dijele s ljudima koji zadovoljavaju određene kriterije i koji se slažu da su vezani nekim pravilima (npr. Nadzor nad IRB i planom zaštite podataka). Zidni vrtni pristup pruža mnoge prednosti oslobađanja i zaboravljanja uz manje rizika. Naravno, takav pristup stvara mnoga pitanja - tko bi trebao imati pristup, pod kojim uvjetima i koliko dugo, tko bi trebao platiti za održavanje i policiju zidnog vrta, itd., Ali to nisu nepremostive. Zapravo, već postoje radni zidani vrtovi koje istraživači mogu koristiti upravo sada, poput arhive podataka Inter-sveučilišnog konzorcija za politička i društvena istraživanja na Sveučilištu Michigan.
Dakle, gdje bi podaci iz vaše studije trebali biti na kontinuumu dijeljenja zidnih vrta i otpuštanja i zaboravljanja? To ovisi o pojedinostima vaših podataka: istraživači moraju uravnotežiti poštovanje prema osobama, dobrobiti, pravdi i poštivanju zakona i javnog interesa. Gledano iz ove perspektive, dijeljenje podataka nije prepoznatljiv etički problem; to je samo jedan od mnogih aspekata istraživanja u kojima istraživači moraju pronaći odgovarajuću etičku ravnotežu.
Neki kritičari općenito se protive razmjeni podataka jer, po mom mišljenju, oni su usmjereni na svoje rizike - koji su nesumnjivo stvarni - i ignoriraju njegove prednosti. Dakle, kako bi se potaknuo fokus na rizike i koristi, želio bih ponuditi analogiju. Svake godine, automobili su odgovorni za tisuće smrtnih slučajeva, ali ne pokušavamo zabraniti vožnju. Zapravo, poziv na zabranu vožnje bio bi apsurdan jer vožnja omogućuje mnoge čudesne stvari. Umjesto toga, društvo postavlja ograničenja tko može voziti (npr. Potreba da bude određena dob i prošao određene testove) i kako mogu voziti (npr. Pod ograničenjem brzine). Društvo također ima ljude zadužene za provođenje ovih pravila (npr. Policija), a kažnjavamo ljude koji su ih uhvatili da ih krše. Ova ista vrsta uravnoteženog mišljenja koje društvo primjenjuje na reguliranje vožnje može se primijeniti i na razmjenu podataka. To znači da, umjesto stvaranja apsolutnih argumenata za ili protiv dijeljenja podataka, mislim da ćemo maksimalno napredovati fokusiranjem na način na koji možemo smanjiti rizike i povećati prednosti dijeljenja podataka.
Zaključno, informacijski rizik dramatično se povećao, a vrlo je teško predvidjeti i kvantificirati. Stoga je najbolje pretpostaviti da su svi podaci potencijalno identificirani i potencijalno osjetljivi. Da bi se smanjio informacijski rizik tijekom istraživanja, istraživači mogu stvoriti i slijediti plan zaštite podataka. Nadalje, informacijski rizik ne sprječava istraživače da dijele podatke s drugim znanstvenicima.