Informácie o riziko je najčastejším rizikom sociálneho výskumu; že sa dramaticky zvýšila; a to je najťažšie riziko rozumieť.
Druhý etická výzva pre digitálne výskumu v sociálnych veku je informačné riziko, potenciál pre poškodenie od sprístupnenia informácií (Council 2014) . Informačný Harms od zverejnenia osobných informácií by mohli byť ekonomické (napríklad strata zamestnania), sociálne (napr rozpaky), psychologický (napr depresia), alebo dokonca kriminálny (napr zatknutie nezákonné správanie). Bohužiaľ, v digitálnom veku zvyšuje riziko informácií dramaticky, tam je tak oveľa viac informácií o našom správaní. A informačné riziká sa ukázala byť veľmi ťažké pochopiť a riadiť v porovnaní s rizikami, ktoré boli obavy z analógového veku sociálneho výskumu, ako je napríklad fyzické nebezpečenstvo. Ak chcete vidieť, ako v digitálnom veku zvyšuje riziko informačné, zvážte prechod od papiera na elektronické lekárske záznamy. Oba typy záznamov vytvárajú riziko, ale elektronické dokumenty vytvárať oveľa väčšie riziká, pretože v masovom meradle môžu byť odovzdané neoprávnenou osobou alebo zlúčené s inými záznamami. Sociálna vedci v digitálnom veku už naraziť na problémy s informačné riziká, a to sčasti preto, že neboli plne pochopiť, ako kvantifikovať a riadiť ho. Takže, idem ponúknuť užitočný spôsob, ako premýšľať o informačnej riziká, a potom idem dať nejaké rady pre ako riadiť informačnú riziká vo svojom výskume a uvoľnenie dát s inými výskumníkmi.
Jedným zo spôsobov, že sociálne vedci znížiť informačné riziko je "anonymizácie" dát. "Anonymita" je proces odstraňovania zjavné osobné identifikátory, ako je meno, adresa a telefónne číslo z dát. Avšak, tento prístup je oveľa menej efektívna ako mnoho ľudí si uvedomiť, a to je, v skutočnosti, hlboko a zásadne obmedzený. Z tohto dôvodu, keď som opísal "anonymizácii," budem používať úvodzovky vám pripomenúť, že tento proces vytvára dojem anonymity ale nie je pravda anonymity.
Názorným príkladom zlyhania "anonymizácie" pochádza z neskorej 1990 v Massachusetts (Sweeney 2002) . Skupina poistenie Komisie (GIC) bol vládna agentúra zodpovedná za nákup zdravotné poistenie pre všetkých zamestnancov štátnej správy. Prostredníctvom tejto práce GIC zhromaždené podrobné zdravotné záznamy o tisíce štátnych zamestnancov. V snahe povzbudiť výskum o spôsoboch, ako zlepšiť zdravie, GIC rozhodla o uvoľnenie týchto záznamov pre výskumných pracovníkov. Avšak, oni nezdieľali všetci ich údajov; trochu, oni "anonymný" to tým, že odstráni informácie, ako je meno a adresa. Avšak, oni opustili ďalšie informácie, ktoré si mysleli, že by mohli byť užitočné pre výskumných pracovníkov, ako sú demografické údaje (poštové smerovacie číslo, dátum narodenia, etnický pôvod, a pohlavie) a zdravotníckych informácií (dát návšteva, diagnostiku, riadenie) (obrázok 6.4) (Ohm 2010) . Bohužiaľ, toto "anonymizácia" nestačila k ochrane dát.
Pre ilustráciu nedostatky GIC "anonymizácie" Latanya Sweeney, potom postgraduálny študent na MIT platené $ 20 získať záznamy hlasovacie od mesta Cambridge, rodné mesto Massachusetts guvernér William Weld. Táto hlasovacie záznamy zahrnuté informácie, ako je meno, adresa, poštové smerovacie číslo, dátum narodenia a pohlavie. Skutočnosť, že lekárska dátový súbor a volič súbor zdieľané poľa, poštové smerovacie číslo, dátum narodenia a pohlavie znamenalo, že Sweeney ich mohli prepojiť. Sweeney vedel, že zvar narodeniny bol 31.júla 1945, a hlasovacie záznamy boli zahrnuté len šesť ľudí v Cambridge s týmto narodeniny. Ďalej je z tých šiestich ľudí, iba tri z nich boli muži. A z týchto troch mužov, len jedna spoločná zvar je poštové smerovacie číslo. Tak, dáta hlasovania ukázali, že niekto z lekárskych údajov s kombináciou zvárať zo dátum narodenia, pohlavie a poštového smerovacieho čísla bol William Weld. V podstate, tieto tri kusy informácií za predpokladu, jedinečný odtlačok prsta k nemu v dátach. Použitie tejto skutočnosti, Sweeney bol schopný lokalizovať lekárske záznamy zvárať, a aby ho informoval o jej čin, mu poslal kópiu svojej evidencie (Ohm 2010) .
Sweeney práce znázorňuje základnú štruktúru de-anonymizáciu útoky -to prijať termín z počítačovej bezpečnostnej komunity. V týchto útokov, dva dátové sady, z ktorých ani jeden samo o sebe odhaľuje citlivé informácie, sú prepojené, a prostredníctvom tejto väzby, citlivé informácie je vystavená. V niektorých ohľadoch je tento proces je podobný spôsobu, jedlá sóda a ocot, dve látky, ktoré sú samy o sebe v bezpečí, môžu byť kombinované na vytvorenie škaredý výsledok.
V reakcii na Sweeney práce a ďalšie súvisiace práce, vedci teraz všeobecne odstrániť oveľa viac informácií podporujúci všetky takzvané "osobných identifikačných údajov" (PII) (Narayanan and Shmatikov 2010) -during proces "anonymizácie". Ďalej, mnoho výskumníkov teraz uvedomujeme si, že určitá data-, ako sú lekárske záznamy, finančné záznamy, odpovede na otázky v prieskume ohľadom nezákonného konania, je pravdepodobne príliš citlivý na uvoľnenie dokonca aj po "anonymizácie". Avšak ďalšie nedávne príklady, ktoré budem popisovať ďalej naznačujú, že sociálne vedci potrebujú zmeniť svoje myslenie. Ako prvý krok, je rozumné predpokladať, že všetky dáta sú potenciálne identifikovateľný a všetky dáta sú potenciálne citlivé. Inými slovami, skôr než na mysli, že informačné riziko, sa vzťahuje na malú podmnožinu projektov, mali by sme predpokladať, že to platí, do určitej miery, na všetky projekty.
Oba aspekty tejto zmene orientácie sú znázornené na Netflix cenu. Ako je uvedené v kapitole 5, Netflix uvoľní 100 miliónov filmových ratingov takmer 500.000 členov, a mal otvorenú výzvu, kde ľudia z celého sveta predloženej algoritmy, ktoré by mohli zlepšiť schopnosť Netflix je odporučiť filmy. Pred uvoľnením dáta, Netflix vylúčilo samozrejme osobné identifikačné údaje, ako sú mená. Netflix tiež išiel krok navyše a predstavil mierne nepokojom v niektorej záznamy (napr ktorým sa mení niektoré rating od 4 hviezdičky 3 hviezdičky). Netflix čoskoro zistil však, že napriek svojej snahe údaje boli v žiadnom prípade v anonymite.
Len dva týždne po dátach boli prepustené Narayanan and Shmatikov (2008) ukázal, že to bolo možné, aby sa dozvedeli o filme preferencií špecifických ľudí. Trik k ich re-identifikácie útok bol podobný Sweeney je: spojiť dohromady dve informačné zdroje, jeden s potenciálne citlivým informáciám a bez samozrejme identifikačnými údajmi a ten, ktorý obsahuje identitu ľudí. Každý z týchto zdrojov údajov môže byť individuálne v bezpečí, ale keď sú kombinované zlúčený dátová sada môže vytvoriť informačné riziko. V prípade údajov Netflix, tu je návod, ako sa to mohlo stať. Predstavte si, že som sa rozhodol podeliť o svoje myšlienky o akcie a filmy komédia s mojimi spolupracovníkmi, ale radšej by som sa podeliť o svoj názor o náboženských a politických filmov. Moji spolupracovníci mohli využiť informácie, ktoré Zdieľam s nimi nájsť svoje záznamy v dátovom Netflix; Informácie, ktoré zdieľam mohol byť jedinečný odtlačok prsta, rovnako ako William Weld dátumom narodenia, poštové smerovacie číslo, a pohlavia. Potom, keď zistí, môj odtlačok prsta v dátach, môžu naučiť svoje ratingy o všetkých filmov, vrátane filmov, kde som sa rozhodnú zdieľať. Okrem tohto druhu cieleného útoku zameraného na jednej osobe, Narayanan and Shmatikov (2008) tiež ukázal, že to bolo možné vykonať široký útočný-onu zahŕňajúce mnoho ľudí-zlúčením dát Netflix s osobnými a filmovými parametroch, že niektoré ľudia si vybrali napíše na internetovej filmovej databázy (IMDb). Všetky informácie, ktoré je unikátne odtlačok prsta k určitej osobe, dokonca aj ich sade hodnotenia filmov, môžu byť použité na ich identifikáciu.
, Aj keď vždy Netflix môže byť znovu označené buď v cielenej alebo široké útoku, sa ešte môže zdať, že je nízke riziko. Koniec koncov, filmové hodnotenie nezdajú veľmi citlivá. Aj keď to môže byť pravda v Všeobecne platí, že pre niektoré z 500.000 ľudí v dátovom súbore, filmové hodnotenie by mohlo byť docela citlivý. V skutočnosti, v reakcii na de-anonymizácie closeted lesbická žena sa pripojil k hromadnej žaloby oblek proti Netflix. Tu je návod, ako bol tento problém vyjadrený vo svojej žalobe (Singel 2009) :
"[M] ovie a hodnotenie dát obsahuje informácie, ktoré majú viac vysoko osobné a citlivé povahy [sic]. Film Dáta dielce sa vystavuje Netflix člena osobný záujem a / alebo boja s rôznymi vysoko osobné problémy, vrátane sexuality, duševné choroby, uzdravenie z alkoholizmu a prenasledovania z incestu, týrania, domáce násilie, cudzoložstvo a znásilnenia. "
De-anonymizácie dát Netflix Prize ilustruje, ako že všetky dáta sú potenciálne identifikovateľný a že všetky dáta sú potenciálne citlivé. V tomto momente by ste si mohli myslieť, že to platí len k údajom, že údajne je o ľuďoch. Prekvapivo, to nie je tento prípad. V reakcii na slobodnom prístupe k žiadosti informácie Právo, New York City vláda vydala záznamy o každom taxi jazdu v New Yorku v roku 2013, vrátane vyzdvihnutie a odísť časy, miesta a cestovné čiastky (odvolanie z kapitoly 2 vyplýva, že Farber (2015) používa tieto dáta na testovanie dôležitých teórií práce ekonómiu). Aj keď sú tieto dáta o taxi cestách sa mohlo zdať neškodná, pretože sa nezdá byť informácie o ľuďoch, Anthony Tockar si uvedomil, že toto taxi dátovej sady skutočne obsahovala veľké množstvo potenciálne citlivých informácií o ľuďoch. Pre ilustráciu, keď sa pozrel na všetkých ciest začína v Hustler Club-veľké striptízového klubu v New Yorku medzi polnocou a 6 hodín ráno a potom našiel svoje drop-off umiestnenie. Toto hľadanie odhalil-in-podstate zoznamu adries niektorých ľudí, ktorí navštevujú Hustler klub (Tockar 2014) . Je ťažké si predstaviť, že mesto vláda mala toto na pamäti, keď sa uvoľní dáta. V skutočnosti je to rovnaký postup by mohol byť použitý na nájdenie domovskej adresy ľudí, ktorí navštívia akékoľvek miesto v centre-lekárskej kliniky, vládne budovy, alebo náboženské inštitúcie.
Tieto dva prípady-Netflix cenu a New York City taxi dát ukazujú, že relatívne kvalifikovaní ľudia sa nepodarilo správne odhadnúť informačné riziko v dátach, ktoré sú uvoľnené, a tieto prípady sú v žiadnom prípade jedinečné (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ďalej, v mnohých z týchto prípadov je problematická dáta stále voľne k dispozícii on-line, čo znamená, že je ťažké vôbec vrátenie uvoľnenie dát. Kolektívne tieto příklady-, ako aj výskum v oblasti počítačovej vedy o ochranu súkromia vedie k významnému záveru. Výskumní pracovníci by mali predpokladať, že všetky dáta sú potenciálne identifikovateľný a všetky dáta sú potenciálne citlivé.
Bohužiaľ, neexistuje jednoduché riešenie na to, že všetky dáta sú potenciálne identifikovateľné a všetky dáta sú potenciálne citlivé. Avšak, jediný spôsob, ako znížiť riziko informácií pri práci s dátami je vytvoriť a dodržiavať plán ochrany osobných údajov. Tento plán sa znižuje pravdepodobnosť, že vaše dáta budú unikať a zníži škody, ak nejakým spôsobom dôjde k úniku. Špecifiká plánov na ochranu osobných údajov, ako je napríklad akú formu šifrovanie na použitie, sa bude meniť v priebehu času, ale vo Veľkej Británii Dátové služby ochotne organizuje prvky plánu na ochranu údajov do 5 kategórií, ktoré oni volajú 5 trezory: Bezpečný projektov, bezpečné ľudí , bezpečné nastavenie, trezor dát a bezpečné výstupy (tabuľka 6.2) (Desai, Ritchie, and Welpton 2016) . Žiadny z piatich trezorov individuálne poskytujú dokonalú ochranu. Ale, dohromady tvoria výkonnú sadu faktorov, ktoré môžu znížiť riziko informačná.
trezor | akčná |
---|---|
bezpečné projekty | obmedzuje projekty s dátami na tie, ktoré sú etické |
bezpečné ľudia | Prístup je obmedzený na osoby, ktoré môžu byť dôveryhodnými s dátami (napr ľudí prešli etický výcvik) |
zabezpečenie dát | Data de-identifikovaný a sčíta tak, aby v maximálnej možnej miere |
bezpečné nastavenie | Dáta sú uložené v počítačoch s vhodnými fyzikálnymi (napr zamknutej miestnosti) a softvér (napr ochrana heslom, šifrovaný) ochrany |
bezpečný výstup | Výskum výstup je preskúmaný, aby sa zabránilo náhodnému porušeniu ochrany osobných údajov |
Okrem ochrany dát, zatiaľ čo vy ho používate, jedným krokom v procese výskumu, kde Informačný Riziko je obzvlášť výbežku je zdieľanie dát s inými výskumníkmi. zdieľanie dát medzi vedcami je jednou zo základných hodnôt vedecké úsilie, a to výrazne zariadení povýšenie znalostí. Tu je návod, ako britská House of Commons opísal význam zdieľanie dát:
"Prístup k údajom je zásadné, ak výskumníci majú reprodukovať, overovať a nadviazať na výsledky, ktoré sú uvedené v literatúre. Domnienka, že musí byť, ak existuje pádny dôvod inak, údaje by mali byť plne zverejnené a sprístupnené verejnosti. V súlade s touto zásadou, kde by malo byť umožnené, dáta spojené so všetkými verejne financovaného výskumu široko a voľne dostupné. " (Molloy 2011)
Napriek tomu sa zdieľaním dát s iným výskumným pracovníkom, môže byť zvyšovanie informačné riziko svojim účastníkom. Môže sa teda zdať, že výskumní pracovníci, ktorí chcú zdieľať svoje dáta, alebo ktoré sú vyžadované zdieľať svoje údaje o-čelia zásadné napätie. Na jednej strane majú etickú povinnosť zdieľať svoje dáta s inými vedcami, a to najmä v prípade, že pôvodný výskum je financovaný z verejných zdrojov. Zatiaľ, v rovnakej dobe, vedci majú etickú povinnosť, aby sa minimalizovalo, ako je to len možné, informácie riziko ich účastníkov.
Našťastie túto dilemu nie je tak vážna, ako sa zdá. Je dôležité myslieť na zdieľajú pozdĺž kontinua od žiadnej zdieľanie dát uvoľniť a zabudnúť, kde sú dáta "anonymizované" a vyslaný, aby niekto prístup k údajom (obr 6.6). Oba tieto krajných polohách majú riziká a prínosy. To znamená, že nie je automaticky najviac etické vec nezdieľa vaše dáta; Takýto prístup eliminuje mnoho potenciálnych prínosov pre spoločnosť. Vrátime Ak chuť, Kravaty, a čas, príklad diskutovali skôr v tejto kapitole, argumenty proti úniku dát, ktoré sa zameriavajú len na možné škody a že ignorujú možné výhody sú príliš jednostranný; Budem popisovať problémy s týmto jednostranný, príliš ochranného prístupu podrobnejšie nižšie, keď som sa poradia o rozhodovanie tvárou v tvár neistote (§ 6.6.4).
Ďalej medzi týmito dvoma extrémnych prípadoch je to, čo budem volal obstavané záhrady prístup, kedy sú dáta zdieľané s ľuďmi, ktorí spĺňajú určité kritériá a ktoré súhlasia s tým byť viazaný určitými pravidlami (napr dohľad od IRB a A plány na ochranu údajov) , Tento murovaný záhradný prístup poskytuje mnoho výhod uvoľňovanie a zabudnúť s menším rizikom. Samozrejme, obstavané záhrady postup vytvára mnoho otázek-, ktorí by mali mať prístup, za akých podmienok, za ako dlho, kto by mal platiť udržiavať a strážiť obstavané záhrady atď, ale tie nie sú neprekonateľné. V skutočnosti, tam už pracujú obstavané záhrady na mieste, že výskumní pracovníci môžu používať práve teraz, ako je archívu dát Medziuniverzitný Konzorcium pre politickú a sociálny výskum na University of Michigan.
Takže, ak by sa údaje z vašej štúdie byť na kontinuu bez zdieľanie, obstavané záhrady, a uvoľniť a zabudnúť? To závisí na detailoch vašich dát; Výskumníci musia byť v rovnováhe úcta k človeku, dobročinnosti, spravodlivosti a dodržiavanie zákona a verejný záujem. Pri posudzovaní primeranej rovnováhy prípade ostatných rozhodnutí vedci požiadať o radu a schvaľovanie IRBs a uvoľňovanie dát môže byť len ďalší súčasťou tohto procesu. Inými slovami, aj keď niektorí ľudia myslia o uvoľnenie dát ako beznádejné etické močiare, už máme k dispozícii systémy, ktoré pomáhajú vedci vyvážiť tento druh etických dilem.
Jeden konečný spôsob, ako premýšľať o zdieľanie dát je obdobne. Každoročne automobily sú zodpovedné za tisícky úmrtí, ale nesnažte sa zákaz jazdy. V skutočnosti je taká výzva k zákazu jazdy by bolo absurdné, pretože hnacie umožňuje mnoho úžasných vecí. Skôr spoločnosť kladie obmedzenia, kto môže riadiť (napr musí byť určitého veku, je potrebné, aby prešli niektoré testy) a ako môžu riadiť (napríklad v rámci rýchlostného limitu). Spoločnosť má tiež ľudí, ktorých úlohou by bolo presadzovanie týchto pravidiel (napr polícia), a my potrestať ľudí, ktorí sú chytení ich porušovanie. Tento rovnaký druh vyvážené myslenia, že spoločnosť sa vzťahuje na reguláciu jazdy môže byť tiež aplikovaný na zdieľanie dát. To znamená, že skôr než aby absolutistickej argumenty pre alebo proti zdieľanie dát, myslím, že najväčší prínos budú pochádzať z prísť na to, ako môžeme zdieľať viac dát bezpečnejšie.
Na záver informačné riziko sa dramaticky zvýšila, a to je veľmi ťažké predvídať a kvantifikovať. Preto je najlepšie predpokladať, že všetky dáta sú potenciálne zistiteľné a potenciálne citlivé. Ak chcete znížiť riziko informačné, zatiaľ čo robí výskum, výskumníci môžu vytvoriť a dodržiavať plán ochrany osobných údajov. Ďalej, informačné riziko nebráni výskumníci z zdieľanie dát s inými vedcami.