Informační riziko je nejčastějším rizikem v sociálním výzkumu; dramaticky vzrostl; a to je nejtěžší riziko porozumění.
Druhou etickou výzvou pro výzkum ve věku digitálního věku je informační riziko , potenciální škody způsobené zveřejněním informací (National Research Council 2014) . Informační škody způsobené zveřejněním osobních údajů by mohly být ekonomické (např. Ztráta zaměstnání), sociální (např. Rozpaky), psychologické (např. Deprese) nebo dokonce trestní (např. Zatčení za ilegální jednání). Digitální věk bohužel dramaticky zvyšuje informační riziko - je zde spousta dalších informací o našem chování. Informační riziko se ukázalo jako velmi obtížné pochopit a řídit ve srovnání s riziky, které byly obtížemi ve společenském výzkumu analogického věku, jako je fyzické riziko.
Jedním ze způsobů, že sociální vědci snížit informační riziko je "anonymizace" dat. "Anonymizace" je proces odstraňování zjevné osobní identifikátory, jako je jméno, adresa a telefonní číslo z dat. Nicméně, tento přístup je mnohem méně efektivní než mnoho lidí si uvědomit, a to je, ve skutečnosti, hluboce a zásadně omezen. Z tohoto důvodu, když jsem popsal "anonymizaci," budu používat uvozovky vám připomenout, že tento proces vytváří dojem anonymity ale není pravda anonymity.
Živý příklad selhání "anonymizace" pochází z konce devadesátých let v Massachusetts (Sweeney 2002) . Skupinová pojišťovna (GIC) byla vládní agenturou odpovědnou za nákup zdravotního pojištění pro všechny státní zaměstnance. Prostřednictvím této práce GIC shromáždil podrobné zdravotní záznamy o tisících státních zaměstnanců. Ve snaze podpořit výzkum se GIC rozhodl vydat tyto záznamy vědcům. Nicméně nesdíleli všechny své údaje; spíše "anonymizovali" tato data odstraněním informací, jako jsou jména a adresy. Zanechali však další informace, které by podle nich mohly být užitečné pro vědce, jako jsou demografické informace (PSČ, datum narození, etnicita a pohlaví) a lékařské informace (údaje o návštěvách, diagnóza, postup) (obrázek 6.4 (Ohm 2010) . Bohužel tato "anonymizace" nestačila k ochraně dat.
Pro ilustraci nedostatků "anonymizace" GIC Latanya Sweeneyová - poté absolventka MIT - zaplatila 20 dolarů za získání hlasovacích záznamů z města Cambridge, rodného města guvernéra Massachusetts Williama Welda. Tato hlasovací záznamy obsahovaly informace jako jméno, adresa, PSČ, datum narození a pohlaví. Skutečnost, že soubor lékařských dat a soubor voličů sdíleli pole - PSČ, datum narození a sex - znamenalo, že Sweeney by je mohl propojit. Sweeney věděla, že Weldovy narozeniny byly 31.července 1945 a záznamy o hlasování obsahovaly pouze šest lidí v Cambridge s tím narozeninami. Dále, z těchto šesti osob, pouze tři byli muži. A z těch tří mužů byl jen jeden sdílený PSČ společnosti Weld. Výsledky hlasování tak ukázaly, že kdokoli v lékařských údajích s kombinací Weldovy datum narození, pohlaví a PSČ je William Weld. V podstatě tyto tři informace poskytly v datu jedinečný otisk prstu . S využitím této skutečnosti Sweeney dokázala najít Weldovy lékařské záznamy a aby mu informovala o svém výkonu, poslala mu kopii svých záznamů (Ohm 2010) .
Práce Sweeneyho ilustruje základní strukturu opakovaných identifikačních útoků - přijetí termínu od komunity zabezpečení počítače. Při těchto útokech jsou dvě sady dat, z nichž ani jedna sama o sobě neposkytují citlivé informace, a jsou propojeny a prostřednictvím této vazby jsou vystaveny citlivé informace.
V reakci na práci Sweeneyho a další související práci výzkumníci nyní obecně odstraňují mnohem více informací - všechny tzv. "Osobní identifikační informace" (PII) (Narayanan and Shmatikov 2010) během procesu "anonymizace". nyní si uvědomují, že určité údaje - jako jsou lékařské záznamy, finanční záznamy, odpovědi na dotazníky o nezákonném chování - jsou pravděpodobně příliš citlivé na vydání i po "anonymizaci". Příklady, které budu dávat, naznačují, změnit své myšlení. Jako první krok je moudré předpokládat, že všechna data jsou potenciálně identifikovatelná a všechna data jsou potenciálně citlivá. Jinými slovy, spíše než myslet, že informační riziko se vztahuje na malou podmnožinu projektů, můžeme předpokládat, že to platí - do určité míry - pro všechny projekty.
Obě aspekty této přeorientace jsou ilustrovány cenou Netflix. Jak bylo popsáno v kapitole 5, společnost Netflix vydala 100 milionů filmových hodnocení poskytnutých téměř 500 000 členy a měla otevřený hovor, kde lidé z celého světa předali algoritmy, které by mohly zlepšit schopnost Netflix doporučovat filmy. Před uvolněním dat společnost Netflix odstranila veškeré zjevné osobní identifikační údaje, například jména. Oni také udělali další krok a představili lehké poruchy v některých záznamů (např. Změna některých hodnocení ze 4 hvězdiček na 3 hvězdičky). Brzy však zjistili, že navzdory jejich úsilí nebyly údaje v žádném případě anonymní.
Jen dva týdny poté, co byly údaje uvolněny, Arvind Narayanan a Vitaly Shmatikov (2008) ukázali, že bylo možné se seznámit s konkrétními lidskými filmovými preferencemi. Trik k jejich identifikačnímu útoku byl podobný Sweeneyovu: sloučit dva zdroje informací, jeden s potenciálně citlivými informacemi a žádné zjevně identifikující informace a jeden obsahující identitu lidí. Každý z těchto zdrojů dat může být individuálně bezpečný, ale když jsou kombinovány, sloučená datová sada může vytvářet informační riziko. V případě dat systému Netflix se můžete setkat. Představte si, že se rozhodnu sdílet své myšlenky o akčních a komediálních filmech se svými spolupracovníky, ale že nechci sdílet svůj názor na náboženské a politické filmy. Moji spolupracovníci mohli používat informace, s nimiž jsem s nimi sdíleli, abych našel záznamy v datech Netflixu; informace, které sdílím, mohou být jedinečným otiskem prstů, stejně jako datum narození, PSČ a pohlaví Williama Welda. Pak, pokud našli v datu svůj jedinečný otisk prstu, mohli se dozvědět mé hodnocení o všech filmech, včetně filmů, které jsem se rozhodl nesdílet. Kromě tohoto druhu cíleného útoku zaměřeného na jediného člověka, Narayanan a Shmatikov také ukázali, že bylo možné provést široký útok - který zahrnuje mnoho lidí - sloučením dat Netflixu s osobními a filmovými hodnoceními, která si někteří lidé zvolili k odeslání na Internetovou databázi filmů (IMDb). Jednoduše mohou být k identifikaci použity všechny informace, které jsou jedinečným otiskem určité osoby - dokonce i jejich sada filmových hodnocení.
Přestože data Netflixu lze znovu identifikovat buď v cíleném, nebo v širokém útoku, stále se může zdát, že je nízké riziko. Koneckonců, hodnocení filmů se nezdá být příliš citlivé. Zatímco to může být obecně pravda, u některých z 500 000 lidí v datovém souboru mohou být hodnocení filmů velmi citlivé. Ve skutečnosti, v reakci na opětovnou identifikaci, uzavřená lesbická žena se připojila k tribuně proti Netflixu. Zde je vysvětlení problému v jejich žalobě (Singel 2009) :
"[M] ovie a ratingová data obsahují informace o ... vysoce osobní a citlivé povaze. Filmové údaje člena odhalují osobní zájem člena Netflixu a / nebo bojují s různými vysoce osobními problémy, včetně sexuality, duševní choroby, zotavení z alkoholismu a viktimizace z incestu, fyzického násilí, domácího násilí, cizoložství a znásilnění. "
Opětovná identifikace údajů o ceně Netflixu ukazuje, že všechna data jsou potenciálně identifikovatelná a že všechna data jsou potenciálně citlivá. V tomto okamžiku byste si možná mysleli, že se to týká pouze dat, která se týkají lidí. Překvapivě tomu tak není. V reakci na žádost o právo na informace o svobodě zveřejnila vláda New Yorku záznamy o každé jízdě taxíkem v New Yorku v roce 2013, včetně časů vyzvednutí a odletu, míst a jízdného (odvolání z kapitoly 2, že Farber (2015) používala podobné údaje k testování důležitých teorií v ekonomice práce). Tyto údaje o taxiových výletech se mohou zdát neškodné, protože nezdá se, že poskytují informace o lidech, ale Anthony Tockar si uvědomil, že tento soubor údajů o taxi skutečně obsahuje spoustu potenciálně citlivých informací o lidech. Pro ilustraci se podíval na všechny výlety začínající v klubu Hustler - v New Yorku ve velkém proužkovaném klubu - mezi půlnocí a 6 hodin ráno, a pak našli své odlehlé lokality. Toto hledání odhalilo - v podstatě - seznam adres některých lidí, kteří navštěvovali (Tockar 2014) klub (Tockar 2014) . Je těžké si představit, že municipální vláda to měla na mysli, když vydala data. Ve skutečnosti by tato stejná technika mohla být použita k vyhledání domovských adres lidí, kteří navštěvují jakékoliv místo ve městě - na lékařské klinice, na vládní budovu nebo na náboženské instituci.
Tyto dva případy údajů o poplatcích za Netflix a taxi z New Yorku ukazují, že poměrně kvalifikovaní lidé nemohou správně odhadnout informační riziko v datech, které uvolňují - a tyto případy nejsou v žádném případě jedinečné (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Dále v mnoha takových případech jsou problematické údaje stále volně dostupné online, což naznačuje obtížnost někdy zrušit uvolnění údajů. Kolektivně tyto příklady - stejně jako výzkum v oblasti počítačových věd o soukromí - vedou k důležitému závěru. Výzkumníci by měli předpokládat, že všechna data jsou potenciálně identifikovatelná a všechna data jsou potenciálně citlivá.
Bohužel neexistuje žádné jednoduché řešení faktů, že všechna data jsou potenciálně identifikovatelná a že všechna data jsou potenciálně citlivá. Jedním ze způsobů, jak snížit informační riziko při práci s daty, je vytvořit a dodržovat plán ochrany dat . Tento plán sníží pravděpodobnost úniku dat a snižuje škodu, pokud dojde k nějakému úniku. Specifika plánů na ochranu dat, jako např. Formu šifrování, které se bude používat, se v průběhu času změní, ale britské datové služby užitečně organizují prvky plánu ochrany údajů do pěti kategorií, které nazývají pěti safy : bezpečné projekty, bezpečné osoby , bezpečná nastavení, bezpečná data a bezpečný výstup (tabulka 6.2) (Desai, Ritchie, and Welpton 2016) . Žádný z pěti trezorů jednotlivě neposkytuje dokonalou ochranu. Ale společně vytvářejí silný soubor faktorů, které mohou snížit informační riziko.
Bezpečný | Akce |
---|---|
Bezpečné projekty | Omezuje projekty s údaji na ty, které jsou etické |
Bezpečné lidi | Přístup je omezen na osoby, kterým mohou být důvěryhodné údaje (např. Lidé, kteří absolvovali etické školení) |
Bezpečné údaje | Data jsou de-identifikována a agregována v rozsahu možných |
Bezpečné nastavení | Data jsou uložena v počítačích s odpovídajícími fyzickými (např. Uzamčenými místnostmi) a softwarem (např. Ochrana heslem, šifrováním) |
Bezpečný výstup | Výstupy výzkumu jsou přezkoumány, aby se zabránilo náhodnému narušení soukromí |
Vedle ochrany vašich dat, když je používáte, je jedním z kroků ve výzkumném procesu, kdy je informační riziko zvláště významné, sdílení dat s dalšími výzkumníky. Sdílení dat mezi vědci je základní hodnotou vědeckého úsilí a velmi usnadňuje rozvoj znalostí. Zde je, jak britská dolní sněmovna popsala důležitost sdílení dat (Molloy 2011) :
"Přístup k datům je zásadní, pokud mají výzkumníci reprodukovat, ověřovat a stavět na výsledcích, které jsou uvedeny v literatuře. Předpokládá se, že pokud neexistuje závažný důvod jinak, údaje by měly být plně zveřejněny a zveřejněny. "
Přesto sdílet data s jiným výzkumným pracovníkem může být pro vaše účastníky narůstající informační riziko. Zdá se tedy, že sdílení dat vytváří zásadní napětí mezi povinností sdílet data s jinými vědci a povinností minimalizovat informační rizika pro účastníky. Naštěstí tato dilema není tak hrozná, jak se zdá. Spíše je lepší přemýšlet o tom, že sdílení dat spadá do kontinua, přičemž každý bod na tomto kontinuu poskytuje jinou kombinaci výhod pro společnost a rizika pro účastníky (obrázek 6.6).
V jednom extrému můžete své údaje sdílet s nikým, což minimalizuje riziko pro účastníky, ale také minimalizuje zisky pro společnost. Na druhém konci můžete uvolnit a zapomenout , kde jsou data "anonymizována" a zveřejněna pro všechny. Vzhledem k tomu, že data nebyla uvolněna, uvolnění a zapomnění nabízejí pro společnost vyšší přínos a vyšší riziko pro účastníky. Mezi těmito dvěma extrémními případy jsou řada hybridů, včetně toho, co nazývám zděným zahradním přístupem. V rámci tohoto přístupu jsou údaje sdíleny s lidmi, kteří splňují určitá kritéria a kteří souhlasí s tím, že budou vázáni určitými pravidly (např. Dohled nad IRB a plán ochrany údajů). Zděný zahradní přístup poskytuje mnoho výhod uvolnění a zapomíná s menším rizikem. Samozřejmě takový přístup vytváří mnoho otázek - kdo by měl mít přístup, za jakých podmínek a za jak dlouho, kdo by měl platit za to, aby udržel a policajt zděnou zahradu apod. - ale to nejsou nepřekonatelné. Ve skutečnosti již existují pracovní zděné zahrady, které mohou výzkumníci nyní využívat, například datový archiv Mezinárodního konsorcia pro politický a společenský výzkum na University of Michigan.
Takže, kde by měly být údaje z vaší studie o kontinuu bez sdílení, zděné zahrady a uvolnění a zapomenutí? To závisí na podrobnostech vašich dat: výzkumníci musí vyvážit respekt k osobám, výhodám, spravedlnosti a respektu k právu a veřejnému zájmu. Z tohoto pohledu je sdílení dat nejednoznačnou etickou hádkou; je to jen jeden z mnoha aspektů výzkumu, v němž výzkumníci musí najít vhodnou etickou rovnováhu.
Někteří kritici jsou obecně proti sdílení údajů, protože se podle mého názoru zaměřují na rizika, která jsou nepochybně reálná, a ignorují její přínosy. Abych tak podpořil soustředění na rizika i na výhody, rád bych nabídl analogii. Každý rok jsou automobily zodpovědné za tisíce úmrtí, ale nepokoušíme se zakázat řízení. Ve skutečnosti by volání k zákazu jízdy bylo nesmyslné, protože řízení umožňuje mnoho krásných věcí. Spíše společnost omezuje, kdo může řídit (např. Potřeba být určitý věk a projít určitými testy) a jak mohou řídit (např. V rámci omezení rychlosti). Společnost má také lidi, kteří mají za úkol prosazovat tato pravidla (např. Policie), a potrestáme lidi, kteří jsou chyceni v jejich porušování. Stejné vyvážené myšlení, které společnost uplatňuje při regulaci řízení, může být také použito pro sdílení dat. To znamená, že namísto absolutistických argumentů pro nebo proti sdílení údajů myslím, že nejvíce pokročíme tím, že se zaměříme na to, jak můžeme snížit rizika a zvýšit přínosy ze sdílení údajů.
Závěrem lze říci, že informační riziko se dramaticky zvýšilo a je velmi těžké předvídat a kvantifikovat. Proto je nejlepší předpokládat, že všechna data jsou potenciálně identifikovatelná a potenciálně citlivá. Aby bylo možné snížit informační riziko během výzkumu, mohou výzkumní pracovníci vytvořit a dodržovat plán ochrany údajů. Informační riziko dále nezabrání vědcům sdílet data s jinými vědci.