Informačné riziko je najbežnejším rizikom v sociálnom výskume; dramaticky vzrástol; a to je najťažšie riziko pochopenia.
Druhou etickou výzvou pre výskum digitálneho veku je informačné riziko , potenciál poškodenia zverejňovania informácií (National Research Council 2014) . Informačné škody spôsobené zverejnením osobných informácií by mohli byť ekonomické (napr. Strata zamestnania), sociálne (napr. Rozpaky), psychologické (napr. Depresie) alebo dokonca trestné (napr. Digitálny vek bohužiaľ výrazne zvyšuje informačné riziko - o našom správaní je oveľa viac informácií. Informačné riziko sa ukázalo ako veľmi ťažké pochopiť a zvládnuť v porovnaní s rizikami, ktoré sa týkali spoločenského výskumu v podobnom veku, ako napríklad fyzického rizika.
Jedným zo spôsobov, že sociálne vedci znížiť informačné riziko je "anonymizácie" dát. "Anonymita" je proces odstraňovania zjavné osobné identifikátory, ako je meno, adresa a telefónne číslo z dát. Avšak, tento prístup je oveľa menej efektívna ako mnoho ľudí si uvedomiť, a to je, v skutočnosti, hlboko a zásadne obmedzený. Z tohto dôvodu, keď som opísal "anonymizácii," budem používať úvodzovky vám pripomenúť, že tento proces vytvára dojem anonymity ale nie je pravda anonymity.
Živý príklad zlyhania "anonymizácie" pochádza z konca 90. rokov v Massachusetts (Sweeney 2002) . Skupina poisťovní skupiny (GIC) bola vládnou agentúrou zodpovednou za nákup zdravotného poistenia pre všetkých štátnych zamestnancov. Prostredníctvom tejto práce Zhromaždenie zhromažďovalo podrobné zdravotné záznamy o tisícoch štátnych zamestnancov. V snahe podporiť výskum sa GIC rozhodol tieto záznamy sprístupniť výskumným pracovníkom. Zdieľali však všetky svoje údaje; skôr tieto údaje "anonymizovali" odstránením informácií, ako sú mená a adresy. Ponechali však iné informácie, ktoré považovali za užitočné pre výskumníkov, ako sú demografické informácie (PSČ, dátum narodenia, etnický pôvod a pohlavie) a zdravotné informácie (údaje o návšteve, diagnóza, postup) (obrázok 6.4 (Ohm 2010) . Bohužiaľ táto "anonymizácia" nestačila na ochranu údajov.
Na ilustráciu nedostatkov anonymizácie GIC, Latanya Sweeneyová - potom absolventka MIT - zaplatila 20 dolárov na získanie hlasovacích záznamov z mesta Cambridge, rodného mesta guvernéra Massachusetts Williama Welda. Tieto hlasovacie záznamy obsahovali informácie ako meno, adresa, PSČ, dátum narodenia a pohlavie. Skutočnosť, že súbor zdravotných údajov a súbor voličov zdieľali polia, PSČ, dátum narodenia a pohlavie, znamenalo, že Sweeney by ich mohol prepojiť. Sweeney vedel, že narodeniny Weldu boli 31. júla 1945 a hlasovacie záznamy zahŕňali iba šesť ľudí v Cambridge s týmito narodeninami. Ďalej, z týchto šiestich ľudí, iba tri boli mužské. A z týchto troch mužov, iba jeden zdieľaný PSČ spoločnosti Weld. Preto údaje o hlasovaní ukázali, že ktokoľvek v lekárskych údajoch s Weldovou kombináciou dátumu narodenia, pohlavia a poštového smerovacieho čísla bol William Weld. V podstate tieto tri informácie poskytli v údajoch jedinečný odtlačok prsta . S využitím tejto skutočnosti Sweeney dokázala nájsť Weldove lekárske záznamy a aby ho informovala o jej úspechu, poslala mu kópiu svojich záznamov (Ohm 2010) .
Práca Sweeneyho ilustruje základnú štruktúru útokov na opätovné identifikovanie - prijatie termínu z počítačovej bezpečnosti. Pri týchto útokoch sú dve dátové súbory, z ktorých ani jedna neodhaľujú citlivé informácie, prepojené a prostredníctvom tejto väzby sú citlivé informácie vystavené.
V reakcii na prácu Sweeneyho a na ďalšiu súvisiacu prácu výskumníci teraz všeobecne odstraňujú oveľa viac informácií - všetky tzv. "Osobne identifikujúce informácie" (PII) (Narayanan and Shmatikov 2010) - počas procesu "anonymizácie". teraz si uvedomujeme, že niektoré údaje - napríklad lekárske záznamy, finančné záznamy, odpovede na prieskumné otázky o nezákonnom správaní - sú pravdepodobne príliš citlivé na uvoľnenie aj po "anonymizácii". Príklady, ktoré mi však ponúknu, naznačujú, že sociálni výskumníci potrebujú zmeniť svoje myslenie. Ako prvý krok je rozumné predpokladať, že všetky údaje sú potenciálne identifikovateľné a všetky údaje sú potenciálne citlivé. Inými slovami, namiesto toho, aby sme mysleli, že informačné riziko sa vzťahuje na malú podmnožinu projektov, mali by sme predpokladať, že sa to do určitej miery vzťahuje na všetky projekty.
Obe aspekty tejto preorientácie ilustruje aj cena Netflix. Ako bolo opísané v kapitole 5, spoločnosť Netflix uvoľnila 100 miliónov filmových hodnotení, ktoré poskytli takmer 500 000 členov a otvorila hovor, kde ľudia z celého sveta predložili algoritmy, ktoré by mohli zlepšiť schopnosť spoločnosti Netflix odporúčať filmy. Pred uvoľnením údajov spoločnosť Netflix odstránila akékoľvek zjavné osobné informácie, napríklad názvy. Taktiež išli ďalší krok a uviedli mierne poruchy v niektorých záznamoch (napr. Menenie niektorých ratingov zo 4 hviezdičiek na 3 hviezdičky). Čoskoro však zistili, že napriek ich úsiliu neboli údaje v žiadnom prípade anonymné.
Len dva týždne po uvoľnení údajov Arvind Narayanan a Vitaly Shmatikov (2008) ukázali, že bolo možné sa dozvedieť o konkrétnych osobných filmových preferenciách. Trik na útok na opätovné identifikovanie sa podobal na Sweeneyho: zlúčili dva zdroje informácií, jeden s potenciálne citlivými informáciami a žiadnymi zjavne neidentifikujúcimi informáciami a ten, ktorý obsahuje identitu ľudí. Každý z týchto zdrojov údajov môže byť individuálne bezpečný, ale keď sa skombinujú, zlúčený súbor údajov môže vytvárať informačné riziko. V prípade údajov Netflix, ako sa to môže stať. Predstavte si, že sa rozhodnem zdieľať moje myšlienky o akčných a komediálnych filmoch s mojimi spolupracovníkmi, ale že radšej nehovorím o mojom názore na náboženské a politické filmy. Moji spolupracovníci by mohli použiť informácie, ktoré som s nimi zdieľali, aby som našiel záznamy v údajoch Netflix; informácie, ktoré zdieľam, môžu byť jedinečným odtlačkom prsta, rovnako ako dátum narodenia, PSČ a pohlavie Williama Welda. Potom, ak našli môj unikátny odtlačok prsta v údajoch, mohli sa dozvedieť moje hodnotenie o všetkých filmoch vrátane filmov, ktoré som sa rozhodla zdieľať. Okrem tohto druhu cieleného útoku zameraného na jednu osobu, Narayanan a Shmatikov tiež ukázali, že bolo možné urobiť rozsiahly útok - ktorý zahŕňa veľa ľudí - zlúčením údajov Netflixu s osobnými a filmovými ratingovými údajmi, ktoré niektorí ľudia vybrali na uverejnenie na Internetovej databáze filmov (IMDb). Jednoducho, akékoľvek informácie, ktoré sú jedinečným odtlačkom prstov konkrétnej osobe - dokonca aj ich súbor filmových hodnotení - je možné použiť na ich identifikáciu.
Napriek tomu, že údaje Netflix môžu byť opätovne identifikované v cielenom alebo rozsiahlom útoku, stále sa môže javiť ako malé riziko. Koniec koncov, hodnotenie filmov sa nezdá byť veľmi citlivé. Aj keď to môže byť pravda vo všeobecnosti, pre niektoré z 500 000 ľudí v súbore údajov môže byť hodnotenie filmov veľmi citlivé. V skutočnosti, v reakcii na opätovné identifikovanie, uzavretá lesbická žena sa pripojila k tribunálnemu žalobu proti Netflixu. Tu je vysvetlenie problému v ich žalobe (Singel 2009) :
"[M] ovie a ratingové údaje obsahujú informácie ... veľmi osobnej a citlivej povahy. Filmové údaje člena odhaľujú osobný záujem člena Netflixu a / alebo zápasia s rôznymi osobnými problémami vrátane sexuality, duševnej choroby, zotavovania z alkoholizmu a viktimizácie z incestu, fyzického násilia, domáceho násilia, cudzoložstva a znásilnenia. "
Opätovná identifikácia údajov o cene Netflix dokazuje, že všetky údaje sú potenciálne identifikovateľné a že všetky údaje sú potenciálne citlivé. V tomto okamihu si možno myslíte, že sa to týka iba údajov, ktoré sa týkajú ľudí. Prekvapujúco to tak nie je. V odpovedi na žiadosť o právo na informácie o slobode informácií vydala vláda v New Yorku záznamy o každej jazde taxíkom v New Yorku v roku 2013 vrátane časov vyzdvihnutia a odletov, miest a výšok cestovného (opätovné stiahnutie z kapitoly 2, v ktorom Farber (2015) používali podobné údaje na testovanie dôležitých teórií v ekonomike práce). Tieto údaje o taxiových výletoch sa môžu zdajú byť neškodné, pretože sa zdá, že neposkytujú informácie o ľuďoch, ale Anthony Tockar si uvedomil, že tento súbor údajov o taxi skutočne obsahoval veľa potenciálne citlivých informácií o ľuďoch. Na ilustráciu sa pozrel na všetky výlety začínajúce od klubu Hustler - veľkého striptízového klubu v New Yorku - medzi polnocou a 6.00 hod. Toto vyhľadávanie odhalilo v podstate zoznam adries niektorých ľudí, ktorí navštívili klub Hustler (Tockar 2014) . Je ťažké si predstaviť, že mestská vláda to mala na pamäti pri uvoľnení údajov. V skutočnosti by sa táto metóda mohla použiť na nájdenie domovských adries ľudí, ktorí navštívia akékoľvek miesto v meste - lekársku kliniku, vládnu budovu alebo náboženskú inštitúciu.
Tieto dva prípady dát Netflix a taxi z New Yorku ukazujú, že relatívne kvalifikovaní ľudia nemusia správne odhadnúť informačné riziko v údajoch, ktoré uvoľňujú - a tieto prípady nie sú v žiadnom prípade jedinečné (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ďalej v mnohých takýchto prípadoch sú problematické údaje stále voľne dostupné na internete, čo poukazuje na ťažkosti, ktoré by vôbec spôsobili uvoľnenie údajov. Tieto príklady, ako aj výskum v oblasti informatiky o ochrane osobných údajov, súhrnne vedú k dôležitému záveru. Výskumníci by mali predpokladať, že všetky údaje sú potenciálne identifikovateľné a všetky údaje sú potenciálne citlivé.
Bohužiaľ, neexistuje žiadne jednoduché riešenie faktov, že všetky údaje sú potenciálne identifikovateľné a že všetky údaje sú potenciálne citlivé. Jeden spôsob, ako znížiť informačné riziko počas práce s údajmi, je vytvoriť a dodržiavať plán ochrany údajov . Tento plán zníži pravdepodobnosť úniku vašich údajov a zníži škodu, ak sa nejako vyskytne netesnosť. Špecifiká plánov na ochranu údajov, ako napríklad forma šifrovania, ktorá sa má používať, sa časom zmenia, ale britské dátové služby vhodne organizujú prvky plánu ochrany údajov do piatich kategórií, ktoré nazývajú piatimi trezormi : bezpečnými projektmi, bezpečnými ľuďmi , bezpečných nastavení, bezpečných údajov a bezpečných výstupov (tabuľka 6.2) (Desai, Ritchie, and Welpton 2016) . Žiadny z piatich trezorov individuálne neposkytuje dokonalú ochranu. Ale spoločne vytvárajú silný súbor faktorov, ktoré môžu znížiť informačnú rizikovosť.
trezor | akčné |
---|---|
Bezpečné projekty | Obmedzuje projekty s údajmi na tie, ktoré sú etické |
Bezpečné osoby | Prístup je obmedzený na osoby, ktorým je možné dôverovať údajom (napr. Ľudia, ktorí absolvovali etické školenia) |
Bezpečné údaje | Údaje sú de-identifikované a agregované v rozsahu možných |
Bezpečné nastavenia | Údaje sú uložené v počítačoch s vhodnou fyzickou (napr. Uzamknutou miestnosťou) a softvérom (napr. Ochrana heslom, šifrovaná ochrana) |
Bezpečný výstup | Výstup výskumu sa preskúma, aby sa zabránilo náhodnému narušeniu súkromia |
Okrem ochrany vašich údajov počas ich používania je jedným krokom v procese výskumu, kde je mimoriadne informačné riziko, zdieľanie údajov s inými výskumníkmi. Zdieľanie údajov medzi vedcami je kľúčovou hodnotou vedeckého úsilia a výrazne uľahčuje rozširovanie vedomostí. Tu je to, ako britská dolná snemovňa opísala dôležitosť zdieľania údajov (Molloy 2011) :
"Prístup k údajom je zásadný, ak majú výskumníci reprodukovať, overovať a stavať na výsledkoch, ktoré sú uvedené v literatúre. Predpokladá sa, že pokiaľ nie je silný dôvod inak, údaje by sa mali úplne zverejniť a sprístupniť verejnosti. "
Napriek tomu, ak zdieľate svoje údaje s iným výskumným pracovníkom, môže byť pre vašich účastníkov narastajúce informačné riziko. Zdá sa teda, že zdieľanie údajov vytvára zásadné napätie medzi povinnosťou zdieľať údaje s inými vedeckými pracovníkmi a povinnosťou minimalizovať riziko pre účastníkov. Našťastie táto dilema nie je taká závažná, ako sa zdá. Skôr je lepšie zamyslieť sa nad tým, či sa zdieľanie údajov bude považovať za kontinuum, pričom každý bod tohto kontinua poskytne inú kombináciu výhod pre spoločnosť a riziko pre účastníkov (obrázok 6.6).
V jednom okamihu môžete zdieľať svoje údaje s nikým, čo minimalizuje riziko pre účastníkov, ale minimalizuje aj prínos pre spoločnosť. Na druhom konci môžete uvoľniť a zabudnúť , kde sú údaje "anonymizované" a zverejnené pre každého. Vzhľadom na neuvoľnenie údajov, uvoľnenie a zabudnutie ponúka ako vyššiu výhodu pre spoločnosť, ako aj vyššie riziko pre účastníkov. Medzi týmito dvoma extrémnymi prípadmi sa nachádza celý rad hybridov, vrátane toho, čo nazývam prístupom na ozdobenú záhradu . V rámci tohto prístupu sa údaje zdieľajú s ľuďmi, ktorí spĺňajú určité kritériá a súhlasia s tým, že budú viazaní určitými pravidlami (napr. Dohľad nad IRB a plán ochrany údajov). Zastaraný záhradný prístup prináša veľa prínosov uvoľnenia a zabudnutia s menším rizikom. Samozrejme, takýto prístup vytvára veľa otázok - kto by mal mať prístup, za akých podmienok a ako dlho, kto by mal platiť za to, aby udržiaval a policajoval murovanú záhradu atď. - ale tieto nie sú neprekonateľné. V skutočnosti už existujú pracovné záhradné záhrady, ktoré môžu práve teraz používať výskumní pracovníci, ako napríklad archív údajov Medzikultúrneho konzorcia pre politický a sociálny výskum na univerzite v Michigane.
Takže, kde by mali byť údaje z vašej štúdie o kontinuu žiadneho zdieľania, ozdobenej záhrady a uvoľnenia a zabudnutia? To závisí od podrobností o vašich údajoch: vedci musia vyvážiť rešpekt voči osobám, výhodám, spravodlivosti a rešpektovaniu práva a verejného záujmu. Z tohto hľadiska sa zdá, že zdieľanie údajov nie je výraznou etickou hádkou; je to len jeden z mnohých aspektov výskumu, v ktorom musia výskumníci nájsť vhodnú etickú rovnováhu.
Niektorí kritici sú vo všeobecnosti proti zdieľaniu údajov, pretože podľa môjho názoru sú zameraní na riziká, ktoré sú nepochybne reálne, a ignorujú jej výhody. Preto, aby som sa zameral na riziká a prínosy, rád by som ponúkol analógiu. Každý rok sú automobily zodpovedné za tisíce úmrtí, ale nepokúšame sa zakázať jazdu. V skutočnosti by volanie zákazu jazdy bolo absurdné, pretože jazda umožňuje veľa úžasných vecí. Spoločnosť skôr kladie obmedzenia na to, kto môže viesť (napr. Potreba mať určitý vek a prejsť určitými testami) a ako môžu jazdiť (napr. Pod rýchlostným limitom). Spoločnosť má aj ľudí, ktorí majú za úlohu presadzovať tieto pravidlá (napr. Polícia), a potrestaním ľudí, ktorí ich chytia, ich porušujú. Rovnaké vyvážené myslenie, ktoré spoločnosť uplatňuje pri regulovaní jazdy, sa môže uplatniť aj pri zdieľaní údajov. To znamená, že namiesto toho, aby sme robili absolutistické argumenty za alebo proti zdieľaniu údajov, myslím, že dosiahne najväčší pokrok tým, že sa zameriame na to, ako môžeme znížiť riziká a zvýšiť výhody vyplývajúce zo zdieľania údajov.
Na záver, informačné riziko sa dramaticky zvýšilo a je veľmi ťažké predvídať a kvantifikovať. Preto je najlepšie predpokladať, že všetky údaje sú potenciálne identifikovateľné a potenciálne citlivé. Na zníženie informačného rizika počas výskumu môžu výskumníci vytvoriť a dodržiavať plán ochrany údajov. Informačné riziko ďalej nezabraňuje výskumníkom zdieľať údaje s inými vedeckými pracovníkmi.