Az információs kockázat a társadalmi kutatás leggyakoribb kockázata; drámaian megemelkedett; és ez a legnehezebb kockázat megérteni.
A digitális korhatár-kutatás második etikai kihívása információs kockázat , az információk nyilvánosságra hozatalának veszélye (National Research Council 2014) . A személyes adatok nyilvánosságra hozatala által okozott tájékoztatás gazdasági (pl. Munkahely elvesztése), szociális (pl. Zavar), pszichológiai (pl. Depresszió) vagy akár bűncselekmény (pl. Sajnos a digitális korszak drámai módon növeli az információs kockázatot - csak viszonylag sok információ van a viselkedésünkről. Az információs kockázatok pedig nagyon nehézek voltak megérteni és kezelni, mint az analóg korú társadalmi kutatásokban, például a fizikai kockázatokban jelentkező kockázatokhoz képest.
Ennek egyik módja, hogy a szociális kutatók csökken tájékoztató kockázat "névtelenítésekor" adat. "Anonimizálás" az az eljárás megszüntetésére nyilvánvaló személyi azonosítók, mint például név, cím, telefonszám és az adatokból. Ez a megközelítés azonban sokkal kevésbé hatékony, mint sokan gondolnák, és ez valójában mélyen és alapvetően korlátozott. Ezen okból, amikor leírom "névtelenítési" fogom használni idézőjelbe emlékeztetni, hogy ez a folyamat a látszatot kelti, az anonimitás, de nem igaz az anonimitást.
Az "anonimizálás" kudarcának élénk példája az 1990-es évek múlttól származik Massachusettsben (Sweeney 2002) . A Csoport Biztosítási Bizottsága (GIC) kormányzati szerv volt, amely az állami alkalmazottak egészségbiztosításának megvásárlásáért felelős. E munka révén a GIC részletes egészségügyi nyilvántartást gyűjtött több ezer állami alkalmazottakról. A kutatás ösztönzésére a GIC úgy döntött, hogy kiadja ezeket a nyilvántartásokat a kutatóknak. Azonban nem osztották meg az összes adataikat; inkább "névtelenítették" ezeket az adatokat az olyan adatok, mint nevek és címek eltávolításával. Azonban távoztak más információ, hogy úgy gondolták hasznos lehet a kutatók számára, mint például a demográfiai adatok (irányítószám, születési dátum, etnikai és nemi hovatartozás) és az orvosi adatokat (bejelentkezés adatok, diagnózis, eljárás) (6.4 ábra) (Ohm 2010) . Sajnos ez a "névtelenítés" nem volt elegendő az adatok védelméhez.
A GIC "névtelenítésének" hiányosságait illusztrálja, Latanya Sweeney, majd MIT-ban végzős hallgató 20 dollárt fizetett, hogy megszerezze a szavazási feljegyzéseket Cambridge városától, a Massachusetts kormányzó William Weld szülővárosától. Ezek a szavazási feljegyzések olyan információkat tartalmaztak, mint a név, a cím, a postai irányítószám, a születési dátum és a nem. Az a tény, hogy az orvosi adatfájl és a szavazófájl megosztott mezőket - irányítószámot, születési dátumot és szexet - azt jelentette, hogy Sweeney kapcsolatba tudná hozni őket. Sweeney tudta, hogy Weld születésnapja 1945. július 31-én volt, és a szavazási feljegyzések csak hat embert tartalmaztak Cambridge-ben, a születésnapján. Továbbá a hat emberből csak három férfi volt. És e három férfi közül csak egy megosztott Weld irányítószámot. Így a szavazási adatok azt mutatták, hogy bárki, aki Weld születési dátumával, nemével és irányítószámával kombinálta William Weld-t. Lényegében ez a három információ egyedülálló ujjlenyomatot adott neki az adatokban. Ezt a tényt felhasználva Sweeney sikerült megtalálnia Weld orvosi nyilvántartását, és tájékoztatta őt a teljesítményéről, és elküldte neki egy másolatot (Ohm 2010) .
Sweeney munkája szemlélteti az újraidentifikációs támadások alapszerkezetét - a számítógépes biztonsági közösség kifejezésének elfogadása. Ezekben a támadásokban két adatkészlet, amelyek közül egyik sem tartalmaz önmagában érzékeny információt, kapcsolódnak egymáshoz, és ezen kapcsolat révén érzékeny információkat bocsátanak ki.
Sweeney munkájára és egyéb kapcsolódó munkájára válaszul a kutatók általában sokkal több információt - az úgynevezett "személyazonosítási információkat" (PII) (Narayanan and Shmatikov 2010) az "anonimizálás" folyamán. most már tudják, hogy bizonyos adatok - például az orvosi nyilvántartások, a pénzügyi nyilvántartás, az illegális magatartással kapcsolatos felmérésekre adott válaszok - valószínűleg túlságosan érzékenyek a felszabadulásra még az "anonimizálás" után is. Azonban a példák, amelyekről adok, azt sugallják, hogy a társadalmi kutatóknak szükségük van hogy megváltoztassák gondolkodásukat. Első lépésként bölcs dolog feltételezni, hogy minden adat potenciálisan azonosítható és minden adat potenciálisan érzékeny. Más szóval, ahelyett, hogy azt gondolnánk, hogy az információs kockázat a projektek egy kis része esetében érvényes, feltételezzük, hogy bizonyos mértékig minden projektre vonatkozik.
Mindkét aspektusát a Netflix-díj szemlélteti. Az 5. fejezetben leírtak szerint a Netflix csaknem 500 ezer taggal bocsátott ki 100 millió mozifilmet, és nyílt hívás volt, ahol az emberek a világ minden tájáról benyújtottak olyan algoritmusokat, amelyek javíthatják a Netflix filmek ajánlására való képességét. Az adatok kiadása előtt a Netflix eltávolította a nyilvánvalóan személyazonosításra alkalmas információkat, például a neveket. Ezenkívül egy újabb lépést tettek, és bizonyos rekordoknál kis perturbációkat vezettek be (pl. 4-csillagos, 3-csillagos pontszámok változása). Hamarosan rájöttek azonban, hogy erőfeszítéseik ellenére az adatok még mindig nem névtelenek.
Az adatok kiadása után két héttel Arvind Narayanan és Vitaly Shmatikov (2008) azt mutatták, hogy meg lehetett tudni a konkrét emberek filmpreferenciáiról. Az újbóli azonosítási támadásokkal kapcsolatos trükk hasonló volt Sweeney-hez: két információforrást egyesített, egy potenciálisan érzékeny információval, és nyilvánvalóan nem azonosította az információkat és az ember identitását. Mindegyik adatforrás lehet egyénileg biztonságos, de összevonva, az összeolvadt adatkészlet információs kockázatot hozhat létre. A Netflix adatok esetében itt megtörténhet. Képzeld el, hogy a munkatársaimmal megosztom a cselekvés és a komédia filmekkel kapcsolatos gondolataimat, de inkább nem osztom meg véleményemet a vallási és politikai filmekről. A munkatársak felhasználhatják azokat az információkat, amelyeket megosztott velük, hogy megtalálják a nyilvántartásokat a Netflix adatokban; az általam megosztott információ lehet egy egyedi ujjlenyomat, mint William Weld születési dátuma, irányítószáma és neme. Ezután, ha megtalálta az egyedi ujjlenyomatomat az adatokban, megismerhették az összes filmjeim értékelését, beleértve azokat a filmeket is, amelyeket nem osztok meg. A Narayanan és a Shmatikov egy ilyen jellegű célzott támadáson túlmenően azt is kimutatták, hogy széles körű támadás érhető el - sok ember bevonásával - a Netflix adatok személyes és filmminősítési adatokkal való egyesítésével, amelyeket néhány ember választott postázni az internetes filmes adatbázisban (IMDb). Egészen egyszerűen bármely olyan információ, amely egy adott személy számára egyedi ujjlenyomat, még a filmminősítések készlete is felhasználható azonosításukra.
Bár a Netflix-adatok újbóli azonosítását célzott vagy széleskörű támadásban is meg lehet jeleníteni, még mindig alacsony kockázatnak tűnhet. Végtére is, a filmminősítések nem tűnnek nagyon érzékenynek. Bár ez általában igaz lehet, az 500 000 ember közül az adatkészletben a filmminősítések meglehetősen érzékenyek lehetnek. Valójában az újbóli azonosításra válaszul egy lezárult leszbikus asszony csatlakozott a Netflix elleni osztályfőnökhöz. A probléma a perben (Singel 2009) :
"A [M] ovie és a minősítési adatok egy ... rendkívül személyes és érzékeny természetű információt tartalmaznak. A tag filmjei a Netflix tag személyes érdeklődését és / vagy küzdelmüket különféle rendkívül személyes kérdésekkel oldják meg, beleértve a szexualitást, a mentális betegségeket, az alkoholizmus visszaszerzését, valamint az incestáció áldozattá válását, a fizikai bántalmazást, a családon belüli erőszakot, a házasságtörést és a nemi erőszakot. "
A Netflix Díj adatok újbóli azonosítása azt mutatja, hogy az összes adat potenciálisan azonosítható, és az összes adat potenciálisan érzékeny. Ezen a ponton azt gondolhatja, hogy ez csak azokra az adatokra vonatkozik, amelyek az emberekről szólnak. Meglepő módon ez nem így van. Válaszul a Freedom of Information Law iránti kérelemre a New York-i kormány kiadta a 2013-ban New Yorkban megrendezendő minden taxit, köztük a felszállási és leállítási időpontokat, a helyszíneket és a viteldíjak összegét (a 2. fejezetből kiderül, hogy Farber (2015) hasonló adatokat használt a fontosabb elméletek tesztelésére a munkaügyi gazdaságban). A taxis utakra vonatkozó adatok jóindulatúnak tűnhetnek, mivel úgy tűnik, hogy nem nyújtanak információt az emberről, de Anthony Tockar rájött, hogy ez a taxis adatkészlet valójában sok potenciálisan érzékeny információt tartalmaz az emberekről. Illusztrálva a New York-i nagy csíkos klubba - éjféltől és 6-ig, a Hustler Club-tól kezdődő összes utazást nézte, majd megtalálták a drop-out helyeket. Ez a keresés feltárta - lényegében - a Hustler Club (Tockar 2014) egy listáját. Nehéz elképzelni, hogy a városi önkormányzat ezt szem előtt tartotta, amikor kiadta az adatokat. Valójában ugyanezt a technikát használhatnák olyan emberek otthoni címének megkeresésére, akik a város bármely helyén - orvosi rendelőben, kormányépületben vagy vallási intézményben - látogatnak.
A Netflix-díj és a New York-i taxi adatok e két esete azt mutatja, hogy a viszonylag képzett emberek nem tudják helyesen becsülni az információs kockázatot az általuk kiadott adatokban - és ezek az esetek semmiképpen sem egyediek (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Továbbá sok ilyen esetben a problémás adatok továbbra is szabadon hozzáférhetőek az interneten, jelezve, hogy az adatközlés bármikor visszavonható. Összességében ezek a példák - valamint a számítógépes ismeretek kutatásával kapcsolatos kutatás - fontos következtetést von maga után. A kutatóknak feltételezniük kell, hogy minden adat potenciálisan azonosítható és minden adat potenciálisan érzékeny.
Sajnos nincs egyszerű megoldás a tényekre, hogy minden adat potenciálisan azonosítható, és hogy minden adat potenciálisan érzékeny. Azonban az adatok feldolgozása során az információs kockázat csökkentésének egyik módja az adatvédelmi terv létrehozása és követése. Ez a terv csökkenti annak esélyét, hogy adatai szivárognak, és csökkenti a kárt, ha valamilyen szivárgás történik. Az adatvédelmi tervek - mint például a felhasználás titkosításának módja - idővel változnak, de az Egyesült Királyság Data Services segítséget nyújt az adatvédelmi terv elemeinek öt kategóriába, amelyeket öt széfként neveznek: biztonságos projektek, biztonságos emberek , biztonságos beállításokat, biztonságos adatokat és biztonságos kimeneteket (6.2. táblázat) (Desai, Ritchie, and Welpton 2016) . Az öt széf közül egyik sem biztosít tökéletes védelmet. De együtt erőteljes tényezőket alkotnak, amelyek csökkenthetik az információs kockázatot.
Biztonságos | Akció |
---|---|
Biztonságos projektek | Határozza meg az etikai adatokkal rendelkező projekteket |
Biztonságos emberek | Hozzáférés csak azokra az emberekre korlátozódik, akik bizalmasan kezelhetők az adatokkal (pl. Az etikus képzésen átesett személyek) |
Biztonságos adatok | Az adatokat a lehetséges mértékben elkülönítik és aggregálják |
Biztonságos beállítások | Az adatokat megfelelő fizikai (pl. Zárolt helyiség) és szoftver (például jelszavas védelem, titkosított) védelem alatt álló számítógépek tárolják |
Biztonságos kimenet | A kutatási eredmények felülvizsgálata a véletlen adatvédelmi sérelmek megelőzése érdekében történik |
A személyes adatok védelme mellett a kutatási folyamat egy lépése, ahol az információs kockázatok különösen kiemelkedőek, adatmegosztás más kutatókkal. A tudósok közötti adatmegosztás a tudományos törekvések alapvető értéke, és nagyban elősegíti a tudás fejlődését. Így írta le az Egyesült Királyság Közössége az Adatok megosztásának fontosságát (Molloy 2011) :
"Az adatokhoz való hozzáférés alapvető fontosságú, ha a kutatóknak szaporodniuk kell, ellenőrizniük és ki kell építeniük a szakirodalomban közölt eredményeket. A vélelemnek az lehet az, hogy - hacsak más ok nem áll fenn - az adatokat teljes mértékben nyilvánosságra kell hozni és nyilvánosan hozzáférhetővé kell tenni. "
Mégis, ha megosztja adatait egy másik kutatóval, növelheti az információs kockázatot a résztvevők számára. Így úgy tűnhet, hogy az adatmegosztás alapvető feszültséget teremt az adatok más tudósokkal való megosztására vonatkozó kötelezettség és a résztvevők tájékoztatási kockázatának minimalizálására vonatkozó kötelezettség között. Szerencsére ez a dilemma nem olyan súlyos, mint amilyennek tűnik. Inkább jobb, ha az adatmegosztás egy kontinuumra esik, mindegyik ponton az adott kontinuum, amely a társadalom számára előnyöket és a résztvevők kockázatát különbözteti meg (6.6. Ábra).
Az egyik szélsőségben megoszthatja adatait senki sem, ami minimálisra csökkenti a résztvevők kockázatát, de minimalizálja a társadalom nyereségét. A másik szélsőségben felszabadíthatja és elfelejtheti , ahol az adatok "névtelenek" és mindenkinek megjelennek. Az adatok felszabadításával, felszabadításával és elfelejtésével kapcsolatosan a társadalom számára nagyobb előnyöket és nagyobb kockázatot jelent a résztvevők számára. A két extrém eset között hibridek tartoznak, köztük azt is, amit kertes kerti megközelítésnek nevezek. E megközelítés szerint az adatokat megosztják azokkal az emberekkel, akik megfelelnek bizonyos kritériumoknak, és akik bizonyos szabályok betartására kötelezik (pl. Az IRB és az adatvédelmi terv felügyelete). A fallal körülvett kerti megközelítés a kibocsátás és a felejtés számos előnyét nyújtja kisebb kockázat mellett. Természetesen egy ilyen megközelítés sok kérdést hoz létre - ki kell férnie, milyen feltételek mellett és mennyi ideig, ki kell fizetnie, hogy fenntartsa és rendőrzi a falú kertet stb., De ezek nem feltétlenül leküzdhetetlenek. Valójában már működnek olyan falakkal ellátott kertek, amelyeket a kutatók most használhatnak, például a Michigan Egyetem Politikai és Szociális Kutatóintézetének Inter-egyetemi Konzorciuma.
Szóval, hol lehetnek a tanulmányaidból származó adatok a megosztottság, a falú kert megosztásának folytatásaként, és felszabadítsák és elfelejtsék? Ez az adatok adataitól függ: a kutatóknak egyensúlyt kell teremteniük a személyek tiszteletben tartása, a jótékonyság, a jogérvényesülés és a jog és a közérdek tiszteletben tartása között. Ebből a szemszögből nézve az adatmegosztás nem megkülönböztető etikai ellentmondás; ez csak egyike a kutatás számos olyan aspektusának, amelyben a kutatóknak megfelelő etikai egyensúlyt kell találniuk.
Egyes kritikusok általában ellenezik az adatmegosztást, mert véleményem szerint a kétségtelenül valódi kockázatokra összpontosítanak, és figyelmen kívül hagyják annak előnyeit. Tehát annak érdekében, hogy a kockázatokra és előnyökre összpontosítsunk, egy analógiát szeretnék ajánlani. Minden évben az autók több ezer halálesetért felelősek, de nem próbáljuk megtiltani a vezetést. Tény, hogy a vezetés tilalmának elutasítása abszurd lenne, mert a vezetés sok csodálatos dolgot tesz lehetővé. A társadalom inkább korlátozza azokat, akik vezethetnek (pl. Egy bizonyos kor követelménye, és bizonyos tesztek eltelnek), és hogyan vezethetnek (pl. A sebességhatár alatt). A társadalomnak is vannak feladata az ilyen szabályok betartása (pl. A rendőrség), és megbüntettük az őket sértő embereket. Ugyanez a fajta kiegyensúlyozott gondolkodás, amelyre a társadalom érvényes a vezetés szabályozására, alkalmazható az adatok megosztására is. Azaz, nem pedig abszolút érvekkel az adatmegosztás érdekében, vagy ellen, úgy gondolom, hogy a legnagyobb előrehaladást érjük el, ha összpontosítunk arra, hogyan csökkenthetjük a kockázatokat és növelhetjük az adatmegosztás előnyeit.
Végezetül, az információs kockázat drasztikusan nőtt, és nagyon nehéz megjósolni és számszerűsíteni. Ezért legjobb feltételezni, hogy minden adat potenciálisan azonosítható és potenciálisan érzékeny. Az informatikai kockázat csökkentése során a kutatók létrehozhatják és követhetik az adatvédelmi tervet. Továbbá az információs kockázatok nem akadályozzák meg a kutatókat abban, hogy adatokat cseréljenek más tudósokkal.