Sotsiaalsete uuringute puhul on kõige sagedasem risk informatsiooniriskiks; see on dramaatiliselt kasvanud; ja see on kõige raskem mõista.
Teine eetiline väljakutse digitaalajastul põhinevatele teadusuuringutele on informatsiooniline risk , teabe avaldamisest tuleneva kahju potentsiaal (National Research Council 2014) . Isikuandmete avaldamisest tulenev teabekahjustus võib olla majanduslik (nt töökoha kaotamine), sotsiaalne (nt piinlikkus), psühholoogiline (nt depressioon) või isegi kriminaalmenetlus (nt vahistamine ebaseadusliku käitumise eest). Kahjuks suurendab digitaalajaskond informatiivset riski dramaatiliselt - meie käitumise kohta on lihtsalt nii palju teavet. Ja informatsiooniline risk on osutunud väga raskeks mõista ja hallata võrreldes riskidega, mis olid analoog-tüüpi sotsiaalsete uuringutega seotud probleemid, näiteks füüsiline risk.
Üks võimalus, et sotsiaalvaldkonna uurijad vähenevad informatiivne risk on "anonüümseks" andmeid. "Anonüümseks" on protsess, eemaldades ilmne isikutuvastamise nagu nimi, aadress ja telefoninumber andmetest. Kuid selline lähenemine on märksa vähem tõhusad kui paljud inimesed mõistavad, ja see on tegelikult sügavalt ja põhimõtteliselt piiratud. Seetõttu, kui ma kirjeldada "anonüümseks" Ma kasutada jutumärke meelde, et see protsess loob välimus anonüümsust, kuid ei ole tõsi anonüümsust.
"Anonüümseks muutumise" ebaõnnestumine on ilmekas näide Massachusettsi 1990. aastate lõpust (Sweeney 2002) . Kontserni kindlustuskomisjon (GIC) oli riigiametkond, kes vastutab kõigi riiklike töötajate tervisekindlustuse ostmise eest. Selle töö käigus kogus GIC üksikasjalikke terviseandmeid tuhandete riigiametnike kohta. Teadusuuringute soodustamiseks otsustasid GIC vabastada need andmed uurijatele. Kuid nad ei jaganud kõiki oma andmeid; pigem nad "anonüümseks" neid andmeid, eemaldades sellist teavet nagu nimed ja aadressid. Siiski jätsid nad välja muud teavet, mis nende arvates võiks teadlastele olla kasulik, näiteks demograafiline teave (postiindeks, sünniaeg, etniline päritolu ja sugu) ning meditsiiniline teave (andmete külastamine, diagnoosimine, protseduur) (joonis 6.4) (Ohm 2010) . Kahjuks ei olnud see "anonüümimine" andmete kaitsmiseks piisav.
GIC-i anonüümseks saamise puuduste illustreerimiseks Latanya Sweeney-i MIT-i lõpetanud üliõpilane maksis 20 USA dollarit, et saada Cambridge'i, Massachusettsi kuberneri William Weldi kodulinnast hääletustulemused. Need hääletustulemused sisaldasid sellist teavet nagu nimi, aadress, postiindeks, sünnikuupäev ja sugu. Asjaolu, et meditsiinidokumendi ja valijafaili jagatud väljad - postiindeks, sünnikuupäev ja sugu - tähendas seda, et Sweeney suudaks neid linkida. Sweeney teadis, et Welddi sünnipäev oli 31. juulil 1945 ja hääletustulemused hõlmasid ainult seda kuut inimest Cambridge'i sünnipäeval. Nende kuue inimese hulgas oli ainult kolm meest. Ja neist kolmest meestest oli ainult üks Weldi postiindeks. Seega näitasid hääletustulemused, et keegi, kellel on Weldsi koosseisus sünnikuupäev, sugu ja postiindeks, on William Weld. Põhimõtteliselt andsid need kolm teabeainet talle andmetes unikaalset sõrmejälge . Selle fakti abil suutis Sweeney Weldi meditsiinilisi andmeid leida ja teavitas teda oma meeleavaldusest, saates talle koopia oma dokumentidest (Ohm 2010) .
Sweeney'i töö illustreerib rünnakute ümberkorraldamise põhistruktuuri - arvutijulgeolekukommunikatsiooni jaoks terminit. Nendes rünnakutes on omavahel seotud kaks andmekogumit, millest kumbki ei anna tundlikku teavet, ja selle seose kaudu on tundlik teave avatud.
Vastuseks Sweeney tööle ja muule seotud tööle eemaldavad teadlased anonüümse protsessi käigus üldiselt palju rohkem teavet - kogu nn isikut tuvastavat teavet (PII) (Narayanan and Shmatikov 2010) . Paljud teadlased nüüd mõista, et teatud andmed, nagu meditsiinilised andmed, finantsdokumendid, vastused küsitluse küsimustele ebaseadusliku käitumise kohta, on ilmselt liiga tundlikud vabastamise suhtes isegi pärast anonüümseks muutmist. Kuid näited, millest ma pean ütlema, et sotsiaalteadlased vajavad mõtlema muutma. Esimese sammuna on mõistlik eeldada, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlikud. Teisisõnu, peaksime eeldama, et see kehtib teatud määral kõikidele projektidele, selle asemel et arvata, et infrarisk puudutab väikseid projektide alarühmi.
Selle ümberkorraldamise mõlemat aspekti illustreerib Netflixi auhind. Nagu on kirjeldatud peatükis 5, andis Netflix välja 100 miljonit filmi reitingut, mida andsid peaaegu 500 000 liiget ja kellel oli avatud kõne, kus inimesed kogu maailmast esitasid algoritme, mis võiksid parandada Netflixi võime soovitada filme. Enne andmete avaldamist eemaldas Netflix igasuguse ilmse isikliku tuvastamise teabe, näiteks nimed. Nad läksid ka täiendava sammuna ja mõnes dokumendis esinesid vähesed häired (nt mõne reitingu muutmine 4 tähega kuni 3 tähte). Nad leidsid aga peagi, et vaatamata nende jõupingutustele ei olnud andmed ikka veel anonüümsed.
Vaid kaks nädalat pärast andmete vabastamist näitas Arvind Narayanan ja Vitali Shmatikov (2008) , et oli võimalik õppida konkreetsete inimeste filmi eelistuste kohta. Nende uuesti identifitseerimise rünnaku trikk oli sarnane Sweeney's -ga: ühendada kaks teabeallikat, üks potentsiaalselt tundliku teabega, ükski ilmselt identifitseeriv teave ja üks, mis sisaldab inimeste identiteeti. Igaüks neist andmeallikatest võib olla individuaalselt ohutu, kuid nende ühendamisel võib ühendatud andmekogum luua informatsiooniriski. Netflixi andmete puhul on siin, kuidas see võib juhtuda. Kujutage ette, et ma otsustasin jagada oma mõtteid oma kaasautoritega tegevustest ja komöödiafilmidest, kuid ma ei soovi oma arvamust jagada usuliste ja poliitiliste filmide üle. Minu töötajad võivad kasutada teavet, mida olen nendega jaganud, et leida oma andmed Netflixi andmetele; jagatud teave võiks olla unikaalne sõrmejälg nagu William Weldi sünnikuupäev, postiindeks ja sugu. Kui nad leiavad minu andmetes oma unikaalse sõrmejälje, saavad nad lugeda minu hinnangut kõikide filmide kohta, sealhulgas filmide kohta, mida ma ei soovi jagada. Lisaks sellisele sihitud rünnakule, mis oli suunatud ühele inimesele, näitasid Narayanan ja Shmatikov ka seda, et oli võimalik teha laiaulatuslikku rünnakut, mis hõlmas paljusid inimesi, ühendades Netflixi andmed personaalse ja filmi hinnanguga, mida mõned inimesed on valinud postitada Interneti-filmiandmestikus (IMDb). Lihtsalt võib nende tuvastamiseks kasutada mis tahes teavet, mis on konkreetsele isikule ainulaadne sõrmejälg - isegi nende filmi hinnangu kogum.
Isegi kui Netflixi andmeid saab tuvastada kas sihitud või laialdase rünnaku korral, võib see ikkagi olla madal risk. Lõppude lõpuks pole filmi hinnangud tundlikud. Kuigi see võib olla tõsi üldiselt, on mõnede 500 000 inimese jaoks andmestikus filmi hinnangud küllalt tundlikud. Tõepoolest, vastusena uuesti identifitseerimisele liitus sulgunud lesbi naine Netflixiga klassikohtuasja vastu. Siin on probleem, mida väljendati nende kohtuasi (Singel 2009) :
"[M] ovie ja reitinguandmed sisaldavad teavet ... väga isikliku ja tundliku olemusega. Liige'i filmiandmed pakuvad Netflixi liikme isiklikku huvi ja / või võidelda mitmesuguste väga isiklike küsimustega, sealhulgas seksuaalsuse, vaimuhaiguse, alkoholismist taastumise ja vangistusega vangistusest, füüsilisest kuritarvitamisest, koduvägivallast, abielurikkumisest ja vägistamisest. "
Netflixi auhinna andmete uuesti identifitseerimine näitab nii seda, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlikud. Selles punktis võite arvata, et see kehtib ainult andmete kohta, mis puudutavad inimesi. Üllatavalt ei ole see nii. Vastavalt teabevabaduse seaduse taotlusele avaldas New Yorgi linnavalitsus 2013. aastal New Yorgis iga takso sõidu kohta arvestuse, sealhulgas aja ja koha pikkuse ja mahajäämuse, asukohtade ja piletihindade summad (vt Farber (2015) 2, et Farber (2015) kasutas sarnaseid andmeid, et testida olulisi teooriaid tööjõu majanduses). Need takso-reiside andmed võivad tunduda heasoovlikud, kuna need ei näi olevat inimeste kohta teavet andnud, kuid Anthony Tockar mõistis, et see taksoandmestik sisaldab tegelikult palju tundlikku teavet inimeste kohta. Et illustreerida, vaatas ta läbi kõik reisid, mis algasid New Yorgis suurribiriba klubist Hustler Clubist - keskööst kuni kella 6-st ning seejärel leidsid nad oma väljalülitamise kohad. See otsing näitas sisuliselt mõnede inimeste aadresse, kes külastas Hustler Clubi (Tockar 2014) . On raske ette kujutada, et linnavalitsus seda meeles pidanud, kui andmed avaldati. Tegelikult võib seda sama tehnikat kasutada linna külastamiseks mõeldud inimeste, näiteks tervishoiu, kliiniku, valitsuse hoone või religioosse asutuse koduaadresside leidmiseks.
Need kaks Netflixi auhinna ja New Yorgi taksoandmete näidet näitavad, et suhteliselt kvalifitseeritud inimesed ei suuda õigesti hinnata nende avaldatavates andmetes sisalduvat riski ja need juhtumid pole mingil juhul ainulaadsed (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Veelgi enam, paljudel sellistel juhtudel on problemaatilised andmed endiselt vabalt veebis kättesaadavad, mis näitab, kui raske on andmete vabastamist kunagi tühistada. Kollektiivselt viitavad need näited - nagu ka infotehnoloogia alased teadusuuringud eraelu puutumatuse kohta - olulise järelduseni. Teadlased peaksid eeldama, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlikud.
Kahjuks ei ole lihtsa lahenduse faktidele, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlikud. Kuid andmevahetusega töötamise üheks viisiks vähendada informatsiooniriski on andmekaitse kava loomine ja järgimine. See kava vähendab võimalust, et teie andmed lekivad ja vähendab kahju, kui lekkimine mingil viisil toimuks. Andmekaitsekavade spetsiifikad, näiteks mis krüpteerimise vormis aja jooksul muutuvad, kuid Ühendkuningriigi Andmete Teenistused korraldavad andmekaitse kava elemente abstraktselt viie kategooria järgi, mida nad nimetavad viide seifi jaoks : turvalised projektid, ohutud inimesed , ohutud seaded, ohutud andmed ja turvalised väljundid (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Ükski viiest seifist ei paku täiuslikku kaitset. Kuid koos moodustavad nad võimsa hulga tegureid, mis võivad vähendada informatsiooniriski.
Ohutu | Tegevus |
---|---|
Ohutuid projekte | Piirdub projektidega andmetega, mis on eetilised |
Ohutuid inimesi | Juurdepääs on inimestele, kellele saab andmeid usaldada (nt inimesed, kes on läbinud eetikakoolituse) |
Ohutud andmed | Andmed de-identifitseeritakse ja koondatakse võimalikult suures ulatuses |
Turvalised seaded | Andmed salvestatakse arvutitega, millel on sobiv füüsiline (nt lukustatud ruum) ja tarkvara (nt paroolikaitse, krüptimine) kaitse |
Ohutu väljund | Uuringute väljund vaadatakse läbi, et vältida juhuslikke privaatsuse rikkumisi |
Lisaks teie andmete kaitsmisele nende kasutamise ajal on andmete edastamine teiste teaduritega üks samm uurimisprotsessis, kus inf rarisk on eriti tähtis. Teadlaste vahel andmete jagamine on teaduslike püüdluste põhiväärtus ja see aitab oluliselt kaasa teadmiste edasiarendamisele. Järgnevalt kirjeldas Ühendkuningriigi alamkoda andmete jagamise tähtsust (Molloy 2011) :
"Juurdepääs andmetele on oluline, kui teadlased paljundavad, kontrollivad ja tuginevad kirjanduses avaldatud tulemustele. Eelduseks peab olema see, et kui muudel juhtudel pole kindlat põhjust, tuleks andmed täielikult avalikustada ja avalikustada. "
Kuid jagades oma andmeid teise teadlasega, võib teie osalejatele suurendada infoturbe riski. Seega võib tunduda, et andmete jagamine tekitab olulise pinge vahel kohustuse jagada andmeid teiste teadlastega ja kohustust vähendada osalejate jaoks informatsiooniriski. Õnneks pole see dilemma nii tõsine, nagu tundub. Pigem on parem mõelda andmeside jagamise kui katkematu liikumise üle, kusjuures selle pidevuse iga punkt pakub ühiskonnale kasulikke hüvesid ja osalejatele ohtu (joonis 6.6).
Ühe äärmusena võite jagada oma andmeid keegi, mis vähendab osalejate riski, kuid vähendab ka ühiskonna kasu. Teisel äärmusel võite vabastada ja unustada , kus andmed on anonüümsed ja postitatud kõigile. Seoses andmete vabastamisega, vabastamisega ja unustamisega pakuvad ühiskonnale nii suuremat kasu kui ka osalejatele suuremat riski. Nende kahe äärmusliku juhtumi vahel on hulgaliselt hübriide, sealhulgas seda, mida ma nimetan seinaga aia lähenemisviisiks. Selle lähenemisviisi kohaselt jagatakse andmeid inimestega, kes vastavad teatavatele kriteeriumidele ja kes nõustuvad järgima teatavaid eeskirju (nt IRB ja andmekaitse kava järelevalve). Seinaäärse aia lähenemine annab palju vabastamist ja unustab vähem riskiga. Loomulikult tekitab selline lähenemine palju küsimusi - kellel peaks olema juurdepääs, millistel tingimustel ja kui kaua kes peaks maksma, et säilitada ja politseerida seinaga aed jne, kuid need ei ole ületamatud. Tegelikult on juba olemas töökohad, mida teadlased saavad praegu kasutada, näiteks Michigani ülikooli ülikoolidevahelise ülikoolide konsortsiumi andmevahetus.
Niisiis, kus peaksid teie uuringu andmed olema jagatud ilma piiranguteta, seinaga aed, vabastama ja unustama? See sõltub teie andmete üksikasjadest: teadlased peavad tasakaalustama inimeste austuse, heategevus, õigusemõistmise ja seaduste ja avalike huvide austamine. Sellest vaatenurgast lähtudes ei ole andmete jagamine eetiline ehitis; see on lihtsalt üks paljudest uurimisvaldkondadest, milles teadlased peavad leidma sobiva eetilise tasakaalu.
Mõned kriitikud on üldiselt andmete jagamise vastu, sest minu arvates keskenduvad nad riskidele - mis on kahtlemata tõelised - ja ei arvesta selle eeliseid. Nii et, et julgustada keskendumist nii riskidele kui ka eelistele, tahaksin pakkuda analoogiat. Igal aastal vastutavad autod tuhandeid surmajuhtumeid, kuid me ei püüa sõidu keelata. Tegelikult oleks sõit keelatud sõitmine absurdne, sest sõitmine võimaldab palju imelisi asju. Pigem paneb ühiskond piirama, kes suudab sõita (nt teatud vanuse ja teatud testide läbimise vajadus) ja kuidas nad saavad sõita (nt kiirusepiirangu alusel). Ühiskonnas on ka inimesi, kelle ülesandeks on nende eeskirjade täitmine (nt politsei), ja me karistame inimesi, kes püütud neid rikkudes. Seda tüüpi tasakaalustatud mõtlemine, mida ühiskond juhtimise reguleerimiseks kasutab, võib samuti rakendada andmevahetusele. See tähendab, et me ei anna absoluutlikke argumente andmete jagamise vastu või vastu, vaid arvan, et me saavutame kõige edukamaks, keskendudes sellele, kuidas me saame vähendada riske ja suurendada andmete jagamise eeliseid.
Kokkuvõtteks võib öelda, et informatsiooniline risk on dramaatiliselt kasvanud ning seda on raske prognoosida ja kvantifitseerida. Seetõttu on kõige parem eeldada, et kõik andmed on potentsiaalselt tuvastatavad ja potentsiaalselt tundlikud. Uuringute tegemisel informatsiooniriski vähendamiseks võivad teadlased luua ja järgida andmekaitse kava. Lisaks ei takista informatsioonirisk teadlaste andmete jagamist teiste teadlastega.