Teave risk on kõige tavalisem risk sotsiaalsed uuringud; see on tohutult kasvanud; ja see on kõige raskem risk mõista.
Teine eetiline väljakutse sotsiaalse vanus digitaalse teadus on informatiivne riski, võimalikku kahju on teabe avalikustamise (Council 2014) . Teatised Harms alates isikuandmete avaldamine võib olla majanduslik (nt töö kaotamise), sotsiaalsed (nt häbi), psühholoogiline (nt depressioon) või isegi kriminaalkorras (nt vahistamise ebaseaduslikku tegevust). Kahjuks digitaalajastul suurendab informatsiooni risk järsult-seal on lihtsalt nii palju rohkem informatsiooni meie käitumist. Ja informatiivne risk on osutunud väga raske aru saada ja juhtida võrreldes riskidega, mis olid seotud probleeme analoog vanuses sotsiaalsed uuringud, näiteks füüsilise ohu. Et näha, kuidas digitaalajastu suurendab informatiivne riski, leiavad üleminek paberi elektroonilise meditsiinilisi andmeid. Mõlemat tüüpi kirjeid luua oht, kuid elektroonilisi dokumente luua suuremaid riske, sest massiliselt neid saab edastada volitamata isiku või ühinenud teiste arvestust. Sotsiaalne teadlased digitaalajastul juba joosta hädas informatiivne risk, osaliselt seetõttu, et nad ei saa täielikult aru, kuidas mõõta ja juhtida. Niisiis, ma lähen, et pakkuda lihtne viis mõelda informatiivne risk, ja siis ma annan teile mõned nõuanded, kuidas juhtida informatiivne ohtu oma uurimistöös ja vabastades andmeid teiste teadlastega.
Üks võimalus, et sotsiaalvaldkonna uurijad vähenevad informatiivne risk on "anonüümseks" andmeid. "Anonüümseks" on protsess, eemaldades ilmne isikutuvastamise nagu nimi, aadress ja telefoninumber andmetest. Kuid selline lähenemine on märksa vähem tõhusad kui paljud inimesed mõistavad, ja see on tegelikult sügavalt ja põhimõtteliselt piiratud. Seetõttu, kui ma kirjeldada "anonüümseks" Ma kasutada jutumärke meelde, et see protsess loob välimus anonüümsust, kuid ei ole tõsi anonüümsust.
Ere näide ebaõnnestumisest "anonüümseks" pärineb 1990ndate lõpus Massachusettsis (Sweeney 2002) . Kontserni Kindlustus komisjon (GIC) oli valitsusasutuseks eest osta ravikindlustuse kõikidele riigitöötajate. Selle töö kaudu, GIC kogutud üksikasjalikke sanitaarraamat umbes tuhat riigitöötajate. Püüdes kannus uurimusi, kuidas parandada tervist, GIC otsustas vabastada need andmed teadlastele. Kuid nad ei jaga kõik oma andmed; Pigem "anonüümseks" see, eemaldades nagu nimi ja aadress. Kuid nad jätsid muud teavet, et nad arvasid, võiks olla kasulik teadlased, nagu demograafilised andmed (postiindeks, sünniaeg, rahvus ja sugu) ja meditsiinilise teabe (visiidi andmed, diagnoos, menetlus) (joonis 6.4) (Ohm 2010) . Kahjuks on see "anonüümseks" ei olnud piisav, et kaitsta andmeid.
Et illustreerida puudusi GIC "anonüümseks", Latanya Sweeney-siis aspirandina MIT-maksis $ 20 kuni omandada hääletamisprotokolle kaugusel linna Cambridge, kodulinnas Massachusetts kuberneri William keevitada. Need hääletamisprotokollide hulka nagu nimi, aadress, postiindeks, sünniaeg ja sugu. Asjaolu, et meditsiiniliste andmete faili ja valija faili jagatud väljad-postiindeks, sünniaeg ja sugu tähendas, et Sweeney võiks siduda need. Sweeney teadis, et Weld sünnipäev oli 31. juuli 1945, ja hääletamisprotokolle lisada ainult kuus inimest Cambridge et sünnipäeva. Lisaks nende kuus inimest, vaid kolm olid meessoost. Ja need kolm meest, vaid üks ühine Weld sihtnumbri. Seega hääletamise andmed näitasid, et keegi meditsiini andmeid Weld on kombinatsioon sünniaeg, sugu ja sihtnumber oli William keevitada. Sisuliselt need kolm tükki teabe unikaalne sõrmejälg talle andmeid. Kasutades seda tegelikult Sweeney suutis leida Weld tervisekaart ja teavitada teda tema feat ta saadetakse talle koopia oma dokumentides (Ohm 2010) .
Sweeney töö illustreerib põhistruktuur de-anonüümseks rünnakute To vastu termin arvuti turvalisust kogukonnas. Nende rünnakute, kaks andmekogud, millest kumbki ise paljastab tundlikku teavet, on seotud, ja selle kaudu seost, tundliku teabe tõttu. Mõneti on see protsess sarnaselt et söögisooda ja äädikas, kaks ainet, mis on iseenesest ohutu, saab kombineerida toota vastik tulemuse.
Vastuseks Sweeney töö ja muu seotud tegevuse, teadlased nüüd üldiselt eemaldada palju informatsiooni kõigile nn "isikuandmeid" (PII) (Narayanan and Shmatikov 2010) -during protsess "anonüümseks." Lisaks paljud teadlased nüüd aru, et teatud andmete nagu ravidokumentidele rahalist arvestust, vastuseid uuringu küsimustele ebaseadusliku käitumise on ilmselt liiga tundlik vabastada ka pärast "anonüümseks." Kuid viimased juhtumid, mis kirjeldaks ma allpool näitavad, et sotsiaalse teadlased vaja muuda oma mõtlemist. Esimese sammuna on mõistlik eeldada, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlik. Teisisõnu, selle asemel et mõelda, et informatsiooniline oht esineb väikest osa projekte, me peaksime eeldama, et see kehtib-mingil määral-kõigile projekte.
Mõlemad aspektid seda uuesti orientatsioon on illustreeritud Netflix preemia. Nagu on kirjeldatud peatükis 5, Netflix vabastati 100 miljonit filmi pole ette ligi 500.000 liiget ja oli avalikul konkursil, kus inimesed üle kogu maailma esitada algoritme, mis võivad parandada Netflix võime soovitada filme. Enne andmete avalikustamise, Netflix eemaldada mis tahes ilmselt isikuandmetega, näiteks nimed. Netflix läks ka lisatööd ja kasutusele veidi häirituste mõned arvestust (nt muutuvad mõned hinnet 4 tähte 3 tähte). Netflix peagi avastati aga, et vaatamata oma jõupingutustele andmed olid sugugi anonüümne.
Vaid kaks nädalat pärast andmete vabastati Narayanan and Shmatikov (2008) näitas, et see oli võimalik õppida konkreetse inimese film eelistusi. Trikk nende uuesti identifitseerimine rünnak oli sarnane Sweeney on: ühendada kokku kaks infoallikaid, ühe potentsiaalselt tundlikku teavet ja pole ilmselt identifitseerivat informatsiooni ja üks, mis sisaldab inimeste identiteeti. Kõik need andmed allikatest võib eraldi ohutu, kuid kui need on omavahel ühinenud andmekogumi saab luua informatiivne riski. Juhul Netflix andmed, siin on, kuidas see võiks juhtuda. Kujutage ette, et ma saan valida, et jagada oma mõtteid tegevus ja komöödia filme minu töökaaslased, kuid ma ei soovi jagada oma arvamus usuline ja poliitiline filme. Minu töökaaslased võivad teavet kasutada, et ma temaga jagatud leida oma kirjete Netflix andmed; teavet, et jagan võiks olla unikaalne sõrmejälg nagu William Weld sünniaeg, postiindeks ja sugu. Siis, kui nad leiavad oma unikaalse sõrmejälje andmete, nad võivad õppida oma hinnet umbes kõik filme, sealhulgas filmi, kus ma ei soovi jagada. Lisaks selline suunatud rünnak suunatud ühele isikule, Narayanan and Shmatikov (2008) näitas ka, et see oli võimalik teha lai rünnaku oon kaasatud palju inimesi, ühendades Netflix andmed isikliku ja filmi hinnangud andmeid, et mõned inimesed on valinud postitamiseks Internet Movie Database (IMDb). Igasugune teave, mis on unikaalne sõrmejälg konkreetse isiku-isegi oma rida filmi hinnangust-saab neid identifitseerida.
Kuigi Netflix andmeid saab uuesti kindlaks kas suunata või laia rünnak, siis ikka võib tunduda väike oht. Lõppude lõpuks, filmi hinnet ei tundu väga tundlik. Kuigi see võib olla tõsi, üldiselt mõne 500000 inimest andmekogumi filmi hinnet võib olla üsna tundlik. Tegelikult vastuseks de-anonüümseks closeted lesbi liitus klassi-action suit vastu Netflix. Siin on, kuidas probleem oli see väljendub nende kohtuasi (Singel 2009) :
"[M] ovie ja hinnangud andmeid sisaldab teavet kõrgemalt isiklikku ja tundlikku [sic]. Leibkonnaliikme filmi andmeid paljastab Netflix liikme isiklikku huvi ja / või võitleb erinevate kõrgelt isiklikke küsimusi, sealhulgas seksuaalsuse, vaimuhaigus, toibumine alkoholismi ja ohvriks on verepilastus, kehaline väärkohtlemine, perevägivald, abielu ja rapsi. "
De-anonüümseks Netflix preemia andmeid illustreerib nii, et kõik andmed on potentsiaalselt identifitseeritavad ja et kõik andmed on potentsiaalselt tundlik. Sel hetkel, siis võiks arvata, et see kehtib ainult andmeid, et see on mõeldud olema inimesed. Üllataval kombel on see nii ei ole. Vastuseks teabevabaduse seaduse nõudel New York City valitsus avaldas arvestust iga taksosõidu New Yorgis 2013. aastal, sealhulgas pikap ja lahkuvad korda, asukohtade ja piletihind summad (tagasikutsumise 2. peatükk et Farber (2015) kasutatakse andmete testida oluline teooriaid töö-ökonoomika). Kuigi see andmeid takso reiside võib tunduda healoomuline, sest see ei tundu olevat teavet inimeste, Anthony Tockar aru, et see takso andmekogumi sisaldas tegelikult palju tundliku infot inimesed. Selgitamaks, vaatas ta üldse reise algusega kell Hustler Club-suur striptiisiklubi New York-keskööja 06:00 ja siis avastasid, et nende drop-off kohtadesse. See otsing näitas, sisuliselt-aadresside loendi mõned inimesed, kes sageli Hustler Club (Tockar 2014) . On raske ette kujutada, et linnavalitsus oli see meeles, kui ta avaldas andmeid. Tegelikult on see sama tehnikat, mida saab kasutada, et leida kodu aadresse inimesi, kes külastavad igal koht linna arsti kliinikus, valitsuse hoone, religioosne institutsioon.
Need kaks juhtumit, Netflix auhinna ja New York City takso andmete näitavad, et suhteliselt kvalifitseeritud inimesed ei suutnud õigesti hinnata informatiivne riski andmed, et nad vabastati ning sellistel juhtudel ei ole sugugi ainulaadne (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Lisaks paljudel neist juhtudest on problemaatiline andmed on veel vabalt kättesaadavad Internetis, mis näitab, kui raske on kunagi hävitus andmebaasi vabastamist. Kollektiivselt need näited-samuti teadus infotehnoloogia privaatsuse-viib oluline järeldus. Teadlased peaksid eeldada, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlik.
Kahjuks ei ole lihtsat lahendust sellele, et kõik andmed on potentsiaalselt tuvastatavad ja kõik andmed on potentsiaalselt tundlikud. Kuid üks viis vähendada informatsiooni ohtu, kui te töötate andmetega on luua ja järgida andmekaitse plaani. See kava vähendab võimalust, et teie andmed lekkida ja vähendab kahju, kui leke kuidagi juhtub. Spetsiifika andmekaitse plaanid, nagu mis krüpteerimise vorm kasutada, muutuvad aja jooksul, kuid UK Data Services abivalmilt korraldab elemendid andmekaitse plaani ellu 5 kategooriad, et nad kutsuvad 5 seifid: ohutu projekte, ohutu inimesed , ohutu seaded, ohutu andmed ja ohutu väljundid (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Ükski viiest seifid eraldi pakkuda täielikku kaitset. Aga nad koos moodustavad võimsaid tegurid, mis võivad vähendada informatiivne riski.
ohutu | tegevus |
---|---|
Seif projektid | piirab projektide andmeid neile, kes on eetiline |
Seif inimesed | juurdepääs on piiratud inimesed, keda saab usaldada andmed (nt inimesed on läbinud eetiline koolitus) |
Seif andmeid | andmed mitteidentifitseeritavaks ja koondatud nii palju kui võimalik |
Seif seaded | andmed salvestatakse arvutite asjakohased füüsikalised (nt lukustatud ruumis) ja tarkvara (nt parool kaitse, krüpteeritud) kaitsed |
Seif väljund | teadus- väljund on vaadata, et vältida kogemata puutumatuse rikkumisega |
Lisaks kaitsta oma andmeid, kui te kasutate seda, üks samm teadusuuringute protsess, kus informatsiooniline oht on eriti väljapaistev on andmevahetus teiste uurijatega. Andmete jagamine teadlaste hulgas on põhiväärtus teaduslik ettevõtmine, ja seda suuresti võimalused teadmiste edendamisel. Siin on, kuidas Ühendkuningriigi parlamendi alamkoja kirjeldatud andmete tähtsust jagamine:
"Andmete kättesaadavus on väga oluline, kui teadlased on paljuneda, kontrollida ja arendada tulemusi, mis on kirjanduses. Tuleb eeldada, et kui on olemas tugev põhjus teisiti, tuleb andmed täielikult avalikustatud ja avalikkusele kättesaadavaks teha. Kooskõlas selle põhimõttega, kui see on võimalik, andmed, mis on seotud kogu riigi rahastatud teadusuuringute tuleks laialt ja vabalt saadaval. " (Molloy 2011)
Ometi, jagades oma andmeid teise uurija, siis võib kasvav informatiivne ohtu osalejaid. Nii võib tunduda, et teadlased, kes soovivad jagada oma andmete või on kohustatud jagama oma andmete seisavad põhiline pingeid. Ühelt poolt nad on eetiline kohustus jagada oma andmeid teiste teadlaste, eriti kui teadustööd riiklikult rahastatud. Kuid samal ajal on teadlastel eetiline kohustus vähendada nii palju kui võimalik, informatsioon ohtu nende osalejatele.
Õnneks on see dilemma ei ole nii raske kui tundub. Oluline on mõelda andmete jagamise kontiinumis ei andmevahetus vabastamiseks ja unustada, kus andmeid "anonüümseks" ja postitatud keegi juurde (joonis 6.6). Mõlemad äärmuslikud seisukohad on riskide ja kasu. See tähendab, et see ei ole automaatselt kõige eetiline asi ei jaga oma andmeid; Sellise lähenemise kõrvaldab paljud potentsiaalsed kasu ühiskonnale. Tulles tagasi Maitse, lipsud ja aeg, näiteks varem käsitletud peatükis, vastuargumente andmed vabastamist, et keskenduda ainult võimalik kahju ja mis eiravad võimalik kasu on liiga ühekülgne; Ma kirjeldada probleeme selle ühekülgne, liiga kaitsev lähenemisviis üksikasjalikumalt allpool, kui ma pakkuda nõu otsuste ees ebakindlust (§ 6.6.4).
Lisaks nende kahe äärmuslikel juhtudel on see, mida ma nn seinaga aias lähenemist, kus jagatakse andmeid, kes vastavad teatavatele kriteeriumidele ning kes nõustute teatud reegleid (nt järelevalve all IRB ja andmekaitse plaanid) . See seinaga aias lähenemine annab palju eeliseid vabastamise ja unustada väiksema riskiga. Muidugi seinaga aias lähenemine tekitab palju küsimusi-, kes peaks olema juurdepääs, millistel tingimustel, kui kauaks, kes peaks maksma, et säilitada ja politsei seinaga aias jms-, kuid need ei ole ületamatud. Tegelikult juba töötavad seinaga aiad paika, et teadlased saaksid kasutada just nüüd, nagu andmete arhiivi ülikoolidevahelises konsortsium poliitika- ja Social Research University of Michigan.
Nii, kus peaksid andmeid oma uuringus olema katkematu ei jagamine, seinaga aias, ja vabastada ja unustada? See sõltub üksikasju oma andmeid; Teadlased peavad olema tasakaalus Austus Isikud, heategevuse, justiits- ja lugupidamine seadustest ja avalikku huvi. Hinnates sobiva tasakaalu muid otsuseid, teadlased küsida nõu ja kinnitamine IRBs ja andmete vabastamine võib olla vaid üks osa sellest protsessist. Teisisõnu, kuigi mõned inimesed arvavad andmete vabastamist lootusetu eetiline Raba, meil on juba olemas süsteemid, mis aitavad teadlastel tasakaalu Sellised eetilisi dilemmasid.
Veel üks võimalus mõelda andmete jagamine on analoogia põhjal. Igal aastal autod on vastutav tuhandete inimeste surma põhjus, kuid me ei püüa keelata sõitmist. Tegelikult on selline kõne keelustada sõidu oleks absurdne, sest sõidu võimaldab palju suurepäraseid asju. Pigem ühiskond asetab piirangud kes suudavad juhtida (nt pea olema teatud vanuses, vaja on möödunud teatud testid) ja kuidas neid juhtida (nt vastavalt kiirusepiirang). Selts on ka inimesi, kelle ülesandeks on meetmed nende eeskirjade (nt politsei), ja me karistada inimesi, kes on püütud nende rikkumisest. See samasugune tasakaalustatud mõtlemine, et ühiskonnas kehtib reguleerivad sõidustiil võib kanda ka andmete jagamist. See tähendab, et selle asemel et teha absolutistlik poolt- ja vastuargumendid andmete jagamine, ma arvan, et suurim kasu tulevad välja selgitada, kuidas me saame jagada rohkem andmeid ohutumalt.
Kokkuvõtteks võib öelda, informatiivne risk on märgatavalt suurenenud ja see on väga raske prognoosida ja hinnata. Seetõttu on parim eeldada, et kõik andmed on potentsiaalselt tuvastatavad ja tundliku. Et vähendada informatiivne risk tehes teadus, teadlased saavad luua ja järgida andmekaitse plaani. Lisaks informatiivne ohtu ei takista teadlased jagada andmeid teiste teadlastega.