Інфармацыйны рызыка з'яўляецца найбольш распаўсюджаным рызыкай ў сацыяльных даследаваннях; яна рэзка ўзрасла; і гэта самы цяжкі рызыка для разумення.
Другі этычнай праблемай для сацыяльнага ўзросту лічбавага даследавання з'яўляецца інфармацыйнай рызыкай, патэнцыйны шкоду ад раскрыцця інфармацыі (Council 2014) . Інфармацыйныя шкоду ад выдавання асабістай інфармацыі можа быць эканамічнымі (напрыклад, страта працы), сацыяльныя (напрыклад, збянтэжанасці), псіхалагічныя (напрыклад, дэпрэсія), ці нават злачынца (напрыклад, арышт за незаконнае паводзіны). На жаль, стагоддзе лічбавых тэхналогій павялічвае інфармацыйны рызыка рэзка-то проста так значна больш інфармацыі пра нашых паводзінах. І, інфармацыйны рызыка апынуўся вельмі цяжкім для разумення і кіравання ў параўнанні з рызыкамі, якія былі праблемы ў аналагавай узроставай сацыяльных даследаванняў, такія як фізічны рызыка. Каб убачыць, як лічбавы век павялічвае інфармацыйны рызыка, разгледзець пераход ад папяровых носьбітаў да электронных медыцынскім запісах. Абодва тыпу запісаў ствараюць рызыку, але электронныя запісу ствараюць значна большы рызыка, таму што ў масавым маштабе яны могуць быць перададзены неўпаўнаважаных асобам або аб'яднаная з іншымі запісамі. Сацыяльныя даследчыкі ў эпоху лічбавых тэхналогій ўжо сутыкнуліся з праблемамі з інфармацыйнага рызыкі, збольшага таму, што яны не ў поўнай меры зразумець, як колькасна і кіраваць ім. Такім чынам, я збіраюся прапанаваць карысны спосаб думаць аб інфармацыйнай небяспекі, а затым я збіраюся даць вам некалькі саветаў аб тым, як кіраваць інфармацыйнай рызыка ў сваіх даследаваннях і ў вызваленні дадзеных для іншых даследчыкаў.
Адзін з спосабаў , што сацыяльныя даследчыкі паменшыць інфармацыйны рызыка з'яўляецца "ананімную" дадзеных. "Анонимизация" з'яўляецца працэс выдалення відавочных асабістых ідэнтыфікатараў, такіх як імя, адрас і нумар тэлефона з дадзеных. Тым не менш, гэты падыход значна менш эфектыўны, чым многія людзі разумеюць, і гэта, па сутнасці, глыбока і прынцыпова абмежавана. Па гэтай прычыне, кожны раз, калі я апісваю "ананімную" Я буду выкарыстоўваць двукоссі, каб нагадаць вам, што гэты працэс стварае бачнасць ананімнасці, але не адпавядае рэчаіснасці ананімнасць.
Яскравым прыкладам правалу "обезличивания" адбываецца з канца 1990 - х гадоў у штаце Масачусэтс (Sweeney 2002) . Камісія страхавая група (СВГ) быў урадавым установай, адказным за набыццё медыцынскага страхавання для ўсіх дзяржаўных служачых. Дзякуючы гэтай працы, СВГ сабраны падрабязныя справаздачы пра здароўе тысяч дзяржаўных служачых. У спробе стымуляваць даследаванне аб шляхах паляпшэння здароўя, GIC вырашыў выпусціць гэтыя запісы для даследчыкаў. Тым не менш, яны не падзялялі усе іх дадзеныя; хутчэй, яны "ананімнымі", выдаліўшы інфармацыю, такую як імя і адрас. Тым ня менш, яны пакінулі іншую інфармацыю , якая , па іх думку могуць быць карысныя для даследчыкаў , такіх як дэмаграфічныя дадзеныя (паштовы індэкс, дату нараджэння, нацыянальнасці і полу) і медыцынскай інфармацыі (дадзеныя візіту, дыягностыка, працэдура) (мал 6.4) (Ohm 2010) . На жаль, гэта "ананімную" было недастаткова для абароны дадзеных.
Каб праілюстраваць недахопы "обезличивания" GIC, Latanya Суіні-то аспірант MIT-заплаціў $ 20, каб набыць запісу голасу з горада Кембрыдж, родным горадзе губернатара штата Масачусэтс Уільям Weld. Гэтыя галасавання запісу ўключаюць інфармацыю, такую як імя, адрас, паштовы індэкс, дату нараджэння і падлогу. Той факт, што медыцынскі файл дадзеных і выбаршчык агульныя поля, паштовы індэкс, дата нараджэння, і сэкс-азначала, што Суіні мог звязаць іх. Суіні ведаў, што дзень нараджэння ў Weld быў 31 ліпеня 1945 году і пратаколы галасавання былі ўключаны толькі шэсць чалавек у Кембрыджы з гэтым днём нараджэння. Акрамя таго, з гэтых шасці чалавек, толькі трое былі мужчыны. І з гэтых трох мужчын, толькі адзін агульны паштовы індэкс зварнога шва ст. Такім чынам, дадзеныя галасавання паказалі, што нехта ў медыцынскіх дадзеных з камбінацыяй Weld пра дату нараджэння, пол і паштовы індэкс быў Уільям Weld. Па сутнасці, гэтыя тры часткі інфармацыі забяспечылі унікальныя адбіткі пальцаў яму ў дадзеных. Выкарыстоўваючы гэты факт, Суіні ўдалося знайсці медыцынскія запісы зварнога шва, і паведаміць яму аб сваім подзвігу, яна па пошце яму копію яго запісаў (Ohm 2010) .
Праца Суіні ілюструе асноўную структуру дэ-обезличивания нападаў -у прыняць тэрмін з супольнасці кампутарнай бяспекі. У гэтых нападаў, два набору дадзеных, ні адзін з якіх сам па сабе раскрывае канфідэнцыйную інфармацыю, якія звязаныя паміж сабой, і праз гэтую сувязь, канфідэнцыйная інфармацыя падвяргаецца. У пэўным сэнсе гэты працэс аналагічны таму, як харчовая сода і воцат, два рэчывы, якія самі па сабе не небяспечныя, могуць быць аб'яднаныя, каб вырабіць непрыемны зыход.
У адказ на працы Суіні і іншыя звязаныя з працай, даследчыкі зараз наогул выдаліць значна больш інфармацыі , усе яны так званую "асабістую інфармацыю" (PII) (Narayanan and Shmatikov 2010) -У працэс «обезличивания». Акрамя таго, многія даследчыкі ў цяперашні час разумець, што пэўныя дадзеныя, такія як медыцынскія запісы, фінансавыя справаздачы, адказы на пытанні анкеты аб супрацьпраўных паводзін, верагодна, занадта адчувальны, каб вызваліць нават пасля таго, як «обезличивания». Тым не менш, пазнейшыя прыклады, якія я апішу ніжэй, паказваюць, што сацыяльныя даследчыкі павінны змяніць сваё мысленне. У якасці першага кроку, разумна выказаць здагадку , што ўсе дадзеныя патэнцыйна ідэнтыфікаваць і ўсе дадзеныя патэнцыйна адчувальныя. Іншымі словамі, замест таго, каб думаць, што інфармацыйны рызыка ставіцца да невялікай групе праектаў, мы павінны выказаць здагадку, што ён ставіцца да той ці іншай ступені, да ўсіх праектаў.
Абодва аспекты гэтай пераарыентацыі праілюстраваны Netflix Prize. Як апісана ў главе 5, Netflix выпусціла 100 мільёнаў рэйтынгі фільмаў, прадастаўленыя амаль 500 000 членаў, і быў адкрыты выклік, дзе людзі з усяго свету, прадстаўленыя алгарытмы, якія маглі б палепшыць здольнасць Нетфликса рэкамендаваць фільмы. Перад выпускам дадзеных, Netflix выдаленыя любыя відавочна асабіста ідэнтыфікуе інфармацыю, як імёны. Netflix таксама пайшоў дадатковы крок і ўвёў невялікія абурэння ў некаторых з запісаў (напрыклад, змяняючы некаторыя ацэнкі ад 4 зоркі 3 зоркі). Netflix неўзабаве выявілі, аднак, што нягледзячы на іх намаганні, дадзеныя былі зусім не ананімным.
Усяго праз два тыдні пасля выхаду даных былі выпушчаныя Narayanan and Shmatikov (2008) паказаў , што можна даведацца аб перавагах ў кіно спецыфічных людзей. Хітрасць іх паўторнай ідэнтыфікацыі атакі была падобная на свінняў: зліваюцца разам дзве крыніцы інфармацыі, адзін з патэнцыйна сакрэтнай інфармацыі і не відавочна, ідэнтыфікуе інфармацыю, і той, які ўтрымлівае асобу людзей. Кожны з гэтых крыніц дадзеных могуць быць індывідуальна бяспечныя, але, калі яны аб'яднаны аб'яднаны набор дадзеных можа стварыць інфармацыйны рызыка. У выпадку дадзеных Netflix, вось як гэта магло адбыцца. Уявіце сабе, што я выбіраю, каб падзяліцца сваімі думкамі з нагоды дзеянняў і камедыі фільмаў з маімі калегамі, але я аддаю перавагу не выказаць сваё меркаванне аб рэлігійных і палітычных фільмаў. Мае супрацоўнікі могуць выкарыстоўваць інфармацыю, якую я падзяліўся з імі, каб знайсці мае запісы ў дадзеных Netflix; інфармацыя , якую я падзяляю можа быць унікальным адбітка пальца, як і даты Уільяма Weld дня нараджэння, паштовы індэкс, і сэксу. Тады, калі яны знойдуць свой унікальны адбітак у дадзеных, яны маглі даведацца мае рэйтынгі аб усіх фільмах, у тым ліку фільмаў, дзе я выбіраю не дзяліцца. У дадатак да гэтага віду мэтанакіраванай атакі , арыентаванай на аднаго чалавека, Narayanan and Shmatikov (2008) таксама паказаў , што можна было зрабіць шырокі атакі -яна з удзелам многіх людзей, шляхам аб'яднання дадзеных Netflix з асабістымі і кіно рэйтынгавых дадзеных , што некаторыя людзі вырашылі размясціць на сайце Internet Movie Database (IMDb). Любая інфармацыя, якая з'яўляецца унікальным адбіткаў пальцаў пэўнаму чалавеку, нават іх набор фільмаў рэйтынгі-могуць быць выкарыстаны для іх ідэнтыфікацыі.
Нават пры тым, што дадзеныя Netflix могуць быць паўторна вызначаны ў любым мэтанакіраваным або шырокай атакі, ён усё яшчэ можа здацца нізкім рызыкай. У рэшце рэшт, рэйтынгі фільмаў, здаецца, не вельмі адчувальныя. Хоць гэта можа быць праўдай, наогул кажучы, для некаторых з 500000 чалавек у наборы дадзеных, рэйтынгі фільмаў можа быць вельмі адчувальным. На самай справе, у адказ на дэ-обезличивания замкнуўшыся жанчына лесбіянка далучыўся касцюм класа дзеянні супраць Netflix. Вось як была выказана праблема ў іх пазове (Singel 2009) :
"[M] Ові і ацэнка даных змяшчае інфармацыю пра больш высокай асабістай і адчувальнай прыроды [так у арыгінале]. Дадзеныя фільма ўдзельніка выстаўляе асабістую зацікаўленасць з'яўляецеся членам Netflix і / або барацьбы з рознымі вельмі асабістымі пытаннямі, у тым ліку сэксуальнага паводзінаў, псіхічныя захворванні, акрыяння ад алкагалізму, і виктимизации ад інцэсту, фізічнага гвалту, бытавы гвалт, распусту і згвалтаванне ".
Дэ-обезличивания дадзеных Netflix Prize паказвае як тое, што ўсе дадзеныя патэнцыйна ідэнтыфікаваць і што ўсе дадзеныя патэнцыйна адчувальныя. На дадзены момант, вы можаце падумаць, што гэта ставіцца толькі да дадзеных, якія, як сцвярджаецца, каб быць пра людзей. Дзіўна, што гэта не так. У адказ на волі запыту інфармацыйнага права, Нью - Ёрк ўрад выпусціла запісу кожнай паездкі на таксі ў Нью - Ёрку ў 2013 годзе, у тым ліку пікап і сыходзяць часы, месцы і платы за праезд сумы (нагадаем , з кіраўніка 2 , што Farber (2015) выкарыстаў гэтыя дадзеныя для тэставання важных тэорый ў эканоміцы працы). Хоць гэтыя дадзеныя аб таксі паездак можа здацца дабраякаснай, таму што гэта, здаецца, не будзе інфармацыі пра людзей, Энтані Tockar зразумеў, што гэта таксі набор дадзеных на самай справе змяшчаецца мноства патэнцыйна сакрэтнай інфармацыі аб людзях. Каб праілюстраваць гэта, ён глядзеў на ўсе паездкі пачынаючы з Hustler Club-вялікі стрыптыз-клуб у Нью-Ёрку-паміж полуночью і 6-й раніцы, а затым знайшлі іх месца высадкі пасажыраў. Гэты пошук паказаў , у сутнасці-спіс адрасоў некаторых людзей , якія часта з'яўляюцца ў Hustler Club (Tockar 2014) . Цяжка сабе ўявіць, што гарадскія ўлады гэта меў на ўвазе, калі яна выпусціла дадзеныя. На самай справе, гэтая ж тэхналогія можа быць выкарыстана, каб знайсці хатнія адрасы людзей, якія наведваюць любое месца ў горадзе-медыцынскай клініцы, ўрадавае будынак, або рэлігійнае ўстанову.
Гэтыя два выпадкі самой Netflix Prize і Нью - Ёрку таксі дадзеных паказваюць , што адносна кваліфікаваныя людзі не змаглі правільна ацаніць інфармацыйны рызыка ў дадзеных , якія яны выпусцілі, і гэтыя выпадкі не з'яўляюцца ні ў якім выпадку унікальным (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Акрамя таго, у многіх з гэтых выпадкаў, праблематычная дадзеныя па-ранейшаму свабодна даступныя ў Інтэрнэце, паказваючы на цяжкасці калі-небудзь адмяняючы вызваленне дадзеных. У сукупнасці гэтыя прыклады-а таксама даследаванні ў галіне камп'ютэрнай навукі аб прыватнасці, прыводзіць да важнай высновы. Даследчыкі павінны выказаць здагадку , што ўсе дадзеныя патэнцыйна ідэнтыфікаваць і ўсе дадзеныя патэнцыйна адчувальныя.
На жаль, не існуе простага рашэння з тым, што ўсе дадзеныя патэнцыйна ідэнтыфікаваць і ўсе дадзеныя патэнцыйна адчувальныя. Тым ня менш, адным з спосабаў памяншэння інфармацыйнага рызыкі падчас працы з дадзенымі, каб стварыць і прытрымлівацца плана абароны дадзеных. Гэты план памяншае верагоднасць таго, што вашыя дадзеныя будуць цечу і паменшыць шкоду, калі ўцечка адбываецца нейкім чынам. Спецыфіка планаў абароны дадзеных, такія , як якая форма шыфравання для выкарыстання, будзе мяняцца з цягам часу, але службы дадзеных Вялікабрытаніі паслужліва арганізуе элементы плана абароны дадзеных на 5 катэгорый , якія яны называюць 5 сейфаў: бяспечныя праекты, бяспечных людзей , бяспечныя налады, бяспечныя дадзеныя і бяспечныя выхады (Табліца 6.2) (Desai, Ritchie, and Welpton 2016) . Ні адзін з пяці сейфаў паасобку не забяспечваюць ідэальную абарону. Але, разам яны ўтвараюць магутны набор фактараў, якія могуць паменшыць рызыка інфармацыйнай.
сейф | дзеянне |
---|---|
бяспечныя праекты | абмяжоўвае праекты з дадзенымі для тых, якія з'яўляюцца этычна |
бяспечныя людзі | доступ абмежаваны да людзей, якія могуць быць даверанымі з дадзенымі (напрыклад, людзі падвергліся этычнае навучанне) |
бяспечныя дадзеныя | дадзеныя абязлічанай і агрэгуе, наколькі гэта магчыма |
бяспечныя налады | дадзеныя захоўваюцца ў кампутарах з адпаведныя фізічныя (напрыклад, закрытая пакой) і праграмнага забеспячэння (напрыклад, абарона паролем, зашыфраваная) сродкі абароны |
бяспечны выхад | Вынікі гэтых даследаванняў разглядаецца для прадухілення выпадковага парушэння прыватнасці |
У дадатак да абароны вашых дадзеных у той час як вы выкарыстоўваеце яго, адзін крок у працэсе даследавання, дзе інфармацыйны рызыка з'яўляецца асабліва важным з'яўляецца абмен дадзенымі з іншымі даследнікамі. Абмен дадзенымі паміж навукоўцамі з'яўляецца асноўнай каштоўнасцю навуковай дзейнасці, і гэта значна аб'ектаў прасоўванне ведаў. Вось як Палаты абшчын Вялікабрытаніі апісаў важнасць абмену дадзенымі:
"Доступ да дадзеных з'яўляецца фундаментальным, калі даследчыкі павінны прайграваць, правяраць і абапірацца на вынікі, пра якія паведамляецца ў літаратуры. Здагадка, што павінна быць, калі не існуе важкі чыннік, у адваротным выпадку, дадзеныя павінны быць цалкам раскрыты і даступныя грамадскасці. У адпаведнасці з гэтым прынцыпам, дзе гэта магчыма, дадзеныя , звязаныя з усімі фінансуюцца дзяржавай даследаванняў павінны быць шырока і свабодна даступныя. " (Molloy 2011)
Тым не менш, шляхам абмену дадзенымі з іншым даследчыкам, вы можаце быць павышэнне інфармацыйнага рызыкі для ўдзельнікаў семінара. Такім чынам, можа здацца, што даследчыкі, якія жадаюць абменьвацца дадзенымі, або якія неабходныя для абмену дадзенымі, сутыкаюцца з фундаментальнай напружанасці. З аднаго боку, яны маюць этычнае абавязацельства дзяліцца сваімі дадзенымі з іншымі навукоўцамі, асабліва калі арыгінальнае даследаванне фінансуецца дзяржавай. Тым не менш, у той жа час, даследчыкі маюць этычнае абавязацельства звесці да мінімуму, наколькі гэта магчыма, інфармацыя пра рызыкі для іх удзельнікаў.
На шчасце, гэтая дылема не гэтак моцным, як здаецца. Важна думаць аб абмене дадзенымі ўздоўж кантынууму ад поўнага адсутнасці абмену дадзенымі , каб вызваліць і забыцца, дзе дадзеныя "ананімнымі" і размешчаны для тых , хто для доступу (Малюнак 6.6). Абедзве гэтыя крайнія пазіцыі маюць рызыкі і выгады. Гэта значыць, гэта аўтаматычна не самая этычная рэч, каб не падзяліцца сваімі дадзенымі; Такі падыход ліквідуе многія патэнцыйныя выгады для грамадства. Вяртаючыся да спадобы, Гальштукі, і час, прыклад абмяркоўвалася раней у гэтай чале, аргументы супраць вызвалення дадзеных, якія сканцэнтраваны толькі на магчымага шкоды і якія ігнаруюць магчымыя выгады празмерна аднабаковы; Я буду апісваць праблемы з гэтым аднабаковым, празмерна ахоўны падыход больш падрабязна ніжэй, калі я прапаную парады аб прыняцці рашэнняў ва ўмовах нявызначанасці (раздел 6.6.4).
Акрамя таго, у прамежку паміж гэтымі двума крайнімі выпадкамі з'яўляецца тое , што я буду называць сцяной падыход саду , дзе дадзеныя сумесна з людзьмі , якія адказваюць вызначаным крытэрам , і якія пагадзіліся быць звязанымі пэўнымі правіламі (напрыклад, нагляд ад IRB і а планы па абароне дадзеных) , Гэты падыход сцяной сад забяспечвае многія перавагі выпуску і забыцца з меншым рызыкай. Вядома, абнесены сцяной сад падыход стварае шмат пытанняў-якія павінны мець доступ, пры якіх умовах, як доўга, хто павінен плаціць, каб падтрымліваць і патруляваць сцяной сад і г.д., але яны не з'яўляюцца непераадольнымі. На самай справе, там ужо працуюць сады сценамі месцы, што даследчыкі могуць выкарыстоўваць прама цяпер, напрыклад, архіў дадзеных Кансорцыума міжуніверсітэцкай палітычных і сацыяльных даследаванняў пры Мічыганскім універсітэце.
Так, дзе дадзеныя з даследавання павінны быць на кантынууме ня падзелу, абнесены сцяной сад, і адпусціць і забыцца? Гэта залежыць ад дэталяў вашых дадзеных; даследчыкі павінны збалансаваць павагу да асобы, дабрадзействы, справядлівасць і павага да закону і грамадскім інтарэсам. Пры ацэнцы належнага балансу для іншых рашэнняў даследчыкаў звярнуцца за радай і адабрэнне IRBs, і выпуск дадзеных можа быць толькі іншай часткай гэтага працэсу. Іншымі словамі, хоць некаторыя людзі думаюць аб выпуску дадзеных у якасці безнадзейнай этычнай багны, у нас ужо ёсць сістэмы ў месцы, каб дапамагчы даследчыкам збалансаваць такога роду этычных дылем.
Адзін апошні спосаб думаць аб сумесным выкарыстанні дадзеных па аналогіі. Кожны год аўтамабілі адказныя за тысячы смерцяў, але мы не спрабуем забараніць кіраванне. На самай справе, такі заклік забараніць кіраванне было б абсурдна, таму што кіраванне дае шмат выдатных рэчаў. Хутчэй за ўсё, грамадства накладвае абмежаванні на тое, хто можа кіраваць (напрыклад, павінны быць пэўнага ўзросту, трэба будзе здаць пэўныя тэсты) і якім чынам яны могуць кіраваць (напрыклад, пры абмежаванні хуткасці). Грамадства таксама ёсць людзі, якім даручана забеспячэнне захавання гэтых правілаў (напрыклад, паліцыі), і мы караем людзей, якія злоўлены за іх парушэнне. Гэта той жа самы выгляд збалансаванага мыслення, што грамадства ставіцца да рэгулявання кіравання можа таксама прымяняцца для сумеснага выкарыстання дадзеных. Гэта значыць, замест таго, каб абсалютысцкай аргументы на карысць ці супраць сумеснага выкарыстання дадзеных, я думаю, што самыя вялікія выгады будуць зыходзіць ад высветліць, як мы можам падзяліць больш дадзеных больш бяспечна.
У заключэнне, інфармацыйны рызыка рэзка ўзрасла, і гэта вельмі цяжка прадказаць, і колькасна. Таму, лепш за ўсё выказаць здагадку, што ўсе дадзеныя патэнцыйна ідэнтыфікаваць і патэнцыйна адчувальнымі. Для памяншэння інфармацыйнага рызыкі пры гэтым даследаванні, даследчыкі могуць ствараць і прытрымлівацца плана абароны дадзеных. Акрамя таго, інфармацыйны рызыка не перашкаджае даследчыкам абмену дадзенымі з іншымі навукоўцамі.