Информационный риск - наиболее распространенный риск в социальных исследованиях; он резко увеличился; и это самый сложный риск для понимания.
Второй этической проблемой для исследований в цифровом возрасте является информационный риск , потенциальный вред от раскрытия информации (National Research Council 2014) . Информационный вред от раскрытия личной информации может быть экономическим (например, потеря работы), социальным (например, смущением), психологическим (например, депрессией) или даже преступным (например, арест за незаконное поведение). К сожалению, цифровой век значительно увеличивает информационный риск - есть гораздо больше информации о нашем поведении. И информационный риск оказался очень трудным для понимания и управления по сравнению с рисками, которые были связаны с социальными исследованиями в аналоговом возрасте, такими как физический риск.
Один из способов , что социальные исследователи уменьшить информационный риск является "анонимную" данных. "Анонимизация" является процесс удаления очевидных личных идентификаторов, таких как имя, адрес и номер телефона из данных. Тем не менее, этот подход гораздо менее эффективен, чем многие люди понимают, и это, по сути, глубоко и принципиально ограничено. По этой причине, всякий раз, когда я описываю "анонимную" Я буду использовать кавычки, чтобы напомнить вам, что этот процесс создает видимость анонимности, но не соответствует действительности анонимность.
Ярким примером неудачи «анонимизации» является конец 1990-х годов в Массачусетсе (Sweeney 2002) . Комиссия по страхованию групп (GIC) была государственным органом, ответственным за закупку медицинского страхования для всех государственных служащих. Благодаря этой работе GIC собрал подробные медицинские записи о тысячах государственных служащих. Стремясь стимулировать исследования, GIC решила опубликовать эти отчеты для исследователей. Однако они не делились всеми своими данными; скорее, они «анонимизировали» эти данные, удаляя информацию, такую как имена и адреса. Однако они оставили другую информацию, которая, по их мнению, может быть полезна для таких исследователей, как демографическая информация (почтовый индекс, дата рождения, этническая принадлежность и пол) и медицинская информация (данные посещения, диагностика, процедура) (рисунок 6.4) (Ohm 2010) . К сожалению, этой «анонимности» было недостаточно для защиты данных.
Чтобы проиллюстрировать недостатки «анонимизации» ГЦИ, Латаня Суини, затем аспирант из Массачусетского технологического института, заплатила 20 долларов за приобретение записей голосования из города Кембриджа, родного штаба губернатора штата Массачусетс Уильяма Уэлда. Эти записи голосования включали такую информацию, как имя, адрес, почтовый индекс, дату рождения и пол. Тот факт, что файл медицинских данных и файл избирателя поделили поля-почтовый индекс, дату рождения и секс, означали, что Суини мог их связать. Суини знал, что день рождения Сварда был 31 июля 1945 года, а в голосовании участвовали только шесть человек в Кембридже с этим днем рождения. Кроме того, из этих шести человек только трое были мужчинами. И из этих трех мужчин только один общий почтовый индекс Weld. Таким образом, данные голосования показали, что кто-либо из медицинских данных с комбинацией даты рождения, пола и почтового индекса Weld был Уильямом Уэлдом. По сути, эти три части информации предоставили ему уникальный отпечаток в данных. Используя этот факт, Суини смог найти медицинские записи Сварда, и, чтобы сообщить ему о своем подвиге, она отправила ему копию своих записей (Ohm 2010) .
Работа Суини иллюстрирует основную структуру атак повторной идентификации - принять термин от сообщества компьютерной безопасности. В этих атаках два набора данных, ни один из которых сам по себе не обнаруживает конфиденциальную информацию, не связаны, и через эту связь обнаруживается конфиденциальная информация.
В ответ на работу Суини и другую связанную с этим работу исследователи теперь обычно удаляют гораздо больше информации - все так называемую «персональную идентификационную информацию» (PII) (Narayanan and Shmatikov 2010) во время процесса «анонимизации». Далее, многие исследователи теперь понимают, что некоторые данные, такие как медицинские записи, финансовые отчеты, ответы на вопросы опроса о незаконном поведении, вероятно, слишком чувствительны к выпуску даже после «анонимизации». Однако примеры, которые я собираюсь дать, предполагают, что социальным исследователям необходимо изменить свое мышление. В качестве первого шага разумно предположить, что все данные потенциально идентифицируемы, и все данные потенциально чувствительны. Другими словами, вместо того, чтобы думать, что информационный риск относится к небольшому подмножеству проектов, мы должны предположить, что он применим - в некоторой степени - ко всем проектам.
Оба аспекта этой переориентации проиллюстрированы Призом Netflix. Как описано в главе 5, Netflix выпустила 100 миллионов рейтингов фильмов, предоставленных почти 500 000 членов, и имела открытый вызов, где люди со всего мира подавали алгоритмы, которые могли бы улучшить способность Netflix рекомендовать фильмы. Перед выпуском данных Netflix удалил любую очевидную личную идентификационную информацию, такую как имена. Они также пошли на дополнительный шаг и вносили небольшие изменения в некоторые записи (например, меняли некоторые рейтинги от 4 звезд до 3 звезд). Однако вскоре они обнаружили, что, несмотря на их усилия, данные по-прежнему отнюдь не являются анонимными.
Всего через две недели после выхода данных Арвинд Нараянан и Виталий Шматиков (2008) показали, что можно узнать о предпочтениях конкретных людей. Трюк к их повторной идентификации был похож на Суини: объединить два источника информации, один с потенциально чувствительной информацией и без явно идентифицирующей информации, а также с идентификацией людей. Каждый из этих источников данных может быть индивидуально безопасным, но когда они объединены, объединенный набор данных может создавать информационный риск. В случае данных Netflix, вот как это могло произойти. Представьте себе, что я хочу поделиться своими мыслями о действиях и комедийных фильмах с моими коллегами, но я предпочитаю не делиться своим мнением о религиозных и политических фильмах. Мои сотрудники могли использовать информацию, которую я поделил с ними, чтобы найти мои записи в данных Netflix; информация, которую я разделяю, может быть уникальным отпечатком пальца, точно так же, как дата рождения Уильяма Уэлла, почтовый индекс и секс. Затем, если они обнаружат мой уникальный отпечаток в данных, они могут узнать мои оценки обо всех фильмах, включая фильмы, которые я не хочу делиться. В дополнение к такому целенаправленному нападению, сосредоточенному на одном человеке, Нараянан и Шматиков также показали, что можно было провести широкую атаку - в том числе с участием многих людей - путем объединения данных Netflix с персональными данными и рейтингами фильмов, которые выбрали некоторые люди для публикации в базе данных интернет-фильмов (IMDb). Весьма просто, любая информация, которая является уникальным отпечатком пальца для конкретного человека, даже их набор рейтингов фильмов, может быть использована для их идентификации.
Несмотря на то, что данные Netflix могут быть повторно идентифицированы либо в результате целенаправленной, либо широкой атаки, все же может показаться, что это низкий риск. В конце концов, рейтинги фильмов не очень чувствительны. Хотя это может быть справедливо в целом, для некоторых из 500 000 человек в наборе данных рейтинги фильмов могут быть весьма чувствительными. Фактически, в ответ на повторную идентификацию, закрытая лесбиянка присоединилась к классу-иск против Netflix. Вот как проблема была выражена в их иске (Singel 2009) :
«[M] ovie и рейтинговые данные содержат информацию о ... личном и чувствительном характере. Данные о фильмах участника раскрывают личные интересы члена Netflix и / или борется с различными очень личными проблемами, включая сексуальность, психическое заболевание, выздоровление от алкоголизма и виктимизацию от кровосмешения, физического насилия, насилия в семье, прелюбодеяния и изнасилования ».
Повторная идентификация данных Prize Netflix иллюстрирует то, что все данные потенциально идентифицируются и что все данные потенциально чувствительны. На данный момент вы можете подумать, что это относится только к данным, имеющим отношение к людям. Удивительно, но это не так. В ответ на запрос Закона о свободе информации правительство Нью-Йорка опубликовало записи о каждой поездке на такси в Нью-Йорке в 2013 году, включая время вылета и вылета, места и суммы проезда (напомним из главы 2, что Farber (2015) использовали аналогичные данные для проверки важных теорий в экономике труда). Эти данные о поездках на такси могут показаться мягкими, потому что они, похоже, не предоставляют информацию о людях, но Энтони Токар понял, что этот набор данных такси действительно содержит много потенциально чувствительной информации о людях. Чтобы проиллюстрировать это, он посмотрел на все поездки, начинающиеся в клубе Hustler - в большом стриптиз-клубе в Нью-Йорке - между полуночью и 6 утра, а затем нашли места для высадки. Этот поиск показал, по сути, список адресов некоторых людей, которые посещали Hustler Club (Tockar 2014) . Трудно представить, что городское правительство имело это в виду, когда оно выпустило данные. Фактически, этот же метод можно было бы использовать, чтобы найти домашние адреса людей, которые посещают любое место в городе - медицинскую клинику, здание правительства или религиозное учреждение.
Эти два случая премии Netflix и данных такси в Нью-Йорке показывают, что относительно квалифицированные люди могут не правильно оценить информационный риск в данных, которые они выпускают, - и эти случаи никоим образом не уникальны (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Кроме того, во многих таких случаях проблематичные данные по-прежнему доступны в режиме онлайн, что указывает на трудности, связанные с отменой выпуска данных. В совокупности эти примеры, а также исследования в области информатики о неприкосновенности частной жизни приводят к важному выводу. Исследователи должны предположить, что все данные потенциально идентифицируются, и все данные потенциально чувствительны.
К сожалению, нет простого решения фактов, что все данные потенциально идентифицируются и что все данные потенциально чувствительны. Однако одним из способов снизить информационный риск при работе с данными является создание и соблюдение плана защиты данных . Этот план уменьшит вероятность утечки данных и уменьшит вред, если произойдет утечка. Специфика планов защиты данных, таких как форма шифрования для использования, со временем изменится, но службы данных Великобритании эффективно организуют элементы плана защиты данных в пять категорий, которые они называют пятью сейфами : безопасные проекты, безопасные люди , безопасные настройки, безопасные данные и безопасные выходы (таблица 6.2) (Desai, Ritchie, and Welpton 2016) . Ни один из пяти сейфов не обеспечивает индивидуальную защиту. Но вместе они образуют мощный набор факторов, которые могут снизить информационный риск.
Безопасно | действие |
---|---|
Безопасные проекты | Ограничивает проекты данными с теми, которые являются этическими |
Безопасные люди | Доступ ограничивается людьми, которым можно доверять данные (например, люди, прошедшие этическую подготовку) |
Безопасные данные | Данные деидентифицируются и агрегируются по мере возможности |
Безопасные настройки | Данные хранятся на компьютерах с соответствующей физической (например, запертой комнатой) и программным обеспечением (например, защита паролем, зашифрованная) |
Безопасный выход | Результаты исследований пересматриваются для предотвращения случайных нарушений конфиденциальности |
В дополнение к защите ваших данных во время их использования одним из шагов в процессе исследования, в котором особенно важно информационный риск, является обмен данными с другими исследователями. Обмен данными между учеными является основной ценностью научных усилий и значительно облегчает продвижение знаний. Вот как британская палата общин описала важность обмена данными (Molloy 2011) :
«Доступ к данным имеет основополагающее значение, если исследователи должны воспроизводить, проверять и строить результаты, о которых сообщается в литературе. Презумпция должна заключаться в том, что, если в этом нет веской причины, данные должны быть полностью раскрыты и преданы гласности ».
Тем не менее, поделившись своими данными с другим исследователем, вы можете увеличить информационный риск для своих участников. Таким образом, может показаться, что обмен данными создает фундаментальную напряженность между обязательством обмениваться данными с другими учеными и обязательством минимизировать информационный риск для участников. К счастью, эта дилемма не так сильна, как кажется. Скорее, лучше подумать о совместном использовании данных как о прохождении по континууму, причем каждая точка в этом континууме обеспечивает различное сочетание преимуществ для общества и риска для участников (рис. 6.6).
С одной стороны, вы можете делиться своими данными ни с кем, что сводит к минимуму риск для участников, но также минимизирует выгоды для общества. С другой стороны, вы можете выпускать и забывать , где данные «анонимизированы» и публикуются для всех. Относительно не выпускать данные, выпускать и забывать предлагает как более высокие выгоды для общества, так и более высокий риск для участников. В промежутке между этими двумя крайними случаями находится ряд гибридов, в том числе то, что я назову на обнесенный стеной сад . В рамках этого подхода данные распространяются на людей, которые соответствуют определенным критериям и которые соглашаются соблюдать определенные правила (например, надзор за IRB и план защиты данных). Подход, основанный на стенах, обеспечивает многие преимущества выпуска и забывает с меньшим риском. Конечно, такой подход создает много вопросов: у кого должен быть доступ, при каких условиях и на какой срок, кто должен платить за содержание и охрану огороженного сада и т. Д., Но это не является непреодолимым. Фактически, есть уже работающие огороженные сады, которые сейчас могут использовать исследователи, такие как архив данных Межвузовского консорциума политических и социальных исследований в Мичиганском университете.
Итак, где должны быть данные из вашего исследования на континууме без совместного доступа, огороженного сада и освобождения и забывания? Это зависит от деталей ваших данных: исследователи должны сбалансировать уважение к людям, бенефициару, справедливости и уважению к закону и общественным интересам. С этой точки зрения обмен данными не является отличительной этической загадкой; это лишь один из многих аспектов исследований, в которых исследователи должны найти соответствующий этический баланс.
Некоторые критики, как правило, выступают против обмена данными, поскольку, на мой взгляд, они сосредоточены на своих рисках, которые, несомненно, являются реальными, и игнорируют его преимущества. Поэтому, чтобы стимулировать внимание как к рискам, так и к преимуществам, я хотел бы предложить аналогию. Каждый год автомобили несут ответственность за тысячи смертей, но мы не пытаемся запретить вождение. Фактически, призыв запретить вождение будет абсурдным, потому что вождение дает много замечательных вещей. Скорее, общество устанавливает ограничения на то, кто может управлять (например, необходимость быть определенным возрастом и пройти определенные тесты) и как они могут управлять (например, под ограничением скорости). В обществе также есть люди, которым поручено выполнять эти правила (например, полицию), и мы наказываем людей, которые пойманы, нарушая их. Такое же сбалансированное мышление, которое общество применимо к регулированию вождения, также может быть применено к обмену данными. То есть, вместо того, чтобы делать абсолютистские аргументы в пользу или против совместного использования данных, я думаю, что мы достигнем наибольшего прогресса, сосредоточив внимание на том, как мы можем уменьшить риски и увеличить выгоды от совместного использования данных.
В заключение, информационный риск резко увеличился, и его очень сложно предсказать и количественно оценить. Поэтому лучше всего предположить, что все данные потенциально идентифицируемы и потенциально чувствительны. Чтобы снизить информационный риск при проведении исследований, исследователи могут создавать и следовать плану защиты данных. Кроме того, информационный риск не мешает исследователям делиться данными с другими учеными.