Інформаційний ризик - найпоширеніший ризик у соціальних дослідженнях; вона різко зросла; і це найважчий ризик зрозуміти.
Другим етичним завданням дослідження цифрового віку є інформаційний ризик , потенціал шкоди від розкриття інформації (National Research Council 2014) . Інформаційні збитки від розголошення особистої інформації можуть бути економічними (наприклад, втратити роботу), соціальними (наприклад, збентеження), психологічними (наприклад, депресією) або навіть кримінальними (наприклад, арештом за незаконну поведінку). На жаль, цифрова ера різко посилює інформаційний ризик - є набагато більше інформації про нашу поведінку. І інформаційний ризик виявився дуже важким для розуміння та управління в порівнянні з ризиками, які були проблемами в аналогічних соціальних дослідженнях, таких як фізичний ризик.
Один з способів , що соціальні дослідники зменшити інформаційний ризик є "анонімну" даних. "Анонімізація" є процес видалення очевидних особистих ідентифікаторів, таких як ім'я, адреса і номер телефону з даних. Проте, цей підхід набагато менш ефективний, ніж багато людей розуміють, і це, по суті, глибоко і принципово обмежена. З цієї причини, всякий раз, коли я описую "анонімну" Я буду використовувати лапки, щоб нагадати вам, що цей процес створює видимість анонімності, але не відповідає дійсності анонімність.
Яскравий приклад нездатності "анонімізації" походить з кінця 1990-х років у штаті Массачусетс (Sweeney 2002) . Група страхової комісії (GIC) була державною установою, відповідальною за придбання медичного страхування для всіх державних службовців. Завдяки цій роботі ГІК зібрала детальні медичні записи про тисячі державних службовців. Щоб спробувати дослідження, ГІЦ вирішив випустити ці записи дослідникам. Однак вони не поділили всі свої дані; навпаки, вони "анонімізували" ці дані, видаливши таку інформацію, як імена та адреси. Однак вони залишили іншу інформацію, яку, на їхню думку, можуть бути корисними дослідники, такі як демографічна інформація (поштовий індекс, дата народження, етнічна приналежність та стать) та медична інформація (дані про відвідування, діагностика, процедура) (рис. 6.4) (Ohm 2010) . На жаль, ця "анонімність" була недостатньою для захисту даних.
Щоб проілюструвати недоліки "анонімації" ГІК, Latanya Sweeney, а потім аспірант МІТ заплатив 20 доларів, щоб отримати записи про голосування з міста Кембрідж, рідного губернатора штату Массачусетс Вільяма Вельда. Ці записи про голосування включали таку інформацію, як ім'я, адреса, поштовий індекс, дату народження та стать. Той факт, що файл медичних даних і файл виборців поділився полями: поштовим індексом, датою народження та статтю, означало, що Сувіні може їх пов'язати. Суні знав, що день народження Вільда був 31 липня 1945 року, а рекорди голосування включали лише 6 чоловік у Кембриджі з цим днем народження. Далі, з цих шести людей, лише три були чоловіками. І, з цих трьох чоловіків, лише один загальний поштовий індекс Weld. Таким чином, дані про результати голосування показали, що будь-хто з медичних даних із з'єднанням Weld з датою народження, статтю та поштовим кодом був Вільям Вельд. По суті, ці три частини інформації надавали йому унікальний відбиток у даних. Використовуючи цей факт, Суїні зміг знайти медичні записи Вільда, і, щоб повідомити йому про свій подвиг, вона надіслала йому копію своїх записів (Ohm 2010) .
Роботи Сувіні ілюструють основну структуру повторних ідентифікаційних атак - прийняти термін від спільноти комп'ютерної безпеки. У цих атаках пов'язані два набори даних, в яких жодна з них не показує конфіденційну інформацію, і через цю зв'язок виявляється конфіденційна інформація.
У відповідь на роботу Сувіні та іншу суміжну роботу дослідники в даний час зазвичай видаляють набагато більше інформації - усієї так званої "особистої інформації" (ПІІ) (Narayanan and Shmatikov 2010) - під час процесу "анонімності". Більше того, багато дослідників тепер усвідомлюю, що деякі дані, такі як медичні записи, фінансові документи, відповіді на опитування питань про незаконну поведінку, - можливо, надто чутливі до випуску навіть після "анонімізації". Проте, приклади, які я збираюся припустити, говорять про те, що соціальні дослідники потребують змінити своє мислення. Як перший крок, мудрим вважати, що всі дані потенційно ідентифіковані, і всі дані є потенційно чутливими. Інакше кажучи, замість того, щоб вважати, що інформаційний ризик стосується невеликої кількості проектів, ми повинні припустити, що це застосовується до певної міри до всіх проектів.
Обидва аспекти цієї переорієнтації ілюструються премією Netflix. Як описано в главі 5, Netflix випустив 100 мільйонів рейтингів фільмів, які нараховували майже 500 000 учасників, і відкрив дзвінок, де люди з усього світу представляли алгоритми, які могли б покращити здатність Netflix рекомендувати фільми. Перш ніж випускати дані, Netflix видалив будь-яку очевидну особисту інформацію, таку як імена. Вони також зробили додатковий крок і представили невелику кількість збурень у деяких записах (наприклад, зміни деяких рейтингів від 4 зірок на 3 зірки). Однак вони незабаром виявили, що, незважаючи на їхні зусилля, ці дані ще не були анонімними.
Протягом двох тижнів після виходу даних Арвідін Нараянан та Віталій Шматиков (2008) показали, що можна було дізнатися про конкретні налаштування фільмів для людей. Хитрість їхньої атаки на повторну ідентифікацію була схожою на Sweeney's: об'єднайте два джерела інформації, одна з потенційно конфіденційною інформацією, а також ніяка очевидно ідентифікована інформація та така, яка містить ідентифікацію людей. Кожен із цих джерел даних може бути індивідуально безпечним, але коли вони об'єднуються, об'єднаний набір даних може створювати інформаційний ризик. У випадку з даними Netflix, ось як це може статися. Уявіть собі, що я хочу поділитися своїми думками про фільми про дії та комедії з колегами, але я вважаю за краще не поділяти свою думку про релігійні та політичні фільми. Мої співробітники можуть використовувати інформацію, яку я надав їм доступ, щоб знайти свої записи в даних Netflix; інформація, яку я поділяю, може бути унікальним відбитком пальців, подібно до дати народження Вільяма Вельда, поштового індексу та сексу. Тоді, якщо вони знайдуть мій унікальний відбиток пальців у даних, вони зможуть дізнатись про мої оцінки про всі фільми, зокрема про фільми, які я вирішив не надсилати. На додаток до такого роду цілеспрямованої атаки, орієнтованої на одну особу, Нараянан і Шматиков також показали, що можна було здійснити широку атаку, яка включала багато людей, шляхом злиття даних Netflix з особистими та рейтинговими даними, які деякі люди обрали публікувати в Інтернеті бази даних фільмів (IMDb). Зовсім просто, для ідентифікації їх можна використати будь-яку інформацію, яка є унікальним відбитком для конкретної людини - навіть їхніми наборами рейтингів фільмів.
Незважаючи на те, що дані Netflix можуть бути повторно ідентифіковані як у цільових, так і на широких атаках, воно, як і раніше, може бути низьким. Зрештою, рейтинги фільмів не здаються дуже чутливими. Хоча це може бути істинним взагалі, для деяких з 500 000 людей у наборі даних оцінки фільмів можуть бути досить чутливими. Фактично, у відповідь на повторну ідентифікацію, закрита лесбіянка приєдналася до позову проти Netflix. Ось як висвітлили проблему у своєму позові (Singel 2009) :
"[M] ovie та рейтингові дані містять інформацію про ... особистого та чутливого характеру. Дані фільму учасника викривають особистий інтерес члена Netflix та / або боротьбу з різними особистими проблемами, включаючи сексуальність, психічні захворювання, відновлення від алкоголізму та віктимізацію від інцесту, фізичного насильства, домашнього насильства, перелюбу та згвалтування ".
Переосмислення даних премії Netflix показує, що всі дані потенційно ідентифіковані та що всі дані є потенційно чутливими. На цьому етапі ви можете подумати, що це стосується лише даних, які мають на меті бути людьми. Дивно, але це не так. У відповідь на запит щодо Закону про свободу інформації, уряд Нью-Йорка опублікував записи про кожне таксі в Нью-Йорку в 2013 році, в тому числі збір та зниження часу, місця розташування та вартості проїзду (нагадаємо з розділу 2, що Farber (2015) використовували подібні дані для тестування важливих теорій в економіці праці). Ці дані про поїздки на таксі можуть здаватися доброякісними, оскільки вони, здається, не надають інформацію про людей, але Ентоні Токар зрозумів, що цей набір даних таксі фактично містить багато потенційно конфіденційної інформації про людей. Для ілюстрації він переглянув усі подорожі, починаючи з північної до 6 ранку в клубі Hustler, великого стрип-клубу в Нью-Йорку, а потім знайшов місця їх висадки. Цей пошук виявив, по суті, список адрес деяких людей, які відвідували клуб Hustler (Tockar 2014) . Важко уявити, що міська влада мала це на увазі, коли вона оприлюднила дані. Фактично таку саму техніку можна було б використати для пошуку домашніх адрес людей, які відвідують будь-яке місце в місті - медичну клініку, державну будівлю або релігійну установу.
Ці два приклади премії Netflix та даних таксі в Нью-Йорку показують, що порівняно кваліфіковані люди можуть не в змозі правильно оцінити інформаційний ризик у даних, які вони випускають, і ці випадки не є унікальними (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Крім того, у багатьох таких випадках проблемні дані все ще є вільно доступними в Інтернеті, що свідчить про складність припинення випуску даних. Взагалі, ці приклади, а також дослідження інформатики про конфіденційність, призведуть до важливого висновку. Дослідники повинні припустити, що всі дані потенційно ідентифіковані, і всі дані є потенційно чутливими.
На жаль, немає простого рішення для фактів, що всі дані потенційно ідентифіковані та що всі дані є потенційно чутливими. Проте один з способів зменшення інформаційного ризику під час роботи з даними - це створення та виконання плану захисту даних . Цей план зменшить шанс, що ваші дані будуть витікати, і зменшить шкоду, якщо випадок якимось чином станеться. Специфіка планів захисту даних, наприклад, яка форма шифрування для використання, з часом зміниться, однак UK Data Services допомагає організувати елементи плану захисту даних до п'яти категорій, які вони називають п'ятьма сейфами : безпечні проекти, безпечні люди , безпечні налаштування, безпечні дані та безпечні результати (таблиця 6.2) (Desai, Ritchie, and Welpton 2016) . Жоден з п'яти сейфів індивідуально не забезпечує ідеального захисту. Але разом вони формують потужний набір чинників, які можуть знизити інформаційний ризик.
Безпечний | Дія |
---|---|
Безпечні проекти | Обмежує проекти з даними тим, що є етичними |
Безпечні люди | Доступ обмежується людьми, яким можна довіряти даними (наприклад, людям, які пройшли етичну підготовку) |
Безпечні дані | Дані де-ідентифікуються та об'єднуються в міру можливості |
Безпечні налаштування | Дані зберігаються в комп'ютерах з відповідною фізичною (наприклад, заблокованою кімнатою) та програмним забезпеченням (наприклад, захист паролем, зашифрований) |
Безпечний вихід | Результати досліджень перевіряються, щоб уникнути випадкових порушень конфіденційності |
На додаток до захисту ваших даних під час їх використання, одним із кроків у процесі дослідження, де особливо важливий інформаційний ризик, є обмін даними з іншими дослідниками. Обмін даними між вченими є основною цінністю наукової діяльності, що значно полегшує просування знань. Ось як палати громад Великобританії описали важливість обміну даними (Molloy 2011) :
"Доступ до даних є принциповим, якщо дослідники повинні відтворювати, перевіряти та будувати результати, про які йдеться в літературі. Презумпція повинна полягати в тому, що якщо не існує сильної причини, дані повинні бути повністю розкриті та оприлюднені ".
Тим не менш, ділившись вашими даними з іншим дослідником, ви можете збільшити інформаційний ризик для ваших учасників. Таким чином, може здатися, що обмін даними створює принципове напруження між зобов'язанням обмінюватися даними з іншими вченими та зобов'язанням мінімізувати інформаційний ризик для учасників. На щастя, ця дилема не настільки серйозна, як вона з'являється. Скоріше за все, варто подумати про обмін даними, як про падіння континууму, з кожним пунктом цього континууму, що забезпечує інше поєднання переваг суспільства та ризику для учасників (рис 6.6).
З одного боку, ви можете поділитися своїми даними з ким-небудь, що мінімізує ризик для учасників, але також мінімізує прибутки для суспільства. З іншого боку, ви можете звільнити і забути , де дані "анонімні" і публікуються для всіх. Відносно не випускати дані, випускати та забути пропонує як вищі вигоди для суспільства, так і більш високий ризик для учасників. Між цими двома крайніми випадками є ряд гібридів, в тому числі те, що я називаю підвіжком для стінного саду . За цим підходом дані використовуються людьми, які відповідають певним критеріям і погоджуються дотримуватися певних правил (наприклад, нагляд за діяльністю IRB та план захисту даних). Підхід до стінного саду передбачає багато переваг випуску та забуття з меншим ризиком. Звичайно, такий підхід створює багато питань - хто повинен мати доступ, за яких умов і скільки часу, хто повинен платити, щоб підтримувати та контролювати стінний сад тощо, - але це не є непереборним. Насправді існують вже діючі стінні сади, які можна використовувати зараз дослідники, такі як архів даних Межуніверситетського консорціуму політичних та соціальних досліджень в Мічиганському університеті.
Отже, де повинні дані з вашого дослідження бути на континуумі без обміну, стіни сад, і звільнити і забути? Це залежить від деталей ваших даних: дослідники повинні балансувати повагу до людей, доброчинність, справедливість та повагу до закону та суспільних інтересів. З огляду на це, обмін даними не є відмінною етичною загадкою; це лише один з багатьох аспектів дослідження, в якому дослідники повинні знайти відповідний етичний баланс.
Деякі критики, як правило, виступають проти обміну даними, оскільки, на мій погляд, вони зосереджені на його ризиках, які, безсумнівно, реальні, ігнорують його переваги. Тому, щоб заохотити фокус на ризики та переваги, я хотів би запропонувати аналогію. Щороку машини несуть відповідальність за тисячі смертей, але ми не намагаємося заборонити їзду. Фактично, заклик заборонити ведуть буде абсурдним тому, що ведення водіння дозволяє багато чудових речей. Швидше за все, суспільство встановлює обмеження щодо того, хто може їздити (наприклад, необхідність бути певним віком і пройти певні випробування) і як вони можуть їздити (наприклад, за обмеженням швидкості). В суспільстві також є люди, які поставили завдання дотримання цих правил (наприклад, поліція), і ми покараємо людей, яких спіймали, порушуючи їх. Такий же вигляд збалансованого мислення, яке суспільство застосовує для регулювання водіння, також може застосовуватися для обміну даними. Тобто, замість того, щоб робити абсолютистські аргументи за чи проти обміну даними, я думаю, ми досягнемо найбільшого прогресу, зосередимося на тому, як ми можемо зменшити ризики та збільшити користь від обміну даними.
На закінчення, інформаційний ризик різко зростав, і дуже важко передбачити та кількісно оцінити. Тому найкраще припустити, що всі дані потенційно ідентифіковані та потенційно чутливі. Щоб зменшити інформаційний ризик під час проведення досліджень, дослідники можуть створювати та виконувати план захисту даних. Крім того, інформаційний ризик не перешкоджає дослідникам ділитися даними з іншими вченими.