Інформаційний ризик є найбільш поширеним ризиком в соціальних дослідженнях; вона різко зросла; і це найважчий ризик для розуміння.
Другий етичною проблемою для соціального віку цифрового дослідження є інформаційним ризиком, потенційна шкода від розкриття інформації (Council 2014) . Інформаційні шкоду від розголошення особистої інформації може бути економічними (наприклад, втрата роботи), соціальні (наприклад, збентеження), психологічні (наприклад, депресія), або навіть злочинця (наприклад, арешт за незаконне поводження). На жаль, вік цифрових технологій збільшує інформаційний ризик різко щось просто так набагато більше інформації про нашу поведінку. І, інформаційний ризик виявився дуже важким для розуміння і управління в порівнянні з ризиками, які були проблеми в аналогової вікової соціальних досліджень, такі як фізичний ризик. Щоб побачити, як цифрове століття збільшує інформаційний ризик, розглянути перехід від паперових носіїв до електронних медичних записів. Обидва типи записів створюють ризик, але електронні записи створюють набагато більший ризик, тому що в масовому масштабі вони можуть бути передані уповноваженою особам або об'єднана з іншими записами. Соціальні дослідники в епоху цифрових технологій вже зіткнулися з проблемами з інформаційного ризику, почасти тому, що вони не в повній мірі зрозуміти, як кількісно і керувати ним. Отже, я збираюся запропонувати корисний спосіб думати про інформаційну небезпеку, а потім я збираюся дати вам кілька порад про те, як управляти інформаційної ризик в своїх дослідженнях і в звільненні даних для інших дослідників.
Один з способів , що соціальні дослідники зменшити інформаційний ризик є "анонімну" даних. "Анонімізація" є процес видалення очевидних особистих ідентифікаторів, таких як ім'я, адреса і номер телефону з даних. Проте, цей підхід набагато менш ефективний, ніж багато людей розуміють, і це, по суті, глибоко і принципово обмежена. З цієї причини, всякий раз, коли я описую "анонімну" Я буду використовувати лапки, щоб нагадати вам, що цей процес створює видимість анонімності, але не відповідає дійсності анонімність.
Яскравим прикладом провалу "знеособлення" відбувається з кінця 1990 - х років в штаті Массачусетс (Sweeney 2002) . Комісія страхова група (СВГ) був урядовим закладом, відповідальним за придбання медичного страхування для всіх державних службовців. Завдяки цій роботі, СВГ зібрані докладні звіти про здоров'я тисяч державних службовців. У спробі стимулювати дослідження про шляхи поліпшення здоров'я, GIC вирішив випустити ці записи для дослідників. Проте, вони не поділяли всі їх дані; скоріше, вони "анонімними", видаливши інформацію, таку як ім'я та адресу. Тим НЕ менше, вони залишили іншу інформацію , яка , по їх думку можуть бути корисні для дослідників , таких як демографічні дані (поштовий індекс, дату народження, національності і статі) та медичної інформації (дані візиту, діагностика, процедура) (рис 6.4) (Ohm 2010) . На жаль, це "анонімну" було недостатньо для захисту даних.
Щоб проілюструвати недоліки "знеособлення" GIC, Latanya Суїні-то аспірант MIT-заплатив $ 20, щоб придбати записи голосу з міста Кембридж, рідному місті губернатора штату Массачусетс Вільям Weld. Ці голосування записи включають інформацію, таку як ім'я, адреса, поштовий індекс, дату народження і стать. Той факт, що медичний файл даних і виборець загальні поля, поштовий індекс, дата народження, і секс-означало, що Суїні міг зв'язати їх. Суїні знав, що день народження в Weld було 31 липня 1945 року і протоколи голосування були включені тільки шість чоловік в Кембриджі з цим днем народження. Крім того, з цих шести чоловік, тільки троє були чоловіки. І з цих трьох чоловіків, тільки один загальний поштовий індекс зварного шва в. Таким чином, дані голосування показали, що хтось в медичних даних з комбінацією Weld про дату народження, стать і поштовий індекс був Вільям Weld. По суті, ці три частини інформації забезпечили унікальні відбитки пальців йому в даних. Використовуючи цей факт, Суїні вдалося знайти медичні записи зварного шва, і повідомити йому про свій подвиг, вона по пошті йому копію його записів (Ohm 2010) .
Робота Суїні ілюструє основну структуру де-знеособлення атак -в прийняти термін із товариства комп'ютерної безпеки. У цих нападів, два набори даних, жоден з яких сам по собі розкриває конфіденційну інформацію, які пов'язані між собою, і через цей зв'язок, конфіденційна інформація піддається. У певному сенсі цей процес аналогічний тому, як харчова сода і оцет, два речовини, які самі по собі безпечні, можуть бути об'єднані, щоб зробити неприємний результат.
У відповідь на роботі Суїні і інші пов'язані з роботою, дослідники тепер взагалі видалити набагато більше інформації , все вони так звану "особисту інформацію" (PII) (Narayanan and Shmatikov 2010) -у процес «знеособлення». Крім того, багато дослідників в даний час розуміти, що певні дані, такі як медичні записи, фінансові звіти, відповіді на питання анкети про протиправної поведінки, ймовірно, занадто чутливий, щоб звільнити навіть після того, як «знеособлення». Проте, більш пізні приклади, які я опишу нижче, показують, що соціальні дослідники повинні змінити своє мислення. В якості першого кроку, розумно припустити , що всі дані потенційно ідентифікувати і всі дані потенційно чутливі. Іншими словами, замість того, щоб думати, що інформаційний ризик відноситься до невеликої групи проектів, ми повинні припустити, що він відноситься до тієї чи іншою мірою, до всіх проектів.
Обидва аспекти цієї переорієнтації проілюстровані Netflix Prize. Як описано в розділі 5, Netflix випустила 100 мільйонів рейтинги фільмів, надані майже 500 000 членів, і був відкритий виклик, де люди з усього світу, представлені алгоритми, які могли б поліпшити здатність Нетфлікса рекомендувати фільми. Перед випуском даних, Netflix видалені будь-які явно особисто ідентифікаційну інформацію, як імена. Netflix також пішов додатковий крок і ввів невеликі обурення в деяких із записів (наприклад, змінюючи деякі оцінки від 4 зірки 3 зірки). Netflix незабаром виявили, однак, що не дивлячись на їх зусилля, дані були аж ніяк не анонімним.
Всього через два тижні після виходу даних були випущені Narayanan and Shmatikov (2008) показав , що можна дізнатися про переваги в кіно специфічних людей. Хитрість їх повторної ідентифікації атаки була схожа на Свіні: зливаються воєдино два джерела інформації, один з потенційно секретної інформації і не очевидно, що ідентифікує інформацію, і той, який містить особистість людей. Кожен з цих джерел даних можуть бути індивідуально безпечні, але, коли вони об'єднані об'єднаний набір даних може створити інформаційний ризик. У разі даних Netflix, ось як це могло статися. Уявіть собі, що я вибираю, щоб поділитися своїми думками з приводу дій і комедії фільмів з моїми колегами, але я вважаю за краще не висловити свою думку про релігійних і політичних фільмів. Мої співробітники можуть використовувати інформацію, яку я поділився з ними, щоб знайти мої записи в даних Netflix; інформація , яку я поділяю може бути унікальним відбитка пальця, як і дати Вільяма Weld дня народження, поштовий індекс, і сексу. Тоді, якщо вони знайдуть свій унікальний відбиток в даних, вони могли дізнатися мої рейтинги про всі фільми, в тому числі фільмів, де я вибираю не ділитися. На додаток до цього виду цілеспрямованої атаки , орієнтованої на одну людину, Narayanan and Shmatikov (2008) також показав , що можна було зробити широкий атаки -вона з участю багатьох людей, шляхом об'єднання даних Netflix з особистими і кіно рейтингових даних , що деякі люди вирішили розмістити на сайті Internet Movie Database (IMDb). Будь-яка інформація, яка є унікальним відбитків пальців конкретній людині, навіть їх набір фільмів рейтинги-можуть бути використані для їх ідентифікації.
Навіть при тому, що дані Netflix можуть бути повторно визначені в будь-якому цілеспрямованим або широкої атаки, він все ще може здатися низьким ризиком. Зрештою, рейтинги фільмів, здається, не дуже чутливі. Хоча це може бути правдою, взагалі кажучи, для деяких з 500000 чоловік в наборі даних, рейтинги фільмів може бути вельми чутливим. Насправді, у відповідь на де-знеособлення зачинившись жінка лесбіянка приєднався костюм класу дії проти Netflix. Ось як була виражена проблема в їх позові (Singel 2009) :
"[M] Ові та оцінка даних містить інформацію про більш високої особистої та чутливої природи [так в оригіналі]. Дані фільму учасника виставляє особисту зацікавленість є членом Netflix і / або боротьби з різними вельми особистими питаннями, в тому числі сексуальної поведінки, психічні захворювання, одужання від алкоголізму, і віктимізації від інцесту, фізичного насильства, побутове насильство, перелюбство і згвалтування ".
Де-знеособлення даних Netflix Prize показує як то, що всі дані потенційно ідентифікувати і що всі дані потенційно чутливі. На даний момент, ви можете подумати, що це відноситься тільки до даних, які, як стверджується, щоб бути про людей. Дивно, що це не так. У відповідь на свободу запиту інформаційного права, Нью - Йорк уряд випустив записи кожної поїздки на таксі в Нью - Йорку в 2013 році, в тому числі пікап і йдуть часи, місця і плати за проїзд суми (нагадаємо , з глави 2 , що Farber (2015) використовував ці дані для тестування важливих теорій в економіці праці). Хоча ці дані про таксі поїздок може здатися доброякісної, тому що це, здається, не буде інформації про людей, Ентоні Tockar зрозумів, що це таксі набір даних насправді міститься безліч потенційно секретної інформації про людей. Щоб проілюструвати це, він дивився на все поїздки починаючи з Hustler Club-великий стриптиз-клуб в Нью-Йорку-між північчю і 6 ранку, а потім знайшли їх місця висадки пасажирів. Цей пошук показав , по суті-список адрес деяких людей , які часто з'являються в Hustler Club (Tockar 2014) . Важко собі уявити, що міська влада це мав на увазі, коли вона випустила дані. Насправді, ця ж технологія може бути використана, щоб знайти домашні адреси людей, які відвідують будь-яке місце в місті-медичній клініці, урядову будівлю, або релігійна установа.
Ці два випадки самої Netflix Prize і Нью - Йорку таксі даних показують , що відносно кваліфіковані люди не змогли правильно оцінити інформаційний ризик в даних , які вони випустили, і ці випадки не є ні в якому разі унікальним (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Крім того, у багатьох з цих випадків, проблематична дані як і раніше вільно доступні в Інтернеті, вказуючи на труднощі коли-небудь скасовуючи звільнення даних. У сукупності ці приклади-а також дослідження в області комп'ютерної науки про конфіденційність, призводить до важливого висновку. Дослідники повинні припустити , що всі дані потенційно ідентифікувати і всі дані потенційно чутливі.
На жаль, не існує простого рішення з тим, що всі дані потенційно ідентифікувати і всі дані потенційно чутливі. Тим НЕ менше, одним з способів зменшення інформаційного ризику під час роботи з даними, щоб створити і слідувати плану захисту даних. Цей план зменшує ймовірність того, що ваші дані будуть текти і зменшити шкоду, якщо витік відбувається якимось чином. Специфіка планів захисту даних, такі , як якась форма шифрування для використання, буде змінюватися з плином часу, але служби даних Великобританії послужливо організовує елементи плану захисту даних на 5 категорій , які вони називають 5 сейфів: безпечні проекти, безпечних людей , безпечні настройки, безпечні дані і безпечні виходи (Таблиця 6.2) (Desai, Ritchie, and Welpton 2016) . Жоден з п'яти сейфів окремо не забезпечують ідеальну захист. Але, разом вони утворюють потужний набір факторів, які можуть зменшити ризик інформаційної.
Безпечний | дію |
---|---|
безпечні проекти | обмежує проекти з даними для тих, які є етично |
безпечні люди | доступ обмежений до людей, які можуть бути довіреними з даними (наприклад, люди піддалися етичне навчання) |
безпечні дані | дані знеособленої і агрегуються, наскільки це можливо |
безпечні параметри | дані зберігаються в комп'ютерах з відповідні фізичні (наприклад, закрита кімната) і програмного забезпечення (наприклад, захист паролем, зашифрована) засоби захисту |
безпечний вихід | Результати цих досліджень розглядається для запобігання випадкового порушення конфіденційності |
На додаток до захисту ваших даних в той час як ви використовуєте його, один крок в процесі дослідження, де інформаційний ризик є особливо важливим є обмін даними з іншими дослідниками. Обмін даними між вченими є основною цінністю наукової діяльності, і це значно об'єктів просування знань. Ось як Палати громад Великобританії описав важливість обміну даними:
"Доступ до даних є фундаментальним, якщо дослідники повинні відтворювати, перевіряти і спиратися на результати, про які повідомляється в літературі. Припущення, що має бути, якщо не існує вагома причина, в іншому випадку, дані повинні бути повністю розкриті і доступні громадськості. Відповідно до цього принципу, де це можливо, дані , пов'язані з усіма фінансуються державою досліджень повинні бути широко і вільно доступні. " (Molloy 2011)
Проте, шляхом обміну даними з іншим дослідником, ви можете бути підвищення інформаційного ризику для учасників семінару. Таким чином, може здатися, що дослідники, які бажають обмінюватися даними, або які необхідні для обміну даними, стикаються з фундаментальною напруженості. З одного боку, вони мають етичне зобов'язання ділитися своїми даними з іншими вченими, особливо якщо оригінальне дослідження фінансується державою. Проте, в той же час, дослідники мають етичне зобов'язання звести до мінімуму, наскільки це можливо, інформація про ризики для їх учасників.
На щастя, ця дилема не настільки сильним, як здається. Важливо думати про обмін даними уздовж континууму від повного відсутності обміну даними , щоб звільнити і забути, де дані "анонімними" і розміщені для тих , хто для доступу (Малюнок 6.6). Обидві ці крайні позиції мають ризики і вигоди. Тобто, це автоматично не сама етична річ, щоб не поділитися своїми даними; Такий підхід усуває багато потенційні вигоди для суспільства. Повертаючись до смаку, Краватки, і час, приклад обговорювалося раніше в цій главі, аргументи проти звільнення даних, які зосереджені тільки на можливої шкоди і які ігнорують можливі вигоди надмірно односторонній; Я буду описувати проблеми з цим одностороннім, надмірно захисний підхід більш докладно нижче, коли я пропоную поради про прийняття рішень в умовах невизначеності (розділ 6.6.4).
Крім того, в проміжку між цими двома крайніми випадками є те , що я буду називати стіною підхід саду , де дані спільно з людьми , які відповідають певним критеріям , і які погодилися бути пов'язаними певними правилами (наприклад, нагляд від IRB і а плани по захисту даних) , Цей підхід стіною сад забезпечує багато переваг випуску і забути з меншим ризиком. Звичайно, обнесений стіною сад підхід створює багато питань-які повинні мати доступ, за яких умов, як довго, хто повинен платити, щоб підтримувати і патрулювати стіною сад і т.д., але вони не є нездоланними. Насправді, там уже працюють сади стінами місці, що дослідники можуть використовувати прямо зараз, наприклад, архів даних Консорціуму міжвузівської політичних і соціальних досліджень при Мічиганському університеті.
Так, де дані з дослідження повинні бути на континуумі не поділений, обнесений стіною сад, і відпустити і забути? Це залежить від деталей ваших даних; дослідники повинні збалансувати повагу до особистості, благодіяння, справедливість і повагу до закону і громадським інтересам. При оцінці належного балансу для інших рішень дослідників звернутися за порадою і схвалення IRBs, і випуск даних може бути тільки іншою частиною цього процесу. Іншими словами, хоча деякі люди думають про випуск даних як безнадійна етичної трясовини, у нас вже є системи в місці, щоб допомогти дослідникам збалансувати такого роду етичних дилем.
Один останній спосіб думати про спільне використання даних по аналогії. Щороку автомобілі відповідальні за тисячі смертей, але ми не намагаємося заборонити водіння. Насправді, такий заклик заборонити водіння було б абсурдно, тому що водіння дає багато чудових речей. Швидше за все, суспільство накладає обмеження на те, хто може управляти (наприклад, повинні бути певного віку, потрібно буде здати певні тести) і яким чином вони можуть управляти (наприклад, при обмеженні швидкості). Суспільство також є люди, яким доручено забезпечити дотримання цих правил (наприклад, поліції), і ми караємо людей, які спіймані за їх порушення. Це той же самий вид збалансованого мислення, що суспільство ставиться до регулювання водіння може також застосовуватися для спільного використання даних. Тобто, замість того, щоб абсолютистские аргументи на користь або проти спільного використання даних, я думаю, що найбільші вигоди будуть виходити від з'ясувати, як ми можемо розділити більше даних більш безпечно.
На закінчення, інформаційний ризик різко зросла, і це дуже важко передбачити, і кількісно. Тому, краще всього припустити, що всі дані потенційно ідентифікувати і потенційно чутливими. Для зменшення інформаційного ризику при цьому дослідження, дослідники можуть створювати і слідувати плану захисту даних. Крім того, інформаційний ризик не заважає дослідникам обміну даними з іншими вченими.