Деяка інформація , що компанії і уряду відчутно.
Медичні страхові компанії мають детальну інформацію про медичну допомогу, отриману їхніми клієнтами. Ця інформація може бути використана для важливих досліджень щодо здоров'я, але, якщо вона стане загальнодоступною, це може призвести до емоційної шкоди (наприклад, збентеження) або економічної шкоди (наприклад, втрата зайнятості). Багато інших великих джерел даних також мають чутливу інформацію , що є частиною причини, через яку вони часто недоступні.
На жаль, виявилося досить складним вирішити, яка інформація насправді чутлива (Ohm 2015) , як це було проілюстровано Prix Netflix. Як я описати в главі 5, в 2006 році Netflix випустив 100 мільйонів рейтингів фільмів, які надано майже 500 000 учасниками, і відкрив дзвінок, де люди з усього світу представляли алгоритми, які могли б покращити здатність Netflix рекомендувати фільми. Перш ніж випускати дані, Netflix видалив будь-яку очевидну особисту інформацію, таку як імена. Але лише через два тижні після того, як дані були випущені, Арвідін Нараянан та Віталій Шматиков (2008) показали, що можна було дізнатись про оцінку фільмів конкретних людей за допомогою трюку, який я покажу вам у розділі 6. Навіть якщо злочинця може виявити У рейтингах фільму про людину тут все ще нема чогось чутливого. Хоча це може бути істинним взагалі, принаймні для деяких з 500 000 людей у наборі даних оцінки фільмів були чутливими. Фактично, у відповідь на випуск та повторну ідентифікацію даних, закрита лесбіянка приєдналася до позову проти Netflix. Ось як виразилася проблема в цьому позові (Singel 2009) :
"[M] ovie та рейтингові дані містять інформацію про ... особистого та чутливого характеру. Дані фільму учасника викривають особистий інтерес члена Netflix та / або боротьбу з різними особистими проблемами, включаючи сексуальність, психічні захворювання, відновлення від алкоголізму та віктимізацію від інцесту, фізичного насильства, домашнього насильства, перелюбу та згвалтування ".
Цей приклад показує, що може бути інформація, яку деякі люди вважають чутливою всередині того, що може здаватися доброякісною базою даних. Крім того, це показує, що основна захист, яку використовують дослідники для захисту конфіденційної ідентифікації даних, може виявитись несподіваним чином. Ці дві ідеї більш детально розроблені у розділі 6.
Остання річ, про яку слід пам'ятати про конфіденційні дані, полягає в тому, що її збирання без згоди людей піднімає етичні питання, навіть якщо конкретна шкода не спричинена. Подібно до того, що хтось, хто приймає душ без їхньої згоди, може розглядатися як порушення конфіденційності цієї особи та збирання конфіденційної інформації, і пам'ятайте, наскільки важко вирішити, що таке чутливе, без згоди створює потенційну конфіденційність. Я повернуся до питань про конфіденційність у розділі 6.
На закінчення, великі джерела даних, такі як державні та ділові адміністративні записи, зазвичай не створюються для цілей соціальних досліджень. Великі джерела даних сьогодні і, ймовірно, завтра мають 10 характеристик. Багато хто з властивостей, які, як правило, вважаються корисними для дослідження - великі, постійні та нееактивні - випливають із того, що в компанії цифрового віку компанії та уряди можуть збирати дані у масштабах, які раніше не були можливості. І багато хто з властивостей, які зазвичай вважаються поганими для дослідження - неповні, недоступні, непредставлені, дрейфуючі, алгоритмічно конфліктовані, недоступні, брудні та чутливі - виходять з того факту, що ці дані не були зібрані дослідниками для дослідників. До цих пір я говорив про державні та бізнес-дані разом, але між ними існують деякі відмінності. На мій досвід, урядові дані, як правило, менш репрезентативні, менш алгоритмічно збиті і менш дрейфують. З іншого боку, адміністративні записи про господарські зв'язки мають тенденцію бути більш постійними. Розуміння цих 10 загальних характеристик є корисним першим кроком до навчання від великих джерел даних. І тепер ми звернемося до дослідницьких стратегій, які ми можемо використовувати з цими даними.