Некоторая информация , что компании и правительства чувствительно.
Медицинские страховые компании имеют подробную информацию о медицинской помощи, полученной их клиентами. Эта информация может быть использована для важных исследований здоровья, но если она станет общедоступной, она может потенциально привести к эмоциональному вреду (например, смущению) или экономическому ущербу (например, к потере работы). Многие другие большие источники данных также имеют чувствительную информацию , которая является частью причины, по которой они часто недоступны.
К сожалению, оказалось довольно сложно решить, какая информация на самом деле чувствительна (Ohm 2015) , как было проиллюстрировано премией Netflix. Как я расскажу в главе 5, в 2006 году Netflix выпустила 100 миллионов рейтингов фильмов, предоставленных почти 500 000 членов, и у них был открытый звонок, где люди со всего мира подавали алгоритмы, которые могли бы улучшить способность Netflix рекомендовать фильмы. Перед выпуском данных Netflix удалил любую очевидную личную идентификационную информацию, такую как имена. Но всего через две недели после того, как были опубликованы данные, Арвинд Нараянан и Виталий Шматиков (2008) показали, что можно узнать о конкретных рейтингах фильмов людей, используя трюк, который я покажу вам в главе 6. Хотя злоумышленник мог обнаружить рейтинги фильмов человека, по-прежнему, похоже, здесь нет ничего чувствительного. Хотя это может быть правдой в целом, по крайней мере для некоторых из 500 000 человек в наборе данных, рейтинги фильмов чувствительны. Фактически, в ответ на выпуск и повторную идентификацию данных, закрытая лесбиянка присоединилась к иск класса против Netflix. Вот как проблема была выражена в этом судебном процессе (Singel 2009) :
«[M] ovie и рейтинговые данные содержат информацию о ... личном и чувствительном характере. Данные о фильмах участника раскрывают личные интересы члена Netflix и / или борется с различными очень личными проблемами, включая сексуальность, психическое заболевание, выздоровление от алкоголизма и виктимизацию от кровосмешения, физического насилия, насилия в семье, прелюбодеяния и изнасилования ».
Этот пример показывает, что может быть информация, которую некоторые считают чувствительной внутри того, что может показаться доброкачественной базой данных. Кроме того, это показывает, что основная защита, которую исследователи используют для защиты конфиденциальной дешифровки данных, может потерпеть неудачу неожиданными способами. Эти две идеи более подробно описаны в главе 6.
Последнее, что нужно помнить о конфиденциальных данных, состоит в том, что сбор его без согласия людей ставит этические вопросы, даже если никакого особого вреда не наносится. Подобно тому, как наблюдение за тем, кто принимает душ без их согласия, может считаться нарушением конфиденциальности этого лица, сбора конфиденциальной информации и помнить, как трудно решить, что является чувствительным, - без согласия создает потенциальную проблему конфиденциальности. Я вернусь к вопросам конфиденциальности в главе 6.
В заключение, крупные источники данных, такие как правительственные и деловые административные документы, как правило, не создаются для целей социальных исследований. Сегодня большие источники данных и, вероятно, завтра, имеют 10 характеристик. Многие из свойств, которые, как правило, считаются полезными для исследований - большие, всегда и безрезультатно - исходят из того факта, что в цифровых компаниях эпохи и правительства могут собирать данные по шкале, которая ранее была невозможна. И многие из свойств, которые обычно считаются плохими для исследования - неполные, недоступные, нерепрезентативные, дрейфующие, алгоритмически запутанные, недоступные, грязные и чувствительные - исходят из того факта, что эти данные не были собраны исследователями для исследователей. До сих пор я говорил о правительственных и бизнес-данных вместе, но между ними есть некоторые различия. По моему опыту, правительственные данные имеют тенденцию быть менее нерепрезентативными, менее алгоритмически смешаны и менее дрейфующими. С другой стороны, деловые административные записи, как правило, более продолжительны. Понимание этих 10 общих характеристик является полезным первым шагом к обучению из больших источников данных. И теперь мы переходим к исследовательским стратегиям, которые мы можем использовать с этими данными.