2.3.10センシティブ

企業や政府が持っている情報の一部は敏感です。

健康保険会社は、顧客が受けた医療に関する詳細な情報を持っています。この情報は、健康に関する重要な研究に使用される可能性がありますが、公になった場合、感情的害(例えば、困惑)や経済的害(雇用の喪失など)につながる可能性があります。多くの他の大きなデータソースには機密情報が含まれているため、アクセスできないことがよくあります。

残念ながら、Netflix賞で示されているように、どの情報が実際に敏感であるか(Ohm 2015)を決定することは非常に難しいことが判明しました。第5章で説明するように、2006年にNetflixは約50万人の会員から1億回の映画評価を発表し、世界中からの人々がNetflixの映画を推薦する能力を向上させるアルゴリズムを提出しました。 Netflixは、データを公開する前に、名前などの個人識別情報を削除しました。しかし、データが公開されてからわずか2週間後、Arvind NarayananとVitaly Shmatikov (2008)は、第6章で紹介するトリックを使用して、特定の人々の映画の評価について学ぶことが可能であることを示しました。人の映画の評価、まだここに何か敏感ではないようです。これは一般的には当てはまるかもしれませんが、データセットの50万人のうちの少なくとも一部の人にとって、映画の評価は敏感でした。実際に、データのリリースと再識別に応じて、クローゼットレズビアンの女性がNetflixに対して集団訴訟に参加しました。この訴訟で問題がどのように表現されたのか(Singel 2009)

"[...] ovieと評価データには、個人的で敏感な性質の情報が含まれています。メンバーの映画のデータは、性的欲求、精神病、アルコール依存症からの回復、近親相姦、身体的虐待、家庭内暴力、姦通、強姦による被害など、個人的な関心や闘いを抱えています。

この例は、良性のデータベースのように見えるかもしれない情報の中に、慎重に考えている人がいるという情報があることを示しています。さらに、研究者が機密性の高いデータを識別するための主な防衛策は、驚くべきことに失敗する可能性があることを示しています。これらの2つのアイデアは第6章でより詳細に説明されています。

機密データについて覚えておくべき最後のことは、人の同意なしに収集することは、特に害が生じない場合であっても、倫理的問題を提起することです。誰かが同意なしにシャワーを浴びるのを見るのと同様に、その人のプライバシーを侵害し、機密情報を収集し、敏感なものを決定することがどれほど難しいかを覚えている可能性があります。私は第6章のプライバシーについての質問に戻ります。

結論として、政府や企業の管理記録などの大きなデータソースは、一般的に社会調査の目的では作成されません。今日の大きなデータソースには、10の特性がある傾向があります。一般的に研究に役立つと考えられているプロパティの多くは、デジタル時代の事実から生まれたもので、以前は不可能だった規模でデータを収集することができます。そして、一般的に研究には不十分であると考えられているプロパティの多くは、不完全、アクセス不能、非代表、漂流、アルゴリズム的混乱、アクセス不能、汚れ、敏感なもので、これらのデータは研究者の研究者によって収集されなかったという事実から来ます。これまでは、政府とビジネスのデータを一緒に話しましたが、両者にはいくつかの違いがあります。私の経験では、政府のデータは非代表的ではなく、アルゴリズム的に混乱しにくく、漂流が少ない傾向があります。一方では、ビジネス管理の記録はより常時である傾向があります。これらの10の一般的な特性を理解することは、大きなデータソースからの学習に役立つ第一歩です。そして今、私たちはこのデータで使用できる研究戦略に目を向ける。