情報リスクは社会調査における最も一般的なリスクである。それは劇的に増加しました。それは理解するのが最も難しいです。
デジタル時代の研究の第2の倫理的課題は情報リスクであり、情報の開示からの害の可能性がある(National Research Council 2014) 。個人情報の漏洩による情報による害は、経済的(就労の喪失など)、社会的(恥ずかしい)、心理的(例えばうつ病)、犯罪者さえあります(違法行為の逮捕など)。残念なことに、デジタル時代は情報リスクを劇的に増加させます。我々の行動に関する情報はそれほど多くありません。また、情報化リスクは、物理的リスクなどのアナログ時代の社会調査に関わるリスクと比較して、理解し管理することが非常に困難であることが証明されています。
社会的な研究者は、情報リスクを減少させる一つの方法は、データの「匿名」です。 「匿名」は、データの名前、住所、および電話番号などの明らかな個人識別子を除去する工程です。しかしながら、このアプローチは、多くの人々が実現するよりもはるかに少ない効果的であり、実際には、深くかつ基本的に制限されます。そのため、私が説明したときに「匿名を、「私はこのプロセスは匿名ではなく、真の匿名性の外観を作成することを思い出させるために、引用符を使用します。
「匿名化」の失敗の鮮明な例は、1990年代後半のマサチューセッツ州(Sweeney 2002)由来する。グループ保険委員会(GIC)は、すべての州の従業員の健康保険を購入する政府機関でした。この作業を通じて、GICは何千人もの州の従業員に関する詳細な健康記録を収集しました。研究を促進するために、GICはこれらの記録を研究者に公開することにしました。しかし、彼らはすべてのデータを共有していませんでした。むしろ、名前や住所などの情報を削除することによってこれらのデータを「匿名化」します。しかし、人口統計情報(郵便番号、生年月日、民族性、性別)や医療情報(訪問データ、診断、手順)(図6.4) (Ohm 2010)など、研究者にとって有用と考えられるその他の情報を残した。残念なことに、この「匿名化」はデータを保護するのに十分ではありませんでした。
GICの「匿名化」の欠点を説明するため、MITの大学院生であったLatanya Sweeneyは、マサチューセッツ州ウィリアム・ウェルドの故郷であるケンブリッジ市から投票記録を取得するため20ドルを支払った。これらの投票記録には、氏名、住所、郵便番号、生年月日、性別などの情報が含まれていました。医療データファイルと投票者ファイルがフィールド(郵便番号、生年月日、性別)を共有していることは、Sweeneyがそれらをリンクできることを意味していました。スウィーニーは、ウェルドの誕生日が1945年7月31日であることを知っていた。投票記録には、その誕生日にケンブリッジでわずか6人しか含まれていなかった。さらに、その6人のうち3人だけが男性でした。そして、その3人のうち、ウェルドの郵便番号は1つだけです。したがって、議決権のあるデータによれば、Weldの生年月日、性別、郵便番号の組み合わせを持つ医療データの誰もウィリアム・ウェルドでした。本質的に、これらの3つの情報は、データ内で彼に固有の指紋を提供した。この事実を利用して、スウィーニーはウェルドの医療記録を見つけることができ、彼女の偉業を知らせるために彼に彼の記録のコピーを郵送しました(Ohm 2010) 。
Sweeneyの作業は、コンピュータセキュリティコミュニティからの用語を採用するための再識別攻撃の基本構造を示しています。これらの攻撃では、それ自体で機密情報を明らかにしないデータセットも2つリンクされており、この連携によって機密情報が公開されます。
Sweeneyの仕事やその他の関連作業に応じて、研究者は現在、「匿名化」の過程で、より多くの情報、いわゆる「個人識別情報」(PII) (Narayanan and Shmatikov 2010)一般に削除しています。医療記録、財務記録、違法行為に関する調査質問への回答などの特定のデータは、「匿名化」後も公開するのにはおそらくは機密性が高いと認識しています。しかし、私が提示しようとしている例では、彼らの思考を変える。最初のステップとして、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に機密性が高いと想定することが賢明です。言い換えれば、情報リスクが小さなプロジェクトのサブセットに当てはまると考えるのではなく、すべてのプロジェクトにある程度適用されると考えるべきです。
この再指向の両方の側面は、Netflix賞で説明されています。第5章で説明したように、Netflixは約50万人の会員によって提供された1億の映画の評価を公開し、世界中からの人々が映画を推薦するNetflixの能力を向上させるアルゴリズムを提出しました。 Netflixは、データを公開する前に、名前などの個人識別情報を削除しました。彼らはまた、いくつかの記録にわずかな混乱をもたらしました(例えば、4つ星から3つ星へのいくつかの格付けの変更)。しかし、彼らは間もなく、彼らの努力にもかかわらず、データは決して匿名ではないことを発見しました。
データが公開されてからわずか2週間後、Arvind NarayananとVitaly Shmatikov (2008)は、特定の人々の映画の好みについて学ぶことが可能であることを示しました。彼らの再同定攻撃の秘訣はSweeneyのものと似ていました.1つは潜在的に機密情報があり、明らかに情報を特定する情報源と人のアイデンティティを含む情報源の2つを併合します。これらのデータソースのそれぞれは個別に安全ですが、それらを組み合わせると、マージされたデータセットは情報リスクを引き起こす可能性があります。 Netflixデータの場合は、それが起こる可能性があります。私が行動やコメディー映画に関する私の考えを私の同僚と共有することを選択したとしますが、私は宗教的、政治的な映画について私の意見を分かち合いたくないと思います。私の同僚は、Netflixデータで自分のレコードを見つけるために私が共有した情報を使用することができます。私が共有している情報は、ウィリアム・ウェルドの生年月日、郵便番号、性別のような独特の指紋である可能性があります。その後、データに自分のユニークな指紋が見つかった場合、共有しないことを選択した映画を含め、すべての映画に関する評価を知ることができます。 NarayananとShmatikovは、一人の人に焦点を絞ったこの種の攻撃に加えて、Netflixのデータを一部の人が選択した個人や映画の評価データと統合することで、 幅広い攻撃を行うことが可能であることを示しましたインターネット映画データベース(IMDb)に投稿する。まったく単純に、特定の人物に固有の指紋である情報(それらのムービーの定格さえも含む)は、それらを識別するために使用できます。
Netflixのデータは、標的型攻撃または広範な攻撃のいずれかで再確認されても、それでもリスクは低いようです。結局のところ、映画の評価はあまり敏感ではないようです。それは一般的には当てはまるかもしれませんが、データセットの50万人のうちのいくつかは、映画の評価が非常に敏感かもしれません。実際に、再識別に応じて、クローゼットレズビアンの女性がNetflixに対して集団訴訟に加わった。問題は訴訟でどのように表現されたのですか(Singel 2009) :
"[...] ovieと評価データには、個人的で敏感な性質の情報が含まれています。メンバーの映画のデータは、性的欲求、精神病、アルコール依存症からの回復、近親相姦、身体的虐待、家庭内暴力、姦通、強姦による被害など、個人的な関心や闘いを抱えています。
Netflix Prizeデータの再識別は、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に機密性が高いことを示しています。この時点では、これは、人に関するものであると主張するデータにのみ適用されると考えるかもしれません。意外にも、そうではありません。ニューヨーク市は、情報自由法の要求に応えて、2013年にニューヨークでタクシーを利用する際の記録を発表しました。 Farber (2015)労働経済学における重要な理論を検証するために同様のデータを使用した)。人々に関する情報を提供していないようだから、タクシー旅行に関するこれらのデータは無害なように思えるかもしれませんが、Anthony Tockarはこのタクシーデータセットには、説明するために、彼は真夜中から午前6時の間に、ニューヨークの大規模なストリップクラブであるHustler Clubを出発点として、降りる場所を見つけました。この検索では、本質的に、ハスラークラブ(Tockar 2014)を頻繁に訪れた人々の住所リストが明らかになりました。市政府がデータを公表したときにこれを念頭に置いたと想像するのは難しいです。実際には、この同じ手法を使って、市内のあらゆる場所(医院、庁舎、宗教施設)を訪問する人々の住宅住所を見つけることができます。
これらのNetflix賞とニューヨーク市のタクシーデータの2つのケースは、比較的熟練した人々が、リリースされたデータの情報リスクを正しく見積もることができないことを示しています(Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) 。さらに、多くの場合、問題のあるデータはオンラインで自由に入手でき、データのリリースを元に戻すことが難しいことを示しています。集合的に、これらの例は、プライバシーに関するコンピュータサイエンスの研究と同様に重要な結論につながります。研究者は、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に敏感であると仮定すべきである。
残念ながら、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に機密性が高いという事実に対する単純な解決策はありません。ただし、データを処理している間に情報リスクを軽減する1つの方法は、 データ保護計画を作成し、それに従うことです。この計画は、あなたのデータが漏れる可能性を減らし、何らかの形で漏れが生じた場合に危害を軽減します。暗号化の形式は、使用するかなど、データ保護計画の詳細は、時間の経過とともに変化しますが、英国Data Servicesは親切に彼らは5つの金庫を呼ぶ5つのカテゴリにデータ保護計画の要素を整理:安全なプロジェクト、安全な人々 、安全な設定、安全なデータ、安全な出力(表6.2) (Desai, Ritchie, and Welpton 2016) 。 5つの金庫のいずれも完璧に保護されていません。しかし、それらは一緒になって、情報リスクを減らす強力な要素を形成します。
安全 | アクション |
---|---|
安全なプロジェクト | プロジェクトを倫理的なものに制限する |
安全な人 | アクセスは、データ(例えば、倫理的な訓練を受けた人々)で信頼できる人に限定され、 |
安全なデータ | データは可能な限りデシジョンおよびアグリゲーションされます |
安全な設定 | データは、適切な物理的(例えば、ロックされた部屋)およびソフトウェア(例えば、パスワード保護、暗号化)保護を備えたコンピュータに格納される |
安全な出力 | 偶発的なプライバシー違反を防ぐために研究成果をレビューする |
情報リスクが特に顕著な研究プロセスの1つのステップは、他の研究者とのデータ共有です。科学者間のデータ共有は、科学的な努力の中核的価値であり、知識の向上を大いに促進する。英国下院がデータ共有の重要性をどのように説明したのか(Molloy 2011) :
研究者が文献に報告されている結果を再現し、検証し、構築する場合、データへのアクセスは基本的なものです。推測は、他に強い理由がない限り、データを完全に公開し、公に利用できるようにする必要があります。
それでも、あなたのデータを他の研究者と共有することで、参加者の情報リスクが増大している可能性があります。したがって、データ共有は、他の科学者とのデータ共有の義務と参加者への情報リスクを最小化する義務との間に根本的な緊張を生むように見えるかもしれない。幸いにも、このジレンマは現れているほど深刻ではありません。むしろ、データ共有が連続体に沿っていると考えることは、連続体の各点で社会へのさまざまな利益と参加者へのリスクを提供するという点で優れています(図6.6)。
ある極端な場合には、誰ともデータを共有することができないため、参加者のリスクは最小限に抑えられますが、社会への利益も最小限に抑えられます。他の極端な状況では、データが「匿名化されて」どこに公開されているのかを公開して忘れることができます。データを公開しないのに対して、リリースと忘却は、社会へのより高い利益と参加者への高いリスクの両方を提供します。これらの2つの極端なケースの間には、私が壁に囲まれた庭のアプローチと呼ぶものを含む、多様なハイブリッドがあります。このアプローチでは、特定の基準を満たし、一定の規則に拘束されることに同意する人々(例えば、IRBおよびデータ保護計画からの監督)とデータを共有する。壁に囲まれた庭のアプローチは、リスクの少ないリリースと忘れの利点の多くを提供します。もちろん、このようなアプローチでは、誰がどのような条件でアクセスしなければならないのか、壁に覆われた庭を維持し警察するためにどれくらいの時間を費やすべきかといった多くの疑問が生じますが、これらは克服できません。実際には、ミシガン大学の大学間社会研究コンソーシアムのデータアーカイブなど、研究者が今すぐ使用できる壁に覆われた庭園がすでに存在しています。
だから、あなたの研究からのデータは、共有されていない、壁に囲まれた庭園、解放されて忘れる連続のどこにあるべきですか?これはあなたのデータの詳細に依存します。研究者は、人格の尊重、有益性、正義、法と公益の尊重のバランスをとる必要があります。この観点から見ると、データ共有は特有の倫理的な問題ではありません。それは研究者が適切な倫理的バランスを見つけなければならない研究の多くの側面の1つに過ぎない。
いくつかの批評家は、私の意見では、間違いなく実際のリスクに焦点を当てており、そのメリットを無視しているため、データ共有に一般的に反対しています。だから、リスクと利益の両方に焦点を当てるために、私はアナロジーを提供したいと思います。毎年、自動車は何千人もの死者を出していますが、運転を禁止しようとはしません。実際には、運転は禁止されています。むしろ、社会は誰が運転できるか(例えば、ある年齢になる必要性とあるテストに合格する必要性)、そして彼らがどのように運転できるか(例えば速度制限の下で)に制限を課している。社会はまた、これらの規則(例えば、警察)を強制することを任された人々を抱えており、私たちはそれらを犯した人々を処罰する。社会が走行規制に適用する均等な考え方も、データ共有にも適用できます。つまり、データ共有のために絶対的な議論をするのではなく、リスクを減らしデータ共有のメリットをどのように増やすことができるかに焦点を当てて最も進歩すると思います。
結論として、情報リスクは劇的に増加し、予測し定量化することは非常に困難です。したがって、すべてのデータが潜在的に識別可能であり、潜在的に敏感であると仮定することが最善です。研究中に情報リスクを低減するために、研究者はデータ保護計画を作成し、それに従うことができます。さらに、情報リスクは、研究者が他の科学者とデータを共有するのを妨げるものではありません。