6.6.2理解し、情報リスク管理

情報リスクは、社会調査の中で最も一般的なリスクです。それは劇的に増加しています。理解するための最も困難なリスクです。

社会的な年齢デジタル研究のための第二の倫理的課題は、 情報リスク 、情報の開示から危害の可能性である(Council 2014)個人情報の開示からの情報有害性(例えば、仕事を失う)、(例えば、恥ずかし)社会的、(例えば、うつ病)心理的、あるいは犯罪者(例えば、違法行為のために逮捕)経済的である可能性があります。残念ながら、デジタル時代は、情報リスクが劇的に-そこに私たちの行動についてちょうどそう多くの情報で増加します。そして、情報リスクは、このような物理的なリスクなどのアナログ時代の社会的研究の懸念であったリスクに比べて理解し、管理することは非常に困難であることが判明しました。デジタル時代は、情報リスクを増大させる方法を確認するには、電子カルテへの紙からの移行を検討してください。レコードの両方のタイプは、リスクを作成しますが、大規模で、彼らは不正パーティに伝達することができるか、他のレコードとマージされているため電子記録は、はるかに大きなリスクを作成します。彼らは完全にそれを定量化し、管理する方法を理解していなかったため、デジタル時代の社会の研究者は、すでに一部で、情報リスクとのトラブルに遭遇してきました。だから、私は情報リスクについて考える役立つ方法を提供するつもりだ、と私はあなたの研究および他の研究者にデータを解放に情報リスクを管理する方法についていくつかのアドバイスをするつもりです。

社会的な研究者は、情報リスクを減少させる一つの方法は、データの「匿名」です。 「匿名」は、データの名前、住所、および電話番号などの明らかな個人識別子を除去する工程です。しかしながら、このアプローチは、多くの人々が実現するよりもはるかに少ない効果的であり、実際には、深くかつ基本的に制限されます。そのため、私が説明したときに「匿名を、「私はこのプロセスは匿名ではなく、真の匿名性の外観を作成することを思い出させるために、引用符を使用します。

「匿名」の失敗の鮮やかな例は、マサチューセッツ州で1990年代後半から来ている(Sweeney 2002)団体保険委員会(GIC)は、全ての状態の従業員の健康保険を購入するための責任を負う政府機関でした。この仕事を通じ、GICは状態の従業員の何千もの詳細な健康記録を収集しました。健康を改善する方法についての研究に拍車をかけるための努力では、GICは、研究者にこれらのレコードをリリースすることを決めました。しかし、彼らはすべてのデータを共有していませんでした。むしろ、それらは、名前や住所などの情報を削除することによって、それを「匿名」。しかし、彼らは、このような人口統計情報(郵便番号、生年月日、民族性、および性別)と医療情報(訪問データ、診断、手順)(図6.4)として、研究者のために有用であると考えていたことを、他の情報左(Ohm 2010)残念ながら、この「匿名」は、データを保護するのに十分ではなかったです。

図6.4:匿名の識別情報を明らかに除去する工程です。例えば、状態の従業員の医療保険レコードを解放マサチューセッツ団体保険委員会(GIC)は、ファイルから名前と住所を削除しました。プロセスは、実際の匿名性を匿名性の外観を提供しますが、ないので、私はワード匿名の前後に引用符を使用します。

図6.4:「匿名化」は、明らかに削除する情報を特定するプロセスです。例えば、状態の従業員の医療保険レコードを解放マサチューセッツ団体保険委員会(GIC)は、ファイルから名前と住所を削除しました。プロセスは、実際の匿名性を匿名性の外観を提供しますが、ないので、私は言葉「匿名」の前後には引用符を使用します。

GIC「匿名」の欠点を説明するために、Latanyaスウィーニー-その後ケンブリッジ、マサチューセッツ州知事ウィリアム・ウェルドの故郷の町から投票記録を取得するために$ 20 MIT-支払ったの大学院生。これらの投票記録は、名前、住所、郵便番号、生年月日、および性別などの情報が含まれていました。医療データファイルと有権者のファイルがフィールド・郵便番号、生年月日、および性別を意味スウィーニーがそれらをリンクすることができることを共有しているという事実。スウィーニーは、溶接の誕生日は1945年7月31日だったことを知っていたし、投票記録は、その誕生日にケンブリッジで唯一の6人が含まれています。さらに、これらの6人のうち、3つだけは男性でした。そして、それらの3人の男性のうち、一つだけでは溶接の郵便番号を共有しました。したがって、投票データは、生年月日、性別、郵便番号の溶接の組み合わせを持つ医療データの誰もが、ウィリアム・ウェルドであることを示しました。本質的には、これら3つの情報がデータで彼にユニークなフィンガープリントを提供します。この事実を使用して、スウィーニーは溶接の医療記録を見つけること、そして彼女の偉業の彼を知らせるためにできた、彼女は彼に彼の記録のコピーを郵送(Ohm 2010)

図6.5:再idenification匿名データの。 Latanyaスウィーニーは知事ウィリアム・ウェルド(スウィーニー2002)の医療記録を見つけるために投票記録を持つ匿名の健康記録を組み合わせます。

6.5図:再idenification「匿名」のデータ。 Latanyaスウィーニーは知事ウィリアム・ウェルドの医療記録見つけるために投票記録を持つ"匿名"健康記録を組み合わせる(Sweeney 2002)

スウィーニーの仕事は、コンピュータセキュリティコミュニティからの用語を採用-to デ匿名攻撃の基本的な構造を示しています。これらの攻撃では、単独で機密情報を明らかにどちらも2つのデータセットは、リンクされ、この結合を介して、機密情報が露出されます。いくつかの点で、このプロセスは、ソーダや酢、自身で安全である二つの物質を焼成し、厄介な結果を出すために組み合わせることができる方法と同様です。

スウィーニーの仕事、およびその他の関連作業に応じて、研究者は現在一般より多くの情報、すべてのいわゆる「個人情報」(PII)を除去(Narayanan and Shmatikov 2010)のプロセス-during「匿名化」をさらに、多くの研究者が今特定のデータ、医療記録、財務記録、答えとしては、おそらく後に解放するにはあまりにも敏感違法-ある行動についての質問調査することを実現し、「匿名」をしかし、私は以下を説明しますより多くの最近の例は、社会的な研究者がする必要があることを示しています彼らの思考を変えます。最初のステップとして、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に敏感であることを前提とするのが賢明です。言い換えれば、むしろ情報のリスクはプロジェクトの小さなサブセットに適用されることを考えるよりも、我々はそれが適用される-にすることをある程度-にすべてのプロジェクトを想定する必要があります。

この再配向の両方の側面はNetflixの賞によって示されています。第5章で説明したように、Netflixがほとんど50万メンバーによって提供億映画の評価をリリースし、世界中から人々が映画をお勧めするネットフリックスの能力を向上させることができアルゴリズムを提出したオープンなコールを持っていました。データを解放する前に、ネットフリックスは、そのような名前のように、任意の明らかに個人を特定する情報を削除しました。ネットフリックスはまた、余分なステップを行って、(例えば、3つ星に4つ星からいくつかの評価を変える)レコードの一部がわずかに摂動を導入しました。ネットフリックスはすぐに彼らの努力にもかかわらず、データは匿名でないことであったこと、しかし、発見しました。

データがリリースされたわ ​​ずか2週間後にNarayanan and Shmatikov (2008) 、特定の人々の映画の好みについて学ぶことができたことを示しました。その再識別攻撃へのトリックはスウィーニーのと同様であった:機密情報なし明らかに識別情報と人々のアイデンティティを含むものと一緒に2つの情報源、1をマージします。これらのデータソースのそれぞれは、個別に安全であってもよいが、それらが結合している場合、マージされたデータセットは、情報リスクを作成することができます。 Netflixのデータの場合は、ここでそれが起こる可能性がどのようです。私は私の同僚とアクションとコメディ映画についての私の考えを共有することを選択することが、私は宗教と政治映画について私の意見を共有したくないことを想像してみてください。私の同僚は、Netflixのデータで私のレコードを見つけるために、私は彼らと共有した情報を使用することができます。私が共有する情報は、ちょうどウィリアム・ウェルドの生年月日、郵便番号、および性別などのユニークな指紋である可能性があります。彼らはデータに私のユニークな指紋を見つけた場合その後、彼らは私が共有しないことを選択した映画など、すべての映画、についての私の評価を学ぶことができました。一人に焦点を当てた標的型攻撃のこの種に加えて、 Narayanan and Shmatikov (2008)も、多くの人々による個人や映画の評価データとNetflixのデータをマージするいくつかのものを含む幅広い攻撃 -オンを行うことが可能であることを示しました人々はインターネット・ムービー・データベース(IMDBの)上に掲載することを選択しました。映画の特定の人も、そのセットに固有の指紋である任意の情報評価が-ことができ、それらを識別するために使用されます。

Netflixのデータがいずれかの標的または広域攻撃で再確認することができるにもかかわらず、まだ低リスクであるように思われるかもしれません。結局、映画の評価は非常に敏感でいないようです。それは一般的に真のかもしれませんが、データセット内の50万人のいくつかのために、映画の評価は非常に敏感であるかもしれません。実際には、デ匿名化に応答して内緒のレズビアンの女性がネットフリックスに対する集団訴訟に参加しました。ここでの問題は、その訴訟において発現された方法です(Singel 2009)

「[M] OVIEと評価データがより高度に個人情報や機密性の[sic]の情報が含まれています。メンバーの動画データはセクシュアリティ、精神疾患、アルコール依存症からの回復、および被害近親相姦から、身体的虐待、家庭内暴力、不倫、および強姦を含む様々な非常に個人的な問題、とNetflixのメンバーの個人的な関心および/または闘争を公開しています。」

Netflixの賞データのデ匿名化は、両方のすべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に敏感であることを示しています。この時点で、あなたはこれが唯一のそれは人々についてであることを主張しているデータに適用されると思うかもしれません。驚くべきことに、それはそうではありません。情報法の要求の自由への応答では、ニューヨーク市政府は、ピックアップを含め、2013年にニューヨークのすべてのタクシーのレコードをリリースし、時間、場所、および運賃額をドロップオフ(リコール第2章からそのFarber (2015) )労働経済学の重要な理論をテストするには、このデータを使用していました。人々についての情報ではないようですので、タクシーの旅行については、このデータは良性に見えるかもしれませんが、アンソニーTockarは、このタクシーのデータセットは、実際に人々についての潜在的な機密情報がたくさん含まれていることに気づきました。説明するために、彼は新ハスラークラブ-大きなストリップクラブニューヨーク-間の深夜と午前6時から始まるすべての旅行を見て、その後、それらのドロップオフの場所を見つけました。この検索は明らかに-にハスラークラブ頻繁に何人かの人々のアドレスのエッセンスリスト(Tockar 2014)データをリリースしたときに市政府は、この点に注意していたことを想像するのは難しいです。実際には、これと同じ手法は、市内-診療所、政府の建物、または宗教的な施設内の任意の場所を訪れる人々のホームアドレスを見つけるために使用することができました。

何がユニークなことを意味することによって、これら2例、Netflixの賞と比較的熟練した人が正しく、彼らが発表したデータに情報リスクを推定するために失敗したニューヨーク市のタクシーのデータを示し、これらの例はありません(Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016)さらに、これらの例の多くでは、問題のデータは、これまでのデータリリースを元に戻すことの難しさを示し、まだオンラインで自由に利用可能です。総称してこれらの例-だけでなく、重要な結論にプライバシーリードについてのコンピュータサイエンスの研究。研究者は、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に敏感であることを想定する必要があります。

残念ながら、すべてのデータが潜在的に識別可能であり、すべてのデータが潜在的に敏感であるという事実に簡単な解決策はありません。しかし、あなたがデータを操作している一方で、情報リスクを軽減するための1つの方法は、データ保護計画を作成し、従うことです。この計画は、あなたのデータが漏洩し、リークが何らかの形で発生した場合に害を減少させる可能性を減少させます。暗号化の形式は、使用するかなど、データ保護計画の詳細は、時間の経過とともに変化しますが、UK Data Servicesは親切に彼らが5室内金庫を呼ぶ5つのカテゴリーにデータ保護計画の要素を整理:安全プロジェクト、安全な人々 、安全な設定、安全なデータ、および安全出力(表6.2) (Desai, Ritchie, and Welpton 2016) 5室内金庫のいずれも、個々に最適な保護を提供しません。しかし、一緒に彼らは情報リスクを減少させることができる要因の強力なセットを形成します。

表6.2:5金庫は、データ保護計画の設計および実行するための原則である(Desai, Ritchie, and Welpton 2016)
安全 アクション
安全プロジェクト 倫理的なものへのデータでプロジェクトを制限
セーフ人 アクセスが(例えば、人々は倫理的な訓練を受けた)データで信頼できる人に制限されています
安全なデータ データは、脱同定し、可能な限り集約され
セーフ設定 データは、適切な物理的(例えば、施錠された部屋)を搭載したコンピュータに格納され、ソフトウェア(例えば、パスワード保護、暗号化された)保護
セーフ出力 研究成果は、誤ってプライバシーの侵害を防止するために見直されます

あなたがそれを使用している間、あなたのデータを保護することに加えて、情報リスクが特に顕著である研究プロセスの一工程は、他の研究者とのデータの共有です。科学者の間でデータの共有が科学的努力の中心値であり、それは非常に設備の知識の進歩。ここコモンズのUKハウスは、データ共有の重要性を説明した方法は次のとおりです。

研究者は、再現確認し、文献に報告された結果に構築することであれば、「データへのアクセスは基本です。推定は強い理由がそうでなければ存在しない限り、データは完全に開示され、公開されるべきである、ということでなければなりません。すべての公的資金による研究と関連する可能性、データが広く、自由に利用できるようにすべきこの原則、に沿って。」 (Molloy 2011)

しかし、別の研究者とデータを共有することによって、あなたはあなたの参加者に情報の危険性が増大することができます。このように、彼らの共有したいデータを、またはそれらを共有するために必要とされる研究者の基本的な緊張が直面しているデータは、されているように見える場合があります。一方で、彼らは独自の研究が公的資金による場合は特に、他の科学者とのデータを共有する倫理的な義務があります。しかし、同時に、研究者は、可能な限り、その参加者への情報リスクを最小限に抑えるために倫理的な義務があります。

幸いなことに、このジレンマは、それが表示されるなどの重篤ではありません。 解放し、データは「匿名」とアクセスするために、誰のために掲示されている場所を、 忘れることのないデータ共有から連続に沿ってデータ共有(図6.6)を考えることが重要です。これらの極端な位置の両方がリスクと利点を持っています。すなわち、自動的にあなたのデータを共有しないための最も倫理的なことではありません、です。このようなアプローチは、社会に多くの潜在的な利益を排除します。 、味ネクタイ、およびTime、以前の章で説明した例に戻ると、可能な有害性にのみ焦点を当て、それが可能な利点を無視し、データのリリースに対する引数は、過度に偏っています。私は不確実性(6.6.4項)の顔に意思決定をすることについてのアドバイスを提供するとき、私は以下でより詳細に、この一方的な、過度に保護アプローチの問題を説明します。

図6.6:データのリリース戦略は連続体に沿って落下することができます。あなたは、この連続体に沿ってどこにあるべきか、あなたのデータの特定の詳細に依存します。この場合、サードパーティのレビューは、あなたの場合には、リスクとベネフィットのバランスを適切に決める手助けとなるでしょう。

図6.6:データのリリース戦略は連続体に沿って落下することができます。あなたは、この連続体に沿ってどこにあるべきか、あなたのデータの特定の詳細に依存します。この場合、サードパーティのレビューは、あなたの場合には、リスクとベネフィットのバランスを適切に決める手助けとなるでしょう。

さらに、これら二つの極端な例の間に、私はデータが一定の基準を満たし、特定のルールに拘束されることに同意する人の人と共有されている壁に囲まれた庭園のアプローチと呼ばれるだろうものである(例えば、IRBから監督とデータ保護計画) 。この壁に囲まれた庭のアプローチは、リリースの利点の多くを提供し、少ないリスクで忘れています。もちろん、壁に囲まれた庭のアプローチは、多くの質問・アクセスを持っている必要があり、どのような条件の下で、どのくらいの期間、維持し、壁に囲まれた庭の警察に払う必要があります誰のためなど、これらは克服不可能ではありませんが作成されます。実際には、すでに研究者は、このようなミシガン大学の政治や社会調査のための大学間コンソーシアムのデータアーカイブとして、今すぐ使用できる場所で壁に囲まれた庭園が働いています。

だから、どこにあなたの研究からのデータはありません共有、壁に囲まれた庭の連続であること、そして解放し、忘れるべきですか?それはあなたのデータの詳細に依存します。研究者は、善行、正義、と法と公益の尊重を者の尊重のバランスを取る必要があります。他の意思決定のための適切なバランスを評価する際の研究者が助言とのIRBの承認を求める、およびデータリリースは、そのプロセスのちょうど別の一部とすることができます。一部の人々は絶望的、倫理的泥沼のようなデータのリリースと考えるが、言い換えれば、我々はすでに研究者が倫理的ジレンマのこれらの種類のバランスを取るのに役立つ場所にシステムを持っています。

データ共有を考えるための一つの最終的な方法は、類推によるものです。毎年車が死亡、数千の原因であるが、我々は運転を禁止しようとしないでください。駆動は多くの素晴らしい事を可能にしますので、実際には、運転を禁止するようなコールは不条理であろう。むしろ、社会が駆動することができる人の制限を置く(例えば、特定の年齢である必要があり、特定のテストに合格している必要があります)、彼らは(速度制限の下で、例えば)を駆動することができますか。協会はまた、これらの規則を施行する役割を担う人々(例えば、警察)を有しており、我々は彼らに違反キャッチしている人々を罰します。社会が運転規制に適用されるバランスのとれた考え方の同じ種類のは、データの共有にも適用することができます。それはむしろ、データ共有のためにまたはに対して絶対主義の引数を作るよりも、私は最大の利点は、我々はより安全に、より多くのデータを共有することができる方法を考え出すから来るだろうと思い、です。

結論として、情報リスクが劇的に増加しており、予測し、定量化することは非常に困難です。したがって、すべてのデータが潜在的に識別し、潜在的に敏感であると仮定するのが最善です。研究をしながら、情報リスクを減少させるために、研究者はデータ保護計画を作成し、従うことができます。また、情報リスクは、他の科学者との間でデータを共有する研究者を防ぐことはできません。