정보 리스크는 사회 연구에서 가장 흔한 위험입니다. 그것은 극적으로 증가했다. 이해하는 것이 가장 힘든 위험입니다.
디지털 시대 연구에서 두 번째로 윤리적 인 도전은 정보의 위험 이며, 정보 유출의 위험 이 있습니다 (National Research Council 2014) . 개인 정보의 유출로 인해 정보에 해가되는 것은 경제적 일 수 있습니다 (예 : 일자리 상실), 사회적 (예 : 당황), 심리적 (예 : 우울증) 또는 범죄자 일 수도 있습니다 (예 : 불법 행위에 대한 체포). 불행히도 디지털 시대는 정보 위험을 극적으로 증가시킵니다. 우리의 행동에 대한 정보가 훨씬 많습니다. 또한 정보 위험은 물리적 위험과 같은 아날로그 시대 사회 연구에 대한 우려와 비교하여 이해하고 관리하기가 매우 어렵다는 것이 입증되었습니다.
사회 연구원 정보 위험을 감소하는 한 가지 방법은 데이터의 "익명화"입니다. "익명화"은 이름, 주소 및 데이터로부터 전화 번호 등의 명백한 개인 식별자를 제거하는 공정이다. 그러나 깊이 근본적으로 제한,이 방법은 많은 사람들이 생각하는 것보다 훨씬 덜 효과적이며, 사실이다. 내가 설명 할 때마다이 과정은 익명의 모습이 아닌 진정한 익명 성을 생성하는 이유로, "익명화를,"나는 당신을 생각 나게하는 따옴표를 사용합니다.
"익명화"실패의 생생한 예는 매사추세츠에서 1990 년대 후반에 나온 것입니다 (Sweeney 2002) . 그룹 보험위원회 (GIC)는 모든 주 직원을 대상으로 건강 보험을 구매하는 정부 기관입니다. 이 작업을 통해 GIC는 수천 명의 주정부 직원에 대한 상세한 건강 기록을 수집했습니다. 연구를 촉진하기 위해 GIC는 이러한 기록을 연구원에게 공개하기로 결정했습니다. 그러나 그들은 모든 데이터를 공유하지 않았습니다. 오히려 이름과 주소 같은 정보를 제거하여 이러한 데이터를 "익명화"합니다. 그러나 인구 통계 학적 정보 (우편 번호, 생년월일, 인종 및 성별) 및 의료 정보 (방문 데이터, 진단, 절차) (그림 6.4) (Ohm 2010) 와 같은 연구자에게 유용 할 것으로 생각되는 기타 정보는 남겨 두었습니다. 불행히도이 "익명화"는 데이터를 보호하기에 충분하지 않았습니다.
GIC의 "익명화"의 단점을 설명하기 위해 MIT의 대학원생 인 Latanya Sweeney는 매사추세츠 주 윌리엄 웰드 (William Weld)의 고향 인 캠브리지시에서 투표 기록을 얻기 위해 20 달러를 지불했습니다. 이 투표 기록에는 이름, 주소, 우편 번호, 생년월일, 성별과 같은 정보가 포함됩니다. 의료 데이터 파일과 유권자 파일 공유 필드 (우편 번호, 생년월일, 성별)는 Sweeney가 링크 할 수 있음을 의미합니다. Sweeney는 Weld의 생일이 1945 년 7 월 31 일임을 알고 투표 기록에는 그 생일에 Cambridge에 6 명만 포함되었습니다. 더구나 그 6 명 중 3 명만 남성이었습니다. 그리고 그 세 명 중 오직 한 명만이 Weld의 우편 번호를 공유했습니다. 따라서 투표 데이터에 따르면 Weld의 생년월일, 성별 및 우편 번호 조합이있는 의료 데이터의 모든 사람은 William Weld였습니다. 본질적으로이 세 가지 정보는 데이터에서 그에게 독특한 지문 을 제공했습니다. 이 사실을 이용하여 Sweeney는 Weld의 의료 기록을 찾아 낼 수 있었고, 그녀의 공적을 알리기 위해 그녀에게 그의 기록 사본 (Ohm 2010) 을 우편으로 보냈습니다.
Sweeney의 작업은 컴퓨터 보안 공동체의 용어를 채택하는 재 식별 공격 의 기본 구조를 보여줍니다. 이러한 공격에서 민감한 정보를 밝히지 않는 두 개의 데이터 세트가 연결되어 있으며이 연결을 통해 중요한 정보가 노출됩니다.
Sweeney의 연구 및 기타 관련 연구에 대한 응답으로 연구자들은 일반적으로 "익명 성화"과정에서 더 많은 정보 (소위 "개인 식별 정보"(PII) (Narayanan and Shmatikov 2010) 제거합니다. 이제는 의료 기록, 재정 기록, 불법 행위에 관한 설문 조사 질문에 대한 답변과 같은 특정 데이터가 "익명화"이후에도 공개하기에는 너무 민감하다는 것을 알게되었습니다. 그러나 제가 제시하려는 사례는 사회 연구원이 그들의 생각을 바꾸기. 첫 번째 단계로서 모든 데이터가 잠재적으로 식별 가능하고 모든 데이터가 잠재적으로 민감하다고 가정하는 것이 좋습니다. 즉 정보 위험이 일부 프로젝트에만 적용된다고 생각하기보다는 모든 프로젝트에 어느 정도 적용될 것이라고 가정해야합니다.
이 재배치의 두 가지 측면은 Netflix Prize에서 설명합니다. 5 장에서 설명한 것처럼 Netflix는 거의 50 만 명의 회원이 제공 한 1 억 개의 영화 등급을 공개했으며 전 세계 사람들이 Netflix의 영화 추천 기능을 향상시킬 수있는 알고리즘을 제출 한 공개 통화를했습니다. Netflix는 데이터를 공개하기 전에 이름과 같은 개인 식별 정보를 제거했습니다. 그들은 또한 약간의 단계를 밟아 일부 기록에 약간의 혼란을 야기했습니다 (예 : 4 등급에서 3 등급으로 등급을 변경). 그러나 그들은 그들의 노력에도 불구하고 데이터가 여전히 익명의 것이 아님을 곧 발견했습니다.
데이터가 공개 된 지 불과 2 주 만인 Arvind Narayanan과 Vitaly Shmatikov (2008) 는 특정 사람들의 영화 선호도에 대해 배울 수 있음을 보여주었습니다. 재 식별 공격에 대한 속임수는 스위니 (Sweeney)의 공격과 유사합니다. 잠재적으로 민감한 정보와 명백하게 식별 정보가없는 정보 소스와 사람의 신원 정보가 포함 된 정보 소스를 병합합니다. 이러한 각 데이터 소스는 개별적으로 안전 할 수 있지만 이러한 데이터 소스를 결합하면 병합 된 데이터 세트가 정보 위험을 초래할 수 있습니다. 넷플 릭스 데이터의 경우, 어떻게 될 수 있습니다. 내가 행동과 코미디 영화에 대한 내 생각을 동료들과 나누기로 결정했다고 가정 해 봅시다.하지만 종교 영화와 정치 영화에 대한 제 의견을 공유하는 것을 선호하지 않습니다. 동료들은 Netflix 데이터에서 내 기록을 찾기 위해 내가 공유 한 정보를 사용할 수 있습니다. 내가 공유하는 정보는 William Weld의 생년월일, 우편 번호 및 성별과 같은 고유 한 지문이 될 수 있습니다. 그런 다음 데이터에서 내 고유 지문을 발견하면 공유하지 않기로 결정한 영화를 포함하여 모든 영화에 대한 평가를 얻을 수 있습니다. Narayanan과 Shmatikov는 한 사람에 초점을 맞춘 이런 종류의 공격 외에도 Netflix 데이터를 일부 사람들이 선택한 개인 및 영화 등급 데이터와 병합하여 광범위한 사람을 공격 하는 것이 가능하다는 것을 보여주었습니다 인터넷 영화 데이터베이스 (IMDb)에 게시 할 수 있습니다. 간단히 말해 특정 인물 (심지어 영화 등급 세트)에 대한 고유 한 지문 인 모든 정보를 사용하여이를 식별 할 수 있습니다.
Netflix 데이터는 대상 공격이나 광범위한 공격에서 재 식별 될 수 있지만 여전히 위험은 낮은 것으로 보입니다. 결국 영화 등급은별로 민감하지 않습니다. 일반적으로 사실 일지 모르지만 데이터 집합에있는 50 만 명 중 일부는 영화 등급이 매우 민감 할 수 있습니다. 실제로, 재확인에 대한 응답으로, closeted 레즈비언 여자 넷 플렉스에 대한 집단 소송에 합류했다. 문제가 소송에서 어떻게 표현되었는지는 다음과 같습니다 (Singel 2009) .
"[...] 등급 및 등급 데이터에는 매우 개인적이고 민감한 성격의 정보가 포함되어 있습니다. 회원의 영화 데이터는 성욕, 정신 질환, 알코올 중독에서의 회복, 근친상간, 신체적 학대, 가정 폭력, 간통죄 및 강간 등의 희생을 포함하여 Netflix 회원의 개인적인 관심사 및 / 또는 다양한 개인적인 문제로 고심합니다.
Netflix Prize 데이터의 재 식별은 모든 데이터가 잠재적으로 식별 가능하고 모든 데이터가 잠재적으로 민감하다는 것을 보여줍니다. 이 시점에서이 정보는 사람에 관한 데이터 만 해당한다고 생각할 수 있습니다. 놀랍게도, 그것은 사실이 아닙니다. 뉴욕 시정부는 정보 자유 법상의 요청에 따라 2013 년 뉴욕에서 택시 탑승 기록, 위치 및 운임 금액 ( Farber (2015) 유사한 데이터를 노동 경제학의 중요한 이론을 시험하기 위해 사용했다). 택시 여행에 관한 이러한 데이터는 사람들에 대한 정보를 제공하지 않는 것으로 보이기 때문에 좋지 않을 수도 있지만 Anthony Tockar는이 택시 데이터 집합에 사람들에 대한 잠재적으로 민감한 정보가 많이 포함되어 있음을 알았습니다. 설명하자면, 그는 한밤중과 오전 6시 사이에 뉴욕에있는 대형 스트립 클럽 인 Hustler Club에서 시작하여 모든 여행을 살펴본 후 탈락 장소를 발견했습니다. 이 검색은 본질적으로 사기꾼 클럽 (Tockar 2014) 을 자주 방문한 일부 사람들의 주소 목록을 나타냅니다. 시 정부가 데이터를 공개 할 때이를 염두에 두었다 고 상상하기가 어렵습니다. 사실,이 같은 기술은 병원, 정부 청사 또는 종교 기관과 같은 도시의 모든 장소를 방문하는 사람들의 집 주소를 찾는 데 사용될 수 있습니다.
Netflix Prize 및 뉴욕시 택시 데이터의이 두 가지 사례는 상대적으로 숙련 된 사람들이 자신이 배포하는 데이터의 정보 위험을 정확하게 예측하지 못하는 것을 보여 주며 이러한 경우는 결코 고유하지 않습니다 (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . 또한 많은 경우 이러한 문제가있는 데이터는 온라인에서 자유롭게 사용할 수 있으므로 데이터 유출을 취소하는 데 어려움이 있음을 나타냅니다. 개인 정보 보호에 관한 컴퓨터 과학 연구뿐만 아니라 이러한 사례를 종합적으로 살펴보면 중요한 결론을 이끌어 낼 수 있습니다. 연구원은 모든 데이터가 잠재적으로 식별 가능하고 모든 데이터가 잠재적으로 민감하다고 가정해야합니다.
불행히도 모든 데이터가 잠재적으로 식별 가능하고 모든 데이터가 잠재적으로 민감하다는 사실에 대한 간단한 해결책이 없습니다. 그러나 데이터로 작업하는 동안 정보 위험을 줄이는 한 가지 방법은 데이터 보호 계획 을 만들고 준수하는 것입니다. 이 계획은 데이터 누출 가능성을 줄이고 누출이 발생하면 해를 감소시킵니다. 암호화의 형태로 사용하는 등의 어떤으로 데이터 보호 계획의 세부 사항은, 시간에 따라 변화하지만, 영국 데이터 서비스는 유용하게 그들이 다섯 개 금고를 호출 다섯 개 가지 범주로 데이터 보호 계획의 요소를 구성 : 안전 프로젝트, 안전 명 , 안전 설정, 안전한 데이터 및 안전한 출력 (표 6.2) (Desai, Ritchie, and Welpton 2016) . 5 개의 금고 중 어느 것도 개별적으로 완벽한 보호를 제공하지 못합니다. 그러나 함께 정보 위험을 줄일 수있는 강력한 요소를 형성합니다.
안전한 | 동작 |
---|---|
안전한 프로젝트 | 데이터가있는 프로젝트를 윤리적 인 프로젝트로 제한합니다. |
안전한 사람들 | 액세스는 데이터로 신뢰할 수있는 사람 (예 : 윤리적 인 교육을받은 사람들)으로 제한됩니다. |
안전한 데이터 | 데이터는 가능한 한 제거되고 집계됩니다. |
안전 설정 | 데이터는 적절한 물리적 (예 : 잠긴 방) 및 소프트웨어 (예 : 암호 보호, 암호화 됨) 보호 기능이있는 컴퓨터에 저장됩니다 |
안전 출력 | 우발적 인 개인 정보 침해를 방지하기 위해 연구 결과가 검토됩니다. |
데이터를 사용하는 동안 데이터를 보호하는 것 외에도 정보 위험이 특히 두드러지는 리서치 프로세스의 한 단계는 다른 연구자와의 데이터 공유입니다. 과학자들 간의 데이터 공유는 과학적 노력의 핵심 가치이며, 지식의 발전을 크게 촉진합니다. 영국 하원이 데이터 공유의 중요성을 설명하는 방법은 다음과 같습니다 (Molloy 2011) .
"연구자가 문헌에보고 된 결과를 재현하고 검증하고 구축하는 것이 데이터에 대한 접근성은 근본입니다. 그럴만한 이유가 없다면 데이터를 공개하고 공개 할 수 있어야한다는 전제가 있어야합니다. "
그러나 다른 연구원과 데이터를 공유함으로써 참가자에게 정보 위험을 증가시킬 수 있습니다. 따라서 데이터 공유가 다른 과학자와 데이터를 공유해야하는 의무와 참여자에게 정보 위험을 최소화해야 할 의무 사이에 근본적인 긴장감을 조성하는 것처럼 보일 수 있습니다. 다행히도,이 딜레마는 나타나는 것처럼 심각하지 않습니다. 오히려 데이터 공유가 연속체를 따라 떨어지는 것으로 생각하는 것이 좋습니다. 연속체의 각 요소는 사회에 다양한 이점을 제공하고 참가자에게 위험을 제공합니다 (그림 6.6).
극단적 인 경우 데이터를 아무와도 공유 할 수 없으므로 참가자의 위험은 최소화되지만 사회에 미치는 영향은 최소화됩니다. 다른 극단에서는 데이터를 "익명화"하고 모든 사용자에게 게시하는 위치를 공개하고 잊어 버릴 수 있습니다. 데이터를 공개하지 않는 것과는 대조적으로 공개 및 잊어 버리면 사회에 더 높은 이익을, 참여자에게는 더 높은 위험을 제공합니다. 이 2 개의 극단적 인 경우 사이에서 나는 벽으로 둘러싸인 정원 접근이라고 부를 것 인 것을 포함하는 잡종의 범위 다. 이 접근법에서 데이터는 특정 기준을 충족하고 특정 규칙 (예 : IRB 및 데이터 보호 계획의 감독)에 구속되는 데 동의하는 사람들과 공유됩니다. 벽으로 막힌 정원 접근법은 위험을 최소화하면서 석방 및 잊어 버릴 수있는 많은 이점을 제공합니다. 물론 이러한 접근법은 누가 어떤 조건에서 접근해야하는지, 얼마나 오래 있어야하는지, 벽으로 막힌 정원을 유지 관리하고 경찰에게 대피해야하는지 등 많은 질문을 제기합니다. 그러나 이것도 극복 할 수없는 것은 아닙니다. 실제로 이미 미시건 대학의 정치 사회 연구를위한 대학 간 컨소시엄 (Inter-Univers Consortium)의 자료 보관소와 같이 연구자들이 지금 사용할 수있는 벽으로 둘러싸인 정원이 있습니다.
그렇다면 연구에서 얻은 데이터는 공유되지 않는 연속체, 벽으로 둘러싸인 정원, 공개 및 잊어 버릴 곳이 어디입니까? 연구자는 데이터의 세부 사항에 의존합니다. 연구원은 인물 존중, 유익, 정의, 법 및 공익을 존중해야합니다. 이러한 관점에서 보았을 때, 데이터 공유는 독특한 윤리적 수수께끼가 아닙니다. 연구자가 적절한 윤리적 균형을 찾아야하는 연구의 많은 측면 중 하나 일뿐입니다.
일부 비평가들은 일반적으로 데이터 공유에 반대합니다. 제 생각에는 의심의 여지없이 실제적인 위험에 초점을 맞추고 그 이점을 무시하기 때문입니다. 그래서, 위험과 이익에 초점을 맞추기 위해 비유를 제시하고자합니다. 매년 자동차는 수천 명의 사망자를 내고 있지만 운전을 금지하려고하지는 않습니다. 실제로, 금지 운전에 대한 요청은 운전이 많은 훌륭한 것들을 가능하게하기 때문에 어리 석다. 오히려 사회는 운전할 수있는 사람 (예 : 특정 연령이되어야하고 특정 시험을 통과해야 할 필요성)과 운전 방법 (예 : 제한 속도)에 대한 제한을두고 있습니다. 사회에는 또한 이러한 규칙 (예 : 경찰)을 집행하는 직원이 있으며, 경찰을 위반 한 사람들을 처벌합니다. 사회가 운전을 규제하는 데 적용하는 균형 잡힌 사고 방식과 동일한 방식을 데이터 공유에도 적용 할 수 있습니다. 즉, 데이터 공유에 반대하는 절대적 주장을하기보다는 위험을 줄이고 데이터 공유의 이점을 늘리는 방법에 초점을 맞추어 가장 진전을 이룰 것이라고 생각합니다.
결론적으로, 정보 위험은 극적으로 증가했으며, 예측하고 계량하는 것은 매우 어렵습니다. 따라서 모든 데이터가 잠재적으로 식별 가능하고 민감 할 수 있다고 가정하는 것이 가장 좋습니다. 조사하는 동안 정보 위험을 줄이기 위해 연구원은 데이터 보호 계획을 수립하고이를 따를 수 있습니다. 또한 정보 위험으로 인해 연구자가 다른 과학자와 데이터를 공유하는 것을 막을 수는 없습니다.