기업과 정부가 가지고있는 정보의 일부를 구분합니다.
건강 보험 회사는 고객이받은 의료에 대한 자세한 정보를 가지고 있습니다. 이 정보는 건강에 관한 중요한 연구에 사용될 수 있지만, 공개되면 감정적 인 해로움 (예 : 당황) 또는 경제적 손해 (예 : 고용 상실)로 이어질 수 있습니다. 많은 다른 큰 데이터 소스에도 민감한 정보가 있으며, 이는 종종 액세스 할 수없는 이유의 일부입니다.
안타깝게도 넷플릭스 상 (Netflix Prize)에서 설명한 것처럼 실제로 어떤 정보가 실제로 민감한 지 (Ohm 2015) 결정하는 것은 매우 까다로운 작업입니다. 5 장에서 설명 하겠지만 2006 년 Netflix는 약 50 만 명의 회원이 제공 한 1 억 회의 영화 등급을 공개했으며 전 세계 사람들이 Netflix의 영화 추천 기능을 향상시킬 수있는 알고리즘을 제출 한 공개 통화를했습니다. Netflix는 데이터를 공개하기 전에 이름과 같은 개인 식별 정보를 제거했습니다. 그러나 데이터가 공개 된 지 불과 2 주 만인 Arvind Narayanan과 Vitaly Shmatikov (2008) 는 특정 사람들의 영화 평점에 대해 배우기 위해 트릭을 사용하여 배울 수 있음을 보여주었습니다. 6 장에서 설명 하겠지만 공격자가 사람의 영화 평점, 아직 여기에 민감한 것 같지 않습니다. 일반적으로 데이터 세트의 50 만 명 중 일부는 영화 등급이 민감하다고 생각할 수 있습니다. 사실, 데이터의 공개와 재발견에 대응하여, 벽장을 가둔 레즈비언 여성이 Netflix에 대한 집단 소송에 참여했습니다. 이 소송에서 문제가 어떻게 표현되었는지 (Singel 2009) :
"[...] 등급 및 등급 데이터에는 매우 개인적이고 민감한 성격의 정보가 포함되어 있습니다. 회원의 영화 데이터는 성욕, 정신 질환, 알코올 중독에서의 회복, 근친상간, 신체적 학대, 가정 폭력, 간통죄 및 강간 등의 희생을 포함하여 Netflix 회원의 개인적인 관심사 및 / 또는 다양한 개인적인 문제로 고심합니다.
이 예는 일부 사람들이 양성 데이터베이스로 보이는 것의 민감한 부분이라고 생각하는 정보가있을 수 있음을 보여줍니다. 또한 연구자들이 민감한 데이터 식별을 보호하기 위해 사용하는 주요 방어 방법이 놀라운 방법으로 실패 할 수 있음을 보여줍니다. 이 두 가지 아이디어는 6 장에서보다 자세하게 전개된다.
민감한 데이터에 대해 염두에 두어야 할 마지막 사항은 사람들의 동의없이 수집하는 것이 특별한 해를 입지 않더라도 윤리적 인 문제를 제기하는 것입니다. 동의하지 않고 샤워를하는 사람을 보는 것이 개인의 사생활을 침해하고 민감한 정보를 수집하며, 민감한 내용을 결정하는 것이 얼마나 힘든지를 기억하는 것처럼, 개인의 동의없이 잠재적 인 개인 정보 보호 문제를 야기 할 수 있습니다. 6 장의 프라이버시에 관한 질문으로 돌아가겠습니다.
결론적으로, 정부 및 비즈니스 관리 기록과 같은 큰 데이터 소스는 일반적으로 사회 연구 목적으로 생성되지 않습니다. 오늘날의 큰 데이터 소스, 그리고 내일의 가능성이있는 데이터 소스는 10 가지 특성을 갖는 경향이 있습니다. 일반적으로 연구에 유용하다고 여겨지는 많은 속성은 디지털 시대의 사실에서 비롯된 것으로, 이전에는 불가능했던 규모로 데이터를 수집 할 수 있습니다. 그리고 일반적으로 연구에 불만족스럽게 여겨지는 속성들 - 불완전하고, 접근 할 수없고, 대표성이없고, 표류하고, 알고리즘 적으로 혼란스럽고, 접근하기 어렵고, 더럽고 민감한 - 많은 사람들이이 데이터가 연구자들을 위해 연구자들에 의해 수집되지 않았다는 사실로부터옵니다. 지금까지 정부와 비즈니스 데이터를 함께 이야기했지만 두 가지 사이에는 몇 가지 차이점이 있습니다. 내 경험에 비추어 볼 때, 정부 데이터는 비 대표성이 적고, 알고리즘 적으로 혼란스럽지 않으며, 덜 표류하는 경향이있다. 다른 한편으로는, 비즈니스 관리 기록은보다 항상 존재하는 경향이 있습니다. 이 10 가지 일반적인 특성을 이해하는 것은 큰 데이터 소스로부터 학습하는 데 도움이되는 첫 번째 단계입니다. 이제 우리는이 데이터와 함께 사용할 수있는 전략을 조사합니다.