2.3.2.7 민감한

기업과 정부가 가지고있는 정보의 일부를 구분합니다.

건강 보험 회사들은 고객이받은 의료 서비스에 대한 정보를 자세히 설명했다. 이 정보는 건강에 관한 중요한 연구에 사용될 수 있지만, 공개 된 경우 잠재적으로 정신적 피해 (예를 들어, 당황), 경제적 피해 (고용의 예를 들면, 손실)가 발생할 수 있습니다. 멀리 독특한, 많은 큰 데이터 소스에서 민감한 정보가 있습니다. 이 정보의 민감한 성격은 큰 데이터 소스 (전술) 자주 액세스 할 수없는 이유의 일부입니다.

연구자들은 이러한 상황에 대처하기 위해 시도하는 한 가지 방법은 민감한 정보가 디 식별 데이터 세트이다. 하지만, 6 장 (윤리) 심각하게 널리 사회 과학자 및 데이터 과학자 모두에 의해 평가되지 않은 방법으로 제한이 방법의 세부 사항에 표시됩니다있다.

결론적으로, 오늘 (내일)의 빅 데이터 소스는 일반적으로 열 특성을 가지고있다. 좋은 특성-큰, 항상에, 그리고 많은 디지털 시대의 기업에 사실에서 비 반응성-와서 정부는 이전에 불가능했던 규모에서 데이터를 수집 할 수 있습니다. 그리고, 나쁜 속성 - 불완전, 액세스, 비 대표의 많은, 알고리즘, 접근 할 수없는 더러운, 민감한-오는 데이터를 연구자에 대한 연구에 의해 수집되지 않는다는 사실에서, 혼동 표류. 이해 이러한 특성은 빅 데이터로부터 학습에 필요한 첫 번째 단계입니다. 그리고, 지금 우리는 우리가이 데이터를 사용할 수있는 전략을 조회십시오.