2.3.2.3 비 대표

비 대표성의 두 소스는 다른 집단과 다른 사용 패턴입니다.

빅 데이터를 체계적으로 두 가지 주요 방법으로 편향되는 경향이있다. 이 분석의 모든 종류의 문제가 발생할 필요는없고, 일부 분석 것이 중요한 결함이 될 수있다.

체계적인 바이어스의 제 1 소스는 캡처 된 사람들이 일반적으로 모든 사람의 전체 우주 또는 특정 집단에서 무작위 표본도 있다는 것입니다. 예를 들어, 트위터에 미국인들은 미국의 무작위 표본 수 없습니다 (Hargittai 2015) . 체계적인 바이어스의 두 번째 소스는 많은 빅 데이터 시스템이 동작을 캡처 할 수 있으며, 어떤 사람들은 다른 사람들보다 더 많은 작업을 기여한다. 예를 들어, 트위터에 어떤 사람들은 다른 사람보다 배 이상 트윗 수백 기여한다. 따라서, 특정 플랫폼의 이벤트는 플랫폼 자체보다 특정 하위 그룹의 이제까지 더 많이 반사 될 수 있습니다.

일반적으로 연구자들은 그들이 가지고있는 데이터에 대해 많이 알고 싶어요. 하지만, 빅 데이터의 비 대표성 부여, 또한 당신의 생각을 뒤집어 도움이됩니다. 당신은 또한 당신이 가지고 있지 않은 데이터에 대해 많이 알 필요가있다. 만약이없는 데이터가 있습니까 데이터로부터 체계적으로 상이한 경우 특히 그러하다. 당신은 개발 도상국의 휴대 전화 회사의 통화 기록이있는 경우 예를 들어, 당신은 당신의 데이터 세트에있는 사람들에 대한뿐만 아니라 휴대 전화를 소유하고 너무 가난 수있는 사람들에 대해 단지 생각해야한다. 또한, 제 3 장에서 우리는 가중치가 아닌 대표 데이터에서 더 나은 견적을 만들기 위해 연구를 활성화 할 수있는 방법에 대해 알아 보겠습니다.