2.3.1.1

대형 데이터 세트는 끝에 수단; 그들은 자신의 말 없습니다.

빅 데이터의 세 가지 좋은 특성의 첫 번째는 가장 설명 :이 데이터입니다. 많은 사람들이, 사람마다 많은 정보, 또는 시간에 많은 관측 이러한 데이터 소스는 세 가지 방법에 큰이 될 수 있습니다. 큰 데이터 집합을 갖는 것은 드문 이벤트를 공부 작은 차이를 검출하고, 관측 데이터에서 인과 관계 추정을 연구 측정 이질성의 일부 특정 유형의 수 있습니다. 또한 sloppiness 특정 유형을 초래할 것으로 보인다.

크기가 특히 유용하는 첫 번째 것은 특정 하위 그룹에 대한 견적을 만들기 위해 평균 이상으로 움직이고있다. 예를 들어 게리 킹, 제니퍼 팬, 그리고 몰리 로버츠 (2013) 중국의 소셜 미디어 게시물이 정부에 의해 검열 될 확률을 측정 하였다. 자체 삭제이 평균 확률은 정부가 어떤 게시물이 아닌 다른 사람을 검열 이유를 이해하는 데 매우 도움이되지 않습니다. 자신의 데이터 세트가 1100 만 게시물을 포함하기 때문에 그러나, 왕과 동료는 85 별도의 카테고리 (베이징 예를 들어, 포르노, 티베트 및 교통)에 대한 게시물에 대한 검열의 가능성에 대한 추정치를 생산했다. 다른 카테고리에있는 게시물에 대한 검열의 가능성을 비교함으로써, 그들은 정부가 게시물의 특정 유형을 검열하는 방법과 이유에 대한 자세한 내용을 이해 할 수 있었다. 11000 게시물 (보다​​는 11,000,000 게시물)과 함께, 그들은 이러한 범주 별 추정치를 생산할 수 없었을 것이다.

둘째로, 크기는 드문 이벤트의 공부에 특히 유용합니다. 예를 들어, 고엘 및 동료 (2015) 트윗이 바이러스 갈 수있는 여러 가지 방법을 연구하고 싶었다. 다시 트윗의 큰 폭포는 극히 드문-에 대한 하나의 때문에 3000 그들은 그들의 분석을 위해 충분히 큰 폭포를 찾기 위해 억 개 이상의 트윗을 연구 할 필요가 있었다.

셋째, 대규모 데이터 세트는 작은 차이를 감지하는 연구자 수 있습니다. 사실, 업계에서 빅 데이터에 초점의 대부분은 이러한 작은 차이에 관한 것입니다 : 안정적으로 추가 수익에 수백만 달러로 변환 할 수 있습니다 광고에 1 %와 1.1 % 클릭률의 차이를 검출하는 단계를 포함한다. 어떤 과학적인 설정에서 이러한 작은 차이는 (가 통계적으로 유의 한 경우에도) 중요한 특정되지 않을 수 있습니다. 집계에서 볼 때, 일부 정책 설정에서, 이러한 작은 차이가 중요하게 될 수 있습니다. 예를 들어, 두 개의 공중 보건 개입 한 다음 추가 삶의 수천을 절약 끝낼 수있는보다 효과적인 개입으로 전환, 약간 더 효과적인 다른 것보다이 경우되고 있습니다.

마지막으로, 대용량 데이터 세트가 크게 관측 데이터에서 인과 관계 추정을 할 수있는 능력을 향상시킬 수 있습니다. 대규모 데이터 세트는 근본적으로, 관측 데이터에서 인과 추론을 일치하는 자연 실험-두 가지 기술 연구원은 관측에서 인과 주장하기 위해 개발 한 데이터가-모두 매우 큰 데이터 세트의 혜택과 문제를 변경하지 않지만. 나는 설명하고 내가 연구 전략을 설명 할 때이 장의 뒷부분에서 더 자세히에서이 주장을 설명합니다.

하기 위해서는 큰 규모는 일반적으로 올바르게 사용 좋은 호텔입니다 만, 나는 위해서는 큰 규모는 일반적으로 개념적 오류에 이르게 것으로 나타났습니다. 어떤 이유로,하기 위해서는 큰 규모는 데이터가 생성 된 방법을 무시하는 연구자를 이끌 것으로 보인다. 하기 위해서는 큰 규모가 임의의 오류에 대해 걱정할 필요가 감소하지 않지만, 실제로 체계적인 오류에 대해 걱정할 필요가, 내가 그 아래에 더에 대해 설명합니다 오류의 종류의 데이터가 생성 및 수집 방법에 편견에서 발생 증가한다. 작은 데이터 세트에서 임의의 오류 및 체계적 오류는 모두 중요 할 수 있지만 큰 데이터 세트 임의의 오류가 떨어져 평균적이고 체계적인 오류가 지배 할 수있다. 잘못된 물건의 정확한 추정치를 얻기 위해 자신의 큰 데이터 세트를 사용하여 종료됩니다 체계적 오류에 대해 생각하지 않습니다 연구원; 그들은 정확하게 정확하지 않을 것이다 (McFarland and McFarland 2015) .