표현은 대상 인구에 응답자에서 추론을 만들기에 관한 것입니다.
더 큰 인구 응답자로부터 추론 할 때 발생할 수있는 오류의 종류를 이해하기 위해서는,의는 1936 년 미국 대통령 선거의 결과를 예측하기 위해 노력 문학 다이제스트 짚으로 설문 조사를 생각해 보자. 그것은 75 년 전이지만,이 사태는 오늘날 연구자를 가르 칠 수있는 중요한 교훈이있다.
문학 다이제스트 인기 일반 관심 잡지, 그리고 1920 년에 시작하는 그들은 대통령 선거의 결과를 예측하기 위해 짚으로 설문 조사를 실행하기 시작했다. 그들은 많은 사람들에게 투표 용지를 전송하고 단순히 반환 된 투표 용지를 집계 것이다 이러한 예측을 확인하려면, 문학 다이제스트 자랑스럽게 그들이받은 투표 용지는 둘 다 "., 가중치 조정도 해석"이 절차가 제대로 우승자를 예측되지 않았 음을보고 1920, 1924, 1928 및 1932 1936 년에 선거의, 대공황의 중간에, 문학 다이제스트는 이름이 주로 전화 번호부와 자동차 등록 기록에서 온 천만명에 투표 용지를 발송. 여기에 그들의 방법을 설명하는 방법은 다음과 같습니다
"30 년 경험의 신속한 정밀 다이제스트의 원활한 실행 기계 이동 하드 사실에 대한 추측을 줄일 수 있습니다. . . .This 주 500 펜은 더 만 주소의 분기 하루보다 밖으로 긁힌. 매일, 뉴욕에서 모터-이 리본 제 4 도로 위의 높은 좋은 방에서, 400 노동자 솜씨 좋게 문제-충분히 마흔 도시 블록-에 해결 봉투 [원문]을 포장하는 인쇄의 백만 조각을 밀어 넣습니다. 모든 시간은 DIGEST 자신의 우체국 변전소에서 세 채터 우표 계량 기계 밀봉 흰색 oblongs을 각인; 숙련 된 우편 직원 mailsacks을 불룩로를 뒤집어; 함대 DIGEST 트럭들이 메일 열차를 표현주었습니다. . . 다음 주, 다음 천만의 첫 번째 대답은 표시된 투표 용지 들어오는 밀물이 시작됩니다 트리플 검사, 다섯 번 교차 분류 확인과 합계 될 수 있습니다. 마지막 그림이 totted 및 확인되면 과거의 경험이 기준의 경우, 국가는이 1 % 사천만 [유권자]의 실제 인기 투표의 일부분 이내 알게 될 것이다. "(1936 년 8 월 22)
크기의 다이제스트의들의 취향은 "빅 데이터"연구원에 오늘 즉시 인식 할 수있다. 1000 만 투표 용지가 배포 중, 놀라운 240 만 투표 용지가 반환-그했다 대략 현대 정치 여론 조사보다 1,000 배입니다. 이 240 만 응답자에서 평결은 분명했다 : 문학 다이제스트는 도전자 알프 랜든은 현 프랭클린 루즈 벨트를 이길 거라고 예상했다. 그러나, 사실은, 정반대가 발생했습니다. 루즈 벨트는 산사태에 랜든를 격파했다. 어떻게 문학 다이제스트는 너무 많은 데이터가 잘못 될 수 있을까? 샘플링 우리의 현대적인 이해는 문학 다이제스트의 오류가 명확하게 우리가 미래에 유사한 오류을 방지 할 수 있습니다.
샘플링에 대해 명확하게 생각하는 사람들의 네 가지 그룹 (그림 3.1)을 고려하는 우리를 필요로한다. 사람의 첫번째 그룹은 표적 집단이고; 이 연구 관심 집단으로 정의하는 그룹이다. 문학 다이제스트의 경우 대상 인구는 1936 년 대통령 선거에서 유권자했다. 표적 집단을 결정 후, 연구자는 다음 샘플링을 위해 사용될 수있는 사용자의 목록을 개발할 필요가있다. 이 목록은 샘플링 프레임이라고 샘플링 프레임 인구는 프레임 모집단이라고한다. 문학 다이제스트의 경우 프레임 인구 이름이 전화 번호부 자동차 등록 레코드에서 주로 제공된 천만명이다. 이상적 표적 집단 프레임 인구 똑같은 것이지만, 실제로 이것은 종종 그렇지 않다. 대상 인구와 프레임 인구의 차이점은 적용 범위의 오류라고합니다. 범위 오류는 그 자체로 문제를 보장하지 않습니다. 그러나, 프레임 인구에있는 사람들이 사람들 체계적으로 다른 경우가 아닌 프레임 인구 커버리지 바이어스가있을 것이다. 범위 오류가 문학 다이제스트 설문 조사와 주요 결함의 첫번째이었다. 그들은 유권자-이었다에 대해 배우고 싶었다 자신의 목표 인구하지만 그들은 전화 번호부와 자동차 레지스트리, 소스에서 주로 샘플링 프레임을 구성 부유 통해 표현 된 것이이 기술의 두 것을 알프 랜던 (리콜을 지원할 가능성이 더 높았다 미국인, 공통되는 오늘날,시 등) 미국이 대공황의 와중에 있다는 비교적 새로운 하였다.
프레임 인구를 형성 한 후, 다음 단계는 샘플 집단을 선택하기위한 연구이고; 이러한 연구자가 인터뷰를 시도합니다 사람들이다. 샘플 프레임 인구 상이한 특성을 가지고 있다면, 우리는 샘플링 에러를 도입 할 수있다. 이것은 일반적으로 추정 함께 오류의 여백에 정량 오류의 일종이다. 문학 다이제스트 실패의 경우, 실제로는 어떤 샘플이 없었다; 그들은 프레임 인구에 모두 연락을 시도했다. 어떠한 샘플링 에러가 없다고하더라도, 아직 분명 오류가 있었다. 이것은 일반적으로 설문 조사에서 추정하여보고 된 오류의 여백은 일반적으로 오해 작은 것을 명확하게; 그들은 오류의 모든 소스가 포함되어 있지 않습니다.
마지막으로, 연구원은 샘플 인구에있는 모든 사람을 인터뷰하려고 시도합니다. 성공적으로 인터뷰를하는 사람들은 응답자이라고합니다. 이상적으로, 샘플 모집단 및 응답자 동일해야하지만, 실제로는 비 응답이있다. 즉, 샘플에서 선택한 사람들이 참여하기를 거부한다. 응답 사람들이 응답하지 않는 사람들 상이한 경우 무응답 편향이있을 수있다. 비 응답 바이어스는 문학 다이제스트 설문 조사와 두 번째 큰 문제였다. 투표 용지를받은 사람의 24 %가 응답, 그리고 랜든을 지원하는 사람들이 응답 할 가능성이 있다고 밝혀졌다.
단지 표현의 아이디어를 소개하는 예 인을 넘어, 문학 다이제스트 설문 조사는 우연한 샘플링의 위험성에 대한 연구를 경고하고, 자주 반복 비유입니다. 불행하게도, 나는 많은 사람들이이 이야기에서 그리는 수업이 잘못된 일이라고 생각합니다. 이야기의 가장 일반적인 도덕적 연구자들은 (참가자를 선택하는 엄격한 확률 기반 규칙없이 즉, 샘플) 비 확률 샘플로부터 아무것도 배울 수 없다는 것입니다. 나중에이 장에서 보여주지 그러나, 그것은 매우 옳지 않아. 대신에, 나는이 이야기에 두 도덕이 정말 있다고 생각; 그들은 1936 년 처음이었다 오늘로 해당 도덕은 우연히 수집 된 데이터의 많은 양의 좋은 견적을 보장하지 않습니다. 둘째, 연구자들은 그것에서 추정을 할 때 자신의 데이터를 수집하는 방법을 설명합니다. 문학 다이제스트 여론 조사 데이터 수집 프로세스 체계적 일부 응답자 편중 때문에 즉, 연구자들은 다른 것들보다 일부 응답자 그 가중치보다 더 복잡한 추정 프로세스를 사용할 필요가있다. 이 장의 뒷부분에, 나는 당신이 하나의 가중 프로 시저 사후 층화 - 비 확률 표본과 더 나은 예측을 할 수 있도록 할 수 있습니다 게재됩니다.