표현은 대상 인구에 응답자에서 추론을 만들기에 관한 것입니다.
응답자로부터 더 큰 인구로 추론 할 때 발생할 수있는 실수의 종류를 이해하기 위해, 1936 년 미국 대통령 선거의 결과를 예측하려고 시도한 Literary Digest 빨대 설문 조사를 고려해 보겠습니다. 75 년 전에 일어난 일이긴하지만, 오늘날이 연구원은 여전히 연구원을 가르치는 중요한 교훈을 가지고 있습니다.
문학적 다이제스트 (Literary Digest) 는 대중적인 관심사 잡지였으며 1920 년부터는 선거 투표 결과를 예측하기 위해 빨대 여론 조사를 시작했습니다. 이러한 예측을하기 위해 많은 사람들에게 투표 용지를 보내고 반환 된 투표 용지를 간단히 집계합니다. 문학적 다이제스트 는 그들이받은 투표 용지가 "가중치가 조정되거나 해석되지"않았다는 것을 자랑스럽게보고했다.이 절차는 1920 년, 1924 년, 1928 년과 1932 년에 선거의 승자를 정확하게 예측했다. 1936 년 대공황의 한가운데서 문학 다이제스트 는 1000 만 명의 사람들에게 투표 용지를 보냈는데 그 이름은 주로 전화 번호부와 자동차 등록 기록에서 나왔습니다. 그들이 방법론을 설명하는 방법은 다음과 같습니다.
"DIGEST의 부드러운 주행 기계는 30 년의 경험을 신속하게 계산하여 하드 사실에 대한 추측을 줄였습니다 ... 이번 주에는 500 개의 펜으로 하루 25 만개 이상의 주소가 긁혔습니다. 매일 매일 뉴욕의 4 번가 모터 대절 위에있는 큰 방에서 400 명의 직원이 40 개의 도시 블록을 포장하기에 충분할 정도로 백만 장의 인쇄물을 손쉽게 훑어서 주소가 지정된 봉투로 옮깁니다. 매 시간마다, 가장 큰 자신의 우체국 변전소에 세 개의 채터 링 우표 미터기가 봉인되고 흰색 직사각형으로 찍 혔습니다. 숙련 된 우편 직원이 부풀어 오른 우편 봉투로 뒤집었다. 함대 DIGEST 트럭이 우편 열차를 표현하도록 그들을 격려했습니다. . . 다음 주,이 천만 명 중 첫 번째 응답은 표식 된 투표 용지의 유입을 시작하여 3 번 확인되고 확인되며 5 번 교차 분류되고 합산됩니다. 마지막 숫자가 짚고 넘어 가면 과거 경험이 기준이라면 국가는 4 천만명의 실제 투표를 1 %의 소수점 이하에서 알게 될 것입니다. "(1936 년 8 월 22 일)
Literary Digest의 크기에 대한 페티시즘은 오늘날 어떤 "빅 데이터 (big data)"연구원이든 알아볼 수 있습니다. 배분 된 1,000 만 표 중 240 만 표가 반환되었는데, 이는 현재의 정치 조사보다 약 1,000 배 더 큽니다. 이 240 만명의 응답자들로부터 평결은 분명합니다. Alf Landon은 현직 Franklin Roosevelt를 물리 칠 것입니다. 그러나 루즈 벨트는 Landonlide를 압도했다. 어떻게 문학적 다이제스트 가 많은 양의 데이터로 잘못 될 수 있습니까? 우리 샘플링에 대한 현대의 이해는 Literary Digest의 실수를 명확하게 해 주며 장래에 유사한 실수를 피하는 데 도움이됩니다.
표본 추출에 대해 명확하게 생각할 때 우리는 네 가지 집단의 사람들을 고려해야한다 (그림 3.2). 첫 번째 그룹은 대상 인구입니다 . 이것은 연구원이 관심있는 인구로 정의하는 그룹입니다. 문학적 다이제스트 (Literary Digest) 의 경우, 대상 인구는 1936 년 대통령 선거에서 유권자들이었습니다.
대상 인구를 결정한 후 연구원은 표본 추출에 사용할 수있는 사람들의 목록을 개발해야합니다. 이 목록을 샘플링 프레임 이라고하며 프레임 에있는 사람들을 프레임 채우기 라고합니다. 이상적으로, 목표 인구와 프레임 인구는 정확히 같지만 실제로는 그렇지 않습니다. 예를 들어 Literary Digest 의 경우, 프레임 인구는 전화 번호부 및 자동차 등록 기록에서 주로 이름이 올린 1 천만 명의 사람들이었습니다. 대상 모집단과 프레임 모집단의 차이를 범위 오류 라고 합니다 . 커버리지 에러는 그 자체로 문제를 보장하지 않습니다. 그러나 프레임 인구의 사람들이 프레임 인구가없는 대상 인구의 사람들과 체계적으로 다른 경우 범위 편향으로 이어질 수 있습니다. 사실, 문학 다이제스트 설문 조사에서 정확히 무슨 일이 일어났습니다. 그들의 프레임 인구의 사람들은 Alf Landon을 지원할 가능성이 더 많았는데 부분적으로 그들은 부유층 이었기 때문에 (전화와 자동차가 비교적 새롭고 값 비쌌다는 사실을 상기하라. 따라서 Literary Digest 설문 조사에서 커버리지 오류로 인해 커버리지 편향이 발생했습니다.
프레임 모집단을 정의한 후, 다음 단계는 연구자가 표본 모집단 을 선택하는 것입니다 . 이들은 연구원이 인터뷰를 시도 할 사람들입니다. 샘플이 프레임 모집단과 다른 특성을 갖는 경우 샘플링이 샘플링 오류 를 초래할 수 있습니다. 그러나 문학적 다이제스트 실패의 경우 실제로는 샘플링이 없었습니다. 즉, 프레임 인구의 모든 사람과 연락하는 잡지 였으므로 샘플링 오류가 없었습니다. 많은 연구자들이 샘플링 오류에 집중하는 경향이 있습니다. 이는 일반적으로 설문 조사에서보고 된 오류의 한계에 의해 포착 된 유일한 오류입니다. 그러나 문학적 다이제스트 실패는 우리가 모든 오류의 출처 (무작위 및 체계적)를 고려해야 함을 상기시킵니다.
마지막으로 샘플 모집단을 선택한 후 연구원은 모든 구성원과 인터뷰를 시도합니다. 성공적으로 인터뷰 한 사람들을 응답자 라고합니다. 이상적으로 샘플 인구와 응답자는 정확히 같지만 실제로는 응답이 없습니다. 즉, 표본에서 선택된 사람들은 때때로 참여하지 않습니다. 응답하는 사람들이 응답하지 않는 사람들과 다른 경우, 응답이 없는 편견 이있을 수 있습니다. 응답이없는 편향은 Literary Digest 설문 조사에서 두 번째 주요 문제점이었습니다. 투표 용지를받은 사람들 중 24 %만이 응답했으며 랜든을지지했던 사람들이 반응 할 확률이 더 높았다.
Literary Digest 설문 조사는 단지 표현의 아이디어를 소개하는 모범이 아닌, 반복적 인 비유이며, 우연한 샘플링의 위험에 대해 연구자에게 경고합니다. 불행히도, 나는이 이야기에서 많은 사람들이 끌어 낸 교훈이 잘못된 것이라고 생각합니다. 이야기의 가장 일반적인 도덕적 인 것은 연구자가 비 확률 표본 (즉, 참가자 선택을위한 엄격한 확률 기반 규칙이없는 표본)에서 아무것도 배울 수 없다는 것입니다. 그러나이 장의 뒷부분에서 보게 되겠지만, 그것은 옳지 않습니다. 대신이 이야기에는 정말로 두 가지 도덕이 있다고 생각합니다. 도덕은 오늘날과 마찬가지로 1936 년에 사실입니다. 첫째, 많은 양의 데이터가 수집 되어도 좋은 예상치를 보장하지는 않습니다. 일반적으로 응답자가 많으면 추정치의 편차가 줄어들지 만 편향이 감소하지는 않습니다. 많은 데이터를 가지고 연구자는 때로는 잘못된 것을 정확히 추정 할 수 있습니다. 정확하게 부정확 할 수 있습니다 (McFarland and McFarland 2015) . Literary Digest Fiasco의 두 번째 주요 교훈은 연구자가 견본을 만들 때 샘플을 수집하는 방법을 설명해야한다는 것입니다. 다시 말해, Literary Digest 설문 조사의 샘플링 프로세스가 일부 응답자에게 체계적으로 왜곡 되었기 때문에 연구원은 다른 응답자보다 더 많은 응답자에게 더 많은 가중치를 준보다 복잡한 예측 프로세스를 사용해야했습니다. 이 장의 뒷부분에서 무작위 샘플을 통해 더 나은 추정을 할 수있는 가중치 부여 절차 (사후 계층화)를 보여 드리겠습니다.