Đại diện là về suy luận từ các đối tượng của bạn để dân số mục tiêu của bạn.
Để hiểu được các loại lỗi có thể xảy ra khi suy luận từ trả lời khảo sát dân số lớn hơn, chúng ta hãy xem xét các cuộc thăm dò rơm Literary Digest đã cố gắng để dự đoán kết quả của cuộc bầu cử Tổng thống Mỹ năm 1936. Mặc dù nó đã được nhiều hơn so với 75 năm trước đây, sự sụp đổ này vẫn còn có một bài học quan trọng để dạy các nhà nghiên cứu ngày nay.
Literary Digest là một tạp chí nói chung lãi suất phổ biến, và bắt đầu từ năm 1920 họ bắt đầu chạy các cuộc thăm dò rơm để dự đoán kết quả của tổng thống bầu cử. Để thực hiện những dự đoán họ sẽ gửi phiếu bầu cho rất nhiều người, và sau đó chỉ cần kiểm đếm lên các lá phiếu đã được trả lại; Literary Digest tự hào thông báo rằng lá phiếu mà họ nhận được không phải "trọng, điều chỉnh, và cũng không giải thích." Thủ tục này dự đoán một cách chính xác là người chiến thắng của các cuộc bầu cử vào năm 1920, 1924, 1928 và 1932. năm 1936, giữa lúc cuộc Đại suy thoái, Literary Digest gửi phiếu đến 10 triệu người, có tên chủ yếu đến từ danh bạ điện thoại và các hồ sơ đăng ký ô tô. Đây là cách mà họ mô tả phương pháp luận của họ:
"THE của DIGEST chạy trơn tru, di chuyển máy với độ chính xác nhanh chóng của kinh nghiệm ba mươi năm để giảm phỏng đoán cho sự thật cứng. . . .Đây Tuần 500 bút trầy xước ra hơn một phần tư triệu địa chỉ một ngày. Mỗi ngày, trong một phòng lớn ở trên cao Thứ tư Avenue động cơ xé ra từng mảnh, ở New York, 400 công nhân khéo léo trượt một triệu chiếc của ấn phẩm, đủ để mở bốn mươi thành phố khối-vào bì thư gửi [sic]. Mỗi giờ, ở riêng Bưu Substation THE DIGEST'S, ba ầm ầm máy đo bưu chính được niêm phong và đóng dấu các oblongs trắng; nhân viên bưu chính có kỹ năng lộn chúng vào phồng mailsacks; hạm đội DIGEST xe đẩy họ thể hiện qua thư đoàn tàu. . . Tuần tới, các câu trả lời đầu tiên từ mười triệu này sẽ bắt đầu thuỷ triều phiếu đáng kể, để được triple-kiểm tra, xác minh, năm lần xuyên phân loại và tổng cộng lại. Khi con số cuối cùng đã được totted và kiểm tra, nếu kinh nghiệm quá khứ là một tiêu chí, cả nước sẽ biết đến trong một phần nhỏ của 1 phần trăm của phổ thông đầu phiếu thực tế của bốn mươi triệu [cử tri]. "(22 tháng 8 năm 1936)
sùng bái của kích thước của Digest là khả năng nhận biết bất cứ "dữ liệu lớn" nhà nghiên cứu ngày nay. Trong số 10 triệu phiếu phân phối, một tuyệt vời 2,4 triệu phiếu đã trở lại-đó là khoảng hơn 1.000 lần so với các cuộc thăm dò chính trị hiện đại. Từ những 2,4 triệu người được hỏi bản án rất rõ ràng: Literary Digest dự đoán rằng các thách thức Alf Landon được sẽ đánh bại đương kim Tổng thống Franklin Roosevelt. Nhưng, trên thực tế, hoàn toàn ngược lại đã xảy ra. Roosevelt đánh bại Landon trong một vụ lở đất. Làm thế nào Literary Digest có thể đi sai với dữ liệu nhiều như vậy? Sự hiểu biết hiện đại của chúng tôi lấy mẫu làm lỗi Literary Digest rõ ràng và giúp chúng ta tránh sai sót tương tự trong tương lai.
Suy nghĩ rõ ràng về lấy mẫu đòi hỏi chúng ta phải xem xét bốn nhóm người khác nhau (Hình 3.1). Nhóm đầu tiên của con người là mục tiêu dân số; này là nhóm nghiên cứu xác định là dân số của lãi suất. Trong trường hợp của Literary Digest dân số mục tiêu đã được cử tri trong năm 1936 Bầu cử tổng thống. Sau khi quyết định một số mục tiêu, một nhà nghiên cứu tiếp theo cần phải phát triển một danh sách những người có thể được sử dụng để lấy mẫu. Danh sách này được gọi là một khung mẫu và nhân dân về các khung lấy mẫu được gọi là dân số khung. Trong trường hợp của Literary Digest dân số khung là 10 triệu người có tên đến chủ yếu từ danh bạ điện thoại và các hồ sơ đăng ký ô tô. Lý tưởng nhất là các mục tiêu dân số và dân số khung sẽ là giống hệt nhau, nhưng trong thực tế này thường không phải là trường hợp. Sự khác biệt giữa các mục tiêu dân số và dân số khung được gọi là lỗi bảo hiểm. lỗi bảo hiểm không, bởi chính nó đảm bảo các vấn đề. Nhưng, nếu những người trong dân số khung là hệ thống khác nhau từ những người không ở trong dân số khung sẽ có bảo hiểm thiên vị. Lỗi bảo hiểm là người đầu tiên của các sai sót lớn với các cuộc thăm dò Literary Digest. Họ muốn tìm hiểu về các cử tri-đó là mục tiêu dân số nhưng họ đã xây dựng một khung mẫu chủ yếu từ danh bạ điện thoại và đăng ký ô tô, các nguồn đó chiếm số giàu có của họ những người Mỹ có nhiều khả năng để hỗ trợ Alf Landon (nhớ lại rằng cả hai công nghệ này, được phổ biến ngày hôm nay, tương đối mới tại thời điểm đó và rằng Hoa Kỳ đang ở giữa cuộc Đại suy thoái).
Sau khi xác định số khung, bước tiếp theo là cho một nhà nghiên cứu để chọn mẫu dân số; đó là những người mà các nhà nghiên cứu sẽ cố gắng để phỏng vấn. Nếu mẫu có đặc điểm khác nhau so với dân số khung, sau đó chúng tôi có thể giới thiệu lỗi lấy mẫu. Đây là loại lỗi định lượng trong biên độ lỗi mà thường đi kèm với dự toán. Trong trường hợp của sự thất bại Literary Digest, có thực sự là không có mẫu; họ đã cố gắng liên hệ với tất cả mọi người trong dân số khung. Mặc dù không có lỗi lấy mẫu, có rõ ràng vẫn còn lỗi. Điều này làm rõ rằng lợi nhuận của các lỗi thường được báo cáo với các ước tính từ các cuộc điều tra thường sai lạc nhỏ; họ không bao gồm tất cả các nguồn báo lỗi.
Cuối cùng, một nhà nghiên cứu cố gắng phỏng vấn tất cả mọi người trong dân số mẫu. Những người mà phỏng vấn thành công được gọi là người trả lời. Lý tưởng nhất, dân số mẫu và trả lời sẽ là giống hệt nhau, nhưng trong thực tế có không đáp ứng. Đó là, những người được lựa chọn trong mẫu từ chối tham gia. Nếu những người phản ứng khác nhau từ những người không đáp ứng, sau đó có thể có thiên vị không trả lời. Thiên vị không đáp ứng được các vấn đề chính thứ hai với các cuộc thăm dò Literary Digest. Chỉ có 24% trong số những người nhận được một lá phiếu trả lời, và nó bật ra rằng những người ủng hộ Landon có nhiều khả năng để đáp ứng.
Ngoài chỉ là một ví dụ để giới thiệu những ý tưởng của đại diện, các cuộc thăm dò Literary Digest là một dụ ngôn thường được lặp đi lặp lại, cảnh báo các nhà nghiên cứu về sự nguy hiểm của việc lấy mẫu một cách bừa bãi. Thật không may, tôi nghĩ rằng những bài học mà nhiều người rút ra từ câu chuyện này là một sai lầm. Những đạo đức phổ biến nhất của câu chuyện là các nhà nghiên cứu không thể học bất cứ điều gì từ các mẫu không xác suất (tức là, các mẫu không có quy định nghiêm ngặt xác dựa trên việc lựa chọn người tham gia). Nhưng, như tôi sẽ trình bày sau trong chương này, đó không phải là hoàn toàn đúng. Thay vào đó, tôi nghĩ có hai đạo đức để câu chuyện này; đạo đức được như đúng ngày hôm nay như trong năm 1936. Đầu tiên, một số lượng lớn các dữ liệu thu thập được tuỳ tiện không đảm bảo sẽ ước lượng tốt. Thứ hai, các nhà nghiên cứu cần tài khoản cho dữ liệu của họ được thu thập như thế nào khi họ đang lập dự toán từ nó. Nói cách khác, bởi vì quá trình thu thập dữ liệu trong các cuộc thăm dò Literary Digest đã lệch có hệ thống đối với một số người trả lời, các nhà nghiên cứu cần phải sử dụng một quá trình lập dự toán phức tạp hơn mà trọng lượng một số người được hỏi nhiều hơn những người khác. Sau đó trong chương này, tôi sẽ chỉ cho bạn một trọng như thủ tục hậu sự phân tầng-có thể cho phép bạn thực hiện ước tính tốt hơn với các mẫu không xác suất.