Đại diện là về suy luận từ các đối tượng của bạn để dân số mục tiêu của bạn.
Để hiểu được loại lỗi có thể xảy ra khi suy luận từ người trả lời đến số lượng lớn hơn, chúng ta hãy xem xét cuộc thăm dò ý kiến của văn học Thổ Nhĩ Kỳ đã cố gắng dự đoán kết quả của cuộc bầu cử tổng thống Mỹ năm 1936. Mặc dù nó đã xảy ra cách đây hơn 75 năm, nhưng sự thất bại này vẫn có một bài học quan trọng để dạy cho các nhà nghiên cứu ngày nay.
Literary Digest là một tạp chí quan tâm phổ biến, và bắt đầu vào năm 1920 họ bắt đầu chạy các cuộc thăm dò rơm để dự đoán kết quả của cuộc bầu cử tổng thống. Để thực hiện những dự đoán này, họ sẽ gửi lá phiếu cho nhiều người và sau đó chỉ cần kiểm phiếu các lá phiếu đã được trả lại; Văn học này tự hào đã báo cáo rằng các lá phiếu mà họ nhận được không phải là “trọng số, điều chỉnh, hay giải thích.” Thủ tục này đã dự đoán chính xác những người thắng cuộc trong các cuộc bầu cử năm 1920, 1924, 1928 và 1932. Năm 1936, giữa cuộc Đại suy thoái, Văn học Digest đã gửi lá phiếu đến 10 triệu người, có tên chủ yếu đến từ các danh bạ điện thoại và hồ sơ đăng ký ô tô. Đây là cách họ mô tả phương pháp luận của họ:
“Máy chạy mượt mà của DIGEST di chuyển với độ chính xác nhanh chóng trong ba mươi năm kinh nghiệm để giảm sự phỏng đoán về các sự kiện khó khăn… Tuần này, 500 chiếc bút trầy xước hơn một phần tư triệu địa chỉ một ngày. Mỗi ngày, trong một căn phòng lớn ở phía trên đại lộ Fourth Avenue, ở New York, 400 công nhân khéo léo trượt một triệu mẩu giấy in - đủ để mở bốn mươi khối thành phố - vào các phong bì địa chỉ [sic]. Mỗi giờ, trong trạm Sub office của DIGEST, ba máy đo đếm bưu chính huyên thuyên được đóng dấu và đóng dấu các hình chữ nhật màu trắng; nhân viên bưu điện có tay nghề cao lật chúng vào các thư; hạm đội xe tải DIGEST thúc đẩy họ thể hiện các chuyến tàu điện tử. . . Tuần tới, các câu trả lời đầu tiên từ mười triệu sẽ bắt đầu triều lên của lá phiếu được đánh dấu, để được kiểm tra ba lần, xác minh, năm lần phân loại chéo và tổng cộng. Khi con số cuối cùng đã được kiểm tra và kiểm tra, nếu kinh nghiệm quá khứ là một tiêu chí, quốc gia sẽ biết trong vòng một phần nhỏ của 1 phần trăm phiếu bầu phổ biến thực sự của bốn mươi triệu [cử tri]. ”(22 tháng 8 năm 1936)
Sự kích thích về kích thước văn học của Digest ngay lập tức có thể nhận ra ngay lập tức đối với bất kỳ nhà nghiên cứu “dữ liệu lớn” nào ngày nay. Trong số 10 triệu lá phiếu được phân phát, 2,4 triệu đã được trả lại đáng kinh ngạc — lớn hơn khoảng 1.000 lần so với các cuộc thăm dò chính trị hiện đại. Từ 2,4 triệu người trả lời, bản án đã rõ ràng: Alf Landon sẽ đánh bại Franklin Roosevelt đương nhiệm. Nhưng, trên thực tế, Roosevelt đã đánh bại Landon trong một vụ lở đất. Làm thế nào có thể văn học Digest đi sai với rất nhiều dữ liệu? Sự hiểu biết hiện đại về lấy mẫu của chúng tôi làm cho những sai lầm của Văn học thông minh rõ ràng và giúp chúng tôi tránh những sai lầm tương tự trong tương lai.
Suy nghĩ rõ ràng về lấy mẫu đòi hỏi chúng ta phải xem xét bốn nhóm người khác nhau (hình 3.2). Nhóm thứ nhất là dân số mục tiêu ; đây là nhóm mà nhà nghiên cứu xác định là dân số quan tâm. Trong trường hợp tiêu chuẩn văn học , dân số mục tiêu là cử tri trong cuộc bầu cử tổng thống năm 1936.
Sau khi quyết định dân số mục tiêu, một nhà nghiên cứu cần phát triển một danh sách những người có thể được sử dụng để lấy mẫu. Danh sách này được gọi là một khung lấy mẫu và những người trên đó được gọi là dân số khung . Lý tưởng nhất, dân số mục tiêu và dân số khung hình sẽ giống hệt nhau, nhưng trong thực tế, điều này thường không đúng. Ví dụ, trong trường hợp tiêu chuẩn văn học , dân số khung là 10 triệu người có tên chủ yếu đến từ danh bạ điện thoại và hồ sơ đăng ký ô tô. Sự khác biệt giữa dân số mục tiêu và dân số khung được gọi là lỗi bảo hiểm . Lỗi bảo hiểm không, do chính nó, vấn đề bảo lãnh. Tuy nhiên, nó có thể dẫn đến độ lệch bảo hiểm nếu những người trong dân số khung có hệ thống khác với những người trong dân số mục tiêu không nằm trong dân số khung. Điều này, trên thực tế, chính xác những gì đã xảy ra trong cuộc thăm dò văn học . Những người trong khung dân số của họ có xu hướng có nhiều khả năng hỗ trợ Alf Landon, một phần vì họ giàu hơn (nhớ lại rằng cả điện thoại và ô tô là tương đối mới và đắt tiền vào năm 1936). Vì vậy, trong cuộc thăm dò văn học Digest , lỗi bảo hiểm đã dẫn đến độ lệch bảo hiểm.
Sau khi xác định dân số khung , bước tiếp theo là để một nhà nghiên cứu chọn dân số mẫu ; đây là những người mà nhà nghiên cứu sẽ cố gắng phỏng vấn. Nếu mẫu có các đặc tính khác với số lượng khung, thì lấy mẫu có thể đưa ra lỗi lấy mẫu . Tuy nhiên, trong trường hợp của Fiasco Literary Digest , trên thực tế không có lấy mẫu — tạp chí liên hệ với mọi người trong khung dân số — và do đó không có lỗi lấy mẫu. Nhiều nhà nghiên cứu có xu hướng tập trung vào lỗi lấy mẫu — đây thường là loại lỗi duy nhất được ghi lại bởi sai số báo cáo trong các cuộc điều tra - nhưng sự thất bại Văn học tiêu hóa nhắc nhở chúng ta rằng chúng ta cần xem xét tất cả các nguồn lỗi, cả ngẫu nhiên và có hệ thống.
Cuối cùng, sau khi chọn một quần thể mẫu, một nhà nghiên cứu cố gắng phỏng vấn tất cả các thành viên của nó. Những người được phỏng vấn thành công được gọi là người trả lời . Lý tưởng nhất là dân số mẫu và người trả lời sẽ giống hệt nhau, nhưng trong thực tế không có phản hồi. Đó là, những người được chọn trong mẫu đôi khi không tham gia. Nếu những người trả lời khác với những người không phản hồi, thì có thể có sự thiên vị không phản hồi . Sự thiên vị không phản hồi là vấn đề chính thứ hai trong cuộc thăm dò văn học . Chỉ có 24% số người nhận được lá phiếu trả lời, và hóa ra là những người ủng hộ Landon có nhiều khả năng trả lời hơn.
Ngoài việc chỉ là một ví dụ để giới thiệu các ý tưởng đại diện, cuộc thăm dò văn học Digest là một câu chuyện ngụ ngôn lặp lại, cảnh báo các nhà nghiên cứu về sự nguy hiểm của việc lấy mẫu ngẫu nhiên. Thật không may, tôi nghĩ rằng bài học mà nhiều người rút ra từ câu chuyện này là sai lầm. Lý thuyết phổ biến nhất của câu chuyện là các nhà nghiên cứu không thể học bất cứ điều gì từ các mẫu không xác suất (ví dụ, các mẫu không có quy tắc dựa trên xác suất nghiêm ngặt để chọn người tham gia). Nhưng, như tôi sẽ hiển thị sau trong chương này, điều đó không hoàn toàn đúng. Thay vào đó, tôi nghĩ rằng thực sự có hai đạo đức cho câu chuyện này; đạo đức ngày nay đúng như năm 1936. Đầu tiên, một lượng lớn dữ liệu được thu thập ngẫu nhiên sẽ không đảm bảo một ước tính tốt. Nói chung, có một số lượng lớn người trả lời giảm phương sai ước tính, nhưng nó không nhất thiết làm giảm độ lệch. Với rất nhiều dữ liệu, các nhà nghiên cứu đôi khi có thể ước tính chính xác điều sai; chúng có thể không chính xác (McFarland and McFarland 2015) . Bài học chính thứ hai từ thất bại văn học tiêu hóa là các nhà nghiên cứu cần phải tính toán làm thế nào mẫu của họ đã được thu thập khi thực hiện ước tính. Nói cách khác, bởi vì quá trình lấy mẫu trong cuộc thăm dò Văn học đã bị lệch một cách có hệ thống đối với một số người trả lời, các nhà nghiên cứu cần sử dụng một quá trình ước lượng phức tạp hơn để cân nhắc một số người được hỏi nhiều hơn những người khác. Ở phần sau của chương này, tôi sẽ chỉ cho bạn một quy trình trọng số như vậy — phân tầng sau — có thể cho phép bạn đưa ra các ước tính tốt hơn từ các mẫu ngẫu nhiên.