Trong phụ lục này, tôi sẽ mô tả một số ý tưởng từ chương theo một dạng toán học hơi hơn. Mục tiêu ở đây là giúp bạn cảm thấy thoải mái với ký pháp và khung toán học được các nhà nghiên cứu khảo sát sử dụng để bạn có thể chuyển sang một số tài liệu kỹ thuật khác được viết trên các chủ đề này. Tôi sẽ bắt đầu bằng cách giới thiệu lấy mẫu xác suất, sau đó chuyển sang lấy mẫu xác suất với nonresponse, và cuối cùng, lấy mẫu không xác suất.
Lấy mẫu xác suất
Là một ví dụ đang chạy, chúng ta hãy xem xét mục tiêu ước tính tỷ lệ thất nghiệp ở Hoa Kỳ. Cho \(U = \{1, \ldots, k, \ldots, N\}\) là số lượng đích và để \(y_k\) bằng giá trị của biến kết quả cho người \(k\) . Trong ví dụ này \(y_k\) là liệu người \(k\) có bị thất nghiệp hay không. Cuối cùng, hãy để \(F = \{1, \ldots, k, \ldots, N\}\) là số lượng khung hình, vì mục đích đơn giản được giả định là giống với số lượng đích.
Một thiết kế lấy mẫu cơ bản là lấy mẫu ngẫu nhiên đơn giản mà không cần thay thế. Trong trường hợp này, mỗi người đều có khả năng được đưa vào mẫu \(s = \{1, \ldots, i, \ldots, n\}\) . Khi dữ liệu được thu thập với thiết kế lấy mẫu này, một nhà nghiên cứu có thể ước tính tỷ lệ thất nghiệp dân số với ý nghĩa mẫu:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
trong đó \(\bar{y}\) là tỷ lệ thất nghiệp trong dân số và \(\hat{\bar{y}}\) là ước tính tỷ lệ thất nghiệp ( \(\hat{ }\) thường là được sử dụng để chỉ ra một bộ ước lượng).
Trong thực tế, các nhà nghiên cứu hiếm khi sử dụng lấy mẫu ngẫu nhiên đơn giản mà không cần thay thế. Vì nhiều lý do khác nhau (một trong số đó sẽ mô tả trong một thời điểm), các nhà nghiên cứu thường tạo ra các mẫu có xác suất không đồng đều. Ví dụ, các nhà nghiên cứu có thể chọn người ở Florida với xác suất cao hơn bao gồm những người ở California. Trong trường hợp này, trung bình mẫu (eq. 3.1) có thể không phải là một ước tính tốt. Thay vào đó, khi có xác suất không đồng đều, các nhà nghiên cứu sử dụng
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
trong đó \(\hat{\bar{y}}\) là ước tính tỷ lệ thất nghiệp và \(\pi_i\) là xác suất bao gồm của người đó \(i\) . Sau thực hành tiêu chuẩn, tôi sẽ gọi bộ ước lượng theo phương trình. 3.2 ước tính Horvitz-Thompson. Bộ ước lượng Horvitz-Thompson cực kỳ hữu ích vì nó dẫn đến các ước lượng không thiên vị cho bất kỳ thiết kế lấy mẫu xác suất nào (Horvitz and Thompson 1952) . Bởi vì bộ ước lượng Horvitz-Thompson xuất hiện rất thường xuyên, rất hữu ích khi nhận thấy rằng nó có thể được viết lại thành
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
nơi \(w_i = 1 / \pi_i\) . Như eq. 3,3 tiết lộ, ước lượng Horvitz-Thompson là một mẫu có trọng số có nghĩa là các trọng số có liên quan nghịch với xác suất lựa chọn. Nói cách khác, một người ít có khả năng được đưa vào mẫu, trọng lượng càng nhiều người nên có trong ước tính.
Như đã mô tả ở trên, các nhà nghiên cứu thường lấy mẫu những người có xác suất không đồng đều. Một ví dụ về một thiết kế có thể dẫn đến xác suất không đồng đều của việc đưa vào là lấy mẫu phân tầng , điều quan trọng là phải hiểu vì nó có liên quan chặt chẽ đến quy trình ước lượng được gọi là phân tầng sau . Trong lấy mẫu phân tầng, một nhà nghiên cứu chia dân số mục tiêu vào \(H\) nhóm loại trừ lẫn nhau và đầy đủ. Các nhóm này được gọi là tầng lớp và được chỉ định là \(U_1, \ldots, U_h, \ldots, U_H\) . Trong ví dụ này, các tầng là trạng thái. Kích thước của các nhóm được chỉ định là \(N_1, \ldots, N_h, \ldots, N_H\) . Một nhà nghiên cứu có thể muốn sử dụng lấy mẫu phân tầng để đảm bảo rằng cô ấy có đủ người trong mỗi tiểu bang để đưa ra ước tính mức thất nghiệp của tiểu bang.
Khi dân số đã được chia thành các tầng , giả sử rằng nhà nghiên cứu chọn một mẫu ngẫu nhiên đơn giản mà không thay thế kích thước \(n_h\) , độc lập với từng tầng. Hơn nữa, giả sử rằng tất cả mọi người được chọn trong mẫu trở thành một người trả lời (tôi sẽ xử lý không phản hồi trong phần tiếp theo). Trong trường hợp này, xác suất đưa vào là
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Bởi vì các xác suất này có thể thay đổi từ người này sang người khác, khi ước tính từ thiết kế lấy mẫu này, các nhà nghiên cứu cần phải cân nhắc mỗi người trả lời bằng cách nghịch đảo xác suất của họ khi sử dụng công cụ ước tính Horvitz-Thompson (eq. 3.2).
Mặc dù ước tính Horvitz-Thompson là không thiên vị, các nhà nghiên cứu có thể đưa ra các ước tính chính xác hơn (nghĩa là phương sai thấp hơn) bằng cách kết hợp mẫu với thông tin phụ trợ . Một số người cảm thấy ngạc nhiên rằng điều này là đúng ngay cả khi có xác suất lấy mẫu xác suất được thực hiện hoàn hảo. Những kỹ thuật này sử dụng thông tin phụ trợ đặc biệt quan trọng bởi vì, như tôi sẽ trình bày sau, thông tin phụ trợ là rất quan trọng để đưa ra các ước tính từ các mẫu xác suất với nonresponse và từ các mẫu không xác suất.
Một kỹ thuật phổ biến để sử dụng thông tin phụ trợ là phân tầng sau . Hãy tưởng tượng, ví dụ, một nhà nghiên cứu biết số lượng đàn ông và phụ nữ trong mỗi 50 tiểu bang; chúng ta có thể biểu thị các kích thước nhóm này là \(N_1, N_2, \ldots, N_{100}\) . Để kết hợp thông tin phụ trợ này với mẫu, nhà nghiên cứu có thể chia mẫu thành các nhóm \(H\) (trong trường hợp này là 100), ước tính cho mỗi nhóm và sau đó tạo mức trung bình theo trọng số của nhóm này có nghĩa là:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Nói chung, ước lượng trong eq. 3.5 có thể chính xác hơn vì nó sử dụng thông tin dân số đã biết — \(N_h\) —để sửa các ước tính nếu một mẫu không cân bằng xảy ra được chọn. Một cách để suy nghĩ về nó là phân tầng sau giống như phân tầng xấp xỉ sau khi dữ liệu đã được thu thập.
Tóm lại, phần này đã mô tả một vài mẫu thiết kế: lấy mẫu ngẫu nhiên đơn giản mà không cần thay thế, lấy mẫu với xác suất không bằng nhau và lấy mẫu phân tầng. Nó cũng đã mô tả hai ý tưởng chính về ước lượng: ước tính Horvitz-Thompson và phân tầng sau. Để có định nghĩa chính thức hơn về thiết kế lấy mẫu xác suất, xem chương 2 của Särndal, Swensson, and Wretman (2003) . Để xử lý chính xác hơn và đầy đủ hơn về lấy mẫu phân tầng, xem phần 3.7 của Särndal, Swensson, and Wretman (2003) . Để có mô tả kỹ thuật về các tính chất của bộ ước lượng Horvitz-Thompson, xem Horvitz and Thompson (1952) , Overton and Stehman (1995) , hoặc phần 2.8 của @ sarndal_model_2003. Để xử lý chính thức hơn sau phân tầng, xem Holt and Smith (1979) , Smith (1991) , Little (1993) , hoặc phần 7,6 của Särndal, Swensson, and Wretman (2003) .
Lấy mẫu xác suất với nonresponse
Hầu như tất cả các cuộc điều tra thực tế đều không phản hồi; có nghĩa là, không phải tất cả mọi người trong mẫu đều trả lời mọi câu hỏi. Có hai loại không đáp ứng chính: mục không phản hồi và không phản hồi đơn vị . Trong mục không phản hồi, một số người trả lời không trả lời một số mục (ví dụ: đôi khi người trả lời không muốn trả lời các câu hỏi mà họ cho là nhạy cảm). Trong điều kiện không phản hồi đơn vị, một số người được chọn cho dân số mẫu không trả lời khảo sát. Hai lý do phổ biến nhất đối với người không phản hồi đơn vị là không thể liên lạc với người mẫu và người mẫu được liên lạc nhưng từ chối tham gia. Trong phần này, tôi sẽ tập trung vào không phản hồi đơn vị; độc giả quan tâm đến mục không phản hồi nên xem Little and Rubin (2002) .
Các nhà nghiên cứu thường nghĩ về các cuộc điều tra với đơn vị không phản ứng như là một quá trình lấy mẫu hai giai đoạn. Trong giai đoạn đầu tiên, nhà nghiên cứu chọn một mẫu \(s\) sao cho mỗi người có xác suất bao gồm \(\pi_i\) (trong đó \(0 < \pi_i \leq 1\) ). Sau đó, trong giai đoạn thứ hai, những người được chọn vào mẫu trả lời với xác suất \(\phi_i\) (trong đó \(0 < \phi_i \leq 1\) ). Quá trình hai giai đoạn này dẫn đến nhóm người trả lời cuối cùng \(r\) . Một sự khác biệt quan trọng giữa hai giai đoạn này là các nhà nghiên cứu kiểm soát quá trình chọn mẫu, nhưng họ không kiểm soát được những người được lấy mẫu nào trở thành người trả lời. Đặt hai quy trình này lại với nhau, xác suất ai đó sẽ là người trả lời là
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Để đơn giản, tôi sẽ xem xét trường hợp thiết kế mẫu ban đầu là lấy mẫu ngẫu nhiên đơn giản mà không cần thay thế. Nếu một nhà nghiên cứu chọn một mẫu có kích thước \(n_s\) cho kết quả \(n_r\) người trả lời và nếu nhà nghiên cứu bỏ qua phản hồi và sử dụng trung bình của người trả lời, thì ước tính sẽ là:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
trong đó \(cor(\phi, y)\) là sự tương quan dân số giữa xu hướng đáp ứng và kết quả (ví dụ tình trạng thất nghiệp), \(S(y)\) là độ lệch chuẩn về dân số của kết quả (ví dụ, thất nghiệp trạng thái), \(S(\phi)\) là độ lệch chuẩn dân số của xu hướng đáp ứng và \(\bar{\phi}\) là xu hướng đáp ứng trung bình của dân số (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 cho thấy rằng người không phản hồi sẽ không đưa ra sự thiên vị nếu đáp ứng bất kỳ điều kiện nào sau đây:
Thật không may, không ai trong số những điều kiện này có vẻ như có khả năng. Dường như không có sự thay đổi về tình trạng việc làm hoặc sẽ không có sự thay đổi trong các biện pháp ứng phó. Như vậy, thuật ngữ chính trong eq. 3.7 là tương quan: \(cor(\phi, y)\) . Ví dụ, nếu những người thất nghiệp có nhiều khả năng trả lời, thì tỷ lệ việc làm ước tính sẽ được thiên vị lên trên.
Bí quyết đưa ra ước tính khi không có phản ứng là sử dụng thông tin phụ trợ. Ví dụ, một cách mà bạn có thể sử dụng thông tin phụ trợ là phân tầng sau (thu hồi từ 3.5 trở lên). Nó chỉ ra rằng sự thiên vị của ước tính phân tầng sau là:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
trong đó \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , và \(\bar{\phi}^{(h)}\) được định nghĩa như ở trên nhưng giới hạn cho những người trong nhóm \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Do đó, xu hướng chung sẽ nhỏ nếu thiên vị trong mỗi nhóm phân tầng nhỏ. Có hai cách mà tôi muốn suy nghĩ về việc tạo ra sự thiên vị nhỏ trong mỗi nhóm phân tầng. Đầu tiên, bạn muốn cố gắng hình thành các nhóm đồng nhất, nơi có ít biến thiên trong xu hướng đáp ứng ( \(S(\phi)^{(h)} \approx 0\) ) và kết quả ( \(S(y)^{(h)} \approx 0\) ). Thứ hai, bạn muốn hình thành các nhóm mà những người mà bạn thấy giống như những người mà bạn không thấy ( \(cor(\phi, y)^{(h)} \approx 0\) ). So sánh eq. 3,7 và eq. 3.8 giúp làm rõ khi phân tầng sau có thể làm giảm sự thiên vị do không phản hồi.
Tóm lại, phần này đã cung cấp một mô hình để lấy mẫu xác suất không phản hồi và cho thấy sự thiên vị mà nonresponse có thể giới thiệu cả mà không có và với các điều chỉnh sau phân tầng. Bethlehem (1988) đưa ra một nguồn gốc của sự thiên vị do nonresponse gây ra cho các thiết kế lấy mẫu tổng quát hơn. Để biết thêm về cách sử dụng phân tầng sau để điều chỉnh cho những người không phản hồi, xem Smith (1991) và Gelman and Carlin (2002) . Phân tầng sau là một phần của một gia đình kỹ thuật tổng quát hơn gọi là ước lượng hiệu chuẩn, xem Zhang (2000) cho một điều trị chiều dài bài viết và Särndal and Lundström (2005) cho một điều trị dài cuốn sách. Để biết thêm về các phương pháp trọng số khác để điều chỉnh cho những người không phản ứng, xem Kalton and Flores-Cervantes (2003) , Brick (2013) , và Särndal and Lundström (2005) .
Lấy mẫu không xác suất
Lấy mẫu không xác suất bao gồm rất nhiều mẫu thiết kế (Baker et al. 2013) . Tập trung đặc biệt vào mẫu người dùng Xbox của Wang và các đồng nghiệp (W. Wang et al. 2015) , bạn có thể nghĩ loại mẫu đó là mẫu mà phần chính của thiết kế lấy mẫu không phải là \(\pi_i\) ( khả năng đưa vào xác định của nhà nghiên cứu) nhưng \(\phi_i\) (các đáp ứng điều khiển đáp ứng). Đương nhiên, điều này không lý tưởng vì \(\phi_i\) không xác định. Tuy nhiên, như Wang và các đồng nghiệp đã cho thấy, loại mẫu chọn này — thậm chí từ một khung lấy mẫu có lỗi bảo hiểm rất lớn — không cần thảm họa nếu nhà nghiên cứu có thông tin phụ trợ tốt và mô hình thống kê tốt để giải thích cho những vấn đề này.
Bethlehem (2010) mở rộng nhiều dẫn xuất ở trên về phân tầng sau để bao gồm cả lỗi không phản hồi và phạm vi bảo hiểm. Ngoài phân tầng sau, các kỹ thuật khác để làm việc với các mẫu không xác suất và các mẫu xác suất có lỗi bảo hiểm và không phản ứng — bao gồm kết hợp mẫu (Ansolabehere and Rivers 2013; ??? ) , trọng số điểm xu hướng (Lee 2006; Schonlau et al. 2009) , và hiệu chuẩn (Lee and Valliant 2009) . Một chủ đề phổ biến trong số các kỹ thuật này là việc sử dụng thông tin phụ trợ.