수학 노트

이 번역은 컴퓨터에 의해 만들어졌습니다. ×

수학 노트

이 부록에서는이 장의 아이디어를 약간 더 수학적인 형태로 설명합니다. 여기에서의 목표는 설문 조사 연구자가 사용하는 표기법 및 수학적 프레임 워크에 익숙해 지도록 도와 주므로이 주제에 대해 기술 된 더 많은 기술 자료로 전환 할 수 있습니다. 확률 샘플링을 도입 한 다음 무 응답으로 확률 샘플링으로 이동하고 마지막으로 비 확률 샘플링으로 이동합니다.

확률 샘플링

실례로, 미국의 실업률을 추정하는 목표를 생각해 봅시다. 목표 집단으로 $U = \{1, \ldots, k, \ldots, N\}$ 를두고 $k$ 사람의 결과 변수의 값으로 $y_k$ 를 보자. 이 예에서 $y_k$ 사람은 $k$ 이 실업 상태인지 여부입니다. 마지막으로 $F = \{1, \ldots, k, \ldots, N\}$ 프레임 모집단이라고하면 단순하게하기 위해 대상 모집단과 같다고 가정합니다.

기본 샘플링 디자인은 교체하지 않고 간단한 무작위 샘플링입니다. 이 경우 각 사람은 샘플 $s = \{1, \ldots, i, \ldots, n\}$ 포함될 가능성이 $s = \{1, \ldots, i, \ldots, n\}$ . 이 샘플링 디자인으로 데이터를 수집 할 때 연구원은 표본 평균을 사용하여 인구 실업률을 추정 할 수 있습니다.

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

여기서 $\bar{y}$ 는 인구의 실업률이고 $\hat{\bar{y}}$ 은 실업률의 추정치이다 ( $\hat{ }$ 는 일반적으로 견적을 나타내는 데 사용됨).

실제로 연구자들은 대체하지 않고 단순 무작위 샘플링을 거의 사용하지 않습니다. 여러 가지 이유로 (그 중 하나는 내가 잠시 후에 설명 할 것입니다.) 연구자들은 종종 불평등 성이 포함 된 표본을 만듭니다. 예를 들어, 연구자들은 플로리다에있는 사람들을 캘리포니아 주민보다 더 많이 포함시킬 가능성이있는 사람들을 선택할 수 있습니다. 이 경우 표본 평균 (3.1)은 좋은 추정치가 아닐 수도있다. 대신, 포함 할 확률이 같지 않을 때, 연구자들은

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

여기서 $\hat{\bar{y}}$ 는 실업률의 추정치이며 $\pi_i$ 는 포함 할 확률 $i$ 의 확률입니다. 표준 실습에 이어 eq에서 추정량을 호출합니다. 3.2 Horvitz-Thompson 추정량. Horvitz-Thompson 추정량은 임의의 확률 표본 설계 (Horvitz and Thompson 1952) 대한 비 편향 추정치를 유도하기 때문에 매우 유용합니다. Horvitz-Thompson 추정량이 너무 자주 올랐기 때문에, 다음과 같이 다시 쓸 수 있다는 것을 알아두면 도움이됩니다.

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

여기서 $w_i = 1 / \pi_i$ . eq. 3.3에서 Horvitz-Thompson 추정량은 가중치가 선택 확률과 반비례 관계에있는 가중 샘플 평균입니다. 즉, 표본에 포함되는 사람이 적을수록 견적에 더 많은 사람들이 가중되어야합니다.

앞에서 설명한 것처럼 연구자는 불평등 성이있는 사람들을 종종 표본으로 삼습니다. 부적합한 포함 가능성을 이끌어 낼 수있는 설계의 한 예는 계층화 된 샘플링으로 , 사후 층화 라고하는 평가 절차와 밀접하게 관련되어 있기 때문에 이해하는 것이 중요합니다. 층화 샘플링에서 연구원은 대상 집단을 $H$ 상호 배타적 인 그룹으로 나눕니다. 이러한 그룹을 지층 이라고하며 $U_1, \ldots, U_h, \ldots, U_H$ 됩니다. 이 예에서 지층은 상태입니다. 그룹의 크기는 $N_1, \ldots, N_h, \ldots, N_H$ 됩니다. 연구원은 각 주마다 실업률에 대한 국가 수준의 추정치를 충분히 확보 할 수 있도록 계층화 된 표본 추출을 사용하고자 할 수 있습니다.

일단 인구가 지층 으로 분리되면 연구원은 각 지층과 독립적으로 크기 $n_h$ 를 대체하지 않고 간단한 무작위 표본을 선택한다고 가정합니다. 또한 샘플에서 선택된 모든 사람이 응답자가된다고 가정합니다 (다음 섹션에서 응답하지 않습니다). 이 경우, 포함 할 확률은

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

이러한 확률은 사람마다 다를 수 있으므로이 샘플링 설계로 추정 할 때 연구자는 각 응답자를 Horvitz-Thompson 추정량 (3.2)을 사용하여 포함 확률의 역수로 가중해야합니다.

Horvitz-Thompson 추정량이 공평하지 않더라도 연구자는 표본을 보조 정보 와 결합하여 더 정확한 (즉, 더 낮은 분산) 추정치를 산출 할 수 있습니다. 어떤 사람들은 완벽하게 실행 된 확률 샘플링이 있더라도 이것이 사실이라는 것이 놀랍다 고 생각합니다. 보조 정보를 사용하는 이러한 기법은 나중에 설명 하겠지만 보조 정보는 응답이없는 확률 표본과 확률이 낮은 표본에서 추정하기 때문에 중요합니다.

보조 정보를 활용하는 일반적인 기술 중 하나는 사후 계층화 입니다. 예를 들어 연구원이 50 개 주마다 남성과 여성의 수를 알고 있다고 상상해보십시오. 이 그룹 크기를 $N_1, N_2, \ldots, N_{100}$ 있습니다. 이 보조 정보를 샘플과 결합하기 위해 연구자는 샘플을 $H$ 그룹 (이 경우에는 100)으로 분할하고 각 그룹에 대한 예상치를 작성한 다음 이들 그룹 평균의 가중 평균을 작성할 수 있습니다.

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

대략적으로, eq. 3.5는 불균형 한 표본이 선택되면 추정치를 정정하기 위해 알려진 모집단 정보 $N_h$ 사용하기 때문에 더 정확할 수 있습니다. 그것에 대해 생각하는 한 가지 방법은 사후 계층화는 데이터가 이미 수집 된 후에 계층화를 근사화하는 것과 같습니다.

결론적으로,이 절에서는 몇 가지 샘플링 설계를 설명합니다 : 대체가없는 단순 임의 샘플링, 불균등 확률의 샘플링 및 계층화 샘플링. 또한 Horvitz-Thompson 평가자와 사후 계층화에 대한 추정에 대한 두 가지 주요 개념을 설명했습니다. 확률 표본 추출 설계에 대한보다 공식적인 정의는 Särndal, Swensson, and Wretman (2003) 2 장을 참조하십시오. 층화 표본 추출에 대한보다 공식적이고 완전한 처리 방법은 Särndal, Swensson, and Wretman (2003) 3.7 절을 참조하십시오. Horvitz-Thompson 추정량의 특성에 대한 기술적 설명은 Horvitz and Thompson (1952) , Overton and Stehman (1995) 또는 @ sarndal_model_2003의 2.8 절을 참조하십시오. 후기 계층화에 대한보다 공식적인 처리는 Holt and Smith (1979) , Smith (1991) , Little (1993) 또는 Särndal, Swensson, and Wretman (2003) 의 섹션 7.6을 Särndal, Swensson, and Wretman (2003) .

무응답으로 확률 샘플링

거의 모든 실제 조사는 응답이 없습니다. 즉, 표본 집단의 모든 사람이 모든 질문에 대답하는 것은 아닙니다. 무응답에는 item nonresponse 와 unit nonresponse 의 두 가지 주요 종류가 있습니다. 응답이없는 항목에서 일부 응답자는 일부 항목에 응답하지 않습니다 (예 : 응답자가 민감하다고 생각하는 질문에 답하지 않으려 고하는 경우가 있음). 단위가없는 응답의 경우 샘플 인구로 선택된 일부 사람들은 설문 조사에 전혀 응답하지 않습니다. 단위가없는 응답에 대한 가장 일반적인 두 가지 이유는 샘플 된 사람에게 연락 할 수없고 샘플 사람과 접촉했지만 참여를 거부한다는 것입니다. 이 절에서, 나는 단위 무 반응에 초점을 둘 것이다. 응답이없는 항목에 관심이있는 독자는 Little 및 Rubin (2002) 참조해야합니다.

연구원은 단위 무 응답으로 2 단계 샘플링 프로세스로 설문 조사를하는 경우가 많습니다. 첫 번째 단계에서, 연구원은 샘플 선택 $s$ 각자가 포함하는 확률을 갖도록를 $\pi_i$ (여기서 $0 < \pi_i \leq 1$ ). 그런 다음 두 번째 단계에서 표본으로 선택된 사람들은 확률 $\phi_i$ (여기서 $0 < \phi_i \leq 1$ )로 응답합니다. 이 두 단계 프로세스로 인해 응답자의 최종 집합 $r$ 됩니다. 이 두 단계의 중요한 차이점은 연구자가 표본을 선택하는 프로세스를 제어하지만 표본 추출 된 사람들 중 응답자가되는 사람을 제어하지 않는다는 것입니다. 이 두 가지 과정을 종합하면 누군가가 응답자가 될 확률은

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

간단히하기 위해 원본 샘플 디자인을 대체하지 않고 간단한 임의 샘플링 인 경우를 생각해 보겠습니다. 연구원이 $n_s$ 크기의 표본을 선택하여 $n_r$ 응답자를 산출하고 연구원이 무응답을 무시하고 응답자의 평균을 사용하면 추정치의 편차는 다음과 같습니다.

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

여기서, $cor(\phi, y)$ 는 응답 성향과 결과 (예 : 실업 상태) 사이의 모집단 상관 관계이며, $S(y)$ 는 결과의 모집단 표준 편차이다 (예 : 실업 상태), $S(\phi)$ 응답 성향의 인구 표준 편차, 그리고 $\bar{\phi}$ 인구가 응답 성향 의미입니다 (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

식 3.7은 다음 조건 중 하나라도 충족되면 비 응답이 편향을 유발하지 않음을 보여줍니다.

실업 상태에는 변화가 없다. $(S(y) = 0)$ .
응답 성향에는 변화가 없다. $(S(\phi) = 0)$ .
반응 성향과 실업 상태 사이의 상관 관계는 없다. $(cor(\phi, y) = 0)$ .

불행히도 이러한 조건 중 어느 것도 가능성이 없습니다. 고용 상태에 변화가 없거나 응답 성향에 변화가 없을 것이라는 것은 믿기지 않을 것이다. 따라서, eq. 3.7은 상관 관계입니다 : $cor(\phi, y)$ . 예를 들어, 실업자가 응답 가능성이 더 높은 사람들이 있다면, 예상 고용률은 상향 편향 될 것입니다.

무응답이있을 때 예상치를 만드는 방법은 보조 정보를 사용하는 것입니다. 예를 들어 보조 정보를 사용할 수있는 한 가지 방법은 사후 계층화 (위의 3.5를 리콜하는 방법)입니다. 후기 층화 추산 자의 편향은 다음과 같다.

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

여기서 $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , 및 $\bar{\phi}^{(h)}$ 는 위에서 정의 된 바와 같이 정의되지만 그룹 $h$ 사람들로 제한됩니다 (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . 따라서 각 층화 후 그룹의 편차가 작 으면 전체 편향은 작을 것이다. 각 후기 계층화 그룹에서 편향을 작게 만드는 것에 대해 생각하고 싶은 두 가지 방법이 있습니다. 먼저, 응답 성향 ( $S(\phi)^{(h)} \approx 0$ )과 결과 ( $S(y)^{(h)} \approx 0$ ). 둘째로, 보는 사람이 보이지 않는 사람과 같은 그룹을 구성하고자합니다. $cor(\phi, y)^{(h)} \approx 0$ ). eq. 3.7 및 eq. 3.8은 post-stratification이 무응답에 의한 편견을 줄일 수있을 때 명확히하는 데 도움이된다.

결론적으로,이 절에서는 무응답으로 확률 표본 추출을위한 모델을 제시하고, 무 반응이 사후 층 조정을하지 않고 도입 할 수있는 편견을 보여 주었다. Bethlehem (1988) 은보다 일반적인 표본 추출 설계에 대해 무 반응으로 인한 편향의 유도를 제공한다. 무 반응에 적응하기 위해 사후 층화를 사용하는 것에 대한 자세한 내용은 Smith (1991) 와 Gelman and Carlin (2002) . 사후 층화는 보정 추정치 (calibration estimators) 라 불리는 좀 더 일반적인 기법의 일부이다. 문서 길이 처리를위한 Zhang (2000) Särndal and Lundström (2005) 책 길이의 처리를위한 Särndal and Lundström (2005) . 무 반응에 대한 조정을위한 다른 가중치 부여 방법에 대해서는 Kalton and Flores-Cervantes (2003) , Brick (2013) 및 Särndal and Lundström (2005) .

비 확률 샘플링

비 확률 샘플링은 거대한 다양한 디자인을 포함한다 (Baker et al. 2013) . Wang 및 동료 (W. Wang et al. 2015) 의 Xbox 사용자 샘플을 중심으로 샘플링 디자인의 핵심 부분이 $\pi_i$ 가 아닌 것으로 생각할 수 있습니다 연구자 중심의 포함 확률) $\phi_i$ (응답자 주도 응답 성향). 물론 $\phi_i$ 가 알려지지 않았기 때문에 이것은 이상적이지 않습니다. 그러나 Wang과 동료들이 보여 주듯이, 엄청난 커버리지 오류가있는 샘플링 프레임 에서조차도 이런 종류의 옵트 인 샘플은 연구자가 이러한 보조를위한 좋은 보조 정보와 좋은 통계 모델을 가지고 있으면 치명적일 필요가 없습니다.

Bethlehem (2010) 은 포스트 - 층화에 관한 위의 파생물 중 많은 부분을 무 응답과 커버리지 에러를 포함하도록 확장했다. 층화 외에도 따르면 오류 및 비 응답-포함 샘플 일치 비 확률 샘플 및 확률 샘플로 작업하기위한 다른 기술 (Ansolabehere and Rivers 2013; ??? ) , 성향 점수 가중치 (Lee 2006; Schonlau et al. 2009) , 교정 (Lee and Valliant 2009) . 이러한 기술 중 하나의 공통된 주제는 보조 정보의 사용입니다.