이 부록에서는이 장의 아이디어를 약간 더 수학적인 형태로 설명합니다. 여기에서의 목표는 설문 조사 연구자가 사용하는 표기법 및 수학적 프레임 워크에 익숙해 지도록 도와 주므로이 주제에 대해 기술 된 더 많은 기술 자료로 전환 할 수 있습니다. 확률 샘플링을 도입 한 다음 무 응답으로 확률 샘플링으로 이동하고 마지막으로 비 확률 샘플링으로 이동합니다.
확률 샘플링
실례로, 미국의 실업률을 추정하는 목표를 생각해 봅시다. 목표 집단으로 U={1,…,k,…,N}U={1,…,k,…,N} 를두고 kk 사람의 결과 변수의 값으로 ykyk 를 보자. 이 예에서 ykyk 사람은 kk 이 실업 상태인지 여부입니다. 마지막으로 F={1,…,k,…,N}F={1,…,k,…,N} 프레임 모집단이라고하면 단순하게하기 위해 대상 모집단과 같다고 가정합니다.
기본 샘플링 디자인은 교체하지 않고 간단한 무작위 샘플링입니다. 이 경우 각 사람은 샘플 s={1,…,i,…,n}s={1,…,i,…,n} 포함될 가능성이 s={1,…,i,…,n}s={1,…,i,…,n} . 이 샘플링 디자인으로 데이터를 수집 할 때 연구원은 표본 평균을 사용하여 인구 실업률을 추정 할 수 있습니다.
ˆˉy=∑i∈syin(3.1)^¯y=∑i∈syin(3.1)
여기서 ˉy¯y 는 인구의 실업률이고 ˆˉy^¯y 은 실업률의 추정치이다 ( ^^ 는 일반적으로 견적을 나타내는 데 사용됨).
실제로 연구자들은 대체하지 않고 단순 무작위 샘플링을 거의 사용하지 않습니다. 여러 가지 이유로 (그 중 하나는 내가 잠시 후에 설명 할 것입니다.) 연구자들은 종종 불평등 성이 포함 된 표본을 만듭니다. 예를 들어, 연구자들은 플로리다에있는 사람들을 캘리포니아 주민보다 더 많이 포함시킬 가능성이있는 사람들을 선택할 수 있습니다. 이 경우 표본 평균 (3.1)은 좋은 추정치가 아닐 수도있다. 대신, 포함 할 확률이 같지 않을 때, 연구자들은
ˆˉy=1N∑i∈syiπi(3.2)^¯y=1N∑i∈syiπi(3.2)
여기서 ˆˉy^¯y 는 실업률의 추정치이며 πiπi 는 포함 할 확률 ii 의 확률입니다. 표준 실습에 이어 eq에서 추정량을 호출합니다. 3.2 Horvitz-Thompson 추정량. Horvitz-Thompson 추정량은 임의의 확률 표본 설계 (Horvitz and Thompson 1952) 대한 비 편향 추정치를 유도하기 때문에 매우 유용합니다. Horvitz-Thompson 추정량이 너무 자주 올랐기 때문에, 다음과 같이 다시 쓸 수 있다는 것을 알아두면 도움이됩니다.
ˆˉy=1N∑i∈swiyi(3.3)^¯y=1N∑i∈swiyi(3.3)
여기서 wi=1/πiwi=1/πi . eq. 3.3에서 Horvitz-Thompson 추정량은 가중치가 선택 확률과 반비례 관계에있는 가중 샘플 평균입니다. 즉, 표본에 포함되는 사람이 적을수록 견적에 더 많은 사람들이 가중되어야합니다.
앞에서 설명한 것처럼 연구자는 불평등 성이있는 사람들을 종종 표본으로 삼습니다. 부적합한 포함 가능성을 이끌어 낼 수있는 설계의 한 예는 계층화 된 샘플링으로 , 사후 층화 라고하는 평가 절차와 밀접하게 관련되어 있기 때문에 이해하는 것이 중요합니다. 층화 샘플링에서 연구원은 대상 집단을 HH 상호 배타적 인 그룹으로 나눕니다. 이러한 그룹을 지층 이라고하며 U1,…,Uh,…,UHU1,…,Uh,…,UH 됩니다. 이 예에서 지층은 상태입니다. 그룹의 크기는 N1,…,Nh,…,NHN1,…,Nh,…,NH 됩니다. 연구원은 각 주마다 실업률에 대한 국가 수준의 추정치를 충분히 확보 할 수 있도록 계층화 된 표본 추출을 사용하고자 할 수 있습니다.
일단 인구가 지층 으로 분리되면 연구원은 각 지층과 독립적으로 크기 nhnh 를 대체하지 않고 간단한 무작위 표본을 선택한다고 가정합니다. 또한 샘플에서 선택된 모든 사람이 응답자가된다고 가정합니다 (다음 섹션에서 응답하지 않습니다). 이 경우, 포함 할 확률은
πi=nhNh for all i∈h(3.4)πi=nhNh for all i∈h(3.4)
이러한 확률은 사람마다 다를 수 있으므로이 샘플링 설계로 추정 할 때 연구자는 각 응답자를 Horvitz-Thompson 추정량 (3.2)을 사용하여 포함 확률의 역수로 가중해야합니다.
Horvitz-Thompson 추정량이 공평하지 않더라도 연구자는 표본을 보조 정보 와 결합하여 더 정확한 (즉, 더 낮은 분산) 추정치를 산출 할 수 있습니다. 어떤 사람들은 완벽하게 실행 된 확률 샘플링이 있더라도 이것이 사실이라는 것이 놀랍다 고 생각합니다. 보조 정보를 사용하는 이러한 기법은 나중에 설명 하겠지만 보조 정보는 응답이없는 확률 표본과 확률이 낮은 표본에서 추정하기 때문에 중요합니다.
보조 정보를 활용하는 일반적인 기술 중 하나는 사후 계층화 입니다. 예를 들어 연구원이 50 개 주마다 남성과 여성의 수를 알고 있다고 상상해보십시오. 이 그룹 크기를 N1,N2,…,N100N1,N2,…,N100 있습니다. 이 보조 정보를 샘플과 결합하기 위해 연구자는 샘플을 HH 그룹 (이 경우에는 100)으로 분할하고 각 그룹에 대한 예상치를 작성한 다음 이들 그룹 평균의 가중 평균을 작성할 수 있습니다.
ˆˉypost=∑h∈HNhNˆˉyh(3.5)^¯ypost=∑h∈HNhN^¯yh(3.5)
대략적으로, eq. 3.5는 불균형 한 표본이 선택되면 추정치를 정정하기 위해 알려진 모집단 정보 NhNh 사용하기 때문에 더 정확할 수 있습니다. 그것에 대해 생각하는 한 가지 방법은 사후 계층화는 데이터가 이미 수집 된 후에 계층화를 근사화하는 것과 같습니다.
결론적으로,이 절에서는 몇 가지 샘플링 설계를 설명합니다 : 대체가없는 단순 임의 샘플링, 불균등 확률의 샘플링 및 계층화 샘플링. 또한 Horvitz-Thompson 평가자와 사후 계층화에 대한 추정에 대한 두 가지 주요 개념을 설명했습니다. 확률 표본 추출 설계에 대한보다 공식적인 정의는 Särndal, Swensson, and Wretman (2003) 2 장을 참조하십시오. 층화 표본 추출에 대한보다 공식적이고 완전한 처리 방법은 Särndal, Swensson, and Wretman (2003) 3.7 절을 참조하십시오. Horvitz-Thompson 추정량의 특성에 대한 기술적 설명은 Horvitz and Thompson (1952) , Overton and Stehman (1995) 또는 @ sarndal_model_2003의 2.8 절을 참조하십시오. 후기 계층화에 대한보다 공식적인 처리는 Holt and Smith (1979) , Smith (1991) , Little (1993) 또는 Särndal, Swensson, and Wretman (2003) 의 섹션 7.6을 Särndal, Swensson, and Wretman (2003) .
무응답으로 확률 샘플링
거의 모든 실제 조사는 응답이 없습니다. 즉, 표본 집단의 모든 사람이 모든 질문에 대답하는 것은 아닙니다. 무응답에는 item nonresponse 와 unit nonresponse 의 두 가지 주요 종류가 있습니다. 응답이없는 항목에서 일부 응답자는 일부 항목에 응답하지 않습니다 (예 : 응답자가 민감하다고 생각하는 질문에 답하지 않으려 고하는 경우가 있음). 단위가없는 응답의 경우 샘플 인구로 선택된 일부 사람들은 설문 조사에 전혀 응답하지 않습니다. 단위가없는 응답에 대한 가장 일반적인 두 가지 이유는 샘플 된 사람에게 연락 할 수없고 샘플 사람과 접촉했지만 참여를 거부한다는 것입니다. 이 절에서, 나는 단위 무 반응에 초점을 둘 것이다. 응답이없는 항목에 관심이있는 독자는 Little 및 Rubin (2002) 참조해야합니다.
연구원은 단위 무 응답으로 2 단계 샘플링 프로세스로 설문 조사를하는 경우가 많습니다. 첫 번째 단계에서, 연구원은 샘플 선택 ss 각자가 포함하는 확률을 갖도록를 πiπi (여기서 0<πi≤10<πi≤1 ). 그런 다음 두 번째 단계에서 표본으로 선택된 사람들은 확률 ϕiϕi (여기서 0<ϕi≤10<ϕi≤1 )로 응답합니다. 이 두 단계 프로세스로 인해 응답자의 최종 집합 rr 됩니다. 이 두 단계의 중요한 차이점은 연구자가 표본을 선택하는 프로세스를 제어하지만 표본 추출 된 사람들 중 응답자가되는 사람을 제어하지 않는다는 것입니다. 이 두 가지 과정을 종합하면 누군가가 응답자가 될 확률은
pr(i∈r)=πiϕi(3.6)pr(i∈r)=πiϕi(3.6)
간단히하기 위해 원본 샘플 디자인을 대체하지 않고 간단한 임의 샘플링 인 경우를 생각해 보겠습니다. 연구원이 nsns 크기의 표본을 선택하여 nrnr 응답자를 산출하고 연구원이 무응답을 무시하고 응답자의 평균을 사용하면 추정치의 편차는 다음과 같습니다.
bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)bias of sample mean=cor(ϕ,y)S(y)S(ϕ)¯ϕ(3.7)
여기서, cor(ϕ,y)cor(ϕ,y) 는 응답 성향과 결과 (예 : 실업 상태) 사이의 모집단 상관 관계이며, S(y)S(y) 는 결과의 모집단 표준 편차이다 (예 : 실업 상태), S(ϕ)S(ϕ) 응답 성향의 인구 표준 편차, 그리고 ˉϕ¯ϕ 인구가 응답 성향 의미입니다 (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
식 3.7은 다음 조건 중 하나라도 충족되면 비 응답이 편향을 유발하지 않음을 보여줍니다.
불행히도 이러한 조건 중 어느 것도 가능성이 없습니다. 고용 상태에 변화가 없거나 응답 성향에 변화가 없을 것이라는 것은 믿기지 않을 것이다. 따라서, eq. 3.7은 상관 관계입니다 : cor(ϕ,y)cor(ϕ,y) . 예를 들어, 실업자가 응답 가능성이 더 높은 사람들이 있다면, 예상 고용률은 상향 편향 될 것입니다.
무응답이있을 때 예상치를 만드는 방법은 보조 정보를 사용하는 것입니다. 예를 들어 보조 정보를 사용할 수있는 한 가지 방법은 사후 계층화 (위의 3.5를 리콜하는 방법)입니다. 후기 층화 추산 자의 편향은 다음과 같다.
bias(ˆˉypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)bias(^¯ypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)¯ϕ(h)(3.8)
여기서 cor(ϕ,y)(h)cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , 및 ˉϕ(h) 는 위에서 정의 된 바와 같이 정의되지만 그룹 h 사람들로 제한됩니다 (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . 따라서 각 층화 후 그룹의 편차가 작 으면 전체 편향은 작을 것이다. 각 후기 계층화 그룹에서 편향을 작게 만드는 것에 대해 생각하고 싶은 두 가지 방법이 있습니다. 먼저, 응답 성향 ( S(ϕ)(h)≈0 )과 결과 ( S(y)(h)≈0 ). 둘째로, 보는 사람이 보이지 않는 사람과 같은 그룹을 구성하고자합니다. cor(ϕ,y)(h)≈0 ). eq. 3.7 및 eq. 3.8은 post-stratification이 무응답에 의한 편견을 줄일 수있을 때 명확히하는 데 도움이된다.
결론적으로,이 절에서는 무응답으로 확률 표본 추출을위한 모델을 제시하고, 무 반응이 사후 층 조정을하지 않고 도입 할 수있는 편견을 보여 주었다. Bethlehem (1988) 은보다 일반적인 표본 추출 설계에 대해 무 반응으로 인한 편향의 유도를 제공한다. 무 반응에 적응하기 위해 사후 층화를 사용하는 것에 대한 자세한 내용은 Smith (1991) 와 Gelman and Carlin (2002) . 사후 층화는 보정 추정치 (calibration estimators) 라 불리는 좀 더 일반적인 기법의 일부이다. 문서 길이 처리를위한 Zhang (2000) Särndal and Lundström (2005) 책 길이의 처리를위한 Särndal and Lundström (2005) . 무 반응에 대한 조정을위한 다른 가중치 부여 방법에 대해서는 Kalton and Flores-Cervantes (2003) , Brick (2013) 및 Särndal and Lundström (2005) .
비 확률 샘플링
비 확률 샘플링은 거대한 다양한 디자인을 포함한다 (Baker et al. 2013) . Wang 및 동료 (W. Wang et al. 2015) 의 Xbox 사용자 샘플을 중심으로 샘플링 디자인의 핵심 부분이 πi 가 아닌 것으로 생각할 수 있습니다 연구자 중심의 포함 확률) ϕi (응답자 주도 응답 성향). 물론 ϕi 가 알려지지 않았기 때문에 이것은 이상적이지 않습니다. 그러나 Wang과 동료들이 보여 주듯이, 엄청난 커버리지 오류가있는 샘플링 프레임 에서조차도 이런 종류의 옵트 인 샘플은 연구자가 이러한 보조를위한 좋은 보조 정보와 좋은 통계 모델을 가지고 있으면 치명적일 필요가 없습니다.
Bethlehem (2010) 은 포스트 - 층화에 관한 위의 파생물 중 많은 부분을 무 응답과 커버리지 에러를 포함하도록 확장했다. 층화 외에도 따르면 오류 및 비 응답-포함 샘플 일치 비 확률 샘플 및 확률 샘플로 작업하기위한 다른 기술 (Ansolabehere and Rivers 2013; ??? ) , 성향 점수 가중치 (Lee 2006; Schonlau et al. 2009) , 교정 (Lee and Valliant 2009) . 이러한 기술 중 하나의 공통된 주제는 보조 정보의 사용입니다.