Энэ хавсралтад би энэ бүлгийн зарим санааг арай илүү математикийн хэлбэрээр тайлбарлах болно. Үүний зорилго нь судалгааны судлаачдын хэрэглэдэг тэмдэглэгээ, математик бүтцэд тав тухтай байдлыг хангахад туслах зорилготой бөгөөд эдгээр сэдвүүд дээр бичсэн зарим илүү техникийн материал руу шилжих боломжтой болно. Би магадлалын түүвэрлэлтийг эхлүүлснээр дараа нь магадлалын бус түүвэрлэлтэд хариу өгөхгүйн тулд шилжих ба эцэст нь магадлалын бус түүвэрлэлт хийнэ.
Магадлалт түүвэрлэлт
Жишээ нь, АНУ-д ажилгүйдлийн түвшинг тооцоолох зорилгыг авч үзье. Let \(U = \{1, \ldots, k, \ldots, N\}\) зорилтот хүн амыг байж байг \(y_k\) хүн нь үр дүн нь хувьсагчийн утгыг \(k\) . Энэ жишээнд \(y_k\) нь \(k\) ажилгүй байна уу? Эцэст нь хэлэхэд, энгийн \(F = \{1, \ldots, k, \ldots, N\}\) нь зорилтот популяцитай ижил байх ёстой.
Түүвэрлэлтийн үндсэн загвар нь орлуулахгүйгээр энгийн санамсаргүй түүвэрлэлт юм. Энэ тохиолдолд хүн бүр түүвэрт орсон байх болно \(s = \{1, \ldots, i, \ldots, n\}\) . Түүвэрлэлтийн дизайны дагуу өгөгдөл цуглуулсан үед судлаачид хүн амын ажилгүйдлийн түвшинг түүврийн дундажаар тооцоолж болно:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
хаана \(\bar{y}\) хүн ам, ажилгүйдлийн түвшин юм \(\hat{\bar{y}}\) ажилгүйдлийн түвшин тооцоо (юм \(\hat{ }\) нь түгээмэл байна тооцоо хийхэд ашигласан).
Бодит байдал дээр судлаачид орлуулахгүйгээр энгийн санамсаргүй түүвэр хэрэглэх нь ховор байдаг. Янз бүрийн шалтгаанаар (нэг зүйлийг би тодорхой тайлбарлах болно) судлаачид ихэвчлэн орлуулах тэгш бус магадлал бүхий дээжийг бий болгодог. Жишээ нь, судлаачид Калифорни муж улсын хүмүүсээс илүүтэйгээр Флоридад хүмүүсийг сонгох боломжтой. Энэ тохиолдолд түүврийн дундаж (тэгш байдал 3.1) нь сайн тооцоогүй байж болно. Үүний оронд судлаачдын хэрэглэдэг тэгш бус тохиолдлууд байдаг
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
\(\hat{\bar{y}}\) нь ажилгуйдлийн тувшингийн тооцоолол ба \(\pi_i\) нь \(i\) -ийн оролцооны магадлал юм. Стандарт дадлагын дараах би тооцоологчийг тэгшитгэлээр дуудна. 3.2 Хорвиц-Томпсоны тооцоо. Horvitz-Thompson хэмээх тооцоо нь магадгүй магадлалын түүвэрлэлтийн дизайнаас (Horvitz and Thompson 1952) тооцооллыг гаргадаг (Horvitz and Thompson 1952) . Horvitz-Thompson үнэлгээ нь маш олон удаа ирдэг тул үүнийг дахин бичиж болно гэдгийг анзаардаг
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
энд \(w_i = 1 / \pi_i\) . Тэгш өнцөгтийн хувьд 3.3-д Horvitz-Thompson-ийн үнэлгээ нь жинлэлтийн түүврийн дундаж нь туухайг сонгох магадлалтайгаар урвуу хамааралтай юм. Өөрөөр хэлбэл, тухайн хүнийг дээжинд оруулах магадлал багатай тул тухайн хүнийг тооцоолох хэрэгтэй.
Өмнө дурьдсанчлан судлаачид хүмүүсийг тэгш хуваарилах магадлалгүйгээр дээж авах нь олонтаа байдаг. Оруулах тэгш бус магадлал хүргэж болох дизайны нэг жишээ нь давхаргаас дээж авах, энэ нь нягт дараах ангилал гэж нэрлэдэг тооцоо журмын холбоотой юм, учир нь ойлгох нь чухал юм. Түүвэрлэлтийн давхаргад судлаач зорилтот хүн амын \(H\) харилцан бие биенээсээ онцгой, бүрэн дүүрэн бүлэгт хуваагдана. Эдгээр бүлгүүдийг strata гэж нэрлэдэг бөгөөд \(U_1, \ldots, U_h, \ldots, U_H\) . Энэ жишээнд strata-ийн заалтууд байдаг. Бүлгүүдийн хэмжээ нь \(N_1, \ldots, N_h, \ldots, N_H\) . Судлаач нь олон түмэнд ажилгүйдлийн түвшинг улсын түвшинд гаргах хангалттай хүмүүстэй байхын тулд давхаргаар түүвэрлэхийг хүсч болох юм.
Популяци нь давхаргад хуваагдсаны дараа судлаачид давхарга тус бүрээс тусдаа \(n_h\) хэмжээг орлуулахгүйгээр энгийн санамсаргүй түүврийг сонгодог. Түүнээс гадна, дээжинд сонгогдсон хүн бүр хариулагч болно (би дараагийн бүлэгт хариу өгөхгүй байх болно). Энэ тохиолдолд орлуулах магадлал нь
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Эдгээр магадлал нь хувь хүнээс хамаарч өөр өөр байдаг тул энэ түүвэрлэлтийн загварыг тооцоолохдоо судлаачид тус бүрийг Horvitz-Thompson үнэлгээний тооцоо (3.2-оор) ашиглан орлуулах магадлалын урвуугаар жинг гаргах хэрэгтэй.
Horvitz-Thompson үнэлгээ нь үнэнч байх боловч судлаачид дээжийг нэмэлт мэдээллээр нэгтгэн илүү нарийвчлалтай (өөрөөр хэлбэл, бага вариац) тооцооллыг гаргаж чаддаг. Зарим хүмүүс магадгүй түүвэрлэлтийг амжилттай гүйцэтгэсэн ч гэсэн энэ нь үнэн болохыг олж хардаг. Нэмэлт мэдээллийг ашигладаг эдгээр аргууд нь ялангуяа чухал ач холбогдолтой учраас хожим илэрч болох тул нэмэлт мэдээлэл нь магадлалын бус дээжнээс магадлалын бус дээжнээс тооцоолоход чухал мэдээлэл болдог.
Туслах мэдээллийг ашиглах нэг нийтлэг арга бол дараах үе шат юм. Жишээ нь, судлаач 50 муж бүрт эрэгтэй, эмэгтэй хүмүүсийн тоог мэднэ; бид эдгээр бүлгийн хэмжээг \(N_1, N_2, \ldots, N_{100}\) . Дээрх жишээнд туслах нэмэлт мэдээллийг нэгтгэхийн тулд дээжийг \(H\) бүлгүүд (энэ тохиолдолд 100) болгон хувааж бүлэг бүрт тооцоолж, эдгээр бүлгийн жигнэсэн дундаж утгыг дараах байдлаар илэрхийлнэ:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Эквадор дахь тооцоо. 3.5 нь мэдэгдэж байгаа популяцийн мэдээллийг ашигладаг \(N_h\) -ийг тооцоолохын тулд \(N_h\) . Үүнийг бодох нэг арга бол дараах давхарга нь өгөгдөл цуглуулсаны дараа давхацлах түвшинтэй адил юм.
Дүгнэж хэлэхэд энэ хэсэгт хэд хэдэн түүвэрлэлтийн загварыг тодорхойлсон: энгийн санамсаргүй түүвэрлэлтийг орлуулахгүйгээр, тэгш бус магадлал бүхий түүвэрлэлт, давхрагатай түүвэрлэлт. Түүнчлэн Horvitz-Thompson-ийн үнэлгээ болон дараах үе шатыг тооцоолох талаар хоёр үндсэн санааг мөн тодорхойлсон байна. Магадлалт түүвэрлэлтийн загварыг илүү албан ёсны тодорхойлолтоор Särndal, Swensson, and Wretman (2003) 2-р бүлгээс үзнэ үү. Давхаргын түүвэрлэлтийн илүү албан ёсны, бүрэн эмчилгээний зорилгоор Särndal, Swensson, and Wretman (2003) 3.7-р хэсгээс үзнэ үү. Horvitz-Thompson-ийн тооцооны шинж чанарын талаархи техникийн тайлбарыг Horvitz and Thompson (1952) , Overton and Stehman (1995) , эсвэл @ sarndal_model_2003-ийн 2.8-с үзнэ үү. Статистикийн дараахь үе шатны эмчилгээнд Holt and Smith (1979) , Smith (1991) , Little (1993) , эсвэл Särndal, Swensson, and Wretman (2003) 7.6-ыг үзнэ үү.
Боломжгүй түүвэрлэлтийн магадлал бүхий түүвэрлэлт
Бараг бүх бодит судалгаанууд хариу өгөхгүй байх; Өөрөөр хэлбэл, дээжийн хүн бүрт хүн бүр асуултанд хариулдаггүй. Хариуцлагагүй нэгж , хариуцлагын бус хоёр үндсэн зүйл байдаггүй. Зарим хариултанд хариулаагүй зарим хариултанд зарим зүйлийг хариулдаггүй (жишээ нь, заримдаа хариулагчдаас эмзэг гэж үздэг асуултуудад хариулахгүй байх). Бїрэлдэхїїн бус хїлээн зєвшєєрєгдєхгїй байгаа тохиолдолд тїївэрт хамрагдсан зарим хїмїїс судалгааны талаар огт хариулдаггїй. Бие даасан бус хариуцлагын хамгийн түгээмэл хоёр шалтгаан нь түүвэрлэгдсэн хүн холбоо барих боломжгүй, дээж авсан хүнтэй холбоо барьж байгаа боловч оролцохгүй байх явдал юм. Энэ хэсэгт би хариуцдаггүй нэгж дээр төвлөрөх болно; зүйлгүй сонирхолтой уншигчид Little and Rubin (2002) үзнэ үү.
Судлаачид ихэвчлэн хоёр үе шаттай түүвэрлэлтийн үйл явц гэж хариулсан нэгжийн хариултыг авч үздэггүй. Эхний шатанд, судлаач жишээ сонгох \(s\) хүн бүр хамруулах нь магадлалтай байна байхаар \(\pi_i\) (хаана \(0 < \pi_i \leq 1\) ). Дараа нь хоёр дахь шатанд дээжинд сонгогдсон хүмүүс \(\phi_i\) (энд \(0 < \phi_i \leq 1\) магадлалд хариу өгдөг. Энэхүү хоёр шатлалтай үйл явц нь оролцогчдын эцсийн бүлэг \(r\) . Эдгээр хоёр үе шатуудын хоорондох чухал ялгаа нь судлаачид дээжийг сонгох үйл явцыг хянадаг хэдий ч эдгээр хүмүүсээс аль нь илүү хариулж байгааг хянах боломжгүй юм. Эдгээр хоёр үйл явцыг нэгтгэх нь хэн нэг нь хариулагч байх магадлал юм
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Энгийн байдалтай байхын тулд анхны түүврийн загварыг орлуулахгүйгээр энгийн санамсаргүй түүвэр авах тохиолдлыг авч үзье. Хэрэв судлаач \(n_s\) \(n_r\) хариулагчаас гарган авдаг бол судлаачид хариултыг үл тоомсорлож, хариулагчдын дундажийг хэрэглэдэг бол тооцооны алдаа нь:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
Эндээс \(cor(\phi, y)\) нь хариу урвал ба үр дагавар (жишээ нь, ажилгүйдлийн байдал), \(S(y)\) нь хүн амын стандарт хазайлт юм (жишээ нь, ажилгүйдэл статистик), \(S(\phi)\) нь хариу урвалын популяцийн стандарт хазайлт бөгөөд \(\bar{\phi}\) нь популяцийн дундаж хариу урвал (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Тэгш. 3.7-д дараах нөхцлүүдийн аль нэг нь хангагдаагүй тохиолдолд хариу өгөхгүй байх болно:
Харамсалтай нь, эдгээр нөхцөлүүдийн аль нь ч байж болох юм. Хөдөлмөр эрхлэлтийн байдал өөрчлөгдөхгүй, хариу үйлдэл хийхэд өөрчлөлт гарахгүй байх магадлалтай юм шиг санагдаж байна. Тэгэхээр, тэгш байдал 3.7 нь корреляци: \(cor(\phi, y)\) . Жишээ нь, ажилгүй хүмүүс хариулах магадлал ихтэй бол ажил эрхлэлтийн тооцооллыг нэмэгдүүлэх боломжтой.
Хариуцлага хүлээхгүй тохиолдолд тооцоолол хийхэд туслах арга нь нэмэлт мэдээллийг ашиглах явдал юм. Жишээ нь, та нэмэлт мэдээллийг ашиглаж болох нэг арга бол дараах үе шат юм (дээрхээс 3.5-р тэгшитгэлийг эргэн санах). Тооцооллын дараах тооцооллын хэвийх утга нь:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
хаана \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , ба \(\bar{\phi}^{(h)}\) нь дээр дурдсанчлан \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Ийнхүү ангиллын дараах үе тус бүрийн хэвийх утга нь бага байх тохиолдолд ердийн хэвийх утга нь бага байх болно. Хоёр үе шаттай бүлэг бүрт хэвийх утгыг гаргах талаар би бодох дуртай. Нэгдүгээрт, та хариу өгөх хандлагад бага зэрэг өөрчлөлт ордог нэгэн төрлийн бүлгийг үүсгэхийг хүсч байна ( \(S(\phi)^{(h)} \approx 0\) ) ба үр дүн ( \(S(y)^{(h)} \approx 0\) ). Хоёрдугаарт, та харж байгаа хүмүүсээ хардаггүй хүмүүстээ ( \(cor(\phi, y)^{(h)} \approx 0\) ) харуулдаг. Тэгшитгэлийг харьцуулах 3.7 ба харьцаа 3.8-р үе шатанд хариулт өгөхгүй байдлаас үүдсэн алдаа дутагдлыг багасгах боломжтойг тодруулахад тусална.
Дүгнэж хэлэхэд энэ хэсэгт хариу өгөхгүй байж болох магадлалт түүвэрлэлтийн загварыг гаргаж, давхардаагүй дараах тохируулга хийхгүйгээр болон хоёуланг нь хоёуланг нь танилцуулахгүй байгаа хэвийх утгыг харуулсан. Bethlehem (1988) нь илүү ерөнхий түүвэрлэлтийн дизайн хийхэд тохиромжгүй байдлаас үүдэлтэй хэвийх утгыг гаргаж ирдэг. Шигшүүлэх бус дараахь үе шатыг ашиглах талаар илүү дэлгэрэнгүйг Smith (1991) , Gelman and Carlin (2002) үзнэ үү. Дараагийн үе шат нь калибровкын тооцоо хийх аргуудын ерөнхий Särndal and Lundström (2005) нэг хэсэг юм. Жан (2000) , урт хугацааны эмчилгээнд зориулж Жан Särndal and Lundström (2005) , Särndal and Lundström (2005) урт хугацааны эмчилгээ болох Särndal and Lundström (2005) үзнэ үү. Särndal and Lundström (2005) тохируулга хийх бусад жинлэлтийн аргуудаас дэлгэрэнгүйг Kalton and Flores-Cervantes (2003) , Brick (2013) , Särndal and Lundström (2005) .
Магадлалын бус түүвэрлэлт
Бодит бус түүвэрлэлт нь асар их олон төрлийн загварыг агуулдаг (Baker et al. 2013) . Xbox-ийн хэрэглэгчдийн түүврийг ялангуяа Ван болон бусад хамтран ажиллагсад (W. Wang et al. 2015) тусгайлан анхаарч үзээд дээж авах загвар гол хэсэг нь \(\pi_i\) судлаачдаас \(\phi_i\) ) гэхдээ \(\phi_i\) (хариулагчдаас шалтгаалсан хариултын хандлагыг). Мэдээжээр энэ нь тохиромжгүй, \(\phi_i\) тодорхойгүй байна. Гэхдээ Ван, түүний хамтран ажиллагсдын үзэж байгаагаар ийм төрлийн сонголтыг дээж авахаас эхлээд асар том хамрах алдаатай байснаас гадна судлаач эдгээр нэмэлт асуудлыг сайн статистикийн загвартай, сайн статистик загвартай гэж үзвэл энэ нь сүйрэл болохгүй.
Bethlehem (2010) дээрх олон тооны деривативуудыг давхацын дараах үе шатыг хамардаг ба хоёуланг нь үл тоомсорлох, хамрах хүрээний алдааг оруулав. Дараах уян хатан, гадна, хамрах хүрээ алдаа болон nonresponse-багтаасан түүвэр Таарах нь бус магадлал дээж ба магадлалын дээж хамтран ажиллах бусад техник (Ansolabehere and Rivers 2013; ??? ) , хандлага оноо жингийн (Lee 2006; Schonlau et al. 2009) , шалгалт тохируулга (Lee and Valliant 2009) . Эдгээр арга техникүүдийн дунд нийтлэг нэг сэдэв бол туслах мэдээллийн ашиглалт юм.