په دې ضمیمه کې، زه به د څپرکي ځینې نظریات په یو څه نور ریاضياتي شکل کې تشریح کړم. موخه دا ده چې تاسو د سروې او ریاضيیکي کاري چوکاټ سره چې د سروې څیړونکو لخوا کارول کیږي، په اسانۍ سره مرسته وکړئ ترڅو تاسو د دې موضوعګانو په اړه لیکل شوي نور تخنیکي مواد ته لیږدولو وړتیا ولرئ. زه به د احتمالي نمونې د معرفي کولو له لارې پیل شي، بیا د غیرمسلمي سره د امتیاز نمونې کولو ته لاړو، او بالاخره، غیر احتمالي نمونې کول.
د احتمالي نمونې کول
د چلولو بېلګې په توګه، اجازه راکړئ چې په متحده ایالتونو کې د بیکارۍ کچه راټیټ کړو. اجازه راکړئ \(U = \{1, \ldots, k, \ldots, N\}\) هدف لرونکي نفوس وټاکئ او \(y_k\) \(k\) د شخص د \(k\) لپاره د پایلو د متغیر ارزښت سره اجازه ورکړئ. په دې مثال کې \(y_k\) ایا دا کس \(k\) بېروزګار دی. په پای کې، اجازه راکړئ \(F = \{1, \ldots, k, \ldots, N\}\) د خلکو نفوس \(F = \{1, \ldots, k, \ldots, N\}\) ، کوم چې د سراسري هدف لپاره د هدف نفوس په څیر ګڼل کیږي.
د اصولو نمونې ډیزاین ساده بې ترتیبه نمونې پرته له بدیل څخه. په دې حالت کې، هرڅوک ممکن د نمونې په نمونو کې شامل وي. \(s = \{1, \ldots, i, \ldots, n\}\) . کله چې د نمونې د ډیزاین سره ډیزاین راټول شي، څیړونکي کولی شي د بې کارۍ کچه د نمونې سره اټکل کړي:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
چیرې چې \(\bar{y}\) د وګړو بی وزګاري کچه ده او \(\hat{\bar{y}}\) د بیکارۍ کچه (عمومي \(\hat{ }\) د اټکلیټ د ښودلو لپاره کارول کیږي).
په واقعیت کې، څیړونکي لږترلږه د ساده بې ترتیبه نمونې کارول پرته له بدله. د مختلفو وجوهاتو لپاره (چې زه یې په یو ساعت کې تشریح کوم)، څیړونکي اکثرا د شمولیت غیر مساوي احتمالي امتیازاتو سره جوړوي. د مثال په توګه، څیړونکي کولی شي د فلوریف په خلکو کې د ډیرو احتمالاتو شمولیت سره په فلوریډا کې خلک غوره کړي. په دې حالت کې، نمونه معنی (3.1 شکل 3.1) کیدای شي ښه اټمینونکی نه وي. پرځای یې، کله چې د شمولیت غیر مساوي احتمال شتون لري، څیړونکي کاروي
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
چیرې چې \(\hat{\bar{y}}\) د بیکارۍ اندازه اټکل او \(\pi_i\) د انسان \(i\) شمولیت احتمال لري. د معیاري تعقیب وروسته، زه به اټکل کوونکي په eq کې وایم. 3.2 د Horvitz-Thompson اټټیمټر. د Horvitz-Thompson اټکلیټ خورا ګټور دی ځکه چې دا د احتمالي نمونې د ډیزاین لپاره ډیزاین اټکل کیږي (Horvitz and Thompson 1952) . ځکه چې د Horvitz-Thompson اټکلیټ ډیر ځله راځي، دا خورا ګټوره ده چې یادونه وشي چې دا کولی شي بیا هم په لیکلو سره وي
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
چیرته \(w_i = 1 / \pi_i\) . لکه څنګه چې 3.3 څرګندوي، د Horvitz-Thompson اټکلیټ یوه وزن لرونکي نمونه ده چې پدې معنی چې وزن په انفرادي توګه د انتخاب احتمال پورې اړه لري. په بل عبارت، لږ تر لږه یو کس باید په نمونه کې شامل شي، هغه وزن چې هغه شخص باید اټکل کې تر لاسه کړي.
لکه څنګه چې مخکې یادونه وشوه، څیړونکي اکثرا هغه خلک نمونه کوي چې د نا مساوي احتمالي احتمالي امکاناتو سره سم دي. د یو ډیزاین یوه بیلګه چې د شمولیت غیر مساوي احتمالي احتمال رامینځ ته کولی شي د نمونې نمونه کول وي ، دا مهمه ده چې پوه شي چې دا د اټکل کولو کړنالره پورې تړلې ده چې وروسته د سټراټیشن نومیږي . په ثابت شوي نمونې کې، یو محقق د خلکو نفوس په \(H\) متقابل ډول ځانګړي او جامع ډلو ته تقویه کوي. دغه کسان او ډلې طبقې په نامه او په توګه په ګوته شوي دي \(U_1, \ldots, U_h, \ldots, U_H\) . په دې مثال کې، سیمیټ هیوادونه دي. د ډلو اندازه د \(N_1, \ldots, N_h, \ldots, N_H\) . یو محقق کیدای شي د سټیټ شوی نمونې کارولو څخه کار واخلئ ترڅو ډاډ ترلاسه شي چې د هغې په پوره دولت کې د بېروزګاري د دولتي کچې اټکل کولو لپاره پوره خلک لري.
کله چې نفوس په سټاټا کې ویشل شوی، فرض کړئ چې محقق د اندازې بدلېدلو لپاره ساده بی ترتیبه نمونه انتخابوي \(n_h\) ، په خپلواک ډول د هرې سیمې څخه. برسېره پردې، داسې فرض کړئ چې هرڅوک په نمونه کې غوره کړي ځواب ويونکی کیږي (زه به په راتلونکي برخه کې غیر ځواب نه لرم). په دې حالت کې د شمولیت احتمال شتون لري
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
ځکه چې دا احتمالونه د شخص څخه تر بل توپیر پورې توپیر لري، کله چې د نمونې د ډیزاین له ډیزاین څخه اټکل ترسره کوي، څیړونکي باید د هرې ځواب ورکوونکي اړتیا وي چې د Horvitz-Thompson اټیمټریټ (EQ 3.2) په کارولو سره د احتمالي احتساب په واسطه وزن پورته کړي.
که څه هم د Horvitz-Thompson اټکل کوونکی ناڅاپي دی، څیړونکي کولی شي د معاینې معلوماتو سره د نمونې سره یوځای کولو سره ډیر درست (مثلا ټیټ متفاوت) اټکلونه تولید کړي . ځینې خلک د حیرانتیا احساس کوي چې دا سمه ده که حتی د احتمالي احتمالي نمونې کولو شتون شتون ولري. دا تخنیکونه د مرستندویه معلوماتو په کارولو سره خورا مهم دي ځکه چې زه به وروسته وروښیم، امتیاز معلومات د احتمالي نمونې د اټکلونو لپاره غیر ناپاک او غیر احتمالي نمونې سره مهم دي.
د مرستندویه معلوماتو څخه کار اخیستلو لپاره یو عام تخنیک د پوستکي کولو وروسته ویشل کیږي . تصور وکړئ، د بیلګې په توګه، دا چې څیړونکی په 50 هیوادونو کې د نارینه او ښځو شمیر پیژني؛ موږ کولی شو د دې ډلې اندازه د \(N_1, N_2, \ldots, N_{100}\) . د نمونې سره د دې معاینې معلوماتو سره یوځای کولو لپاره، څیړونکی کولی شي نمونه په \(H\) ګروپونو کې) پدې ربع کې 100 (کې، د هر ګروپ لپاره اټکل جوړ کړي، او بیا د دې ګروپ معنی منځته راوړي:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
په ټوله توګه، په اټکل کې اټکل کوونکي. 3.5 احتمال ډیر درست دی ځکه چې دا د پېژندل شوي نفوس معلومات کاروي - \(N_h\) - دقیق اټکلونه که چیرې د بې انډول نمونه انتخاب شي نو. د دې په اړه فکر کولو یوه لاره دا ده چې د پوست سټراټیشن د معلوماتو له مخې راټول شوی نه وروسته د سټراټیشن نږدې په څیر دی.
په پایله کې، پدې برخه کې د نمونې ډیزاین ډیزاینونه بیان شوي: ساده بې ترتیبه نمونې پرته له ځای پرځای کولو، د غیر مساوي احتمال سره نمونه کول، او د سم نمونې نمونې. پدې اړه د اټکل په اړه دوه اصلي نظرونه هم ذکر شوي: د Horvitz-Thompson اټکل کوونکي او وروسته د استحکام. د احتمالي نمونې ډیزاینونو ډیزاین رسمي تعريف لپاره، د Särndal, Swensson, and Wretman (2003) 2) فصل 2 وګورئ. د مشخص شوي نمونې کولو لپاره د رسمي او بشپړ درملنې لپاره، د Särndal, Swensson, and Wretman (2003) 3.7 برخه وګورئ Särndal, Swensson, and Wretman (2003) . د Horvitz-Thompson اټکل کوونکي د تخنیکي تشریح لپاره، Horvitz and Thompson (1952) ، Overton and Stehman (1995) ، یا د 2.88 sarndal_model_2003 برخه وګورئ. د پوستې د لوړې کچې د رسمي درملنې لپاره، د Holt and Smith (1979) ، Smith (1991) ، Little (1993) ، یا د Särndal, Swensson, and Wretman (2003) برخه 7.6 Särndal, Swensson, and Wretman (2003) .
د غیر ځواب ورکوونې سره د احتمالي نمونې اخیستنه
تقريبا ټول حقيقي سروې غير منفي دي؛ دا د نمونې د خلکو هرڅوک د هرې پوښتنې ځواب نه ورکوي. دوه ډوله غیر مشورې شتون لري: غیرمستقیم او د واحد غیر انتفاعي توکي . په غیر امتیاز کې، ځینې ځواب ورکوونکي ځینې توکي ځواب نه کوي (د مثال په توګه، کله چې ځواب ويونکي نه غواړي د هغو پوښتنو ځوابونه وکړي چې دوی حساسیت لري). په واحد واحد کې، ځینې خلک چې د نمونې نفوس لپاره ټاکل شوي وي په سروې کې ځواب نه ورکوي. د واحد غیر انتفاعي دوه معمول دلیلونه دا دي چې نمونه شوي شخص سره اړیکه نه شي نیول کیدی او نمونوی کس سره اړیکه ونیول شي مګر برخه اخیستلو څخه انکار کول. په دې برخه کې، زه به په قطعې ناستې کې تمرکز وکړم؛ هغه لوستونکي چې د توکو په اړه دلچسپي لري د غیرقانوني توکیو په اړه باید لږ او روبین وګورئ (2002) .
څیړونکي اکثرا د سروې کولو په اړه فکر کوي د واحد د ځواب ورکولو سره د دوه مرحلې نمونې کولو پروسې په حیث. په لومړي پړاو کې، څیړونکی یو نمونه \(s\) غوره کوي داسې چې هر څوک د شمولیت احتمال لري \(\pi_i\) (چیرې چې \(0 < \pi_i \leq 1\) ). بیا، په دویمه مرحله کې، هغه خلک چې نمونه کې غوره کیږي د احتمالي \(\phi_i\) سره ځواب ورکوي (چیرته چې \(0 < \phi_i \leq 1\) ). د دې دوه مرحلې بهیر د ځواب ویونکو وروستیو سیالیو \(r\) پایلې پایلې لري. د دغو دوو پړاوونو ترمنځ یو مهم توپیر دا دی چې څیړونکي د نمونې غوره کولو کنترول کنترولوي، مګر دوی کنترول نه کوي چې کوم نمونه شوي خلک ځواب ويونکي دي. د دغو دوو پروسو سره یوځای کول، احتمال چې څوک به یو ځواب ويونکی وي
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
د سادگي لپاره، زه به هغه قضيه په پام کې ونیسم چېرته چې اصلي نمونه ډیزاین ساده سایټ نمونې ده پرته له بدله. که یو محقق د سائز نمونه \(n_s\) د نمونوی انتخاب ټاکي چې \(n_r\) ځواب ورکوونکي یې تولیدوي، او که چیرې څیړونکي د ځواب ورکوونکو معنی نه لري نو ځواب به یې نه وي او بیا د اټکل ارزونه به وي:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
چیرې چې \(cor(\phi, y)\) د غبرګون تمرکز او پایلې (د بیلګې په توګه، د بیکارۍ حالت) تر منځ د خلکو اړیکه ده، \(S(y)\) د نفوس د معیشت ویش (د بیلګې په توګه، بیکارۍ حالت)، \(S(\phi)\) د غبرګون د وړتیا کچه د معیشت ویشنه ده، او \(\bar{\phi}\) نفوس د ځواب وړتیا معنی لري (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 ښیي چې غیر تبصره به د تعصب معرفي نشي که چیرې لاندې شرایط پوره شي:
له بده مرغه، د دغو شرایطو څخه هیڅ یو احتمال شتون نلري. داسې ښکاري چې ممکن د کار موندنې په حالت کې کوم توپیر شتون ونلري او یا به د ځوابونو وړتیا کې هیڅ توپیر ونه لري. په همدې توګه، په eq کې مهم اصطالح. 3.7 اړیکه لري: \(cor(\phi, y)\) . د مثال په توګه، که خلک وي چې بې روزګار یې د ځواب ورکولو احتمال لري، نو د کارموندنې اټکل کچه به اړخیز وي.
د اټکل کولو لپاره چال چلن کله چې غیر انتفاعي مرستې د مرستې معلوماتو څخه کار اخلي. د بیلګې په توګه، هغه طریقه چې تاسو کولی شئ د معاون معلوماتو څخه کار واخلئ د پوست سټراټیشن (د پورته څخه پورته 3.5 دقیقه یاد کړئ). دا معلومه شوه چې د سټراټیټ سټراټیټ اټیم ټیم تعصب دی:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
چیرته \(cor(\phi, y)^{(h)}\) ، \(S(y)^{(h)}\) ، \(S(\phi)^{(h)}\) او \(\bar{\phi}^{(h)}\) د پورته په توگه تعریف شوي، مګر د ډلې \(h\) ډلې (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . په دې توګه، ټولیز تعصب به کوچني وي که چیرې د سټراټیټ کولو وروسته د هر ګروپ کې تعصب کوچنی وي. دلته دوه لارې شتون لري چې زه غواړم چې د استخراج کولو په هر ګروپ کې د تعصب کولو په اړه فکر وکړو. لومړی، تاسو هڅه کول غواړئ چې متخصص ګروپونه جوړ کړئ چیرته چې د ځواب وړتیا توپیر شتون لري ( \(S(\phi)^{(h)} \approx 0\) ) او پایلې ( \(S(y)^{(h)} \approx 0\) ). دوهم، تاسو غواړئ هغه ګروپونه چیرته چې تاسو یې وګورئ هغه خلک دي چې خلک یې نه ګوري ( \(cor(\phi, y)^{(h)} \approx 0\) ). د پرتله کولو eq. 3.7 او eq. 3.8 مرسته کولی شي کله چې د پوټ سټراټیټیشن نشي کولی د غیر غیر انتفاعي تعامل سبب شي.
په پایله کې، دا برخه د احتمالي نمونې لپاره نمونې د غیر ځوابونو سره برابرې کړې او د تعصب ښودلو لپاره یې نمونه چمتو کړې چې غیر ځوابونه د پوستونو د سټراټیټ سمون سره پرته او هم دواړه معرفي کولی شي. Bethlehem (1988) د عمومي نمونې ډیزاینونو لپاره غیر غیر انتفاعي تاثیرات رامینځ ته کوي. د غیر انتفاعي مرستې لپاره د پوست سټراټیټ کارولو په اړه د نورو لپاره، وګورئ Smith (1991) او Gelman and Carlin (2002) . د پوست تناسب د تخنیکونو د ډیری عمومي کورنیو یوه برخه ده چې د حساب ورکولو اټکل کوونکی دی، ژون (2000) وګورئ چې د مقاله اوږد درمل او Särndal and Lundström (2005) لپاره د کتاب اوږد درملنې لپاره Särndal and Lundström (2005) . د غیر ځوابونو لپاره د نورو نورو وزنونو په اړه د نورو لپاره، Kalton and Flores-Cervantes (2003) ، Brick (2013) ، او Särndal and Lundström (2005) .
د احتمالي نمونې نمونې
د احتمالي نمونې نمونې کې ډیزاینونه ډیری ډیزاینونه شامل دي (Baker et al. 2013) . په ځانګړې توګه د وانګ او همکارانو لخوا (W. Wang et al. 2015) لخوا د بکس کاروونکو نمونې ته تمرکز کولی شئ، تاسو کولی شئ د داسې نمونې په اړه فکر وکړو لکه چیرته چې د نمونې کولو ډیزاین کلیدي برخه \(\pi_i\) په شمول د څیړونکي لخوا پرمخ بیولو احتمالي امکانات) مګر \(\phi_i\) (د ځواب ورکوونکي لخوا په ځواب کې د غبرګون وړ ظرفیتونه). په طبيعي توګه، دا مثالي ندی ځکه چې \(\phi_i\) نامعلوم دي. مګر، لکه څنګه چې وانګ او همکارانو وښودل، د نمونې نمونې څخه ډکه نمونه - حتی د پوښښ ډیرې خرابۍ سره سره دومره خراب نه وي - که چیرې څیړونکی د دې لپاره ستونزې ولري چې ښه مرستندویه معلومات او یو ښه احصاییه ماډل ولري چې د دغو ستونزو حساب ورکړي.
Bethlehem (2010) د پوستکي کولو څخه وروسته د پورته نشتوالي ډیری برخه وغځوي ترڅو د غیر غیر انتفاعي او پوښښ دواړو غلطیتونو کې شامل شي. سربیره پردې د استحکام کولو سربیره، د غیر احتمالي نمونې سره کار کولو لپاره نور تخنیکونه - او د احتمالي نمونې سره د پوښښ د غلطی او غیر (Ansolabehere and Rivers 2013; ??? ) نمونو سره سم نموني ملګری (Ansolabehere and Rivers 2013; ??? ) ، د وړتیا ټیټ وزن (Lee 2006; Schonlau et al. 2009) ، او حساب ورکولو (Lee and Valliant 2009) . د دې تخنیکونو ترمنځ یو عام موضوع د مرستندویه معلوماتو کارول دي.