Осы қосымшада мен кейбір идеяларды тараудан математикалық түрде аздап сипаттайтын боламын. Мұндағы мақсат - сауалнаманы зерттеушілер пайдаланатын белгілермен және математикалық негіздермен ыңғайлы болу үшін, осы тақырыптар бойынша жазылған кейбір техникалық материалдарға көшуіңізге болады. Мен ықтималдық сынамасын енгізуден бастаймын, содан кейін ықтималдылықтың іріктеуіне жауап бермей, және, ақырында, ықтималдылықтан іріктеуді бастаймын.
Ықтималдықты іріктеу
Алдыңғы мысал ретінде, АҚШ-та жұмыссыздық деңгейін бағалаудың мақсатын қарастырайық. \(U = \{1, \ldots, k, \ldots, N\}\) мақсатты популяция болсын және \(y_k\) адам үшін \(k\) Бұл мысалда \(y_k\) - адам \(k\) жұмыссыз болып табыла ма. Ақыр соңында, қарапайым болу үшін мақсатты топ ретінде бірдей деп есептелетін, кадрлар популяциясы болсын \(F = \{1, \ldots, k, \ldots, N\}\) .
Үлгілік іріктеу дизайны - ауыстырусыз қарапайым кездейсоқ іріктеу. Бұл жағдайда әр адам бірдей үлгіге \(s = \{1, \ldots, i, \ldots, n\}\) . Деректер іріктеу үлгісімен жиналған кезде, зерттеушілер халықтың жұмыссыздық деңгейін үлгідегі үлгі бойынша бағалауы мүмкін:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
онда \(\bar{y}\) халықтың жұмыссыздық деңгейі және \(\hat{\bar{y}}\) жұмыссыздық деңгейін бағалау болып табылады ( \(\hat{ }\) әдетте бағаны көрсету үшін пайдаланылады).
Шындығында, зерттеушілер қарапайым кездейсоқ іріктеуді сирек пайдаланбайды. Көптеген себептер бойынша (олардың біреуін бір сәтте сипаттайтын боламын), зерттеушілер жиі қосудың теңдесіз ықтималдығы бар үлгілер жасайды. Мысалы, зерттеушілер Калифорниядағы адамдарға қарағанда, Флорида штатында адамдарды таңдау мүмкіндігі бар. Бұл жағдайда үлгі (орташа 3.1) жақсы бағалаушы болмауы мүмкін. Оның орнына, қосудың теңдесіз ықтималдығы болғанда, зерттеушілер пайдаланады
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
онда \(\hat{\bar{y}}\) - жұмыссыздық деңгейін бағалау және \(\pi_i\) - адамның \(i\) ықтималдығы. Стандартты практикаға сүйене отырып, бағалаушыға тең. 3.2 Horvitz-Thompson бағалауы. Хорвиц-Томпсонның бағалауы өте пайдалы, себебі ол кез-келген ықтималдықпен іріктеу дизайнын бағалауға әкеледі (Horvitz and Thompson 1952) . Хорвиц-Томпсонның бағалаушылары жиі пайда болғандықтан, оны қайта жазуға болатындығын байқаған жөн.
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
мұнда \(w_i = 1 / \pi_i\) . Қалай экв. 3.3 анықтағандай, Horvitz-Thompson бағалауы салмақтарды іріктеу ықтималдығына кері байланысты болатын салмақты үлгі болып табылады. Басқаша айтқанда, адамға әлдеқайда ықтималдығы үлгімен қосылуға тиіс, ол адамның бағасына неғұрлым көп мән берілуге тиіс.
Жоғарыда сипатталғандай, зерттеушілер жиі инклюзияның теңдесіз ықтималдығы бар адамдарды іріктейді. Интеграцияның теңдестірілмеген ықтималдықтарына әкелуі мүмкін дизайндардың бір мысалы - стратификацияланған іріктеу , ол түсіну үшін маңызды, себебі ол кейінгі стратификация деп аталатын бағалау рәсімімен тығыз байланысты. Стратификацияланған іріктеу кезінде зерттеуші мақсатты топты \(H\) өзара бірегей және толық топтарға бөледі. Бұл топтар қабаттар деп аталады және \(U_1, \ldots, U_h, \ldots, U_H\) . Бұл мысалда қабаттар жай-күйі болып табылады. Топтардың өлшемдері \(N_1, \ldots, N_h, \ldots, N_H\) . Зерттеуші мемлекеттің жұмыссыздық деңгейі туралы мемлекеттік деңгейде бағалау үшін әр мемлекетте жеткілікті адам бар екеніне көз жеткізу үшін стратифицированная іріктеуді қолданғысы келеді.
Халық санаттарға бөлінгеннен кейін, зерттеуші әр \(n_h\) тәуелсіз кез-келген өлшемді алмастырмай қарапайым кездейсоқ үлгісін таңдайды. Әрі қарай, іріктеп алынған әр адам респондент болып саналады (келесі бөлікте жауап бермеймін). Бұл жағдайда қосудың ықтималдығы
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Бұл ықтималдықтар адамнан адамға өзгеріп кететіндіктен, осы үлгілеу жобасынан бағалау жүргізгенде, зерттеушілерге әрбір жауап берушіге Horvitz-Thompson бағалаушысын (экв. 3.2) қолдануға ықтималдылығы жағынан салмақ қажет.
Horvitz-Thompson бағалауы объективті болса да, зерттеушілер үлгіні көмекші ақпаратпен біріктіру арқылы дәлірек (яғни, төменгі ауытқу) бағалауды шығара алады. Кейбір адамдар таңдамалы ықтималдылықтың іріктеуі өте жақсы болғанда да, бұл шындықтың таңқаларлықтығын көрсетеді. Қосалқы ақпаратты пайдаланатын осы әдістер өте маңызды, себебі кейінірек көрсететінімдей, көмекші ақпарат ықтималдық үлгілерінен бағаланбаған және ықтимал емес үлгілерден бағалау үшін өте маңызды.
Қосалқы ақпаратты пайдаланудың бір әдісі пост-стратификация болып табылады. Мысалы, зерттеуші 50 мемлекеттің әрқайсысында ерлер мен әйелдердің саны туралы білетінін елестетіп көріңізші; біз осы топтың өлшемдерін \(N_1, N_2, \ldots, N_{100}\) . Бұл көмекші ақпаратты үлгімен біріктіру үшін, зерттеуші үлгіні \(H\) топтарға бөлуі мүмкін (бұл жағдайда 100), әрбір топ үшін бағалау жасаңыз, содан кейін осы топтық құралдардың орташа өлшенген мәнін жасаңыз:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Шамасы, бағалаушы. 3.5, дәлірек айтқанда, белгілі халық туралы ақпаратты - \(N_h\) - теңдестірілмеген үлгі таңдалған болса, бағалауды түзету үшін қолдануы мүмкін. Бұл туралы ойланудың бір жолы - пост стратификация деректер жиналғаннан кейін жуықтау стратификациясына ұқсайды.
Қорытындылай келе, осы бөлімде бірнеше іріктеу үлгілері сипатталған: ауыстырусыз қарапайым кездейсоқ іріктеу, тең емес ықтималдықпен іріктеу және стратифицирленген іріктеу. Ол сондай-ақ бағалау туралы екі негізгі ойды сипаттады: Хорвиц-Томпсонның бағалаулары және пост-стратификация. Ықтимал үлгілерді іріктеу жобаларын неғұрлым ресми анықтау үшін, Särndal, Swensson, and Wretman (2003) 2-тарауды қараңыз. Стратификацияланған іріктеуді неғұрлым ресми және толық емдеу үшін Särndal, Swensson, and Wretman (2003) бөлімін қараңыз. Horvitz-Thompson бағалаушысының қасиеттерін техникалық сипаттау үшін Horvitz and Thompson (1952) , Overton and Stehman (1995) немесе @ sarndal_model_2003 бөлімінің 2.8 бөлімін қараңыз. Пост стратификацияны формальды емдеу үшін Holt and Smith (1979) , Smith (1991) , Little (1993) немесе Särndal, Swensson, and Wretman (2003) .
Жауап берместен ықтималдылықты іріктеу
Барлық дерлік сауалнама жауап бермейді; яғни әрбір халықтың үлгілі тұрғындарында барлық сұрақтарға жауап бермейді. Жауап бермеудің екі негізгі түрі бар: элемент жауап бермейді және бірлік жауап бермейді . Жауап бермеген жағдайда кейбір респонденттер кейбір элементтерге жауап бермейді (мысалы, кейде респонденттер сезімтал деп санайтын сұрақтарға жауап бергісі келмейді). Бірлікке жауап бермеген жағдайда, іріктелген халық үшін таңдалған кейбір адамдар сауалнамаға жауап бермейді. Бірліктерге жауап бермеудің ең көп тараған себептері: іріктелген адамға байланысу мүмкін емес және іріктелген адам байланысқа түседі, бірақ қатысуға қабылданбайды. Бұл бөлімде мен жауап бермеймін; оқырмандар, мақалаға жауап бермегенде, Little және Rubin (2002) көруі керек.
Зерттеушілер жиі қайталанатын іріктеу процесі ретінде біріккен жауапсыздықпен сауалнама жүргізу туралы ойлайды. Бірінші кезеңде зерттеуші \(s\) үлгісін әрбір адамның \(\pi_i\) (мұнда \(0 < \pi_i \leq 1\) қосу ықтималдығы бар екенін таңдайды. Екінші кезеңде үлгіге таңдалған адамдар \(\phi_i\) ықтималдықпен жауап береді (мұнда \(0 < \phi_i \leq 1\) ). Бұл екі кезеңдік процесс респонденттердің соңғы жинағына әкеледі \(r\) . Бұл екі кезең арасындағы маңызды айырмашылық, зерттеушілер сынаманы іріктеу процесін бақылап отырады, бірақ олар іріктелген адамдардың қайсысы респондент болатынын бақыламайды. Бұл екі процесті бір-біріне біріктіру, біреудің респондент болатынын ықтималдығы
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Қарапайымдылық үшін, түпнұсқалық үлгі дизайны ауыстырусыз қарапайым кездейсоқ іріктеу болып табылатын жағдайды қарастырамын. Зерттеуші мөлшері үлгісін таңдаса \(n_s\) береді \(n_r\) : респонденттердің және зерттеуші емес жауап елемейді және респонденттердің орта пайдаланатын болса, онда бағалаудағы жылжуы болады
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
мұнда \(cor(\phi, y)\) - бұл реакцияның бейімділігі мен нәтижесі (мысалы, жұмыссыздық мәртебесі) арасындағы ара-қатынасы, яғни \(S(y)\) - нәтиженің халықтың стандартты ауытқуы (мысалы, жұмыссыздық \(S(\phi)\) халықтың реакцияға бейімділігінің стандартты ауытқуы болып табылады және \(\bar{\phi}\) халықтың реакцияға бейімділігін білдіреді (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Теңдеулер 3.7 көрсеткендей, төменде келтірілген шарттардың біреуі орындалмаған жағдайда, жауап бермеу төмендеулерді енгізбейді:
Өкінішке орай, осы жағдайлардың ешқайсысы мүмкін емес. Жұмыспен қамту мәртебесіндегі ешқандай өзгеріс болмайтыны немесе жауаптардың өзгеруіне ешқандай өзгерістер болмайтыны түсініксіз. Осылайша, экв. 3.7 - корреляция: \(cor(\phi, y)\) . Мысалы, егер жұмыссыз адамдар жұмыс істемесе, онда жұмыспен қамтудың бағалануы жоғары болады.
Жауап бермеген кезде бағалаулар жасау үшін қосымша ақпарат қосымша ақпаратты пайдалану болып табылады. Мысалы, қосалқы ақпаратты пайдаланудың бір жолы - пост-стратификация (жоғарыда келтірілген 3.5-тен еске түсіріңіз). Пост стратификация бағасының төмендеуі келесідей:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
мұнда \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) \(S(\phi)^{(h)}\) және \(\bar{\phi}^{(h)}\) жоғарыда сипатталған, бірақ топта \(h\) адамдарға шектелген (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Осылайша, пост-стратификациядан кейінгі әрбір топтағы қиғаштық аз болған жағдайда, жалпылама аз болады. Әр пост стратификациядан кейінгі топта кішкене кішкене ойлауды ойластырудың екі жолы бар. Алдымен сіз біртекті топтарды қалыптастыруға тырысқыңыз келсе, онда реакцияға бейімділік ( \(S(\phi)^{(h)} \approx 0\) ) және нәтиже ( \(S(y)^{(h)} \approx 0\) ). Екіншіден, сіз көретін адамдар сіз көрмейтін адамдарға ұқсас (+ \(cor(\phi, y)^{(h)} \approx 0\) ) топтарды қалыптастырғыңыз келеді. Салыстыру экв. 3.7 және экв. 3.8 пост стратификация жауап бермеуден туындаған бұрмалануды төмендете алады.
Қорытындыда бұл бөлім жауап бермей ықтималдықпен іріктеу үлгісін ұсынды және жауап бермей-ақ, жоқ және кейінгі стратификация бойынша түзетулер енгізе алатындығын көрсетті. Bethlehem (1988) жалпы сынамалық үлгілерге жауап бермеуден туындаған бұрмалаудың пайда болуын ұсынады. Smith (1991) және Gelman and Carlin (2002) бөлімін қараңыз. Пост стратификация - калибрлеуді бағалаушылар деп аталатын әдістердің неғұрлым жалпы отбасының бөлігі, Чанг (2000) мақалаларды ұзындығы үшін және Särndal and Lundström (2005) кітапты ұзарту үшін қараңыз. Kalton and Flores-Cervantes (2003) , Brick (2013) , Särndal and Lundström (2005) басқа да салмақты әдістеріне жауап бермейді.
Ықтималдықты іріктеу
Ықтималдылықтан іріктеу көптеген түрлі конструкцияларды қамтиды (Baker et al. 2013) . Wang және әріптестері (W. Wang et al. 2015) Xbox пайдаланушылары үлгісіне ерекше назар аудара отырып, сіз осы үлгіні таңдау үлгісі ретінде \(\pi_i\) емес, зерттеуге негізделген ықтималдылық), бірақ \(\phi_i\) (респонденттердің жауап \(\phi_i\) ). Әрине, бұл идеал емес, өйткені \(\phi_i\) белгісіз. Дегенмен, Ванг және әріптестер көрсеткеніндей, мұндай таңдау үлгісі, тіпті үлкен қамту қателігімен іріктеу шеңберінен бастап, зерттеушіде осы мәселелерді есепке алу үшін жақсы көмекші ақпарат және жақсы статистикалық модель болған жағдайда апатты болмауы керек.
Bethlehem (2010) жоғарыда айтылған көптеген туындыларды пост-стратификация туралы хабардар етпей, жауап берудің және қателіктердің қателіктерін қамтуға мүмкіндік береді. Пост стратификациядан басқа ықтималдық үлгілерімен жұмыс істеудің басқа әдістері және жабу қателіктері бар ықтималдық үлгілері және сәйкес (Ansolabehere and Rivers 2013; ??? ) үлгілерді сәйкестендіру (Ansolabehere and Rivers 2013; ??? ) , бейімділік баллының салмағы (Lee 2006; Schonlau et al. 2009) және калибрлеу (Lee and Valliant 2009) . Осы әдістердің арасында ортақ тақырып - қосымша ақпаратты пайдалану.