Bu əlavədə mən bəzi fikirləri fəslin bir qədər daha riyazi şəklində təsvir edəcəyəm. Buradakı məqsəd, bu mövzularda yazılmış bəzi texniki materiallara keçid edə bilmək üçün araşdırma tədqiqatçıları tərəfindən istifadə olunan notasiya və riyazi çərçivə ilə rahat olmanıza kömək etməkdir. Ehtimal nümunəsini tətbiq edərək başlayacağam, sonra cavabsız ehtimalla nümunə götürməyə, nəhayət, qeyri-ehtimal olunan nümunə götürməyə başlayıram.
Ehtimal nümunəsi
Çalışan bir nümunə olaraq, ABŞ-da işsizlik nisbətini qiymətləndirmək məqsədi ilə düşünək. \(U = \{1, \ldots, k, \ldots, N\}\) hədəf nüfus olsun və \(k\) üçün nəticə dəyişəninin dəyəri ilə \(y_k\) edək. Bu nümunədə \(y_k\) şəxsin \(k\) işsiz olub-olmamasıdır. Nəhayət, sadəliyi hədəf nüfusla eyni olduğu ehtimal edilən çərçivə əhalisi olsun \(F = \{1, \ldots, k, \ldots, N\}\) .
Əsas nümunə dizaynı dəyişdirilmədən sadə təsadüfi nümunədir. Bu halda, hər bir şəxs nümunəyə daxil olma ehtimalı \(s = \{1, \ldots, i, \ldots, n\}\) . Məlumatlar bu nümunə dizaynı ilə toplandıqda, tədqiqatçılar əhalinin işsizlik nisbətini nümunə ilə qiymətləndirə bilərlər:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
burada \(\bar{y}\) əhalinin işsizlik nisbəti və \(\hat{\bar{y}}\) işsizlik nisbətinin təxminidir ( \(\hat{ }\) bir qiymətləndiriciyi göstərmək üçün istifadə olunur).
Əslində, tədqiqatçılar nadir hallarda əvəz edilmədən sadə təsadüfi nümunədən istifadə edirlər. Müxtəlif səbəblərdən (biri bir an təsvir edəcəyəm), tədqiqatçılar tez-tez daxilolmaların qeyri-bərabər ehtimalları ilə nümunələr yaradırlar. Məsələn, tədqiqatçılar Kaliforniyadakı insanlara nisbətdə daha yüksək ehtimalla Florida-da seçə bilərlər. Bu halda, nümunə ortalaması (eq 3.1) yaxşı qiymətləndirici ola bilməz. Bunun əvəzində, daxilolmanın qeyri-bərabər ehtimalı olduqda, tədqiqatçılar istifadə edirlər
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
burada \(\hat{\bar{y}}\) işsizlik nisbətinin \(\pi_i\) və \(\pi_i\) şəxsin \(i\) 'nin daxil olma ehtimalı. Standart praktikadan sonra qiymətləndirməni eq. 3.2 Horvitz-Thompson tahmincisi. Horvitz-Thompson qiymətləndiricisi olduqca faydalıdır, çünki hər hansı bir ehtimal nümunəsi dizaynına (Horvitz and Thompson 1952) təxminlərə gətirib çıxarır (Horvitz and Thompson 1952) . Horvitz-Thompson tahmincisi çox tez-tez ortaya çıxdığından, bunun yenidən yazılabileceğini fark etmək faydalıdır.
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
burada \(w_i = 1 / \pi_i\) . Eq kimi. 3.3, Horvitz-Thompson tahmincisi, çəkilərin seçim ehtimalı ilə qarşılıqlı əlaqəli olduğu ağırlıqlı bir nümunədir. Başqa sözlə, bir şəxsin nümunəyə daxil olma ehtimalının az olması, bu adamın qiymətləndirmədə daha çox çəki olmalıdır.
Daha əvvəl təsvir edildiyi kimi, tədqiqatçılar tez-tez insanın daxilolma ehtimalı ilə bərabər olmayan nümunələri nümunə edirlər. Daxil qeyri-bərabər ehtimallar gətirib çıxara bilər ki, bir dizayn bir nümunə sıx post-təbəqələşmə deyilən qiymətləndirilməsi proseduru ilə bağlı, çünki anlamaq üçün vacibdir laylı nümunə edir. Stratifikasiya edilmiş nümunədə bir tədqiqatçı hədəf əhalini \(H\) qarşılıqlı eksklüziv və tam qruplara ayırır. Bu qruplar təbəqələri deyilir və kimi göstərilir \(U_1, \ldots, U_h, \ldots, U_H\) . Bu nümunədə təbəqələr dövlətlərdir. Qrupların ölçüləri \(N_1, \ldots, N_h, \ldots, N_H\) . Bir tədqiqatçı dövlət səviyyəsində işsizliyə dair qiymətləndirmələr aparmaq üçün hər bir dövlətdə kifayət qədər insana malik olduğundan əmin olmaq üçün layiqli seçmə nümunəsini istifadə etmək istəyə bilər.
Əhali təbəqələri bölünmüş edildikdən sonra, tədqiqatçı ölçüsü dəyişdirilməsi olmadan sadə təsadüfi nümunə seçir güman \(n_h\) müstəqil hər təbəqələrinin. Əlavə olaraq, nümunədə seçilmiş hər kəsin cavabdeh olacağına inanıram (növbəti hissədə cavab verməyəcəyəm). Bu halda, daxil olma ehtimalı
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Bu ehtimallar şəxsdən şəxslərə dəyişə bilər, çünki bu nümunə dizaynından qiymətləndirmə apararkən tədqiqatçılar Horvitz-Thompson kestiricisini (Eq 3.2) istifadə edərək ehtimal olunan hər bir respondentin çəkisini çəkməlidirlər.
Horvitz-Thompson qiymətləndiricisi qərəzsiz olmasına baxmayaraq, tədqiqatçılar nümunəni köməkçi məlumatlarla birləşdirərək daha dəqiq (yəni, aşağı varyans) təxminlər yarada bilərlər. Bəzi insanlar mükəmməl icra edilən ehtimal nümunəsi olsa belə, bu həqiqət olduğunu təəccübləndirir. Yardımçı məlumatlardan istifadə edən bu üsullar xüsusilə vacibdir, çünki daha sonra göstərəcəyəm ki, köməkçi məlumatlar ehtimal nümunələrindən cavab vermədən və qeyri-ehtimal nümunələrindən hesablamalar aparmaq üçün vacibdir.
Yardımçı informasiyanı istifadə etmək üçün bir ümumi texnika post-təbəqədir . Məsələn, tədqiqatçı hər 50 ölkənin hər birində kişi və qadın sayını bildiyini düşünün; bu qrup ölçülərini \(N_1, N_2, \ldots, N_{100}\) . Bu köməkçi məlumatı nümunə ilə birləşdirmək üçün tədqiqatçı nümunəni \(H\) qruplarına bölüşdürə bilər (bu halda 100), hər bir qrup üçün qiymətləndirmə və sonra bu qrup vasitələrinin ağırlıqlı ortalamasını yarada:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Kədərli olaraq, təxmin edilən Eq. 3.5 ehtimal ki, nüfuzlu bir nümunənin seçiləcəyi təqdirdə, müəyyənləşdirilmiş əhali məlumatlarını - \(N_h\) - \(N_h\) düzəltmək üçün istifadə edir. Bu barədə düşünmək üçün bir üsul, post-stratifikasiya məlumatların artıq yığılmasından sonra tabakalanma təxminini təşkil edir.
Nəticədə, bu bölmə bir neçə nümunə dizaynını təsvir etmişdir: dəyişmədən sadə təsadüfi nümunə alma, qeyri-bərabər ehtimalı ilə nümunə alma və təbəqələşdirilmiş nümunə alma. Horvitz-Thompson qiymətləndiricisi və post-təbəqələşmə ilə bağlı qiymətləndirmə haqqında iki əsas fikir təsvir edilmişdir. Ehtimal nümunələri dizaynının daha rəsmi təsviri üçün Särndal, Swensson, and Wretman (2003) 2-ci bölməsinə baxın. Stratifikasiya edilmiş nümunənin daha formal və tam müalicəsi üçün Särndal, Swensson, and Wretman (2003) hissəsinə baxın. Horvitz-Thompson tahmincisi xüsusiyyətlərinin texniki təsviri üçün Horvitz and Thompson (1952) , Overton and Stehman (1995) və ya @ sarndal_model_2003-nin 2.8- Overton and Stehman (1995) bölməsinə baxın. Post-təbəqələşdirmənin daha formal müalicəsi üçün Holt and Smith (1979) , Smith (1991) , Little (1993) və Särndal, Swensson, and Wretman (2003) 7.6 bölməsinə baxın.
Cavabsız ehtimalla nümunə alma
Demək olar ki, bütün real sorğular cavab vermir; yəni nümunə əhali içərisində olan hər kəs hər bir suala cavab vermir. Cavab verilməyən iki əsas növü var: maddəni cavabsız tutma və vahid cavab vermə . Bəzi respondentlər bəzi maddələrə cavab vermirlər (məsələn, bəzən respondentlər həssas olduğuna dair suallara cavab vermək istəmirlər). Vahid cavab vermədikdə, nümunə əhali üçün seçilmiş bəzi insanlar sorğuna heç cür cavab vermirlər. Vahidin cavab verməməsinin ən ümumi səbəbləri nümunə şəxsin əlaqə saxlanılmadığını və nümunə şəxsin əlaqə saxlandığından, iştirak etməkdən imtina edir. Bu bölmədə mən vahid cavab verməyəcəyəm; Maddədə cavab verməyən maraqlı oxucular Little və Rubin (2002) görməlidirlər.
Tədqiqatçılar tez-tez iki mərhələli nümunələşdirmə prosesi kimi vahid cavabsız araşdırma aparırlar. Birinci mərhələdə, tədqiqatçı nümunə seçir \(s\) hər bir şəxs daxil ehtimalı var, belə ki, \(\pi_i\) (burada \(0 < \pi_i \leq 1\) ). Sonra, ikinci mərhələdə, nümunəyə seçilmiş insanlar ehtimal \(\phi_i\) ( \(0 < \phi_i \leq 1\) ) ilə cavab verirlər. Bu iki mərhələli proses son respondentlərin dəsti ilə nəticələnər \(r\) . Bu iki mərhələ arasında əhəmiyyətli bir fərq, tədqiqatçıların nümunə seçilmə prosesini nəzarət etməsidir, lakin seçilmiş insanların hansı respondentlərə çevrildiyini nəzarət etməmişdir. Bu iki prosesi bir araya gətirərək, birinin cavabdeh olacağı ehtimalı var
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Sadəlik naminə, orijinal nümunə dizaynının dəyişdirilmədən sadə təsadüfi nümunə olduğu yerə nəzər salacağam. Bir tədqiqatçı ölçüsü bir nümunə seçir varsa \(n_s\) verir \(n_r\) respondent, tədqiqatçı qeyri-cavab məhəl qoymur və respondentlərin orta istifadə edir, onda smeta bias olacaq:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
\(cor(\phi, y)\) \(S(y)\) nəticənin populyar standart sapmasıdır (məsələn, işsizlik, məsələn, işsizlik statusu) və nəticə (məsələn, işsizlik statusu) arasında əhali nisbəti statusu), \(S(\phi)\) cavab təzyiqinin populyar standart sapmasıdır və \(\bar{\phi}\) əhalinin ortalama reaksiya (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7, aşağıdakı şərtlərdən hər hansı birinin yerinə yetirilmədiyi təqdirdə cavab verməyin yanlışlığı təqdim etməyəcəyini göstərir:
Təəssüf ki, bu şərtlərdən heç biri mümkün deyil. İş şəraitində heç bir dəyişiklik olmayacaq və ya cavabdehlik meyllərində heç bir dəyişiklik olmayacağına inanılmaz görünür. Beləliklə, eq. 3.7 korrelyasiyadır: \(cor(\phi, y)\) . Məsələn, əgər işsiz olan insanlar cavab vermək ehtimalı daha yüksəkdirsə, işə qəbul olunma dərəcəsi yuxarıya doğru yönəldiləcəkdir.
Cavab verilmədikdə təxminləri vermək hiyləsi köməkçi məlumatlardan istifadə etməkdir. Məsələn, köməkçi informasiyadan istifadə edə biləcəyiniz bir üsul post-stratifikasiyadır (yuxarıdakı 3.5-cü xatırladır). Göründüyü kimi, post-təbəqələşdirmə qiymətləndiricisinin yanaşması aşağıdakılardır:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
\(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) \(S(\phi)^{(h)}\) və \(\bar{\phi}^{(h)}\) yuxarıda göstərildiyi kimi müəyyən edilir, lakin qrupda \(h\) olan insanlar ilə məhdudlaşır (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Beləliklə, hər bir post-təbəqələşmə qrupundakı yanaşma kiçik olduqda ümumi yanaşma kiçik olacaq. Hər bir post-təbəqələşmə qrupundakı kiçik fikirləri düşünməyi düşünməyi sevən iki yol var. Birincisi, hormon qrupları yaratmağa çalışmaq istəyirsən, cavab meylində ( \(S(\phi)^{(h)} \approx 0\) ) və nəticənin ( \(S(y)^{(h)} \approx 0\) ). İkincisi, gördüyünüz insanları görmədiyiniz insanlar kimi ( \(cor(\phi, y)^{(h)} \approx 0\) ) olduğu qruplar yaratmaq istəyirsən. Eq. 3.7 və eq. 3.8 post-stratifikasiyanın cavab verməməsi səbəbindən qərəzli olanları azaltdıqda aydınlaşmağa kömək edir.
Nəticədə bu bölmə qeyri-cavab ilə ehtimal nümunəsi üçün bir nümunə təmin etmişdir və cavab verməməsi həm də, həm də təbəqədən sonra təbəqələşdirmə düzəlişləri ilə təqdim edə biləcək yanaşmaları göstərmişdir. Bethlehem (1988) daha ümumi nümunə dizaynları üçün cavab verməmələrə səbəb olan yanlışlığın törəməsini təklif edir. Cavab vermək üçün düzəliş etmək üçün post-təbəqədən istifadə haqqında daha ətraflı məlumat üçün, bax: Smith (1991) və Gelman and Carlin (2002) . Post-təbəqələşdirmə, kalibrləmə tahminciləri adlanan daha ümumi bir ailənin bir hissəsidir, uzun müddətli müalicə üçün Zhang (2000) və Särndal and Lundström (2005) kitab uzunluğu müalicəsi üçün baxın. Kalton and Flores-Cervantes (2003) üçün düzəliş üçün digər ağırlıqlandırma metodları haqqında daha ətraflı məlumat üçün Kalton and Flores-Cervantes (2003) , Brick (2013) və Särndal and Lundström (2005) .
Olmayan ehtimal nümunəsi
Qeyri-ehtimal nümunəsi çox müxtəlif dizaynları ehtiva edir (Baker et al. 2013) . Wang və həmkarları (W. Wang et al. 2015) tərəfindən Xbox istifadəçilərinin nümunəsinə xüsusi diqqət yetirməklə, nümunənin bu cür nümunəsini nümunə dizaynının əsas hissəsi olan \(\pi_i\) ( tədqiqatçı tərəfindən daxil olma ehtimalı) deyil, \(\phi_i\) (respondent tərəfindən idarə olunan cavabı). Təbii ki, bu ideal deyil, çünki \(\phi_i\) məlum deyil. Lakin, Wang və həmkarları göstərdi ki, tədqiqatçı yaxşı köməkçi məlumatlara və bu problemləri hesablamaq üçün yaxşı bir statistik modelə malik olduqda, belə bir seçmə nümunəsi, hətta böyük əhatə dairəsi səhvinə malik nümunələşmə çərçivəsindən də, fəlakətli olmamalıdır.
Bethlehem (2010) cavabsız və əhatə dairəsi səhvlərini ehtiva etmək üçün post-təbəqələşmə ilə bağlı yuxarıda göstərilən bir çox tövsiyələri genişləndirir. Post-təbəqələşmə ilə yanaşı qeyri-ehtimal nümunələri ilə işləmək üçün digər üsullar və əhatə səhvləri ilə cavab verməyən ehtimal nümunələri - nümunə uyğunluğu (Ansolabehere and Rivers 2013; ??? ) , meylli (Lee 2006; Schonlau et al. 2009) ağırlığı (Lee 2006; Schonlau et al. 2009) və kalibrləmə (Lee and Valliant 2009) . Bu texnika arasında ümumi bir mövzu, köməkçi məlumatların istifadə edilməsidir.