אין דעם אַפּפּענדיקס, איך וועל באַשרייַבן עטלעכע פון די געדאנקען פון דעם קאַפּיטל אין אַ ביסל מער מאַטאַמאַטיקאַל פאָרעם. דער ציל דאָ איז צו העלפן איר באַקומען באַקוועם מיט די נאָוטיישאַן און מאַטאַמאַטיקאַל פריימווערק וואָס איז גענוצט דורך סערווייערז אַז איר קענען יבערגאַנג צו עטלעכע פון מער טעכניש מאַטעריאַל געשריבן אויף די טעמעס. איך וועט אָנהייבן דורך ינטראָודוסינג מאַשמאָעס פּראַמאַסינג, דעמאָלט מאַך צו פּראַבאַטאַבילאַטי מוסטערונג מיט נאַן רעספּאָנסע, און לעסאָף, ניט-מאַשמאָעס מוסטערונג.
Probability sampling
ווי אַ פליסנדיק בייַשפּיל, לאָזן ס באַטראַכטן די ציל פון עסטימאַטינג די אַרבעטלאָזיקייַט קורס אין די פאַרייניקטע שטאַטן. זאל \(U = \{1, \ldots, k, \ldots, N\}\) זיין די ציל באַפעלקערונג און לאָזן \(y_k\) דורך די ווערט פון די אַוטקאַם בייַטעוודיק פֿאַר דעם מענטש \(k\) . אין דעם בייַשפּיל \(y_k\) איז צי מענטש \(k\) איז אַרבעטלאָז. צום סוף, לאָזן \(F = \{1, \ldots, k, \ldots, N\}\) זיין דער ראַם באַפעלקערונג, וואָס פֿאַר די גרינג-צו-געראָטן איז אנגענומען צו זיין די זעלבע ווי די ציל באַפעלקערונג.
א גרונט מוסטערונג פּלאַן איז פּשוט טראַפאַל מוסטערונג אָן פאַרבייַט. אין דעם פאַל, יעדער מענטש איז גלייַך מסתּמא צו זיין אַרייַנגערעכנט אין די מוסטער \(s = \{1, \ldots, i, \ldots, n\}\) . ווען די דאַטע איז געזאמלט מיט דעם מוסטערונג פּלאַן, אַ ריסערטשערז קענען אָפּשאַצן די באַפעלקערונג אַרבעטלאָזיקייַט קורס מיט די מוסטער מיינען:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
ווו \(\bar{y}\) איז די אַרבעטלאָזיקייַט קורס אין דער באַפעלקערונג און \(\hat{\bar{y}}\) איז די אָפּשאַצונג פון די אַרבעטלאָזיקייַט קורס (די \(\hat{ }\) איז קאַמאַנלי געניצט צו אָנווייַזן אַ עסטימעטער).
אין פאַקט, ריסערטשערז ראַרעלי נוצן פּשוט טראַפ מוסטערונג אָן פאַרבייַט. פֿאַר אַ פאַרשיידנקייַט פון סיבות (איינער פון וואָס איך וועט באַשליסן אין אַ מאָמענט), פאָרשער אָפֿט שאַפֿן סאַמפּאַלז מיט אַניקוואַל וואָאַביטאַבילאַטיז פון ינקלוזשאַן. למשל, ריסערטשערז קענען אויסקלייַבן מענטשן אין פלאָרידאַ מיט העכער מאַשמאָעס פון ינקלוזשאַן ווי מענטשן אין קאַליפאָרניאַ. אין דעם פאַל, די מוסטער מיינען (עק 3.1) זאל ניט זיין אַ גוט עסטימעטער. אַנשטאָט, ווען עס זענען אַניקוואַל וואָאַביטאַבילאַטיז פון ינקלוזשאַן, ריסערטשערז נוצן
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
ווו \(\hat{\bar{y}}\) איז די אָפּשאַצונג פון די אַרבעטלאָזיקייַט קורס און \(\pi_i\) איז מענטש \(i\) 'ס מאַשמאָעס פון ינקלוזשאַן. ווייַטערדיק נאָרמאַל פיר, איך וועט רופן די עסטימעטער אין עק. 3.2 דער האָרוויץ-טאַמפּסאַן עסטימאַטאָר. די האָרוויץ-טאַמפּסאַן עסטימאַטאָר איז גאָר נוציק ווייַל עס פירט צו אַנבייאַסט אָפּשאַצן פֿאַר קיין מאַשמאָעס מוסטערונג פּלאַן (Horvitz and Thompson 1952) . ווייַל דער האָרוויץ-טאַמפּסאָן עסטאַטאָר איז אַזוי אָפט, עס איז נוציק צו באַמערקן אַז עס קענען זיין שייַעך-געשריבן ווי
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
ווו \(w_i = 1 / \pi_i\) . ווי עק. 3.3 אַנטפּלעקטן, די האָרוויץ-טאַמפּסאַן עסטעאַטאָר איז אַ ווייטיד מוסטער, ווו די ווייץ זענען ינווערזשאַלי שייַכות צו דער מאַשמאָעס פון סעלעקציע. אין אנדערע ווערטער, די ווייניקער מסתּמא אַ מענטש צו זיין אַרייַנגערעכנט אין די מוסטער, די מער וואָג אַז מענטש זאָל באַקומען אין די אָפּשאַצונג.
ווי דיסקרייבד פריער, ריסערטשערז אָפט מוסטער מענטשן מיט אַניקוואַל וואָאַביטאַבילאַטיז פון ינקלוזשאַן. איין בייַשפּיל פון אַ פּלאַן אַז קענען פירן צו אַניקוואַל וואָאַביטאַבילאַטיז פון ינקלוזשאַן איז סטראַטאַפייד מוסטערונג , וואָס איז וויכטיק צו פֿאַרשטיין ווייַל עס איז ענג פארבונדן צו דער אָפּשאַצונג פּראָצעדור גערופן פּאָסט-סטראַטיפיקאַטיאָן . אין סטראַטיפיעד מוסטערונג, אַ פאָרשער ספּליץ די ציל באַפעלקערונג אין \(H\) מיוטשואַלי ויסשליסיק און יגזאָסטיוו גרופּעס. די גרופּעס זענען גערופן סטראַטאַ און זענען אנגעוויזן ווי \(U_1, \ldots, U_h, \ldots, U_H\) . אין דעם בייַשפּיל, די סטראַטאַ שטאַטן. די סיזעס פון די גרופּעס זענען אנגעוויזן ווי \(N_1, \ldots, N_h, \ldots, N_H\) . א פאָרשער זאל וועלן צו נוצן סטראַטאַטיפיעד מוסטערונג אין סדר צו מאַכן זיכער אַז זי האט גענוג מענטשן אין יעדער שטאַט צו מאַכן שטאַט-מדרגה עסטאַמאַץ פון אַרבעטלאָזיקייַט.
אַמאָל די באַפעלקערונג איז שפּאַלטן אַרויף אין סטראַטאַ , יבערנעמען אַז דער פאָרשער סעלעקץ אַ פּשוט טראַפאַל מוסטער אָן פאַרבייַט פון גרייס \(n_h\) , ינדיפּענדאַנטלי פון יעדער שיכטע. ווייַטער, יבערנעמען אַז אַלעמען אויסגעקליבן אין דער מוסטער ווערט אַ ענטפערער (איך וועט שעפּן ניט-ענטפער אין די ווייַטער אָפּטיילונג). אין דעם פאַל, די מאַשמאָעס פון ינקלוזשאַן איז
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
ווייַל די וואָאַביטעס קענען זיין פארשיידענע פון מענטש צו מענטש, ווען איר מאַכן אַן אָפּשאַצונג פון דעם מוסטערונג פּלאַן, די ריסערטשערז דאַרפֿן צו וואָג יעדער רעספּאָנדענט דורך די פאַרקערט פון זייער מאַשמאָעס פון ינקלוזשאַן ניצן די האָרוויץ-טאַמפּסאַן עסטייטערז (אַק 3.2).
כאָטש די האָרוויץ-טאַמפּסאַן עסטייטער איז אַנבייאַסט, ריסערטשערז קענען פּראָדוצירן מער פּינטלעך (י.ע., נידעריקער אָפּהאַלטן) עסטאַמאַץ דורך קאַמביינינג די מוסטער מיט אַגזיליערי אינפֿאָרמאַציע . עטלעכע מענטשן געפינען עס חידוש אַז דאָס איז אמת אַפֿילו ווען עס איז בישליימעס עקסאַקיוטאַד מאַשמאָעס מוסטערונג. די טעטשניקוועס ניצן אַגזיליערי אינפֿאָרמאַציע זענען הויפּט וויכטיק ווייַל, ווי איך וועט ווייַזן שפּעטער, אַגזיליערי אינפֿאָרמאַציע איז קריטיש פֿאַר מאכן עסטאַמאַץ פון פּראַוויידינג סאַמפּאַלז מיט נאַן רעספּאָנסע און פון ניט-מאַשמאָעס סאַמפּאַלז.
איינער פּראָסט טעכניק פֿאַר יוטאַלייזינג אַגזיליערי אינפֿאָרמאַציע איז פּאָסטן-סטראַטיפיקאַטיאָן . ימאַגינע, פֿאַר בייַשפּיל, אַז אַ פאָרשער ווייסט די נומער פון מענטשן און פרויען אין יעדער פון די 50 לענדער; מיר קענען דינען די גרופּע סיזעס ווי \(N_1, N_2, \ldots, N_{100}\) . צו קאַמבייַן דעם אַגזיליערי אינפֿאָרמאַציע מיט דעם מוסטער, די פאָרשער קענען שפּאַלטן די מוסטער אין \(H\) גרופּעס (אין דעם פאַל 100), מאַכן אַן אָפּשאַצונג פֿאַר יעדער גרופּע, און דעמאָלט מאַכן אַ ווייטיד דורכשניטלעך פון די גרופּע מיטל:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
בעערעך, דער עסטימעטער אין עק. 3.5 איז מסתּמא צו זיין מער פּינטלעך ווייַל עס ניצט די באקאנט באַפעלקערונג אינפֿאָרמאַציע-די \(N_h\) צו ריכטיק עסטאַמאַץ אויב אַן אַנבאַלאַנסט מוסטער כאַפּאַנז צו זיין אויסגעקליבן. איין וועג צו טראַכטן וועגן עס איז אַז פּאָסטן-סטראַטיפיקאַטיאָן איז ווי אַפּראָוטשינג סטראַטיפיקאַטיאָן נאָך די דאַטן איז שוין געזאמלט.
אין רעזולטאַט, דעם אָפּטיילונג האט דיסקרייבד עטלעכע מוסטערונג דיזיינז: פּשוט טראַפאַל מוסטערונג אָן ריפּלייסמאַנץ, מוסטערונג מיט וניקוואַל וואָף, און סטראַטאַפייד מוסטערונג. עס האָט אויך דיסקרייבד צוויי הויפּט געדאנקען וועגן די אָפּשאַצונג: דער האָרוויץ-טאַמפּסאַן עסטימאַטאָר און פּאָסטן-סטראַטיפיקאַטיאָן. פֿאַר אַ מער פאָרמאַל דעפֿיניציע פון מאַשמאָעס מוסטערונג דיזיינז, זען קאַפּיטל 2 פון Särndal, Swensson, and Wretman (2003) . פֿאַר אַ מער פאָרמאַל און גאַנץ באַהאַנדלונג פון סטראַטאַפייד מוסטערונג, זען אָפּטיילונג 3.7 פון Särndal, Swensson, and Wretman (2003) . פֿאַר אַ טעכניש באַשרייַבונג פון די פּראָפּערטיעס פון די האָרוויץ-טאַמפּסאַן אַפּערייטערז, זען Horvitz and Thompson (1952) , Overton and Stehman (1995) , אָדער אָפּטיילונג 2.8 פון @ sarndal_model_2003. פֿאַר אַ מער פאָרמאַל באַהאַנדלונג פון פּאָסטן-סטראַטיפיקאַטיאָן, זען Holt and Smith (1979) , Smith (1991) , Little (1993) , אָדער אָפּטיילונג 7.6 פון Särndal, Swensson, and Wretman (2003) .
פּראָבאַביליטי מוסטערונג מיט נאַן רעספּאָנסע
כּמעט אַלע פאַקטיש סערווייז האָבן ניט רעספּאָנד; דאָס איז, ניט אַלעמען אין דער מוסטער באַפעלקערונג ענטפֿערס יעדער קשיא. עס זענען צוויי הויפּט מינים פון נאַנסרעספּאָנד: יטעם נאַנספּראַנסע און אַפּאַראַט ניט רעספּאָנסע . אין פּונקט ניט רעספּאָנסע, עטלעכע ריספּאַנדאַנץ טאָן נישט ענטפֿערן עטלעכע זאכן (למשל, מאל ריספּאַנדאַנץ טאָן נישט וועלן צו ענטפֿערן שאלות אַז זיי באַטראַכטן שפּירעוודיק). אין אַפּאַראַט ניט רעספּאָנד, עטלעכע מענטשן וואס זענען אויסגעקליבן פֿאַר דער מוסטער באַפעלקערונג טאָן ניט רעספּאָנד צו די יבערבליק בייַ אַלע. די צוויי מערסט פּראָסט סיבות פֿאַר אַפּאַראַט ניט רעספּאָנד זענען אַז די סאַמפּאַלד מענטש קען נישט קאָנטאַקטעד און דער מוסטער מענטש איז קאָנטאַקטעד אָבער וויל צו אָנטייל נעמען. אין דעם אָפּטיילונג, איך וועל פאָקוס אויף אַפּאַראַט ניט רעספּאָנסע; לייענער אינטערעסירט אין פּונקט נאַן רעספּאָנסע זאָל זען ליטטלע און רובין (2002) .
רעסעאַרטשערס אָפֿט טראַכטן וועגן סערווייז מיט אַפּאַראַט ניט-ענטפער ווי אַ צוויי-בינע מוסטערונג פּראָצעס. אין דער ערשטער בינע, דער פאָרשער קאַלעקץ אַ מוסטער \(s\) אַזאַ וואָס יעדער מענטש האט אַ וווּקס פון ינקלוזשאַן \(\pi_i\) (ווו \(0 < \pi_i \leq 1\) ). דערנאָך, אין די רגע בינע, מענטשן וואס זענען אויסגעקליבן אין דער מוסטער ריספּאַנד מיט מאַשמאָעס \(\phi_i\) (ווו \(0 < \phi_i \leq 1\) ). דעם צוויי-בינע פּראָצעס רעזולטאַטן אין די לעצט שטעלן פון ריספּאַנדאַנץ \(r\) . א וויכטיק חילוק צווישן די צוויי סטאַגעס איז אַז פאָרשער קאָנטראָלירן דעם פּראָצעס פון סעלינג די מוסטער, אָבער זיי טאָן נישט קאָנטראָלירן וואָס פון די סאַמפּאַלד מענטשן ווערן ריספּאַנדאַנץ. פּאַטינג די צוויי פּראַסעסאַז צוזאַמען, די מאַשמאָעס אַז עמעצער וועט זיין אַ ענטפער
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
פֿאַר די פּאַשטעס פון די פּאַשטעס, איך וועל באַטראַכטן דעם פאַל ווו דער אָריגינעל מוסטער פּלאַן איז פּשוט טראַפ מוסטערונג אָן פאַרבייַט. אויב אַ פאָרשער קאַלעקץ אַ מוסטער פון גרייס \(n_s\) אַז ייעלדס \(n_r\) רעספּאָנדענץ, און אויב די פאָרשער איגנאָרירט ניט-ענטפער און ניצט די מיטל פון די ריספּאַנדאַנץ, דעמאָלט די ייַנאָרדענונג פון אָפּשאַצונג וועט זיין:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
ווו \(cor(\phi, y)\) איז די באַפעלקערונג קאָראַליישאַן צווישן די ענטפער פּראַפּענסיטי און די אַוטקאַם (למשל, אַרבעטלאָזיקייַט סטאַטוס), \(S(y)\) איז די באַפעלקערונג נאָרמאַל דיווייישאַן פון די אַוטקאַם (למשל, אַרבעטלאָזיקייַט סטאַטוס), \(S(\phi)\) איז די באַפעלקערונג נאָרמאַל דיווייישאַן פון די ענטפער פּראַפּענסיטי, און \(\bar{\phi}\) איז די באַפעלקערונג מיינען ענטפער פּראַפּענסיטי (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
עק. 3.7 ווייזט אַז nonresponse וועט ניט פאָרשטעלן בייז אויב קיין פון די פאלגענדע טנאָים זענען באגעגנט:
צום באַדויערן, גאָרניט פון די באדינגונגען ויסקומען לייקלי עס מיינט ימפּלאַסאַבאַל אַז עס וועט זיין קיין ווערייישאַן אין באַשעפטיקונג סטאַטוס אָדער אַז עס וועט זיין קיין ווערייישאַן אין ענטפער פּראָפּענסיטיעס. אזוי, דער שליסל טערמין אין עק. 3.7 איז די קאָראַליישאַן: \(cor(\phi, y)\) . פֿאַר בייַשפּיל, אויב מענטשן זענען ווער אַרבעטלאָז זענען מער מסתּמא צו ריספּאַנד, דעמאָלט די עסטימאַטעד באַשעפטיקונג קורס וועט זיין בייאַסט אַרויף.
דער קונץ צו מאַכן עסטאַמאַץ ווען עס איז ניט רעספּאָנסע איז צו נוצן אַגזיליערי אינפֿאָרמאַציע. פֿאַר בייַשפּיל, איין וועג אין וואָס איר קענען נוצן אַגזיליערי אינפֿאָרמאַציע איז פּאָסטן-סטראַטיפיקאַטיאָן (צוריקרופן עק 3.5 פון אויבן). עס טורנס אויס אַז די פאָרורטייל פון די פּאָסטן-סטראַטיפיקאַטיאָן עסטייטערז איז:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
ווו \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , און \(\bar{\phi}^{(h)}\) זענען דיפיינד ווי אויבן, אָבער ריסטריקטיד צו מענטשן אין גרופּע \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . דעריבער, די קוילעלדיק פאָרורטייל וועט זיין קליין אויב די פאָרורטייל אין יעדער פּאָסטן-סטראַטיפיקאַטיאָן גרופּע איז קליין. עס זענען צוויי וועגן אַז איך ווי צו טראַכטן וועגן מאכן די פאָרורטייל קליין אין יעדער פּאָסטן-סטראַטיפיקאַטיאָן גרופּע. ערשטער איר ווילן צו פאָרעם כאָומאַדזשיניאַס גרופּעס ווו עס איז אַ ביסל ווערייישאַן אין ענטפער פּראַפּענסיטי ( \(S(\phi)^{(h)} \approx 0\) ) און די אַוטקאַם ( \(S(y)^{(h)} \approx 0\) ). רגע, איר ווילן צו פאָרעם גרופּעס וואָס די מענטשן וואָס איר זען זענען ווי די מענטשן וואָס איר טאָן ניט זען ( \(cor(\phi, y)^{(h)} \approx 0\) ). Comparing eq. 3.7 און עק. 3.8 העלפט דערקלערן ווען פּאָסטן-סטראַטיפיקאַטיאָן קענען רעדוצירן די בייאַסט געפֿירט דורך ניט רעספּאָנסע.
אין רעזולטאַט, דעם אָפּטיילונג האט צוגעשטעלט אַ מאָדעל פֿאַר מאַשמאָעס מוסטערונג מיט ניט-ענטפער און געוויזן די פאָרורטייל אַז נאַן רעספּאָנסע קענען פאָרשטעלן ביידע אָן און מיט פּאָסט-סטראַטיפיקאַטיאָן אַדזשאַסטמאַנץ. Bethlehem (1988) אָפפערס אַ דעריוויישאַן פון די פאָרורטייל געפֿירט דורך ניט רעספּאָנסע פֿאַר מער גענעראַל מוסטערונג דיזיינז. פֿאַר מער אויף ניצן אַדזשאַסטמאַנט פֿאַר אַדזשאַסטמאַנט, זען Smith (1991) און Gelman and Carlin (2002) . פּאָסט-סטראַטיפיקאַטיאָן איז טייל פון אַ מער גענעראַל משפּחה פון טעקניקס גערופן קאַלאַבריישאַן עסטימאַטאָרס, זען זשאַנג (2000) פֿאַר אַ אַרטיקל-לענג באַהאַנדלונג און ס ä Särndal and Lundström (2005) פֿאַר אַ בוך-לענג באַהאַנדלונג. פֿאַר מער אויף אנדערע אנדערע ווייטונג מעטהאָדס פֿאַר אַדזשאַסטמאַנט פֿאַר נאַנספערפּאָנד, זען Kalton and Flores-Cervantes (2003) , Brick (2013) , און ס ä Särndal and Lundström (2005) .
ניט-מאַשמאָעס מוסטערונג
ניט-מאַשמאָעס סאַמפּאַלז אַרייַנגערעכנט אַ ריזיק פאַרשיידנקייַט פון דיזיינז (Baker et al. 2013) . פאָקוסינג ספּאַסיפיקלי אויף די מוסטער פון קסבאָקס ניצערס דורך וואַנג און חברים (W. Wang et al. 2015) , איר קענען טראַכטן פון וואָס מין פון מוסטער ווי איינער ווו די שליסל טייל פון די מוסטערונג פּלאַן איז נישט די \(\pi_i\) ( די פאָרשער-געטריבן מאַשמאָעס פון ינקלוזשאַן) אָבער די \(\phi_i\) (די ענטפעראַנט-געטריבן ענטפער פּראַפּענסיז). געוויינטלעך, דאָס איז נישט ידעאַל ווייַל די \(\phi_i\) זענען אומבאַקאַנט. אָבער, ווי Wang און קאָללאַגיז געוויזן, דעם אָפּט-אין מוסטער-אַפֿילו פון אַ מוסטערונג ראַם מיט ריזיק קאַווערידזש טעות-דאַרפֿן ניט זיין קאַטאַסטראָפיק אויב די פאָרשער האט גוט אַגזיליערי אינפֿאָרמאַציע און אַ גוט סטאַטיסטיש מאָדעל צו חשבון פֿאַר די פראבלעמען.
Bethlehem (2010) יקסטענדז פילע פון די אויבן דייוויישאַנז וועגן פּאָסטן-סטראַטיפיקאַטיאָן צו אַרייַננעמען ביידע נאַן רעספּאָנסע און קאַווערידזש ערראָרס. אין דערצו צו פּאָסטן-סטראַטיפיקאַטיאָן, אנדערע טעקניקס פֿאַר ארבעטן מיט ניט-מאַשמאָעס סאַמפּאַלז און פּראַוויידינג סאַמפּאַלז מיט קאַווערידזש ערראָרס און נאַנסרעספּאָנד - אַרייַננעמען מוסטער וואָס ריכטן זיך (Ansolabehere and Rivers 2013; ??? ) , פּראָפּענסיטי כעזשבן ווייטינג (Lee 2006; Schonlau et al. 2009) , און קאַליבראַטיאָן (Lee and Valliant 2009) . איינער פּראָסט טעמע צווישן די טעקניקס איז די נוצן פון די אַגזיליערי אינפֿאָרמאַציע.