En ĉi tiu apendico, mi priskribos iujn el la ideoj de la ĉapitro en iomete pli matematika formo. La celo ĉi tie estas helpi vin komforti kun la notacio kaj matematika kadro uzita de enketistoj, por ke vi transiru al iuj pli da teknikaj materialoj skribitaj sur ĉi tiuj temoj. Mi komencos per enkonduko de probabla specimeno, tiam moviĝos al probabla specimeno kun ne respondo, kaj fine, ne-probabla sampado.
Probabla samplo
Kiel ekzemplo, ni konsideras la celon taksi la senlaborecon en Usono. Lasu \(U = \{1, \ldots, k, \ldots, N\}\) esti la celo de loĝantaro kaj lasu \(y_k\) per la valoro de la rezulto variablo por la persono \(k\) . En ĉi tiu ekzemplo \(y_k\) estas ĉu persono \(k\) estas senlaborulo. Laste, lasu \(F = \{1, \ldots, k, \ldots, N\}\) esti la kadra populacio, kiu pro simpleco estas supozata kiel la celo de la loĝantaro.
Baza specimenado estas simpla hazarda specimeno sen anstataŭaĵo. En ĉi tiu kazo, ĉiu persono estas same probable esti inkluzivita en la specimeno \(s = \{1, \ldots, i, \ldots, n\}\) . Kiam la datumoj estas kolektitaj kun ĉi tiu specimeno, esploristoj povas taksi la senlaborecon de la loĝantaro kun la specimeno:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
kie \(\bar{y}\) estas la imposto de senlaboreco en la loĝantaro kaj \(\hat{\bar{y}}\) estas la takso de la senlaboreco (la \(\hat{ }\) estas komune kutimis indiki estimilon).
Fakte, esploristoj malofte uzas simplajn hazardajn specimenojn sen anstataŭaĵo. Por diversaj kialoj (unu el kiuj mi priskribos en momento), esploristoj ofte kreas specimenojn kun neegala probabloj de inkludo. Ekzemple, esploristoj povus elekti homojn en Florido kun pli alta probablo de inkludo ol homoj en Kalifornio. En ĉi tiu (kesto, okazo), la (specimeno, specimeno, specimeno, signifi) (eq. 3.1) eble ne estas bona taksiilo. Anstataŭe, kiam estas neegala probabloj de inkludo, esploristoj uzas
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
kie \(\hat{\bar{y}}\) estas la takso de la senlaboreco kaj \(\pi_i\) estas la probablo de inkludo de persono \(i\) . Sekvanta norman praktikon, mi vokos la taksilon en eq. 3.2 la korinklino de Horvitz-Thompson. La estimilo de Horvitz-Thompson estas ekstreme utila ĉar ĝi kondukas al nepreciaj taksoj por ajna probabla specimeno (Horvitz and Thompson 1952) . Ĉar la Horitz-Thompson-korinklino venas tiel ofte, estas helpema rimarki, ke ĝi povas esti skribita kiel
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
kie \(w_i = 1 / \pi_i\) . Kiel eq. 3.3 malkaŝas, la estimilo de Horvitz-Thompson estas peza specimeno signifas, kie la pezoj estas kontraŭe rilatigitaj kun la probablo de elekto. Alivorte, la malpli verŝajna persono devas esti inkluzivita en la specimeno, kiom pli pezo tiu persono devas akiri en la takso.
Kiel priskribita antaŭe, esploristoj ofte montras homojn kun neegalaj probabloj de inkludo. Unu ekzemplo de dezajno, kiu povas konduki al neegalaj probabloj de inkludo estas stratigita samplado , kiu gravas kompreni ĉar ĝi estas proksime rilatita al la korinklino nomita post-estratifiko . En stratigita specimeno, esploristo dividas la cel-populacion en \(H\) reciproke ekskluzivajn kaj ĝisfundajn grupojn. Ĉi tiuj grupoj estas nomataj strata kaj estas indikitaj kiel \(U_1, \ldots, U_h, \ldots, U_H\) . En ĉi tiu ekzemplo, la ŝtatoj estas ŝtatoj. La grandecoj de la grupoj estas indikitaj kiel \(N_1, \ldots, N_h, \ldots, N_H\) . Esploristo eble volas uzi stratigitan specimenon por certigi, ke ŝi havas sufiĉe da homoj en ĉiu ŝtato por fari ŝtatajn taksojn de senlaboreco.
Post kiam la loĝantaro estas disigita en stratojn , supozas, ke la esploristo elektas simplan hazarda specimeno sen anstataŭaĵo de grandeco \(n_h\) , sendepende de ĉiu strateto. Plue, supozu, ke ĉiuj elektitaj en la specimeno fariĝas respondanto (mi pritraktos ne-respondon en la sekva sekcio). En ĉi tiu kazo, la probablo de inkludo estas
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Ĉar ĉi tiuj probabloj povas varii de persono al persono, kiam oni taksas ĉi tiun specimenan dezajnon, esploristoj devas pezigi ĉiun respondanton per la inverso de ilia probablo de inkludo per la analizilo de Horvitz-Thompson (ekz. 3.2).
Kvankam la estimilo de Horvitz-Thompson estas nepreciata, esploristoj povas produkti pli precizajn (tio estas, pli malaltaj variantoj) taksas kombinante la specimenon kun helpa informo . Iuj homoj trovas ĝin mirindaj, ke ĉi tio estas vera eĉ kiam ekzekte ekzekutas probablajn specimenojn. Ĉi tiuj teknikoj uzantaj helpajn informojn estas precipe gravaj ĉar, kiel mi montros poste, helpa informo estas kritika por fari taksojn de probablaj specimenoj kun ne respondaj kaj de ne-probablaj specimenoj.
Unu komuna tekniko por utiligi helpan informon estas post-estratigo . Imagu, ekzemple, ke esploristo scias la nombron de viroj kaj virinoj en ĉiu el la 50 ŝtatoj; ni povas signifi ĉi tiujn grupajn grandecojn kiel \(N_1, N_2, \ldots, N_{100}\) . Por kombini ĉi tiun helpan informon kun la specimeno, la esploristo povas dividi la specimenon en \(H\) grupoj (en ĉi tiu kazo 100), taksi takson por ĉiu grupo, kaj tiam krei pezan mezumon de ĉi tiuj grupaj rimedoj:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Iomete, la estimilo en eq. 3.5 verŝajne estos pli preciza ĉar ĝi uzas la konatan populacion-informon-la \(N_h\) korektajn taksojn se kompensa specimeno okazas. Unu maniero por pensi pri ĝi estas, ke post-estratifiko estas kiel proksimuma estratigo post kiam la datumoj jam estis kolektitaj.
En konkludo, ĉi tiu sekcio priskribis kelkajn specimenajn desegnojn: simpla hazarda specimeno sen anstataŭoj, sampado kun neegala probablo kaj stratigita samplado. Ĝi ankaŭ priskribis du ĉefajn ideojn pri korinklino: la estimilo de Horvitz-Thompson kaj post-estratigo. Por pli formala difino de probablaj specimenaj desegnoj, vidu ĉapitro 2 de Särndal, Swensson, and Wretman (2003) . Por pli formala kaj kompleta traktado de stratigita samplado, vidu sekcion 3.7 de Särndal, Swensson, and Wretman (2003) . Por teknika priskribo de la propraĵoj de la estimilo de Horvitz-Thompson, vidu Horvitz and Thompson (1952) , Overton and Stehman (1995) , aŭ sekcion 2.8 de @ sarndal_model_2003. Por pli formala traktado de post-estratigo, vidu Holt and Smith (1979) , Smith (1991) , Little (1993) , aŭ sekcion 7.6 de Särndal, Swensson, and Wretman (2003) .
Probabla sampado kun ne respondo
Preskaŭ ĉiuj realaj enketoj ne respondas; tio estas, ne ĉiuj en la specimena loĝantaro respondas ĉiun demandon. Ekzistas du ĉefaj specoj de ne respondo: ero ne respondo kaj unuo ne respondas . En ero ne responda, iuj enketistoj ne respondas iujn erojn (ekz. Kelkfoje enketitaj ne volas respondi demandojn, kiujn ili konsideras sentemaj). En unuopa nea respondo, iuj homoj elektitaj por la specimena loĝantaro tute ne respondas al la enketo. La du plej oftaj kialoj por unuopa ne responda estas, ke la specimena persono ne povas esti kontaktita kaj la specimena persono estas kontaktita sed rifuzas partopreni. En ĉi tiu sekcio mi fokusos sur unuopa ne responda; Legantoj interesataj pri ero ne respondo devus vidi Little and Rubin (2002) .
Esploristoj ofte pensas pri enketoj kun unuo ne-respondo kiel du-etapa pruva pruvo. En la unua etapo, la esploristo elektas specimenon \(s\) tia ke ĉiu persono havas probablon de inkludo \(\pi_i\) (kie \(0 < \pi_i \leq 1\) ). Tiam, en la dua etapo, homoj, kiuj estas elektitaj en la specimenon, respondas kun probablo \(\phi_i\) (kie \(0 < \phi_i \leq 1\) ). Ĉi tiu du-etapa procezo rezultas en la fina aro de enketantoj \(r\) . Grava diferenco inter ĉi tiuj du etapoj estas, ke esploristoj kontrolas la procezon elekti la specimenon, sed ili ne kontrolas, ke el tiuj specimenoj iĝas respondantoj. Metante ĉi tiujn du procezojn kune, la probablo, ke iu estos respondanto
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Pro simpleco, mi konsideros la kazon kie la originala specimena dezajno estas simpla hazarda specimeno sen anstataŭaĵo. Se esploristo elektas specimenon de grandeco \(n_s\) kiu produktas \(n_r\) enketitajn, kaj se la esploristo ignoros ne-respondon kaj uzas la mezumon de la enketitaj, tiam la antaŭjuĝo de takso estos:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
kie \(cor(\phi, y)\) estas la populara korelacio inter la responda propenso kaj la rezulto (ekz. senlaboreco), \(S(y)\) estas la populacio norma devio de la rezulto (ekz. senlaboreco statuso), \(S(\phi)\) estas la populacio norma devio de la responda propenso, kaj \(\bar{\phi}\) estas la populara averaĝa respondo (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 montras, ke ne respondo ne prezentos antaŭjuĝon se iu el la sekvaj kondiĉoj estas plenumita:
Bedaŭrinde, neniu el ĉi tiuj kondiĉoj ŝajnas verŝajna. Ŝajnas nekomprenebla, ke ne ekzistos variado en dungstato aŭ ke ne estos variado en respondaj propensoj. Tiel, la ŝlosila termino en eq. 3.7 estas la korelacio: \(cor(\phi, y)\) . Ekzemple, se homoj estas, kiuj senlaboruloj estas pli verŝajne respondi, tiam la taksita dungfunkcio preĝiĝos supren.
La lertaĵo por fari taksojn kiam ne estas respondo estas uzi helpajn informojn. Ekzemple, unu maniero, en kiu vi povas uzi helpan informon, estas post-estratigo (rekomendas la kvanton 3.5 el supre). Ĝi rezultas, ke la antaŭjuĝo de la post-estratifikilo estas:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
kie \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , kaj \(\bar{\phi}^{(h)}\) estas difinitaj kiel supre sed limigitaj al homoj en grupo \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Tiel, la ĝenerala antaŭdiro estos malgranda se la interkonsento en ĉiu post-estratifika grupo estas malgranda. Ekzistas du manieroj, kiujn mi ŝatus pensi pri fari la preterpason malgranda en ĉiu post-estratifika grupo. Unue, vi volas provi formi homogeneajn grupojn, kie estas malgranda variado en responda propenso ( \(S(\phi)^{(h)} \approx 0\) ) kaj la rezulto ( \(S(y)^{(h)} \approx 0\) ). Due, vi volas formi grupojn, kie la homoj, kiujn vi vidas, estas kiel homoj, kiujn vi ne vidas ( \(cor(\phi, y)^{(h)} \approx 0\) ). Komparante eq. 3.7 kaj eq. 3.8 helpas klarigi kiam post-estratigo povas redukti la parcialon kaŭzitan de ne respondo.
En konkludo, ĉi tiu sekcio provizis modelon por probabla sampado kun ne-respondo kaj montris la antaŭjuĝon, ke ne respondo povas prezenti ambaŭ sen kaj kun post-estratifaj ĝustigoj. Bethlehem (1988) proponas derivaĵon de la antaŭjuĝo kaŭzita de ne respondo por pli ĝeneralaj specimenaj dezajnoj. Por pli da uzado de post-estratigo por ĝustigi por ne respondo, vidu Smith (1991) kaj Gelman and Carlin (2002) . Post-estratigo estas parto de pli ĝenerala familio de teknikoj nomitaj kalibraj taksiloj, vidu Zhang (2000) por artikolo-longa traktado kaj Särndal and Lundström (2005) por libra Särndal and Lundström (2005) traktado. Por pliaj aliaj metodaj pezoj por ĝustigi por ne respondo, vidu Kalton and Flores-Cervantes (2003) , Brick (2013) , kaj Särndal and Lundström (2005) .
Ne-probabla specimeno
Ne-probabla specimeno inkluzivas grandan varion de dezajnoj (Baker et al. 2013) . Fokusante specife sur la specimeno de Xbox-uzantoj fare de Wang kaj kolegoj (W. Wang et al. 2015) , vi povas pensi pri ĉi tiu speco de specimeno kiel unu, kie la ŝlosila parto de la specimenado ne estas la \(\pi_i\) ( la probabla funkciulo de inkludo) sed la \(\phi_i\) (la respondecaj movitaj respondoj). Nature, ĉi tio ne estas ideala ĉar la \(\phi_i\) estas nekonataj. Sed, kiel Wang kaj kolegoj montris, ĉi tiu speco de opt-en specimeno-eĉ de specimenkadro kun enorma kovrado-eraro- ne bezonas esti katastrofa se la esploristo havas bonan helpan informon kaj bonan statistikan modelon por pripensi ĉi tiujn problemojn.
Bethlehem (2010) etendas multajn el la supre derivaĵoj pri post-stratigo por inkludi ambaŭ ne respondajn kaj kovrajn erarojn. Krom post-estratigo, aliaj teknikoj por labori kun ne-probablaj specimenoj-kaj probablaj specimenoj kun kovraj eraroj kaj ne respondaj-inkluzivas ekzemplajn kongruajn (Ansolabehere and Rivers 2013; ??? ) , propensity- (Lee 2006; Schonlau et al. 2009) pezo (Lee 2006; Schonlau et al. 2009) , kaj kalibro (Lee and Valliant 2009) . Komuna temo inter ĉi tiuj teknikoj estas la uzo de la helpa informo.