Yn dit appendeks skriuw ik guon fan 'e ideeën út it haadstik yn in wat mear matematyske foarm. It doel hjir is om jo te befoarderjen mei de notaasje en wiskundige kader, dy't troch ûndersikers ûndersocht wurde, sadat jo oergean kinne op wat fan mear technyske materiaal op dizze ûnderwerpen skreaun. Ik sil begjinne mei it ynstellen fan probabilite-sampling, dan gean dan nei probabiliteit sampling mei nonresponse, en úteinlik, net-probabiliteit-sampling.
Probabiliteit sampling
As rinnende foarbyld, lit ús it doel fan 'e wurking fan' e wurkleazens yn 'e Feriene Steaten beskôgje. Lit \(U = \{1, \ldots, k, \ldots, N\}\) de doelgroepbefolking wêze en lit \(y_k\) troch de wearde fan 'e útkomste fariant foar de persoan \(k\) . Yn dit foarbyld \(y_k\) is as persoan \(k\) wurkleazen is. As lêste, lit \(F = \{1, \ldots, k, \ldots, N\}\) de ramtbefolking wêze, dy't om 'e ienfâld fan' e ienfâld is as deselde as de doelstellende populaasje.
In basale sampling-ûntwerp is simpel willekeurich sampling sûnder ferfanging. Yn dit gefal wurdt elke persoan lykwols wierskynlik opnommen yn 'e probe \(s = \{1, \ldots, i, \ldots, n\}\) . Wannear't de gegevens sammele binne mei dit samplingsûntwerp kin in ûndersiker de befolking de wurkleazens yn 'e befolking skatte mei de probleem betsjutte:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
dêr't \(\bar{y}\) de wurkleazens is yn 'e befolking en \(\hat{\bar{y}}\) is de skatting fan' e wurkleazens (de \(\hat{ }\) is faaks brûkt om in estimator te jaan).
Yn 'e wurklikheid brûkt ûndersikers selden willekeurige sampling sûnder ferfanging. Foar in ferskaat oan redenen (ien dy't ik op in momint beskriuwe sil) meitsje ûndersikers faak samples meitsje mei ungewoane wjergodden fan opnimming. Bygelyks, ûndersikers kinne minsken yn Florida selektearje mei hegere problemen fan ynlieding as minsken yn Kalifornje. Yn dit gefal is it probleem betsjutte (ek 3.1) miskien net in goed skattator wêze. Ynstee dêrfan brûke wierskynen, as der ungewoane wilens fan opnimming binne
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
Wêr't \(\hat{\bar{y}}\) de skatting fan 'e wurkleazensstreaming en \(\pi_i\) is persoan \(i\) ' s kâns op ynlieding. Nei normale praktyk neame ik de estimator yn eq. 3.2 de Horvitz-Thompson estimator. De skriuwer Horvitz-Thompson is tige brûkber om't it liedt ta unbeheinde skatten foar eventuele problemen fan samplings (Horvitz and Thompson 1952) . Om't de skriuwer Horvitz-Thompson sa faak opkomt, is it hilfreich om te notearjen dat it opnij skreaun wurde kin as
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
wêr \(w_i = 1 / \pi_i\) . As eq. 3.3 lit sjen dat de horvit-Thompson-estimator in wachteasjemiddel betsjut wêrby't de gewichten yn ferhâlding relatearre binne mei de winsklikens fan seleksje. Mei oare wurden, it minder wierskynlik is in persoan yn 'e probleem opnommen, it gewicht dat dizze persoan yn' e skatting komme moat.
As eardere beskreaun binne ûndersikers faak minsken probearje mei ungewoane wjergodden fan opnimming. In foarbyld fan in ûntwerp dy't liede kin ta unjersnûrbere problemen fan opnimming is stratifisearre sampling , dy't wichtich is om te begripen omdat it nau ferbûn is mei de beskriuwingproseduere neamd post-stratifikaasje . Yn stratifisearre sampling spalt in ûndersiker de doelbefolking yn \(H\) inoar útslutend en útsûnderlike groepen. Dizze groepen wurde strata neamd en wurde oanjûn as \(U_1, \ldots, U_h, \ldots, U_H\) . Yn dit foarbyld binne de strata steat. De grutte fan 'e groepen wurdt oanjûn as \(N_1, \ldots, N_h, \ldots, N_H\) . In ûndersiker mocht wol stratifisearre problemen brûke om te soargjen dat se genôch minsken hat yn elke steat om statysthemen fan wurkleazens te meitsjen.
Ienris waard de befolking yn straten opsplitst, asjebleaft dat de ûndersiker in ienfâldich willekeurich probleem selektearret sûnder ferfanging fan grutte \(n_h\) , ûnôfhinklik fan elke strata. Fierder litte jo derop dat elkenien selektearre yn 'e probleem in respondint wurdt (ik sil gjin antwurden yn' e folgjende seksje). Yn dat gefal is de kâns op ynklúzje
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Om't dizze problemen kinne fan de persoan nei de persoan ferskille, moatte de ûndersikers elk respondint wachtsje troch de invers fan har probabiliteit fan ynklúzje te brûken mei de horvitz-thompson-estimator (ek 3.2).
Alhoewol't de Horvitz-Thompson-skatting ûnpost is, kinne ûndersikers krekter (krekt, legere ôfwikseling) prestaasjes meitsje troch kombinaasje fan de probleem mei helpferliening . Guon minsken fine dat it ferrassende is dat dit ek is, as it perfekt útfierd is foar problemen. Dizze techniken dy't helpferlieningen brûke binne benammen wichtich, om't, lykas ik letter sprekt, helpferliening kritysk is foar it meitsjen fan skatten fan wapens problemen mei nonresponse en fan net-probabiliteit-samples.
Ien mienskiplike technyk foar it brûken fan auxiliary information is post-stratifikaasje . Stel dan bygelyks dat in ûndersiker it tal manlju en froulju yn elk fan 'e 50 steaten kenne; Wy kinne dizze groepsgrutte as \(N_1, N_2, \ldots, N_{100}\) . Om dizze assistint-ynformaasje te kombinearjen mei de probleem, kin de ûndersiker it probleem yn \(H\) groepen splitte (yn dit gefal 100), meitsje in skatting foar elke groep, en meitsje dan in gewichtdich gemiddelde fan dizze groep:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Rûch, de skattator yn eq. 3.5 is wierskynlik genôch omdat it de bekende befolkings ynformaasje brûkt - de \(N_h\) - om de juste wearde te meitsjen as in unbalke probleem by passe sil wurde selektearre. Ien manier om tinke te dûnsjen is dat post-stratifikaasje is as oanwêzich stratifikaasje nei't de gegevens al sammele binne.
By eintsjebeslút hat dizze seksje in pear sampling ûntwerpen beskreaun: ienfâldige willekeurige sampling sûnder ferfongen, sampling mei ungewoane winskens, en stratifisearre sampling. It hat ek twa haad ideeën beskôge oer it sketsjen: de Horvitz-Thompson-estimator en post-stratifikaasje. Foar in mear formele definysje fan probabilite-sampling-ûntwerpen, sjoch haadstik 2 fan Särndal, Swensson, and Wretman (2003) . Foar in formele en folsleine behanneling fan stratearre sampling, sjoch seksje 3.7 fan Särndal, Swensson, and Wretman (2003) . Foar in technyske beskriuwing fan de eigenskippen fan 'e Horvitz-Thompson estimator, sjoch Horvitz and Thompson (1952) , Overton and Stehman (1995) , of seksje 2.8 fan @ sarndal_model_2003. Foar in mear formele behanneling fan post-stratifikaasje, sjoch Holt and Smith (1979) , Smith (1991) , Little (1993) , of diel 7.6 fan Särndal, Swensson, and Wretman (2003) .
Probabiliteit sampling mei nonresponse
Hast alle echte surveys hawwe net-resinsje; Dat is net elkenien yn 'e echte befolking alle fragen beäntwurde. Der binne twa wichtige soarten fan nonresponse: item nonresponse en unit nonresponse . Yn item nonresponse, binne in tal respondinten gjin inkelde artikels beäntwurdzje (bygelyks, soms antwurperen wolle gjin fragen beäntwurdzje dy't se sensibel beskôgje). Yn ienheid net resinsje, guon minsken dy't selektearre binne foar de probleembefolking, reageare net op 'e survey. De twa meast foarkommende redenen foar ienheid foar net-resinsje binne dat de sampled persoan net kontaktje kin en de probleempersoan is kontakt opnommen mar wegert te dielen. Yn dit paragraaf sil ik rjochtsje op unit-nonresponse; Lêzers dy't ynteressearre binne foar item nonresponse, moatte Lytse en Rubin sjen (2002) .
Undersikers hawwe tinkt faaks oer surveys mei ienheid net-antwurd as in twa-stappe problemenproses. Yn 'e earste etappe selektearret de ûndersiker in probleem \(s\) , sadat elke persoan in probleem hat opnommen \(\pi_i\) (wêr \(0 < \pi_i \leq 1\) ). \(\phi_i\) yn 'e twadde faze minsken dy't yn' e probleem selektearre binne te reagearjen mei probabiliteit \(\phi_i\) (wêr \(0 < \phi_i \leq 1\) ). Dit twa-stappe proses resultaat yn 'e definitive set fan respondinten \(r\) . In wichtich ferskil tusken dizze twa stadia is dat ûndersikers kontrolearje fan it proses om it probleem te selektearjen, mar se kontrolearje net hokker fan 'e sampledigen minsken wurde respondinten wurde. It ynstellen fan dizze twa prosessen byinoar, de kâns dat elkenien in respondint wêze sil
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Foar 'e ienfâld, sil ik it probleem beskôgje wêr't it orizjinele sample ûntwerp ienfâldige willekeurige sampling is sûnder ferfanging. As in ûndersiker in probearje fan de grutte \(n_s\) dy't \(n_r\) respondinten jout, en as de ûndersiker net-antwurden \(n_r\) en de betsjutting fan 'e respondinten brûkte, dan wurdt de skande fan skatting wêze:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
dêr't \(cor(\phi, y)\) de befolkingskorporaasje tusken de antwurdenfermogen en it resultaat (bygelyks de wurkleazensstatus), \(S(y)\) is de populêre standertôfwytsing fan 'e resultaten (bgl. wurkleazens status), \(S(\phi)\) is de populêre standertferfanking fan 'e antwurdenfermogen, en \(\bar{\phi}\) is de befolking betsjutting fan' e antwurdenopfangens (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 lit sjen dat nonresponse gjin foech bringe kin as ien fan 'e folgjende betingsten foldien wurdt:
Spitigernôch liket neat fan dizze betinksten wierskynlik. It liket ûnmachtber te wêzen dat der gjin feroaring yn 'e wurkgelegenheidstatus wêze sil of dat der gjin fariant wêze sil yn responsive beheinings. Sa is de kaaiwurd yn eq. 3.7 is de korrelaasje: \(cor(\phi, y)\) . Bygelyks as gefolch binne minsken dy't wurkleazen hieltyd mear reagearje, dan wurdt de skatte opset fan wurkgelegenheid opheft.
De truc foar it meitsjen fan estimaasjes as it net-resinsje is is om helpsynformaasje te brûken. Bygelyks, ien manier wêrop jo help-ynformaasje brûke kinne is post-stratifikaasje (tink efkes ek 3,5 fan boppe). It docht bliken dat de foardielen fan 'e post-stratifikaasje-skattator binne:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
Wêr't \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , en \(\bar{\phi}^{(h)}\) binne as hjirboppe definieare, mar beheind foar minsken yn groep \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Sa wurde de folsleine foaroardielen lytser as de foardielen yn elke post-stratifikaasje groep lyts binne. Der binne twa manieren dy't ik tinke wolle oer it meitsjen fan de belangstelling lyts yn elke post-stratifikaasje groep. Earst wolle jo besykje om homogene groepen te meitsjen wêr't der net folle fariant is yn 'e antwurdenfermogen ( \(S(\phi)^{(h)} \approx 0\) ) en de útkomst ( \(S(y)^{(h)} \approx 0\) ). Twadder wolle jo groepen foarmje wêr't jo minsken sjen dat de minsken binne dy't jo net sjogge ( \(cor(\phi, y)^{(h)} \approx 0\) ). Fergelykje eq. 3.7 en eq. 3.8 helpt te klarifjen as post-stratifikaasje de fergrutting feroarsake kin feroarsake wurde troch nonresponse.
Yn konklúzjes hat dit paragraaf in model foar probabilisearjen problemen mei net-antwurden en sjen litten dat de nonresponse kin sûnder en mei post-stratifikaasje oanpassingen yntrodusearje. Bethlehem (1988) biedt in ôflevering fan 'e foardielen dy't feroarsake binne troch nonresponse foar mear generaal sampling ûntwerpen. Foar mear oer it brûken fan post-stratifikaasje om oan te passen foar nonresponse, sjoch Smith (1991) en Gelman and Carlin (2002) . Post-stratifikaasje is in ûnderdiel fan in mear algemiene famylje fan techniken neamd kalibraasjekansiers, sjoch Zhang (2000) foar in artikelslange behanneling en Särndal and Lundström (2005) foar in boeklange behanneling. Foar mear op oare oandachtmethoden foar oanpassing foar nonresponse, sjoch Kalton and Flores-Cervantes (2003) , Brick (2013) , en Särndal and Lundström (2005) .
Net-probabiliteit-sampling
Unwapens problemen hawwe in grutte ferskaat oan ûntwerpen (Baker et al. 2013) . Fokusje spesifyk op it probleem fan Xbox-brûkers fan Wang en kollega's (W. Wang et al. 2015) , kinne jo tinke oan dizze soarte probleem as ien wêr't it toetseboerd diel fan it sampling-ûntwerp is net de \(\pi_i\) ( de ûndersiker-gefoelige problemen fan opnimming) mar de \(\phi_i\) (de respondint-reagearre reagearjende propensities). Natuerlik is dit net ideaal omdat de \(\phi_i\) ûnbekend binne. Mar, lykas Wang en kollega's sjen litte, dizze soarte opt-yn probleem-sels fan in samplingframe mei enoarme fersnellingflater - needsaaklik net katastrophale as de ûndersiker goede help-ynformaasje hat en in goed statistysk model hat om dizze problemen oan te jaan.
Bethlehem (2010) ferwachtet in soad fan de boppesteande ôfwikselingen oer post-stratifikaasje om sawol gjin nonresponse en ferskaatflaters oan te meitsjen. Neist post-stratifikaasje binne oare techniken foar wurkje mei net-probabiliteit-problemen-en problemen foar problemen mei dekkingfisken en nonresponse-ûnder oaren problemen oerienkomst (Ansolabehere and Rivers 2013; ??? ) , gewicht fan (Lee 2006; Schonlau et al. 2009) , en kalibraasje (Lee and Valliant 2009) . Ien mienskiplik tema by dizze techniken is it gebrûk fan 'e auxiliary information.