Yn yr atodiad hwn, disgrifiaf rai o'r syniadau o'r bennod mewn ffurf ychydig yn fwy mathemategol. Y nod yma yw eich helpu i ddod yn gyfforddus â'r nodiant a'r fframwaith mathemategol a ddefnyddir gan ymchwilwyr arolwg er mwyn i chi allu trosglwyddo i rywfaint o ddeunydd technegol mwy a ysgrifennir ar y pynciau hyn. Dechreuaf drwy gyflwyno samplu tebygolrwydd, yna symud i samplu tebygolrwydd heb fod yn ateb, ac yn olaf, samplu anhyblygrwydd.
Samplu tebygolrwydd
Fel enghraifft redeg, gadewch i ni ystyried y nod o amcangyfrif y gyfradd ddiweithdra yn yr Unol Daleithiau. Gadewch \(U = \{1, \ldots, k, \ldots, N\}\) fod y boblogaeth darged a gadael \(y_k\) â gwerth y newidyn canlyniad ar gyfer y person \(k\) . Yn yr enghraifft hon \(y_k\) yw p'un a yw person \(k\) yn ddi-waith. Yn olaf, gadewch i \(F = \{1, \ldots, k, \ldots, N\}\) fod yn y boblogaeth ffrâm, a rhagdybir ei fod er yr un syml â'r boblogaeth darged.
Dyluniad samplo sylfaenol yw samplu hap syml heb ei ailosod. Yn yr achos hwn, mae pob un yr un mor debygol o gael ei gynnwys yn y sampl \(s = \{1, \ldots, i, \ldots, n\}\) . Pan gaiff y data ei gasglu gyda'r dyluniad samplo hwn, gall ymchwilwyr amcangyfrif cyfradd diweithdra'r boblogaeth gyda'r cymedr sampl:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
lle \(\bar{y}\) yw'r gyfradd ddiweithdra yn y boblogaeth a \(\hat{\bar{y}}\) yw'r amcangyfrif o'r gyfradd ddiweithdra (mae'r \(\hat{ }\) yn gyffredin a ddefnyddir i nodi amcangyfrif).
Mewn gwirionedd, anaml y mae ymchwilwyr yn defnyddio samplu hap syml heb ei ailosod. Am amrywiaeth o resymau (y byddaf yn disgrifio hynny mewn eiliad), mae ymchwilwyr yn aml yn creu samplau gyda thebygolrwydd anghyfartal o gynhwysiant. Er enghraifft, gallai ymchwilwyr ddewis pobl yn Florida â thebygolrwydd uwch o gynhwysiant na phobl yng Nghaliffornia. Yn yr achos hwn, efallai na fyddai'r cymedr sampl (e. 3.1) yn amcangyfrif da. Yn lle hynny, pan fo tebygolrwydd anghyfartal o gynhwysiant, mae ymchwilwyr yn defnyddio
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
lle \(\hat{\bar{y}}\) yw'r amcangyfrif o'r gyfradd ddiweithdra a \(\pi_i\) yw tebygolrwydd cynnwys person \(i\) . Yn dilyn arfer safonol, byddaf yn galw'r amcangyfrifwr yn yr e.e. 3.2 amcangyfrifwr Horvitz-Thompson. Mae amcangyfrifwr Horvitz-Thompson yn hynod o ddefnyddiol oherwydd mae'n arwain at amcangyfrifon diduedd ar gyfer unrhyw ddylunio samplo tebygolrwydd (Horvitz and Thompson 1952) . Gan fod yr amcangyfrifwr Horvitz-Thompson yn dod i fyny mor aml, mae'n ddefnyddiol sylwi y gellir ei ailysgrifennu fel
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
lle \(w_i = 1 / \pi_i\) . Fel eq. 3.3 yn datgelu, mae amcangyfrifwr Horvitz-Thompson yn golygu sampl wedi'i bwysoli lle mae'r pwysau yn gysylltiedig yn groes i'r tebygolrwydd o ddethol. Mewn geiriau eraill, y lleiaf tebygol y bydd person i'w chynnwys yn y sampl, po fwyaf o bwys y dylai'r person hwnnw ei gael yn yr amcangyfrif.
Fel y disgrifiwyd yn gynharach, mae ymchwilwyr yn aml yn samplu pobl sydd â thebygolrwydd anghyfartal o gael eu cynnwys. Un enghraifft o ddyluniad a all arwain at debygolrwydd anghyfartal o gynhwysiant yw samplu haenog , sy'n bwysig ei ddeall oherwydd ei fod yn gysylltiedig yn agos â'r weithdrefn amcangyfrif o'r enw ôl-haenu . Mewn samplu haenog, mae ymchwilydd yn rhannu'r boblogaeth darged i grwpiau \(H\) sy'n gyfangwbl ac yn gynhwysfawr. Gelwir y grwpiau hyn yn strata ac fe'u nodir fel \(U_1, \ldots, U_h, \ldots, U_H\) . Yn yr enghraifft hon, mae'r strata yn datgan. Nodir meintiau'r grwpiau fel \(N_1, \ldots, N_h, \ldots, N_H\) . Efallai y byddai ymchwilydd am ddefnyddio samplu haenog er mwyn sicrhau bod ganddi ddigon o bobl ym mhob gwladwriaeth i wneud amcangyfrifon lefel y wladwriaeth o ddiweithdra.
Unwaith y bydd y boblogaeth wedi'i rannu'n strata , cymerwch fod yr ymchwilydd yn dewis sampl hap syml heb amnewid maint \(n_h\) , yn annibynnol o bob strata. Ymhellach, tybwch fod pawb a ddewisir yn y sampl yn dod yn ymatebydd (byddaf yn ymdrin ag unrhyw ymateb yn yr adran nesaf). Yn yr achos hwn, y tebygolrwydd o gynhwysiant yw
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Oherwydd y gall y tebygolrwydd hyn amrywio o berson i berson, wrth wneud amcangyfrif o'r dyluniad samplo hwn, mae angen i ymchwilwyr bwysleisio pob ymatebwr gan wrthdroi eu tebygolrwydd o gynhwysiant gan ddefnyddio amcangyfrifwr Horvitz-Thompson (e.e. 3.2).
Er bod amcangyfrif Horvitz-Thompson yn ddiduedd, gall ymchwilwyr gynhyrchu amcangyfrifon mwy cywir (hy, amrywiant is) trwy gyfuno'r sampl gyda gwybodaeth ategol . Mae rhai pobl yn ei chael hi'n syndod bod hyn yn wir hyd yn oed pan fo sampl tebygolrwydd wedi'i berffeithio'n berffaith. Mae'r technegau hyn gan ddefnyddio gwybodaeth ategol yn arbennig o bwysig oherwydd, fel y byddaf yn dangos yn ddiweddarach, mae gwybodaeth ategol yn hanfodol ar gyfer gwneud amcangyfrifon o samplau tebygolrwydd heb fod yn ateb ac o samplau nad ydynt yn debygol o fod.
Un techneg gyffredin ar gyfer defnyddio gwybodaeth ategol yw ôl-haenu . Dychmygwch, er enghraifft, bod ymchwilydd yn gwybod nifer y dynion a'r menywod ym mhob un o'r 50 gwlad; gallwn ddynodi'r meintiau grŵp hyn fel \(N_1, N_2, \ldots, N_{100}\) . I gyfuno'r wybodaeth ategol hon gyda'r sampl, gall yr ymchwilydd rannu'r sampl yn grwpiau \(H\) (yn yr achos hwn 100), rhowch amcangyfrif ar gyfer pob grŵp, ac yna creu cyfartaledd pwysol o'r grwpiau hyn yn golygu:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Tua, yr amcangyfrifydd yn yr eq. 3.5 yn debygol o fod yn fwy cywir oherwydd ei fod yn defnyddio'r wybodaeth poblogaeth hysbys-y \(N_h\) amcangyfrifon cywir os bydd sampl anghytbwys yn digwydd i'w ddewis. Un ffordd i feddwl amdano yw bod ôl-haenu yn debyg i frasu haenau ar ôl i'r data gael ei gasglu eisoes.
I gloi, mae'r adran hon wedi disgrifio ychydig o ddyluniadau samplu: samplu hap syml heb ddisodli, samplu gyda thebygolrwydd anghyfartal, a samplu haenog. Mae hefyd wedi disgrifio dau brif syniad am amcangyfrif: amcangyfrifwr Horvitz-Thompson ac ôl-haenu. Am ddiffiniad mwy ffurfiol o ddyluniadau samplu tebygolrwydd, gweler pennod 2 Särndal, Swensson, and Wretman (2003) . Am driniaeth fwy ffurfiol a chyflawn o samplo haenog, gweler adran 3.7 o Särndal, Swensson, and Wretman (2003) . Am ddisgrifiad technegol o eiddo amcangyfrifwr Horvitz-Thompson, gweler Horvitz and Thompson (1952) , Overton and Stehman (1995) , neu adran 2.8 o @ sarndal_model_2003. I gael triniaeth fwy ffurfiol ar ôl-haenu, gweler Holt and Smith (1979) , Smith (1991) , Little (1993) , neu adran 7.6 o Särndal, Swensson, and Wretman (2003) .
Samplu tebygolrwydd gydag anghydateb
Mae gan bron pob un o'r arolygon go iawn ddim ateb; hynny yw, nid yw pawb yn y boblogaeth sampl yn ateb pob cwestiwn. Mae dau brif fath o nonresponse: nonresponse eitem ac nonresponse uned . Mewn anfoneb eitem, nid yw rhai ymatebwyr yn ateb rhai eitemau (ee weithiau nid yw ymatebwyr am ateb cwestiynau y maent yn eu hystyried yn sensitif). Mewn unresponse uned, nid yw rhai pobl sy'n cael eu dewis ar gyfer y boblogaeth sampl yn ymateb i'r arolwg o gwbl. Y ddau reswm mwyaf cyffredin am unresponse uned yw na ellir cysylltu â'r person a samplwyd a bod y person sampl yn cael ei gysylltu ond yn gwrthod cymryd rhan. Yn yr adran hon, byddaf yn canolbwyntio ar yr unresponse uned; dylai darllenwyr sydd â diddordeb mewn nonresponse eitem weld Little and Rubin (2002) .
Mae ymchwilwyr yn aml yn meddwl am arolygon gydag unedau nad ydynt yn ymateb fel proses samplu dau gam. Yn y cam cyntaf, mae'r ymchwilydd yn dewis sampl \(s\) fel bod gan bob unigolyn debygolrwydd o gynnwys \(\pi_i\) (lle \(0 < \pi_i \leq 1\) ). Yna, yn yr ail gam, mae pobl sy'n cael eu dewis yn y sampl yn ymateb gyda thebygolrwydd \(\phi_i\) (lle \(0 < \phi_i \leq 1\) ). Mae'r broses dau gam hon yn arwain at y set olaf o ymatebwyr \(r\) . Gwahaniaeth bwysig rhwng y ddau gam hwn yw bod ymchwilwyr yn rheoli'r broses o ddewis y sampl, ond nid ydynt yn rheoli pa rai o'r bobl hynny sy'n cael eu samplu yn dod yn ymatebwyr. Gan roi'r ddau broses hon at ei gilydd, y tebygolrwydd y bydd rhywun yn ymatebydd
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Er symlrwydd, byddaf yn ystyried yr achos lle mae'r dyluniad sampl gwreiddiol yn samplu hap syml heb ei ailosod. Os yw ymchwilydd yn dewis sampl o faint \(n_s\) sy'n cynhyrchu \(n_r\) ymatebwyr, ac os yw'r ymchwilydd yn anwybyddu nad ydynt yn ymateb ac yn defnyddio cymedr yr ymatebwyr, yna bydd y rhagfarn yn amcangyfrif:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
lle mae \(cor(\phi, y)\) yn gyfartaledd y boblogaeth rhwng yr ymdeimlad ymateb a'r canlyniad (ee statws diweithdra), \(S(y)\) yw gwyriad safonol y boblogaeth o'r canlyniad (ee diweithdra statws), \(S(\phi)\) yw gwyriad safonol poblogaeth y tueddiad ymateb, a \(\bar{\phi}\) yw cymaint ymateb y boblogaeth (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. Mae 3.7 yn dangos na fydd yr unresponse yn cyflwyno rhagfarn os byddlonir unrhyw un o'r amodau canlynol:
Yn anffodus, nid yw'r un o'r amodau hyn yn debygol o debyg. Mae'n ymddangos yn anhygoel na fydd unrhyw amrywiad mewn statws cyflogaeth na na fydd unrhyw amrywiad ym mhresenoldeb ymateb. Felly, y term allweddol yn eq. 3.7 yw'r cydberthynas: \(cor(\phi, y)\) . Er enghraifft, os yw pobl sy'n ddi-waith yn fwy tebygol o ymateb, yna bydd y gyfradd gyflogaeth amcangyfrifedig yn tuedd i fyny.
Y rheswm i wneud amcangyfrifon pan nad oes ateb yw defnyddio gwybodaeth ategol. Er enghraifft, mae un ffordd y gallwch chi ddefnyddio gwybodaeth ategol yn ôl-haenu (adalw eq 3.5 o'r uchod). Mae'n ymddangos mai rhagfarn yr amcangyfrifydd ôl-haenau yw:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
lle mae \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , a \(\bar{\phi}^{(h)}\) wedi'u diffinio fel uchod ond wedi'u cyfyngu i bobl mewn grŵp \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Felly, bydd y rhagfarn gyffredinol yn fach os yw'r rhagfarn ym mhob grŵp haen-ôl yn fach. Mae dwy ffordd yr hoffwn feddwl am wneud y rhagfarn yn fach ym mhob grŵp ôl-haenu. Yn gyntaf, rydych chi am geisio ffurfio grwpiau homogenaidd lle nad oes fawr o amrywiad ym mhresenoldeb ymateb ( \(S(\phi)^{(h)} \approx 0\) ) a'r canlyniad ( \(S(y)^{(h)} \approx 0\) ). Yn ail, rydych am ffurfio grwpiau lle mae'r bobl a welwch chi fel y bobl nad ydych yn eu gweld ( \(cor(\phi, y)^{(h)} \approx 0\) ). Cymharu eq. 3.7 ac eq. Mae 3.8 yn helpu i egluro pan all ôl-haenu leihau'r rhagfarn a achosir gan nonresponse.
I gloi, mae'r adran hon wedi darparu model ar gyfer samplu tebygolrwydd heb fod yn ymateb a dangosodd y rhagfarn y gall di-ateb gyflwyno'r ddau heb addasiadau ôl-haenau. Bethlehem (1988) cynnig deilliant o'r rhagfarn a achosir gan nad yw'n ymateb i ddyluniadau samplu mwy cyffredinol. Am ragor o wybodaeth ar ddefnyddio haenau ôl-addasu i addasu ar gyfer nad ydynt yn ateb, gweler Smith (1991) a Gelman and Carlin (2002) . Mae ôl-haenu yn rhan o dechnegau teulu mwy cyffredinol o'r enw amcangyfrifon graddnodi, gweler Zhang (2000) gyfer triniaeth erthygl a Särndal and Lundström (2005) am driniaeth hyd llyfr. I gael rhagor o wybodaeth am ddulliau pwysoli eraill ar gyfer addasu ar gyfer nad Kalton and Flores-Cervantes (2003) ateb, gweler Kalton and Flores-Cervantes (2003) , Brick (2013) , a Särndal and Lundström (2005) .
Samplu analluogrwydd
Mae samplu analluogrwydd yn cynnwys amrywiaeth enfawr o ddyluniadau (Baker et al. 2013) . Gan ganolbwyntio'n benodol ar y sampl o ddefnyddwyr Xbox gan Wang a chydweithwyr (W. Wang et al. 2015) , gallwch chi feddwl am y math hwnnw o sampl fel un lle nad yw rhan allweddol y dyluniad samplo yn \(\pi_i\) ( y tebygolrwydd o gynnwys \(\phi_i\) yr ymchwilydd) ond y \(\phi_i\) (yr ymatebion a ymatebir gan ymatebwyr). Yn naturiol, nid yw hyn yn ddelfrydol oherwydd nad yw'r \(\phi_i\) yn anhysbys. Ond, fel y dangosodd Wang a chydweithwyr, nid yw'r math hwn o ddewis-mewn sampl - hyd yn oed o ffrâm samplu â gwallau cwmpasu enfawr - angen i ni fod yn drychinebus os oes gan yr ymchwilydd wybodaeth gynorthwyol dda a model ystadegol da i gyfrif am y problemau hyn.
Bethlehem (2010) ymestyn llawer o'r deilliadau uchod ynghylch ôl-haenu i gynnwys gwallau di-ateb a gwrando. Yn ychwanegol at ôl-haenu, technegau eraill ar gyfer gweithio gyda samplau nad ydynt yn debygol o fod yn debygol, a samplau tebygolrwydd gyda chamgymeriadau darlledu a chyfateb sampl nad ydynt yn ateb-cynnwys (Ansolabehere and Rivers 2013; ??? ) , pwysoli sgôr bwrpas (Lee 2006; Schonlau et al. 2009) , a graddnodi (Lee and Valliant 2009) . Un thema gyffredin ymhlith y technegau hyn yw'r defnydd o'r wybodaeth ategol.