San aguisín seo, cuirfidh mé síos ar chuid de na smaointe ón gcaibidil i bhfoirm beagán níos mó matamaiticiúla. Is é an sprioc atá anseo ná cabhrú leat compordach a fháil leis an gcreat nodaireachta agus matamaitice a úsáideann taighdeoirí suirbhé ionas gur féidir leat aistriú go dtí roinnt ábhar teicniúla níos mó atá scríofa ar na hábhair seo. Tosóidh mé trí sampláil dóchúlachta a thabhairt isteach, ansin bogadh go dtí sampláil dóchúlachta le neamhresponse, agus ar deireadh, sampláil neamh-dóchúlachta.
Sampláil dóchúlachta
Mar shampla reatha, déanaimis breithniú ar an sprioc atá ag meastachán a dhéanamh ar an ráta dífhostaíochta sna Stáit Aontaithe. Let \(U = \{1, \ldots, k, \ldots, N\}\) an sprioc-daonra agus lig \(y_k\) de réir luach an athróg toraidh don duine \(k\) . Sa sampla seo tá \(y_k\) cibé an bhfuil duine \(k\) dífhostaithe. Ar deireadh, ligean \(F = \{1, \ldots, k, \ldots, N\}\) an daonra fráma, a mheastar go bhfuil sé mar an gcéanna leis an sprioc-daonra ar mhaithe le simplíocht.
Sampláil randamach simplí is ea dearadh samplála bunúsach gan athsholáthar. Sa chás seo, is dócha go mbeidh gach duine san áireamh sa sampla \(s = \{1, \ldots, i, \ldots, n\}\) . Nuair a bhailítear na sonraí leis an dearadh samplála seo, is féidir le taighdeoirí an ráta dífhostaíochta daonra a mheas leis an gcineál sampla:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
i gcás inarb é \(\bar{y}\) an ráta dífhostaíochta sa daonra agus \(\hat{\bar{y}}\) an meastachán ar an ráta dífhostaíochta (is é an \(\hat{ }\) go coitianta a úsáidtear chun meastóir a léiriú).
Go deimhin, is annamh a úsáideann taighdeoirí sampláil randamach simplí gan athsholáthar. Ar chúiseanna éagsúla (déanfaidh mé tuairisc ar cheann díobh i láthair na huaire), is minic a chruthaíonn taighdeoirí samplaí a bhfuil dóchúlacht míchothrom acu maidir le cuimsiú. Mar shampla, d'fhéadfadh taighdeoirí daoine i Florida a roghnú le dóchúlacht níos airde a bheith ann ná daoine i California. Sa chás seo, ní fhéadfadh meastachán maith a bheith sa chiall sampla (e. 3.1). Ina áit sin, nuair a bhíonn dóchúlacht míchothrom ann maidir le cuimsiú, úsáideann taighdeoirí
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
i gcás inarb é \(\hat{\bar{y}}\) an meastachán ar an ráta dífhostaíochta agus is \(\pi_i\) an duine \(i\) ar áireamh. Tar éis cleachtas caighdeánach, glaoidh mé an meastóir i gceart. 3.2 meastóir Horvitz-Thompson. Tá meastóir Horvitz-Thompson thar a bheith úsáideach toisc go dtiocfaidh meastacháin neamhchlaonta ar aon dhearadh samplála dóchúlachta (Horvitz and Thompson 1952) . Ós rud é go dtagann meastóir Horvitz-Thompson suas chomh minic, is cuidiú é a thabhairt faoi deara gur féidir é a athscríobh mar
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
áit a bhfuil \(w_i = 1 / \pi_i\) . Mar eq. 3.3, is meastachán sampla ualaithe í meastóir Horvitz-Thompson ina bhfuil na meáchain gaolmhar go inbhéartach leis an dóchúlacht roghnúcháin. I bhfocail eile, is lú an seans go gcuirfear duine san áireamh sa sampla, an meáchan níos mó ba cheart don duine sin a fháil sa mheastachán.
De réir mar a thuairiscítear níos luaithe, is minic a dhéanann samplóirí samplaí ar dhaoine a bhfuil dóchúlacht neamhionanna acu ar chuimsiú. Sampla amháin de dhearadh a d'fhéadfadh a bheith mar thoradh ar thionchúiseanna neamhionanna cuimsitheachta ná sampláil sraithe , rud atá tábhachtach a thuiscint toisc go bhfuil dlúthbhaint aige leis an nós imeachta meastacháin a dtugtar iar-stratification . I sampláil sraithe, cuireann taighdeoir an sprioc-daonra i ngrúpaí \(H\) eisiach agus uileghabhálach. Tugtar strata ar na grúpaí seo agus léirítear iad mar \(U_1, \ldots, U_h, \ldots, U_H\) . Sa sampla seo, deir na strata. Léirítear méideanna na ngrúpaí mar \(N_1, \ldots, N_h, \ldots, N_H\) . B'fhéidir gur mhaith le taighdeoir sampláil sraithe a úsáid chun a chinntiú go bhfuil go leor daoine i ngach stát chun meastacháin ar an dífhostaíocht ar leibhéal stáit a dhéanamh.
Nuair a bheidh an daonra roinnte i strata , glactar leis go roghnaíonn an taighdeoir sampla randamach simplí gan athsholáthar ar mhéid \(n_h\) , go neamhspleách ó gach strata. Thairis sin, glacaim leis go dtiocfaidh freagra ar gach duine a roghnaíodh sa sampla (láimhseálfaidh mé neamhfhreagra sa chéad chuid eile). Sa chás seo, is é an dóchúlacht go bhfuil cuimsiú ann
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Ós rud é gur féidir leis na dóchúlachtaí seo athrú ó dhuine go duine, agus meastachán á dhéanamh acu ón dearadh samplála seo, ní mór do thaighdeoirí meáchan a dhéanamh ar gach freagróir trí inbhéartacht a dóchúlacht go gcuirfí san áireamh meastóir Horvitz-Thompson (ceist 3.2).
Cé go bhfuil meastóir Horvitz-Thompson neamhchlaonta, is féidir le taighdeoirí meastacháin níos cruinne (ie, éagsúlacht níos ísle) a tháirgeadh tríd an sampla a chomhcheangal le faisnéis chúnta . Bíonn iontas air ar roinnt daoine go bhfuil sé seo fíor fiú nuair a bhíonn sampláil dóchúlacht ann go foirfe. Tá na teicnící seo ag baint úsáide as faisnéis chúnta thar a bheith tábhachtach mar is léir, mar a thaispeánfaidh mé ina dhiaidh sin, go bhfuil faisnéis chúnta ríthábhachtach chun meastacháin a dhéanamh ó shamplaí dóchúlachta a bhfuil neamhriachtanais acu agus ó shamplaí nach dóchúlacht.
Tá teicníc choiteann amháin chun faisnéis chúnta a úsáid iar-stratification . Samhlaigh, mar shampla, go bhfuil a fhios ag taighdeoir ar líon na bhfear agus na mban i ngach ceann de na 50 stát; is féidir linn na méideanna grúpa seo a ainmniú mar \(N_1, N_2, \ldots, N_{100}\) . Chun an fhaisnéis chúnta seo a chomhcheangal leis an sampla, is féidir leis an taighdeoir an sampla a roinnt i ngrúpaí \(H\) (sa chás seo 100), meastachán a dhéanamh do gach grúpa, agus ansin meán ualaithe de na modhanna grúpa seo a chruthú:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Beagán, an meastóir i gceart. 3.5 is dócha go mbeidh sé níos cruinne toisc go n-úsáideann sé an fhaisnéis ar an daonra aitheanta - an \(N_h\) - le meastacháin cheart má tharlaíonn sampla neamhchothromaithe a roghnú. Is é bealach amháin chun smaoineamh air ná go bhfuil an iar-stratification cosúil le dul i ngleic le srathadh tar éis na sonraí a bhailiú cheana féin.
Mar fhocal scoir, chuir an t-alt seo síos ar roinnt dearaí samplála: sampláil randamach simplí gan athsholáthar, sampláil le dóchúlacht neamhionann, agus sampláil srathaithe. Chuir sé síos freisin ar dhá phríomh-smaointe maidir le meastachán: meastóir Horvitz-Thompson agus iar-stratification. Le haghaidh sainmhíniú níos foirmeálta ar dhearaí samplála dóchúlachta, féach Caibidil 2 de Särndal, Swensson, and Wretman (2003) . Chun cóireáil níos foirmiúla agus iomlán a dhéanamh ar shamplaiú srathaithe, féach alt 3.7 de Särndal, Swensson, and Wretman (2003) . Le haghaidh tuairisc theicniúil ar airíonna meastóir Horvitz-Thompson, féach Horvitz and Thompson (1952) , Overton and Stehman (1995) , nó alt 2.8 de @ sarndal_model_2003. Chun cóireáil níos foirmiúla a dhéanamh ar iar-stratification, féach Holt and Smith (1979) , Smith (1991) , Little (1993) , nó alt 7.6 de Särndal, Swensson, and Wretman (2003) .
Sampláil dóchúlachta le neamhfhreagra
Tá neamhspleácha beagnach gach suirbhé fíor; is é sin, ní léiríonn gach duine sa sampla daonra gach ceist. Tá dhá phríomhchineál neamhresponse ann: nonresponse mír agus nonresponse aonad . I mír neamhfhreagrach, ní fhreagraíonn cuid de na freagróirí roinnt míreanna (m.sh., uaireanta níl freagróirí ag iarraidh ceisteanna a fhreagairt go bhfuil siad íogair) a fhreagairt. I neamh-fhreagairt aonad, ní thugann roinnt daoine a roghnaíodh don daonra samplach freagra ar an suirbhé ar chor ar bith. Is iad an dá chúis is coitianta le haghaidh neamhriachtanais aonaid nach féidir teagmháil a dhéanamh leis an duine sampláilte agus go ndéanfar teagmháil leis an duine samplach ach go ndiúltóidh sé páirt a ghlacadh. San alt seo, díreoidh mé ar neamhriachtan aonad; ba cheart do léitheoirí a bhfuil suim acu i mír nonresponse Little agus Rubin (2002) .
Is minic a cheapann taighdeoirí faoi shuirbhéanna le neamhfhreagras aonad mar phróiseas samplála dhá chéim. Sa chéad chéim, roghnaíonn an taighdeoir sampla \(s\) ionas go mbeidh dóchúlacht ann go bhfuil gach duine san áireamh \(\pi_i\) (i gcás \(0 < \pi_i \leq 1\) ). Ansin, sa dara céim, freagraíonn daoine a roghnaíodh isteach sa sampla le dóchúlacht \(\phi_i\) (i gcás \(0 < \phi_i \leq 1\) ). Tugann an próiseas dhá chéim seo an sraith deiridh freagróirí \(r\) . Is é an difríocht thábhachtach idir an dá chéim seo ná go ndéanann taighdeoirí rialú ar an bpróiseas roghnaigh an sampla, ach ní rialaíonn siad cé acu daoine atá sampláilte a bhíonn ina bhfreagróirí. Agus an dá phróiseas seo á chur le chéile, is é an dóchúlacht go mbeidh duine mar fhreagróir
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Ar mhaithe le simplíocht, déanfaidh mé machnamh ar an gcás inar sampláil randamach simplí é an dearadh sampla bunaidh gan athsholáthar. Má roghnaíonn taighdeoir sampla de mhéid \(n_s\) a thugann freagróirí \(n_r\) , agus má dhéanann an taighdeoir neamhaird ar neamhfhreagra agus má úsáideann sé meán na bhfreagróirí, ansin is é an claonadh meastacháin ná:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
i gcás inarb é \(cor(\phi, y)\) an comhghaolú daonra idir an ghéarchéim freagartha agus an toradh (eg stádas dífhostaíochta), \(S(y)\) ná diall caighdeánach daonra an toraidh (eg dífhostaíocht stádas), is é \(S(\phi)\) an diall caighdeánach daonra ar an ngéarchéim freagartha, agus \(\bar{\phi}\) ná meánmhéideanna freagartha (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Ceart. Léiríonn 3.7 nach dtabharfaidh neamhfhreagra claonadh má chomhlíontar aon cheann de na coinníollacha seo a leanas:
Ar an drochuair, is cosúil nach dócha go bhfuil aon cheann de na coinníollacha seo. Dealraíonn sé go bhfuil sé indéanta nach mbeidh aon athrú i stádas fostaíochta ná nach mbeidh aon éagsúlacht ann i ngéarchéimeanna freagartha. Dá bhrí sin, an téarma lárnach in eq. Is é 3.7 an comhghaol: \(cor(\phi, y)\) . Mar shampla, má bhíonn daoine níos dífhostaithe níos mó seans ann freagairt a thabhairt, ansin beidh an ráta fostaíochta measta claonta suas.
Is é an cleas chun meastacháin a dhéanamh nuair a bhíonn neamhriachtanas ann ná faisnéis chúnta a úsáid. Mar shampla, is é an bealach amháin inar féidir leat eolas cúnta a úsáid iar-stratification (aisghairm 3.5 ó thuas). Léiríonn sé gurb é claonadh an meastóra iar-stratification ná:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
áit a bhfuil \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , agus \(\bar{\phi}^{(h)}\) mar atá thuas ach atá srianta do dhaoine i ngrúpa \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Dá bhrí sin, beidh an claonadh foriomlán beag má bhíonn an claonadh i ngach grúpa iar-stratification beag. Tá dhá bhealach ann gur mhaith liom smaoineamh ar an claonadh a dhéanamh beag i ngach grúpa iar-stratification. Ar dtús, ba mhaith leat iarracht a dhéanamh grúpaí aonchineálach a chruthú nuair nach bhfuil mórán éagsúlacht ann i gcruth freagairt ( \(S(\phi)^{(h)} \approx 0\) ) agus an toradh ( \(S(y)^{(h)} \approx 0\) ). Ar an dara dul síos, ba mhaith leat grúpaí a bhunú ina bhfuil na daoine a fheiceann tú cosúil leis na daoine nach bhfeiceann tú ( \(cor(\phi, y)^{(h)} \approx 0\) ). Ag comparáid le ceist. 3.7 agus cearnach. 3.8 Cuidíonn le soiléiriú nuair is féidir leis an iar-stratúlacht an claonta a chosc de bharr nonresponse.
Mar fhocal scoir, chuir an t-alt seo múnla ar fáil maidir le sampláil dóchúlachta le neamhfhreagra agus léirigh sé an claonadh gur féidir le neamhresponse a thabhairt isteach gan oiriúnuithe iar-stratification araon. Bethlehem (1988) ina dhíolú ar an claonadh de bharr nonresponse do dhearaí samplála níos ginearálta. Chun tuilleadh eolais a fháil maidir le hiar-stratification a úsáid chun é a choigeartú le haghaidh nonresponse, féach Smith (1991) agus Gelman and Carlin (2002) . Is cuid de theaghlaigh níos ginearálta de theicnící iad iar-stratification, ar a dtugtar meastóirí calabrúcháin, féach Zhang (2000) le haghaidh cóireála Särndal and Lundström (2005) le haghaidh cóireála Särndal and Lundström (2005) . Le haghaidh níos mó ar mhodhanna eile ualúcháin eile chun coigeartú a dhéanamh le haghaidh neamhriachtanais, féach Kalton and Flores-Cervantes (2003) , Brick (2013) , agus Särndal and Lundström (2005) .
Sampláil neamh-dóchúlacht
I measc na samplála neamhchóchúiseachta tá éagsúlacht mhór dearaí (Baker et al. 2013) . Agus tú ag díriú go sonrach ar an sampla d'úsáideoirí Xbox ag Wang agus comhghleacaithe (W. Wang et al. 2015) , is féidir leat smaoineamh ar an gcineál sampla sin mar cheann amháin nach bhfuil an chuid lárnach den dearadh samplála an \(\pi_i\) ( an dóchúlacht atá ag an taighdeoir a bheith san áireamh) ach an \(\phi_i\) (an ghéarchéim freagartha tiomáinte ag an bhfreagróir). Ar ndóigh, níl sé seo oiriúnach toisc nach bhfuil an \(\phi_i\) anaithnid. Ach, de réir mar a léirigh Wang agus comhghleacaithe, níor cheart go mbeadh an cineál seo sampla roghnach-fiú ó fhráma samplála le earráid clúdaithe ollmhór - tubaisteach má tá eolas cúnta maith ag an taighdeoir agus go bhfuil múnla staidrimh mhaith chun na fadhbanna seo a chur san áireamh.
Leathnaíonn Bethlehem (2010) go leor de na díorthaigh thuas maidir le hiar-stratification chun earráidí neamhfhreagracha agus clúdaigh a áireamh. I dteannta iar-srathaithe, tá teicnící eile le haghaidh oibriú le samplaí neamhchóchúiseachta agus samplaí dóchúlachta le hearráidí clúdaigh agus comhoiriúnú samplaí neamhriachtanach-áirítear (Ansolabehere and Rivers 2013; ??? ) , ualú scór (Lee 2006; Schonlau et al. 2009) , agus calabrú (Lee and Valliant 2009) . Is é téama choiteann amháin i measc na dteicnící seo ná an fhaisnéis chúnta a úsáid.