Nòtaichean matamataig

Eadar-theangachadh seo a chruthachadh le coimpiutair. ×

Nòtaichean matamataig

San eàrr-ràdh seo, bheir mi cunntas air cuid de na beachdan bhon chaibideil ann an cruth beagan nas matamataigeach. Is e an amas a tha seo gus do chuideachadh a bhith cofhurtail leis an fhrèam nodhaidh agus matamataigeach a bhios luchd-rannsachaidh suirbhidh a 'cleachdadh gus an urrainn dhut gluasad gu cuid de stuth teicnigeach air na cuspairean seo. Tòisichidh mi le bhith a 'toirt a-steach samplachadh coltas, gluaisidh mi gu samplachadh coltachd le neo-fhreagairt, agus mu dheireadh, samplachadh neo-chòrdasachd.

Samplachadh probail

Mar eisimpleir ruith, smaoinich sinn air an amas a bhith a 'tuairmse air ìre cion-cosnaidh sna Stàitean Aonaichte. Leig $U = \{1, \ldots, k, \ldots, N\}$ an àireamh-sluaigh agus leigeil le $y_k$ le luach an atharrachaidh toraidh airson an neach $k$ . Anns an eisimpleir seo tha $y_k$ a bheil duine $k$ gun obair. Mu dheireadh, is e an àireamh frèam a th 'ann an $F = \{1, \ldots, k, \ldots, N\}$ , a thathar a' meas gu bheil e mar an ceudna ris an àireamh-sluaigh.

Is e dealbhadh samplaidh bunaiteach a th 'ann a bhith a' samplachadh air thuaiream sìmplidh às ùr. Anns a 'chùis seo, tha e coltach gum bi gach neach air a ghabhail a-steach san sampall $s = \{1, \ldots, i, \ldots, n\}$ . Nuair a thèid an dàta a chruinneachadh leis an dealbhadh samplaidh seo, faodaidh luchd-rannsachaidh tuairmse a dhèanamh air ìre cion-cosnaidh an t-sluaigh leis an sampall:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

far a bheil $\bar{y}$ an ìre cion-cosnaidh anns an t-sluagh agus $\hat{\bar{y}}$ an tuairmse air ìre a 'chion-chosnaidh (an $\hat{ }$ gu cumanta air a chleachdadh gus measaidhean a chomharrachadh).

Gu fìrinneach, is ann ainneamh a bhios luchd-rannsachaidh a 'cleachdadh samplachadh air thuaiream sìmplidh às ùr. Airson caochladh adhbharan (bidh mi a 'toirt cunntas air aon dhiubh ann am mionaid), bidh luchd-rannsachaidh gu tric a' cruthachadh samples le deuchainnean neo-ionnan air in-ghabhail. Mar eisimpleir, dh'fhaodadh luchd-rannsachaidh daoine ann am Florida a thaghadh le coltas nas àirde de in-ghabhail na daoine ann an California. Anns a 'chùis seo, dh'fhaodadh nach eil an sampall mean (eacarsaich 3.1) na mheasaidhean math. An àite sin, nuair a tha duilgheadasan neo-ionann ann de in-ghabhail, cleachd luchd-rannsachaidh

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

far a bheil $\hat{\bar{y}}$ an tuairmse air ìre a 'chion-chosnaidh agus $\pi_i$ is $\pi_i$ neach $i$ an comas a bhith ann. An dèidh cleachdaidhean àbhaisteach, cuiridh mi am measaidhean ann an ceist. 3.2 measaidhean Horvitz-Thompson. Tha an tomhas Horvitz-Thompson air leth feumail oir tha e a 'leantainn air adhart gu tuairmsean neo-chlaonach airson dealbhadh sam bith de dhearbhadh samplarachd (Horvitz and Thompson 1952) . Seach gu bheil an tuairmseadair Horvitz-Thompson a 'tighinn suas cho tric, tha e cuideachail mothachadh gum faod e ath-sgrìobhadh mar seo

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

far a bheil $w_i = 1 / \pi_i$ . Mar eq. 3.3 a 'nochdadh, tha tomhas Horvitz-Thompson na sampall cuideam far a bheil na cuideaman ceangailte gu mì-chothromach ris an coltas a thagh iad taghadh. Ann am faclan eile, chan eil e cho buailteach gum bi neach air a ghabhail a-steach san sampall, na cuideam a bu chòir a bhith aig an neach sin anns an tuairmse.

Mar a chaidh a mhìneachadh na bu tràithe, bidh luchd-rannsachaidh gu tric a 'samplachadh dhaoine le teachdaichean neo-ionnan air in-ghabhail. Is e aon eisimpleir de dhealbh a dh'fhaodas a bhith a 'leantainn gu teachdairean neo-ionnan a thaobh in-ghabhail samplachadh gann , a tha cudromach a thuigsinn a chionn gu bheil e dlùth cheangailte ris a' mhodh tuairmseachaidh air a bheil an t-slighe-stratification . Ann an samplachadh srathaichte, bidh rannsaiche a 'sgaradh an t-sluaigh targaid a-steach do bhuidhnean $H$ tha a' toirt a-steach a chèile agus a tha gu tur air leth. Canar strata ris na buidhnean sin agus tha iad air an comharrachadh mar $U_1, \ldots, U_h, \ldots, U_H$ . Anns an eisimpleir seo, tha na strata ag ràdh. Tha meudan nam buidhnean air an comharrachadh mar $N_1, \ldots, N_h, \ldots, N_H$ . Dh'fhaodadh neach-rannsachaidh a bhith ag iarraidh samplachadh sàstaichte gus dèanamh cinnteach gu bheil gu leòr dhaoine aice anns gach stàit gus tuairmsean cion-cosnaidh ìre-stàite a dhèanamh.

Aon uair 's gu bheil an sluagh air a roinn ann an strata , gabhaidh an neach-rannsachaidh taghadh sampall air thuaiream sìmplidh gun ath-mheudachadh air meud $n_h$ , gu neo-eisimeileach bho gach strata. A bharrachd, gabhaibh gu bheil gach neach a thaghadh san sampall a 'tighinn gu neach-freagairt (làimhseachadh mi gun fhreagairt san ath earrann). Anns a 'chùis seo, tha coltachd an in-ghabhalach

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

A chionn 's gu bheil na teisteanasan sin comasach air atharrachadh bho dhuine gu pearsanta, nuair a tha iad a' dèanamh tuairmse bhon dealbhadh samplaidh seo, feumaidh luchd-rannsachaidh cuideam a chur air gach neach-freagairt leis a 'choltasachd a th' aca air in-ghabhail a 'cleachdadh meòraiche Horvitz-Thompson (ceist 3.2).

Ged a tha an tomhas Horvitz-Thompson neo-chlaonach, faodaidh luchd-rannsachaidh tuairmsean nas cruinne (ie, eadar-dhealachadh nas ìsle) a dhèanamh le bhith a 'cur an sampall còmhla ri fiosrachadh cuideachail . Tha cuid de dhaoine ga lorg iongantach gu bheil seo fìor fiù nuair a tha samplachadh de chomasachd gu tur air a chur gu buil. Tha na dòighean sin a 'cleachdadh fiosrachadh cuideachail gu h-àraid cudromach oir, mar a sheallas mi nas fhaide air adhart, tha fiosrachadh cuideachail deatamach airson tuairmsean a dhèanamh bho shamhlaichean coltachd le neo-fhreagairt agus bho shamhlaichean neo-choltach.

Tha aon dhòigh cumanta airson a bhith a 'cleachdadh fiosrachadh taiceil air a bhith nas luaithe . Smaoinich, mar eisimpleir, gu bheil fios aig neach-rannsachaidh air an àireamh de dh'fhireannaich is bhoireannaich anns gach 50 stàit; faodaidh sinn sealltainn air na meudan buidhne seo mar $N_1, N_2, \ldots, N_{100}$ . Gus am fiosrachadh cuideachail seo a chur còmhla ris an sampall, faodaidh an neach-rannsachaidh an sampall a roinn ann an buidhnean $H$ (anns a 'chùis seo 100), tuairmse a dhèanamh airson gach buidheann, agus an uairsin a' cruthachadh cuibheasachd cuingealaichte de na meadhanan sin:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Gu ìre mhòr, am meastair ann an ceàrnag. 3.5 buailteach a bhith nas cruinne oir tha e a 'cleachdadh an fhiosrachaidh àireamh-sluaigh aithnichte - an $N_h$ tuairmsean ceart ma bhios sampall neo-chothromach air a thaghadh. Is e aon dhòigh air smaoineachadh air a seo gu bheil stratification post-d coltach ri bhith a 'dèanamh tuairmse air srathadh an dèidh don dàta a bhith air a chruinneachadh mar-thà.

Anns a 'cho-dhùnadh, tha an earrann seo air iomradh a thoirt air beagan de dhealbhaidhean samplaidh: samplachadh air thuaiream sìmplidh gun ath-shuidheachadh, samplachadh le coltas neo-ionnan, agus samplachadh gann. Tha e cuideachd air tuairisgeul a thoirt air dà phrìomh bheachd air tuairmse: an tuairmseadair Horvitz-Thompson agus an dèidh srathadh. Airson mìneachadh nas foirmeile air dealbhadh samplachadh coltachd, faic caibideil 2 de Särndal, Swensson, and Wretman (2003) . Airson leigheas nas foirmeile agus nas fharsainge de shamplachadh gann, faic earrann 3.7 de Särndal, Swensson, and Wretman (2003) . Airson tuairisgeul teicnigeach air feartan an tomhais Horvitz-Thompson, faic Horvitz and Thompson (1952) , Overton and Stehman (1995) , no earrann 2.8 de @ sarndal_model_2003. Airson làimhseachadh nas foirmeile a thaobh stratification post-d, faic Holt and Smith (1979) , Smith (1991) , Little (1993) , no earrann 7.6 de Särndal, Swensson, and Wretman (2003) .

Samplachadh probabhail le neo-fhreagairt

Cha mhòr nach eil freagairtean fìor mhath aig a h-uile sgrùdadh ceart; is e sin, chan eil a h-uile duine san t-sluagh sampall a 'freagairt a h-uile ceist. Tha dà phrìomh sheòrsa de nonresponse: nonresponse nì agus neo-fhreagairt aonad . Ann an cuspair neo-fhreagarrach, chan eil cuid de luchd-freagairt a 'freagairt cuid de nithean (me, uaireannan chan eil luchd-freagairt ag iarraidh ceistean a tha iad a' smaoineachadh a tha mothachail) a fhreagairt. Ann an neo-fhreagairt aonad, chan eil cuid de dhaoine a tha air an taghadh airson an t-sluaigh sampall a 'freagairt ris an t-suirbhidh idir. Is e an dà adhbhar as cumanta airson neo-fhreagairt aonad nach fhaodar fios a chur chun neach a chaidh a thaghadh agus gun tèid fios a chur chun neach an t-sampla ach a dhiùlt e pàirt a ghabhail. San earrainn seo, cuiridh mi fòcas air neo-fhreagairt aonad; bu chòir le luchd-leughaidh le ùidh ann an cuspair cuspair Little and Rubin (2002) .

Bidh luchd-rannsachaidh tric a 'smaoineachadh mu shuirbhidhean le neo-fhreagairt aonad mar phròiseas samplaidh dà-ìre. Anns a 'chiad ìre, tha an neach-rannsachaidh a' taghadh sampall $s$ mar sin gu bheil coltas ann gum bi in-ghabhaltas aig gach neach $\pi_i$ (far a bheil $0 < \pi_i \leq 1$ ). An uairsin, anns an dàrna ìre, bidh daoine a tha air an taghadh san sampall a 'freagairt le coltachd $\phi_i$ (far a bheil $0 < \phi_i \leq 1$ ). Tha am pròiseas dà-ìre seo a 'toirt a-mach an seata dheireannach de luchd-freagairt $r$ . Is e eadar-dhealachadh cudromach a tha eadar an dà ìre seo gu bheil luchd-rannsachaidh a 'cumail smachd air a' phròiseas a bhith a 'taghadh an sampla, ach chan eil iad a' smachdachadh dè an fheadhainn a tha air an samplachadh a tha a 'tighinn gu bhith a' freagairt. Le bhith a 'cur an dà phròiseas sin còmhla, tha coltas gum bi cuideigin na neach-freagairt

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Air sgàth sìmplidh, beachdaichidh mi air a 'chùis far a bheil an dealbhadh sampall tùsail sìmplidh air thuaiream sìmplidh gun ath-thogail. Ma tha neach-rannsachaidh a 'taghadh sampall de mheud $n_s$ tha a' toradh luchd-freagairt $n_r$ , agus ma tha an neach-rannsachaidh a 'leigeil às nach eil freagairt agus a' cleachdadh meadhan an luchd-fhreagairt, is e an claonadh tuairmse:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

far a bheil $cor(\phi, y)$ an co-dhàimh àireamh-sluaigh eadar am freagairt freagairt agus an toradh (me, inbhe cion-cosnaidh), $S(y)$ an sgaradh inbhe sluaigh air a 'bhuil (me, cion-cosnaidh inbhe), is e $S(\phi)$ an sgaradh coitcheann sluaigh den fhreagairt a th 'ann, agus $\bar{\phi}$ tha an sluagh a' ciallachadh meudachadh freagairt (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Ceart. 3.7 a 'sealltainn nach toir neo-fhreagairt a-steach claonadh ma thèid gin de na cumhaichean a leanas a choileanadh:

Chan eil atharrachadh ann an inbhe cion-cosnaidh $(S(y) = 0)$ .
Chan eil atharrachadh ann am freagairtean freagairt $(S(\phi) = 0)$ .
Chan eil co-cheangal eadar freagairt agus inbhe cion-cosnaidh $(cor(\phi, y) = 0)$ .

Gu mì-fhortanach, chan eil coltas gu bheil gin de na cumhaichean sin. Tha e coltach nach gabh atharrachadh sam bith ann an inbhe cosnaidh no nach bi atharrachadh sam bith ann am freagairtean freagairt. Mar sin, tha am prìomh theachd ann an ceist. Is e 3.7 an co-cheangal: $cor(\phi, y)$ . Mar eisimpleir, ma tha daoine a tha gun obair nas dualtaiche freagairt, bidh an ìre cosnaidh tuairmseach air a chlaonadh suas.

Is e an cleas airson tuairmsean a dhèanamh nuair a tha neo-fhreagairt ann airson fiosrachadh cuideachail a chleachdadh. Mar eisimpleir, is e aon dòigh anns am faod thu fiosrachadh cuideachail a chleachdadh an dèidh srathadh (ath-ghairm ceist 3.5 bho shuas gu h-àrd). A rèir coltais, is e claonadh an tomhas-srathaidh an dèidh seo:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

far a bheil $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , agus $\bar{\phi}^{(h)}$ air an comharrachadh mar gu h-àrd ach air an cuingealachadh ri daoine ann am buidheann $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Mar sin, bidh an claonadh beag beag ma tha an claonadh anns gach buidheann srathachaidh post beag. Tha dà dhòigh ann air a bheil mi a 'smaoineachadh a bhith a' smaoineachadh mu bhith a 'dèanamh a' chlaon-chòmhnaidh beag anns gach buidheann de stratification post. An toiseach, tha thu airson feuchainn ri buidhnean aonaichte a chruthachadh far nach eil mòran atharrachaidh ann am freagairt freagairt ( $S(\phi)^{(h)} \approx 0$ ) agus an toradh ( $S(y)^{(h)} \approx 0$ ). San dàrna àite, tha thu airson buidhnean a chruthachadh far a bheil na daoine a chì thu mar na daoine nach fhaic thu ( $cor(\phi, y)^{(h)} \approx 0$ ). A 'dèanamh coimeas eadar eq. 3.7 agus cearnag. 3.8 a 'cuideachadh le bhith a' soilleireachadh nuair a dh'fhaodas a bhith a 'lùghdachadh an t-suidheachaidh a tha air adhbhrachadh le neo-fhreagairt.

Ann an co-dhùnadh, tha an earrann seo air modail a thoirt seachad airson samplachadh coltachd le neo-fhreagairt agus tha e air a shealltainn nach urrainn do neo-fhreagairt an dà chuid a thoirt a-steach às aonais agus le atharrachaidhean iar-stratification. Bethlehem (1988) tabhann toradh a' chlaidheimh air adhbhrachadh le nonresponse airson dealbhadh samplachadh nas fharsainge. Airson barrachd air cleachdadh stratification post-d gus atharrachadh airson neo-fhreagairt, faic Smith (1991) agus Gelman and Carlin (2002) . Tha post-stratification mar phàirt de theaghlach de dhòighean-obrach nas fharsainge air a bheil measadairean calibration, faic Zhang (2000) airson làimhseachadh fada artaigil agus Särndal and Lundström (2005) airson làimhseachadh fad leabhraichean. Airson barrachd air dòighean cuideachaidh eile airson atharrachadh airson neo-fhreagairt, faic Kalton and Flores-Cervantes (2003) , Brick (2013) , agus Särndal and Lundström (2005) .

Samplachadh neo-chòrdasachd

Tha samplachadh neo-chòrdas a 'gabhail a-steach taghadh mòr de dhealbhaidhean (Baker et al. 2013) . Le bhith a 'cuimseachadh gu sònraichte air an luchd-cleachdaidh Xbox le Wang agus co-obraichean (W. Wang et al. 2015) , faodaidh tu smaoineachadh air an t-seòrsa sampall sin mar aon far nach eil a' phrìomh phàirt den dealbhadh samplachadh an $\pi_i$ ( an coltas a tha an neach-rannsachaidh a 'gabhail a-steach) ach an $\phi_i$ (freagairtean freagairt air a stiùireadh leis an neach-freagairt). Gu nàdarra, chan eil seo math oir tha an $\phi_i$ neo-aithnichte. Ach, mar a sheall Wang agus co-obraichean, tha an seòrsa seo de roghainn ann an sampall-eadhon bho fhrèam samplaidh le mearachd craolaidh uabhasach - feumach a bhith sgriosail ma tha fiosrachadh cuideachail math aig an neach-rannsachaidh agus deagh mhodail staitistigeil airson nan duilgheadasan sin.

Bethlehem (2010) leudachadh mòran de na h-obraichean a tha gu h-àrd mu dheidhinn stratification post-d gu bhith a' gabhail a-steach an dà chuid mearachdan neo-fhreagarrach agus craolaidh. A bharrachd air srathadh an dèidh post, dòighean eile airson a bhith ag obair le samples (Ansolabehere and Rivers 2013; ??? ) neo-choltach-agus sàbhalaidhean coltachd le mearachdan craolaidh agus neo-fhreagairt a 'gabhail a-steach co-mheasadh sampaill (Ansolabehere and Rivers 2013; ??? ) , cuideam (Ansolabehere and Rivers 2013; ??? ) iomadachd (Lee 2006; Schonlau et al. 2009) , agus calibration (Lee and Valliant 2009) . Is e aon chuspair cumanta am measg nan dòighean sin a bhith a 'cleachdadh an fhiosrachaidh cuideachail.