Sa apendiks na ito, ilalarawan ko ang ilan sa mga ideya mula sa kabanata sa bahagyang mas mathematical form. Ang layunin dito ay upang matulungan kang makakuha ng komportable sa notasyon at matematika balangkas na ginagamit ng mga mananaliksik ng survey upang maaari kang lumipat sa ilan sa higit pang mga teknikal na materyal na nakasulat sa mga paksang ito. Magsisimula ako sa pamamagitan ng pagpapasok ng posibilidad na sampling, pagkatapos ay lumipat sa posibilidad ng sampling na may hindi sagot, at sa wakas, di-posibilidad na sampling.
Pagkuha ng probabilidad
Bilang isang pagpapatakbo ng halimbawa, isaalang-alang natin ang layunin ng pagtantya sa rate ng kawalan ng trabaho sa Estados Unidos. Let \(U = \{1, \ldots, k, \ldots, N\}\) ang target na populasyon at hayaan \(y_k\) sa pamamagitan ng halaga ng kinalabasan variable para sa taong \(k\) . Sa halimbawang ito \(y_k\) ay kung ang tao \(k\) ay walang trabaho. Sa wakas, hayaan ang \(F = \{1, \ldots, k, \ldots, N\}\) maging populasyon ng frame, na para sa pagiging simple ay ipinapalagay na kapareho ng populasyon ng target.
Ang isang pangunahing disenyo ng sampling ay simpleng random na sampling nang walang kapalit. Sa kasong ito, ang bawat tao ay pantay na malamang kasama sa sample na \(s = \{1, \ldots, i, \ldots, n\}\) . Kapag nakolekta ang data sa disenyo ng sampling na ito, maaaring tantiyahin ng mga mananaliksik ang populasyon ng kawalan ng trabaho sa sample na ibig sabihin nito:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
Ang \(\bar{y}\) ay ang rate ng kawalan ng trabaho sa populasyon at ang \(\hat{\bar{y}}\) ay ang pagtantya ng rate ng kawalan ng trabaho (ang \(\hat{ }\) ay karaniwang ginagamit upang ipahiwatig ang isang estimator).
Sa katunayan, ang mga mananaliksik ay bihirang gumamit ng simpleng random sampling nang walang kapalit. Para sa iba't ibang mga kadahilanan (isa sa kung saan ay ilalarawan ko sa isang sandali), ang mga mananaliksik ay madalas na gumagawa ng mga sample na may hindi pantay na probabilidad ng pagsasama. Halimbawa, maaaring piliin ng mga mananaliksik ang mga tao sa Florida na may mas mataas na posibilidad na maisasama kaysa sa mga tao sa California. Sa kasong ito, ang sample na ibig sabihin (halimbawa 3.1) ay maaaring hindi isang mahusay na tagatantya. Sa halip, kapag may mga hindi pantay na probabilidad ng pagsasama, ginagamit ng mga mananaliksik
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
kung saan \(\hat{\bar{y}}\) ay ang pagtatantya ng pagkawala ng trabaho rate at \(\pi_i\) ang taong \(i\) 's posibilidad ng pagsasama. Sumusunod sa standard practice, tatawagan ko ang estimator sa eq. 3.2 ang estimator ng Horvitz-Thompson. Ang estimator ng Horvitz-Thompson ay lubhang kapaki-pakinabang sapagkat ito ay humantong sa walang pinapanigan na mga pagtatantya para sa anumang posibilidad na sampling na disenyo (Horvitz and Thompson 1952) . Dahil ang tagapanood ng Horvitz-Thompson ay madalas na napupunta, makatutulong na mapansin na maaari itong muling isulat bilang
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
kung saan \(w_i = 1 / \pi_i\) . Bilang eq. Ipinakikita ng 3.3, ang tagatukoy ng Horvitz-Thompson ay isang mean na tinimbang na sample kung saan ang mga timbang ay inversely kaugnay sa posibilidad ng pagpili. Sa ibang salita, ang mas malamang na ang isang tao ay isasama sa sample, ang mas maraming timbang na dapat makuha ng tao sa pagtatantya.
Tulad ng inilarawan sa mas maaga, ang mga mananaliksik ay kadalasang hinuhubog ang mga tao na may hindi pantay na probabilidad ng pagsasama Ang isang halimbawa ng isang disenyo na maaaring humantong sa hindi pantay na probabilidad ng pagsasama ay pagsasanib ng sampling , na mahalaga upang maunawaan dahil ito ay malapit na nauugnay sa pamamaraang pamamaraan na tinatawag na post-stratification . Sa pinag-umpisahang sampling, pinaghihiwalay ng isang mananaliksik ang target na populasyon sa \(H\) magkabilang eksklusibo at malawakan na mga grupo. Ang mga grupong ito ay tinatawag na strata at ipinahiwatig bilang \(U_1, \ldots, U_h, \ldots, U_H\) . Sa halimbawang ito, ang strata ay mga estado. Ang laki ng mga grupo ay ipinahiwatig bilang \(N_1, \ldots, N_h, \ldots, N_H\) . Maaaring gusto ng isang mananaliksik na gumamit ng pinag-isang sampling upang matiyak na mayroon siyang sapat na mga tao sa bawat estado upang gumawa ng mga pagtatantya sa antas ng estado ng kawalan ng trabaho.
Kapag ang populasyon ay nahati sa strata , ipalagay na ang tagapagpananaliksik ay pipili ng isang simpleng random na sample nang hindi kapalit ng laki \(n_h\) , nakapag-iisa mula sa bawat sapin. Dagdag pa, ipalagay na ang bawat napili sa sample ay nagiging isang sumasagot (hahawakan ko ang di-tugon sa susunod na seksyon). Sa kasong ito, ang posibilidad ng pagsasama ay
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Dahil ang mga probabilidad na ito ay maaaring mag-iba mula sa tao hanggang sa tao, kapag nagkakalkula mula sa disenyo ng sampling na ito, kailangan ng mga mananaliksik na timbangin ang bawat sumasagot sa pamamagitan ng kabaligtaran ng kanilang posibilidad na maisama gamit ang Horvitz-Thompson estimator (eq 3.2).
Kahit na ang tagapakinig ng Horvitz-Thompson ay walang pinapanigan, ang mga mananaliksik ay maaaring gumawa ng mas tumpak na (ibig sabihin, mas mababang pagkakaiba) na mga pagtatantya sa pamamagitan ng pagsasama ng sample na may katulong na impormasyon . Ang ilang mga tao na ito ay nakakagulat na ito ay totoo kahit na may ganap na naisakatuparan probabilidad sampling. Ang mga pamamaraan na ito gamit ang katulong na impormasyon ay partikular na mahalaga dahil, tulad ng ipapakita ko sa ibang pagkakataon, ang katulong na impormasyon ay kritikal para sa paggawa ng mga pagtatantya mula sa mga sample ng posibilidad na may mga hindi sagot at mula sa mga di-posibilidad na mga halimbawa.
Ang isang karaniwang pamamaraan para sa paggamit ng impormasyon sa auxiliary ay post-stratification . Isipin, halimbawa, na ang isang mananaliksik ay nakakaalam ng bilang ng mga kalalakihan at kababaihan sa bawat isa sa 50 estado; maaari naming \(N_1, N_2, \ldots, N_{100}\) mga sukat ng pangkat na ito bilang \(N_1, N_2, \ldots, N_{100}\) . Upang pagsamahin ang impormasyong pang-auxiliary sa sample, maaaring isama ng mananaliksik ang sample sa mga \(H\) grupo (sa kasong ito 100), gumawa ng isang pagtatantya para sa bawat pangkat, at pagkatapos ay lumikha ng isang timbang na average ng mga pangkat na ito ay nangangahulugang:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Halos, ang estimator sa eq. Malamang na mas tumpak ang 3.5 dahil ginagamit nito ang impormasyon ng populasyon na kilala-ang \(N_h\) -ang tama ang mga pagtatantya kung ang isang di-balanseng sample ay napipili. Ang isang paraan upang pag-isipan ang tungkol dito ay ang post-stratification ay tulad ng pagtatantya ng pagsasapin-sapin pagkatapos na nakolekta ang data.
Sa konklusyon, ang seksyon na ito ay inilarawan ng ilang mga sampling na disenyo: simpleng random na sampling nang walang mga kapalit, sampling na may hindi pantay na posibilidad, at pinagtibay na sampling. Inilarawan din nito ang dalawang pangunahing ideya tungkol sa pagtatantya: ang Horvitz-Thompson estimator at post-stratification. Para sa isang mas pormal na kahulugan ng mga disenyo ng posibilidad ng sampling, tingnan ang kabanata 2 ng Särndal, Swensson, and Wretman (2003) . Para sa isang mas pormal at kumpletong paggamot ng Särndal, Swensson, and Wretman (2003) sampling, tingnan ang seksyon 3.7 ng Särndal, Swensson, and Wretman (2003) . Para sa isang teknikal na paglalarawan ng mga katangian ng tagapanood ng Horvitz-Thompson, tingnan ang Horvitz and Thompson (1952) , Overton and Stehman (1995) , o seksyon 2.8 ng @ sarndal_model_2003. Para sa isang mas pormal na paggamot sa post-stratification, tingnan ang Holt and Smith (1979) , Smith (1991) , Little (1993) , o seksyon 7.6 ng Särndal, Swensson, and Wretman (2003) .
Sample ng probabilidad na may hindi sagot
Halos lahat ng mga tunay na survey ay walang sagot; ibig sabihin, hindi lahat ng tao sa sample na populasyon ay sumasagot sa bawat tanong. Mayroong dalawang pangunahing uri ng mga di-sagot: ang item na hindi tumutugon at ang yunit ay hindi tumutugon . Sa item na hindi tumutugon, ang ilang mga respondent ay hindi sumasagot sa ilang mga bagay (hal., Kung minsan ay ayaw tumugon sa mga tanong na itinuturing nilang sensitibo). Sa yunit ay hindi tumutugon, ang ilang mga tao na napili para sa sample na populasyon ay hindi tumutugon sa survey sa lahat. Ang dalawang pinakakaraniwang kadahilanan para sa yunit ay hindi tumutugon ay ang taong sinampal ay hindi maaaring makipag-ugnay at ang sampol na tao ay nakontak ngunit tumatangging lumahok. Sa seksyon na ito, ako ay tumutuon sa yunit na hindi tumutugon; Ang mga mambabasa na interesado sa item na hindi tumutugon ay dapat makita ang Little and Rubin (2002) .
Ang mga mananaliksik ay madalas na nag-iisip tungkol sa mga survey na may yunit na di-tugon bilang isang dalawang-yugto na proseso ng sampling. Sa unang yugto, pinipili ng mananaliksik ang isang sample na \(s\) kaya ang bawat tao ay may posibilidad ng pagsasama \(\pi_i\) (kung saan ang \(0 < \pi_i \leq 1\) ). Pagkatapos, sa ikalawang yugto, ang mga taong napili sa sample na tumutugon sa probabilidad \(\phi_i\) (kung saan \(0 < \phi_i \leq 1\) ). Ang dalawang yugtong proseso ay nagreresulta sa pangwakas na hanay ng mga sumasagot \(r\) . Ang isang mahalagang pagkakaiba sa pagitan ng dalawang yugtong ito ay ang mga mananaliksik na kumokontrol sa proseso ng pagpili ng sample, ngunit hindi nila kontrolin kung alin sa mga sampol na tao ang naging mga sumasagot. Ang pagsasama-sama ng dalawang prosesong ito, ang posibilidad na ang isang tao ay isang sumasagot ay
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Para sa kapakanan ng pagiging simple, kukunin ko isaalang-alang ang kaso kung saan ang orihinal na disenyo ng sample ay simpleng random na sampling nang walang kapalit. Kung ang isang tagapagpananaliksik pinipili ng isang sample ng laki \(n_s\) na magbubunga ng \(n_r\) respondent, at kung ang tagapagpananaliksik pinapansin non-response at gumagamit ang ibig sabihin ng mga respondents, pagkatapos ay ang bias ng mga pagtatantya ay magiging:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
kung saan ang \(cor(\phi, y)\) ay ang kaugnayan ng populasyon sa pagitan ng mga likas na tugon at ang kinalabasan (hal., katayuan ng pagkawala ng trabaho), \(S(y)\) ay ang karaniwang paglihis ng populasyon ng kinalabasan (hal. status), \(S(\phi)\) ay ang populasyon standard na paglihis ng tugon likas na hilig, at \(\bar{\phi}\) ay ang populasyon ibig sabihin ng tugon likas na hilig (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 ay nagpapakita na ang mga hindi tumutugon ay hindi magpapakilala ng bias kung ang alinman sa sumusunod na mga kondisyon ay natutugunan:
Sa kasamaang palad, wala sa mga kundisyong ito ang malamang. Tila hindi kanais-nais na hindi magkakaroon ng pagkakaiba-iba sa kalagayan ng pagtatrabaho o hindi magkakaroon ng pagkakaiba-iba sa mga likas na tugon. Kaya, ang pangunahing term sa eq. 3.7 ay ang ugnayan: \(cor(\phi, y)\) . Halimbawa, kung ang mga tao ay walang trabaho ay mas malamang na tumugon, pagkatapos ay ang tinatayang rate ng trabaho ay pinapanigang paitaas.
Ang bilis ng kamay sa paggawa ng mga pagtatantya kapag mayroong hindi sagot ay ang paggamit ng katulong na impormasyon. Halimbawa, ang isang paraan kung saan maaari mong gamitin ang impormasyong pang-auxiliary ay post-stratification (pagpapabalik eq 3.5 mula sa itaas). Lumalabas na ang bias ng estimator ng post-stratification ay:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
kung saan \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) at \(\bar{\phi}^{(h)}\) ay tinukoy bilang sa itaas ngunit limitado sa mga tao sa pangkat \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Kung gayon, ang pangkalahatang bias ay magiging maliit kung ang mga bias sa bawat post-stratification group ay maliit. Mayroong dalawang mga paraan na gusto kong mag-isip tungkol sa paggawa ng maliit na bias sa bawat post-stratification group. Una, nais mong subukan na bumuo ng mga homogeneous na mga grupo kung saan may maliit na pagkakaiba-iba sa likas na tugon ( \(S(\phi)^{(h)} \approx 0\) ) at ang kinalabasan ( \(S(y)^{(h)} \approx 0\) ). Pangalawa, gusto mong bumuo ng mga grupo kung saan ang mga tao na nakikita mo ay katulad ng mga taong hindi mo nakikita ( \(cor(\phi, y)^{(h)} \approx 0\) ). Paghahambing ng eq. 3.7 at eq. 3.8 ay tumutulong na linawin kapag ang post-stratification ay maaaring mabawasan ang kampi na dulot ng hindi sagot.
Sa wakas, ang seksyon na ito ay nagbigay ng isang modelo para sa posibilidad na sampling na may di-tugon at ipinapakita ang mga bias na maaaring hindi ipakilala ng nonresponse ang parehong walang at may mga pagsasaayos ng post-stratification. Bethlehem (1988) aalok ng isang pinanggalingan ng mga bias na dulot ng hindi pagsang-ayon para sa mas pangkalahatang mga disenyo ng sampling. Para sa higit pa sa paggamit ng post-stratification upang ayusin para sa hindi sagot, tingnan Smith (1991) at Gelman and Carlin (2002) . Ang post-stratification ay bahagi ng isang mas pangkalahatang pamilya ng mga diskarte na tinatawag na mga Särndal and Lundström (2005) pagkakalibrate, tingnan ang Zhang (2000) para sa isang artikulo-length na paggamot at Särndal and Lundström (2005) para sa isang paggamot ng aklat-haba. Para sa higit pa sa ibang mga paraan ng Kalton and Flores-Cervantes (2003) para sa pag-aayos para sa hindi pagsagot, tingnan ang Kalton and Flores-Cervantes (2003) , Brick (2013) , at Särndal and Lundström (2005) .
Sample na hindi probabilidad
Kabilang sa di-posibilidad na sampling ang isang malaking iba't ibang mga disenyo (Baker et al. 2013) . Ang partikular na pagtuon sa sample ng mga gumagamit ng Xbox ni Wang at mga kasamahan (W. Wang et al. 2015) , maaari mong isipin ang uri ng sample na iyon kung saan ang pangunahing bahagi ng disenyo ng sampling ay hindi ang \(\pi_i\) ( ang hinimok ng mananaliksik na posibilidad na maisama) ngunit ang \(\phi_i\) (ang mga \(\phi_i\) ng tugon na sinasagot ng mga sumasagot). Naturally, ito ay hindi perpekto dahil ang \(\phi_i\) ay hindi kilala. Ngunit, tulad ng ipinakita ni Wang at mga kasamahan, ang ganitong uri ng pag-opt-in sample-kahit mula sa isang sampling frame na may napakalaking saklaw ng pagkakamali-ay hindi kailangang maging sakuna kung ang mananaliksik ay may magandang katulong na impormasyon at isang mahusay na modelo ng istatistika para sa mga problemang ito.
Bethlehem (2010) nagpalawak ng maraming mga derivasyon sa itaas tungkol sa post-stratification upang isama ang parehong mga hindi responsibilidad at mga error sa coverage. Bilang karagdagan sa post-stratification, iba pang mga diskarte para sa pagtatrabaho sa mga di-posibilidad na mga halimbawa-at posibilidad na mga sample na may mga pagkakamali sa coverage at hindi sagot-isama ang pagtutugma ng sample (Ansolabehere and Rivers 2013; ??? ) , (Lee 2006; Schonlau et al. 2009) propensity score (Lee 2006; Schonlau et al. 2009) , at pagkakalibrate (Lee and Valliant 2009) . Ang isang karaniwang tema sa mga pamamaraan na ito ay ang paggamit ng katulong na impormasyon.