Käesolevas lisas kirjeldan mõnda peatüki mõningast matemaatilisest vormist. Eesmärgiks on aidata teil rahul olla uuringute teadlaste poolt kasutatud märgistamise ja matemaatilise raamistikuga, et saaksite üle minna mõnele neist teemadest kirjutatud tehnilisest materjalist. Alustan tõenäosusproovide kasutuselevõtmisega, seejärel liigutan tõenäosusproovide võtmisega koos vastamata ja lõpuks mitte tõenäosusega proovide võtmisega.
Tõenäosusproovide võtmine
Käimasoleva näitena võtame arvesse töötuse määra hindamise eesmärki Ameerika Ühendriikides. Olgu \(U = \{1, \ldots, k, \ldots, N\}\) ole sihtpopulatsioon ja lase \(y_k\) inimese \(k\) \(y_k\) väärtuse abil. Selles näites \(y_k\) on see, kas inimene \(k\) on töötu. Lõpuks, lase \(F = \{1, \ldots, k, \ldots, N\}\) olla \(F = \{1, \ldots, k, \ldots, N\}\) , mis lihtsuse huvides eeldatakse, et see on sama kui sihtpopulatsioon.
Põhiliseks proovivõttudeks on lihtne juhuslik valim ilma asenduseta. Sellisel juhul on iga inimene tõenäoliselt valimisse kaasatud \(s = \{1, \ldots, i, \ldots, n\}\) . Kui andmed kogutakse koos selle proovivõtmise kavaga, saavad teadlased elanikkonna tööpuuduse määra välja arvutada valimi põhjal:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
kus \(\bar{y}\) on töötuse määr elanikkonnas ja \(\hat{\bar{y}}\) on hinnanguline töötuse määr ( \(\hat{ }\) on tavaliselt mida kasutatakse hindaja määramiseks).
Tegelikkuses kasutavad teadlased harva lihtsat juhuslikku valimit ilma asenduseta. Erinevatel põhjustel (millest üks kirjeldan mõne hetkega) tekitavad teadlased sageli proove, millel on ebavõrdsed kaasamise tõenäosused. Näiteks võivad teadlased valida Florida elanikud, kellel on suurem kaasatuse tõenäosus kui Californias. Sel juhul ei pruugi valimi keskmine (näit 3.1) olla hea hindaja. Selle asemel, kui teadlased kasutavad kaasamise ebavõrdseid tõenäosusi
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
kus \(\hat{\bar{y}}\) on töötuse määra hinnang ja \(\pi_i\) on inimese \(i\) kaasamise tõenäosus. Järgides tavapäraseid tavasid, kutsun ma hinnangu väärtuseks eq. 3.2 Horvitzi-Thompsoni hinnang. Horvitzi-Thompsoni hindaja on äärmiselt kasulik, kuna see toob kaasa võimalike tõenäosusproovide projekteerimata prognoosid (Horvitz and Thompson 1952) . Kuna Horvitzi-Thompsoni hindaja on nii sageli esile kerkinud, on kasulik märkida, et seda saab uuesti kirjutada
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
kus \(w_i = 1 / \pi_i\) . Ekv. 3.3 näitab, et Horvitzi-Thompsoni hindaja on kaalutud valimi keskmine, kus kaalud on pöördvõrdeliselt seotud valikuvõimalusega. Teisisõnu, seda väiksem tõenäosus, et valimisse tuleb kaasata inimene, seda suuremat kaalutlust peaks inimene prognoosi saama.
Nagu eespool kirjeldatud, valivad teadlased sageli inimesi, kellel on ebavõrdsed kaasamise tõenäosused. Üks disaini näide, mis võib põhjustada ebavõrdse kaasamise tõenäosuse, on stratifitseeritud proovide võtmine , mis on oluline mõista, sest see on tihedalt seotud hindamismenetlusega, mida nimetatakse stratifitseerimiseks pärast seda . Stratifitseeritud proovide võtmisel jagab uurija sihtrühma populatsiooni \(H\) üksteist välistavate ja ammendavate rühmadega. Neid rühmi nimetatakse kihtideks ja neid tähistatakse kui \(U_1, \ldots, U_h, \ldots, U_H\) . Selles näites on kihid olekud. Rühmade suurused on märgitud \(N_1, \ldots, N_h, \ldots, N_H\) . Uurija võib soovida kasutada stratifitseeritud valimit, et veenduda, et igal riigil on piisavalt inimesi töötuks jäämise riigieelarve määramiseks.
Kui populatsioon on jagatud kihtideks , eeldage, et uurija valib lihtsa juhusliku valimi ilma suuruse \(n_h\) , sõltumata igast kihist. Veel eeldage, et valimisse valitud kõik muutuvad vastajaks (järgmises osas käsitletakse vastamata jätmist). Sellisel juhul on kaasamise tõenäosus
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Kuna need tõenäosused võivad erineda inimestelt inimesele, siis hinnatakse seda uuringuplaani kasutades teadlased, kes kaaluvad iga vastajat, kasutades Horvitzi-Thompsoni hinnangut kasutades nende arvatavuse tõenäosust (võrdlus 3.2).
Ehkki Horvitzi-Thompsoni hindaja on erapooletu, võivad teadlased esitada täpsemaid (st väiksemaid dispersioonide) hinnanguid, kombineerides proovi koos abiteabega . Mõned inimesed leiavad üllatust, et see kehtib isegi siis, kui on täiesti teostatud tõenäosusproovide võtmine. Need lisateabe kasutamist võimaldavad meetodid on eriti olulised, sest nagu ma hiljem näitan, on lisateave kriitilise tähtsusega hinnangute tegemisel tõenäosusproovidest koos mittereageerimisega ja mittetundlikest proovidest.
Üks abivahendi kasutamise tavaline meetod on stratifitseerimine . Kujutage ette, et näiteks teadur teab meeste ja naiste arvu igas 50 riigis; me saame \(N_1, N_2, \ldots, N_{100}\) nende suuruste rühma nagu \(N_1, N_2, \ldots, N_{100}\) . Selle lisateabe ühendamiseks valimi abil võib uurija jagada valimi \(H\) gruppidesse (käesoleval juhul 100), teha iga rühma hinnang ja seejärel luua nende rühmade kaalutud keskmine:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Peaaegu hinnangulise väärtuse ekv. 3.5 on tõenäoliselt täpsem, kuna ta kasutab teadaolevat rahvaarvu - \(N_h\) - õigete hinnangute alusel, kui valitakse tasakaalustamata proov. Üks võimalus seda mõelda on selles, et post-stratifitseerimine on sarnane stratifitseerimisega pärast andmete kogumist.
Kokkuvõttes on selles osas kirjeldatud mõningaid valikuuringuid: lihtne juhuslik valim ilma asenduseta, ebavõrdse tõenäosusega proovide võtmine ja stratifitseeritud proovide võtmine. Samuti on kirjeldatud kahte põhijooni hindamise kohta: Horvitzi-Thompsoni hindaja ja post-stratifitseerimine. Tõenäosuse valikuuringute Särndal, Swensson, and Wretman (2003) formaalsemaks määratlemiseks vt Särndal, Swensson, and Wretman (2003) 2. peatükki. Stratifitseeritud proovide võtmise formaalsemaks ja täielikuks käsitlemiseks vt Särndal, Swensson, and Wretman (2003) punkti 3.7. Horvitzi-Thompsoni hinnangute näitajate tehnilise kirjelduse kohta vt Horvitz and Thompson (1952) , Overton and Stehman (1995) või @ sarndal_model_2003 jaotis 2.8. Särndal, Swensson, and Wretman (2003) stratifitseerimise formaalsemaks käsitlemiseks vaadake Holt and Smith (1979) , Smith (1991) , Little (1993) või Särndal, Swensson, and Wretman (2003) lõik 7.6.
Tõenäosusproovide võtmine koos vastamatajätmisega
Peaaegu kõik reaalsed uuringud ei reageeri; see tähendab, et kõik valimisse kuuluvad inimesed ei vasta kõigile küsimustele. Neid vastuseid on kaks peamist tüüpi: üksuse vastamatajätmine ja üksuse vastamatajätmine . Üksuse vastamata jätmisel ei vasta mõned vastanutest mõnedele elementidele (nt mõnikord vastajad ei soovi vastata tundlikele küsimustele). Üksiku vastamiseta ei vasta mõned uuringuplaanile valitud inimesed üldjuhul uuringule. Kaks kõige sagedasemat üksuse vastamata jätmise põhjustest on see, et valimisse kaasatud isikut ei saa ühendust võtta ja proovi võtnud isikuga ühendust võtta, kuid keeldub osalemast. Selles osas keskendun üksuse vastamata jätmisele; Objekti vastamatajätmisega huvitatud lugejad peaksid nägema Little ja Rubin (2002) .
Teadlased mõtlevad tihti uuringutega, mille puhul pole ühtegi vastust, kui kaheastmelist proovivõtumenetlust. Esimeses etapis valib uurija valimi \(s\) nii, et igal inimesel on tõenäosus lisada \(\pi_i\) (kus \(0 < \pi_i \leq 1\) ). Siis vastab teine etapp valimisse valitud inimestele tõenäosuse \(\phi_i\) (kus \(0 < \phi_i \leq 1\) ). See kaheastmeline protsess toob kaasa lõpliku vastajate kogumi \(r\) . Nende kahe etapi oluline erinevus on see, et teadlased kontrollivad valimi valimise protsessi, kuid nad ei kontrolli, milline neist valimisse kuuluvatest inimestest saab vastanutest. Nende kahe protsessi kokku pannes on tõenäosus, et keegi saab vastaja
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Lihtsuse mõttes kaalun ma juhtumit, kus esialgse valimi kujundus on lihtne juhuslik valim ilma asenduseta. Kui teadlane valib suuruse \(n_s\) valimi, mille tulemuseks on \(n_r\) vastajad ja kui teadlane ignoreerib vastamata \(n_r\) ja kasutab vastajate keskmist, siis on hinnangu eelarvamused järgmised:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
kus \(cor(\phi, y)\) on elanikkonna korrelatsioon vastuse kalduvuse ja tulemuse vahel (nt töötu staatus), \(S(y)\) on tulemuse populatsiooni standardhälve (nt töötus staatus), \(S(\phi)\) on vastuse kalduvuse populatsiooni standardhälve ja \(\bar{\phi}\) on populatsiooni keskmine vastuse kalduvus (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 näitab, et mittereageerimisega ei kaasne kõrvalekalle, kui on täidetud üks järgmistest tingimustest:
Kahjuks ei tundu ühtegi neist tingimustest tõenäoliselt. Tundub olevat ebatõenäoline, et tööhõive staatus ei muutu või et reageerimisvõimalusi ei muudeta. Seega on võtmesõna ekv. 3.7 on korrelatsioon: \(cor(\phi, y)\) . Näiteks kui inimesed on need, kellel on töötute arv tõenäolisem, reageerida, siis prognoositav tööhõive määr tõuseb ülespoole.
Häirete tegemine hinnangute tegemiseks, kui vastus puudub, on kasutada lisateavet. Näiteks üks viis, kuidas saate lisateavet kasutada, on pärast stratifitseerimist (tagasikutsumine võrdub 3,5-ga ülal). Selgub, et stratifitseerimisjärgse hinnangu eelistused on järgmised:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
kus \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , ja \(\bar{\phi}^{(h)}\) defineeritakse nagu ülaltoodud, kuid piiratud inimestega rühmas \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Seega on üldine eelarvamustegur väike, kui iga stratifitseerimisjärgse grupi kõrvalekalded on väikesed. Mul on kaks võimalust, kuidas mõtlema, et iga stratifitseerimisjärgses grupis on väike eelarvamustegur. Esiteks tahate proovida moodustada homogeenseid rühmi, kus vastuse kalduvus on väike ( \(S(\phi)^{(h)} \approx 0\) ) ja tulemuse ( \(S(y)^{(h)} \approx 0\) ). Teiseks soovite luua rühmi, kus inimesed, mida näete, on nagu inimesed, mida te ei näe ( \(cor(\phi, y)^{(h)} \approx 0\) ). Ekvivalendi võrdlus 3.7 ja ekv. 3.8 aitab selgitada, millal stratifitseerimine võib vähendada mittenõuetekohaselt põhjustatud erapoolikust.
Kokkuvõtteks võib öelda, et see jaotis on esitanud tõenäosusproovide võtmise mudelit vastamata jätmisega ja näitas kõrvalekaldeid, mille korral vastuseta saab rakendada nii stratifitseerimisjärgseid kui ka pärast stratifitseerimist. Bethlehem (1988) pakub mittesobivuse tagajärjel tekkinud eelarvamuste tuletamist üldisemate proovivõttude jaoks. Lisateavet stratifitseerimisjärgse muutmise kohta, et kohanduda vastamata küsimustega, vt Smith (1991) ja Gelman and Carlin (2002) . Stratifitseerimine järgneb üldisemate meetodite perekonnale, mida nimetatakse kalibreerimise hindamiseks, vt Zhang (2000) artikli pikkuse raviks ja Särndal and Lundström (2005) raamatu pikkuse raviks. Lisateavet muude vastupakkumiste korrigeerimise muude kaalumismeetodite kohta vt Kalton and Flores-Cervantes (2003) , Brick (2013) ja Särndal and Lundström (2005) .
Tõenäoliste proovide võtmine
Mitte tõenäostav proovivõtt hõlmab väga erinevaid disainilahendusi (Baker et al. 2013) . Wangi ja tema kolleegide (W. Wang et al. 2015) Xboxi kasutajate valimiga (W. Wang et al. 2015) keskendumine võib sellist valimit mõelda sellisena, kus valimi moodustamise põhiosa pole \(\pi_i\) ( teadlase juhitud kaasamise tõenäosus), kuid \(\phi_i\) (vastajate juhitud vastuste kalduvused). Loomulikult pole see ideaalne, sest \(\phi_i\) pole teada. Kuid nagu näitasid Wang ja tema kolleegid, selline valikuline valim isegi valimisraamistikust, millel on ulatuslik katvusviga, ei pruugi olla katastroofiline, kui uurijail on hea lisateave ja hea statistiline mudel nende probleemide arvestamiseks.
Bethlehem (2010) laiendab paljusid ülaltoodud tuletisi stratifitseerimise järgselt, hõlmates nii vastamata kui ka katvusvigu. Lisaks stratifitseerimisjärgsele meetodile on ka (Ansolabehere and Rivers 2013; ??? ) proovidega töötamise võimalused ja tõenäosusproovid (Ansolabehere and Rivers 2013; ??? ) vastamatajätmisega - proovide sobitamine (Ansolabehere and Rivers 2013; ??? ) , kalduvuse skoori kaalumine (Lee 2006; Schonlau et al. 2009) ja kalibreerimine (Lee and Valliant 2009) . Nende tehnikate hulgas on ühine teema abimaterjalide kasutamise kohta.