Í þessum viðauka mun ég lýsa nokkrum hugmyndum úr kaflanum í aðeins meira stærðfræðilegu formi. Markmiðið hér er að hjálpa þér að kynnast merkingunni og stærðfræðilegum ramma sem könnunarfræðingar nota til að hægt sé að skipta yfir í nokkra tæknilegra efni sem er skrifað um þessi efni. Ég mun byrja með því að kynna líkur á sýnatöku, fara síðan í líkur á sýnatöku með ósvaru og að lokum, ekki líkur á sýnatöku.
Sannprófun sýnileika
Eins og í gangi dæmi, skulum íhuga markmiðið að meta atvinnuleysi í Bandaríkjunum. Látum \(U = \{1, \ldots, k, \ldots, N\}\) vera markhópurinn og láttu \(y_k\) gilda niðurstöðubreytu fyrir manninn \(k\) . Í þessu dæmi \(y_k\) er hvort manneskja \(k\) er atvinnulaus. Að lokum, láta \(F = \{1, \ldots, k, \ldots, N\}\) vera rammanafnið, sem er einfaldlega gert ráð fyrir að vera það sama og markhópurinn.
Grunn sýnatöku hönnun er einföld handahófi sýnatöku án þess að skipta um. Í þessu tilfelli er hver einstaklingur líklegur til að vera með í sýninu \(s = \{1, \ldots, i, \ldots, n\}\) . Þegar gögnin eru safnað með þessari sýnatökuhönnun, geta vísindamenn metið íbúa atvinnuleysi með sýninu meðaltali:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
þar sem \(\bar{y}\) er atvinnuleysishlutfallið meðal þjóðarinnar og \(\hat{\bar{y}}\) er mat á þróun atvinnu- leysis (sem \(\hat{ }\) er algengt notað til að gefa til kynna að áætlar séu).
Í raun nota vísindamenn sjaldan einföld handahófi sýnatöku án þess að skipta um. Af ýmsum ástæðum (einn sem ég lýsi í smá stund), skapa vísindamenn oft sýni með ójöfn líkum á aðlögun. Til dæmis gætu vísindamenn valið fólk í Flórída með meiri líkur á þátttöku en fólk í Kaliforníu. Í þessu tilviki getur sýnishornið meðaltalið (sbr. 3.1) ekki verið gott mat. Í staðinn, þegar ólíkir líkur eru á skráningu, nota vísindamenn
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
þar sem \(\hat{\bar{y}}\) er áætlun um atvinnuleysi og \(\pi_i\) er líkur á að einstaklingur sé \(i\) . Eftir hefðbundna starfshætti mun ég hringja í áætlunina í eq. 3.2 Horvitz-Thompson áætlunin. Horvitz-Thompson áætlunin er afar gagnleg vegna þess að hún leiðir til óhlutdrægra áætlana fyrir allar líkur á sýnatöku (Horvitz and Thompson 1952) . Vegna þess að Horvitz-Thompson áætlarinn kemur upp svo oft, er það gagnlegt að taka eftir því að hægt sé að endurskrifa það sem
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
þar sem \(w_i = 1 / \pi_i\) . Eins og eq. 3.3 sýnir að Horvitz-Thompson áætlunin er vegið sýni meðaltal þar sem þyngdin er í öfugri tengslum við líkurnar á vali. Með öðrum orðum, því líklegra að einstaklingur sé með í sýninu, því meiri þyngd sem maðurinn ætti að fá í áætluninni.
Eins og lýst er hér að framan, sýndu vísindamenn oft fólk með ójöfn líkur á þátttöku. Eitt dæmi um hönnun sem getur leitt til ójöfn líkur á þátttöku er stratified sýnatöku , sem er mikilvægt að skilja vegna þess að það er nátengd áætluninni sem kallast eftir lagskiptingu . Í lagskiptri sýnatöku skiptir vísindamaður markhópnum inn í \(H\) gagnkvæma og tæmandi hópa. Þessir hópar eru kallaðir lagar og eru merktar sem \(U_1, \ldots, U_h, \ldots, U_H\) . Í þessu dæmi eru strata ríkin. Stærðir hópanna eru auðkenndar sem \(N_1, \ldots, N_h, \ldots, N_H\) . Rannsakandi gæti viljað nota stratified sýnatöku til að tryggja að hún hafi nóg fólk í hverju landi til að gera atvinnuleysi á landsvísu.
Þegar búið er að skipta íbúum upp í strata , gerum ráð fyrir að rannsóknarmaðurinn velur einfalt handahófskennt sýni án þess að skipta um stærð \(n_h\) , óháð hvert lagi. Enn fremur er gert ráð fyrir að allir sem eru valdir í sýninu verði svarandi (ég mun takast á við svörun í næsta kafla). Í þessu tilfelli er líkurnar á að taka þátt í
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Vegna þess að þessar líkur kunna að vera breytilegir frá einstaklingi til einstaklinga, þegar þeir gera áætlun frá þessari sýnatökuhönnun, þurfa vísindamenn að þyngja hverja svaranda með því að snúa við líkurnar á að þeir séu skráðir með því að nota Horvitz-Thompson áætlunina (dæmi 3.2).
Jafnvel þótt Horvitz-Thompson áætlunin sé óhlutdræg, geta vísindamenn búið til nákvæmari (þ.e. lægri afbrigði) áætlanir með því að sameina sýnið með viðbótarupplýsingum . Sumir finna það á óvart að þetta sé satt, jafnvel þegar það er fullkomlega framkvæmt líkur á sýnatöku. Þessar aðferðir sem nota viðbótarupplýsingar eru sérstaklega mikilvægar vegna þess að, eins og ég mun sýna síðar, eru viðbótarupplýsingar mikilvægar til að meta líkur á líkur á sýni án viðmiðunar og frá ósennilegum sýnum.
Ein algeng aðferð til að nýta hjálparupplýsingar er eftir lagskipun . Ímyndaðu þér til dæmis að rannsóknarmaður þekki fjölda karla og kvenna í hverju 50 ríkjunum; Við getum táknað þessar stærðarflokkar sem \(N_1, N_2, \ldots, N_{100}\) . Til að sameina þessa viðbótarupplýsingar við sýnið getur rannsóknirinn skipt í sýnin í \(H\) hópa (í þessu tilfelli 100), gert áætlun fyrir hvern hóp og síðan búið til vegið meðaltal þessara hópa þýðir:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Gróft er áætlunin í eq. 3,5 er líklegt til að vera nákvæmari vegna þess að það notar þekktar upplýsingar um \(N_h\) - til að leiðrétta áætlanir ef ójöfn sýni verður að vera valin. Ein leið til að hugsa um það er að eftir stratification er eins og að samræma lagskiptingu eftir að gögnin hafa þegar verið safnað.
Að lokum hefur þessi liður lýst nokkrum sýnatökuþáttum: einföld slembiúrtak án skipta, sýnatöku með ójöfn líkum og lagskipt sýnatöku. Það hefur einnig lýst tveimur helstu hugmyndum um mat: Horvitz-Thompson áætlunina og eftir stratification. Fyrir formlegri skilgreiningu á líkur á sýnatöku, sjá kafla 2 í Särndal, Swensson, and Wretman (2003) . Til að fá formlegri og fullkomnari meðferð stratified sýnatöku, sjá kafla 3.7 af Särndal, Swensson, and Wretman (2003) . Fyrir tæknilega lýsingu á eiginleikum Horvitz-Thompson áætlunarinnar, sjá Horvitz and Thompson (1952) , Overton and Stehman (1995) , eða kafla 2.8 af @ sarndal_model_2003. Til að fá meiri formlega meðferð eftir stratification, sjá Holt and Smith (1979) , Smith (1991) , Little (1993) , eða kafla 7.6 af Särndal, Swensson, and Wretman (2003) .
Líkur sýni með nonresponse
Næstum allar raunverulegar könnanir hafa ekki viðbrögð; Það er ekki allir í sýnishorninu sem svarar öllum spurningum. Það eru tvær helstu tegundir af nonresponse: atriði nonresponse og eining nonresponse . Sumir svarendur svara ekki sumum atriðum (í sumum tilvikum er ekki svarað spurningum sem svara spurningum sem þeir telja viðkvæmar). Í einingunni er ekki svarað, en sumt fólk sem valið er fyrir sýnishornið svarar alls ekki könnuninni. Tveir algengustu ástæðurnar fyrir einingu án svara eru að ekki er hægt að hafa samband við sýnatökufólkið og sýnishornsmaðurinn er í sambandi en neitar að taka þátt. Í þessum kafla mun ég einbeita mér að einingu utan viðmælenda; lesendur sem hafa áhuga á hlutum sem ekki tengjast ætti að sjá Little and Rubin (2002) .
Vísindamenn hugsa oft um könnunum með einingum sem ekki svara sem tveggja stigs sýnatökuferli. Í fyrsta áfanga velur rannsóknarmaður sýnið \(s\) þannig að hver einstaklingur hafi líkur á að skráningin sé \(\pi_i\) (þar sem \(0 < \pi_i \leq 1\) ). Síðan, í öðru stigi, svara fólki sem er valið í sýnið með líkum \(\phi_i\) (þar sem \(0 < \phi_i \leq 1\) ). Þetta tveggja stig ferli leiðir til endanlegra hópa svarenda \(r\) . Mikilvægur munur á þessum tveimur stigum er að vísindamenn stjórna ferlinu við val á sýninu, en þeir stjórna ekki hvaða af þeim sem sýni eru sýnd verða svarendur. Að setja þessar tvær ferðir saman, líkurnar á að einhver verði svarandi er
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Fyrir einfaldleika, mun ég íhuga málið þar sem upprunalegu sýnishornið er einfalt handahófi sýnatöku án þess að skipta um. Ef rannsóknarmaður velur sýnishorn af stærð \(n_s\) sem gefur \(n_r\) svarenda og ef rannsóknarmaðurinn hunsar ekki svar og notar meðaltal svarenda þá er hlutdrægni áætlunarinnar:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
þar sem \(cor(\phi, y)\) er samsvörun fólks milli svörunar viðbrögð og niðurstöðu (td atvinnuleysi), \(S(y)\) er staðalfrávik almennings af niðurstöðum (td atvinnuleysi staða), \(S(\phi)\) er staðalfrávik svörunar viðbrögð, og \(\bar{\phi}\) er íbúafjölda meðaltals svörun (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 sýnir að óviðkomandi mun ekki kynna hlutdrægni ef einhver eftirfarandi skilyrða er fullnægt:
Því miður virðist ekkert af þessum skilyrðum líklegt. Það virðist óhjákvæmilegt að engin breyting sé á vinnumarkaði eða að engin breyting muni liggja fyrir í viðbragðsstöðu. Þannig lykilatriðið í eq. 3.7 er fylgni: \(cor(\phi, y)\) . Til dæmis, ef fólk er sem atvinnulausir eru líklegri til að bregðast við, þá mun áætlað atvinnuþátttaka vera hlutdræg upp.
The bragð til að gera mat þegar það er ekki svar er að nota viðbótarupplýsingar. Til dæmis er ein leið til þess að hægt sé að nota viðbótarupplýsingar eftir stratification (endurtekið eq. 3.5 ofan). Það kemur í ljós að hlutdrægni eftir áætlunina er:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
þar sem \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , og \(\bar{\phi}^{(h)}\) eru skilgreindir sem hér að ofan en takmarkaðar við fólk í hópi \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Þannig mun heildar hlutdrægni vera lítill ef hlutdrægni í hverri eftir stratification hóp er lítil. Það eru tvær leiðir sem mér finnst gaman að hugsa um að gera hlutdrægni lítið í hverri eftirmyndunarhóp. Í fyrsta lagi viltu reyna að mynda einsleita hópa þar sem lítill breyting er á svörun ( \(S(\phi)^{(h)} \approx 0\) ) og niðurstaðan ( \(S(y)^{(h)} \approx 0\) ). Í öðru lagi viltu mynda hópa þar sem fólkið sem þú sérð er eins og fólkið sem þú sérð ekki ( \(cor(\phi, y)^{(h)} \approx 0\) ). Samanburður á eq. 3,7 og eq. 3.8 hjálpar til við að skýra hvenær eftir stratification getur dregið úr hlutdrægni vegna nonresponse.
Niðurstaðan er sú að í þessum kafla hefur verið gerð fyrirmynd um líkur á sýnatöku með viðbragðssvörun og sýnt hlutdrægni sem ekki er hægt að kynna bæði án og með breytingum eftir stratification. Bethlehem (1988) býður upp á afleiðingu hlutdrægni sem stafar af ósvaru fyrir almennari sýnatöku. Fyrir frekari upplýsingar um notkun álagsskipulags til að stilla fyrir ósvara, sjá Smith (1991) og Gelman and Carlin (2002) . Eftir stratification er hluti af almennri fjölskyldu aðferða sem kallast kvörðunarmatara, sjá Zhang (2000) fyrir Särndal and Lundström (2005) meðferð og Särndal and Lundström (2005) til Särndal and Lundström (2005) meðferðar. Kalton and Flores-Cervantes (2003) , Brick (2013) , Särndal and Lundström (2005) , sjá meira um aðrar aðrar þyngdaraðferðir.
Sýnataka án líkum
Ósannprófun sýnis inniheldur mikið úrval af hönnun (Baker et al. 2013) . Með áherslu sérstaklega á sýnishorn Xbox notenda af Wang og samstarfsmönnum (W. Wang et al. 2015) getur þú hugsað um það góða sýni sem einn þar sem lykillinn í sýnatökuhönnuninni er ekki \(\pi_i\) \(\phi_i\) líkur á þátttöku) en \(\phi_i\) (svarenda-ekið svörun). Auðvitað er þetta ekki hugsjón vegna þess að \(\phi_i\) er óþekkt. En eins og Wang og samstarfsmenn sýndu, þá er þetta góður þátttakandi sýnishorn - jafnvel úr sýnatökustað með gríðarlegu umfangsvilla - ekki skelfilegur ef vísindamaðurinn hefur góða viðbótarupplýsingar og góðan tölfræðilegan líkan til að taka tillit til þessara vandamála.
Bethlehem (2010) nær til margra af ofangreindum afleiðingum um eftirlagskiptingu til að innihalda bæði nonresponse og umfjöllunarvillur. Að auki eftir stratification, aðrar aðferðir við að vinna með líkur á sýni og líkur á (Ansolabehere and Rivers 2013; ??? ) líkur á sýnum með umfjöllunarskekkjum og ósvara, eru sýnishorn sem samsvara (Ansolabehere and Rivers 2013; ??? ) , tilhneigingu til að (Lee 2006; Schonlau et al. 2009) vægi (Lee 2006; Schonlau et al. 2009) og kvörðun (Lee and Valliant 2009) . Eitt algengt þema meðal þessara aðferða er notkun viðbótarupplýsinga.