V tomto dodatku budu popisovat některé myšlenky z kapitoly v trochu více matematické formě. Cílem je pomoci vám dosáhnout komfortu v notaci a matematickém rámci používaném průzkumovými výzkumníky, abyste mohli přejít na nějaký technický materiál napsaný na těchto tématech. Začnu tím, že představím vzorkování pravděpodobnosti, poté se přesunout na vzorkování pravděpodobnosti s neodpovědností a nakonec vzorkování s nepravděpodobností.
Pravděpodobnostní vzorkování
Jako běžící příklad uvažujme o tom, jak odhadnout míru nezaměstnanosti ve Spojených státech. Nechť \(U = \{1, \ldots, k, \ldots, N\}\) je cílovou populací a necháme \(y_k\) hodnotou výsledné proměnné pro osobu \(k\) . V tomto příkladu \(y_k\) je, zda je osoba \(k\) nezaměstnaná. Konečně, nechť je soubor frakcí, který je pro jednoduchost považován za stejný jako cílová populace, \(F = \{1, \ldots, k, \ldots, N\}\) .
Základní návrh vzorkování je jednoduchý náhodný výběr bez náhrady. V tomto případě je každá osoba stejně pravděpodobně zahrnutá do vzorku \(s = \{1, \ldots, i, \ldots, n\}\) . Když jsou údaje sbírány s tímto vzorkovacím vzorem, výzkumníci mohou odhadnout míru nezaměstnanosti obyvatelstva se vzorkem:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
kde \(\bar{y}\) je míra nezaměstnanosti v populaci a \(\hat{\bar{y}}\) je odhad míry nezaměstnanosti (dále jen \(\hat{ }\) je běžně použitý k označení odhadovače).
Ve skutečnosti vědci zřídka používají jednoduchý náhodný výběr bez náhrady. Z nejrůznějších důvodů (jednu z nich budu popsat v okamžiku), výzkumníci často vytvářejí vzorky s nerovnými pravděpodobnostmi začlenění. Výzkumníci mohou například vybírat lidi na Floridě s vyšší pravděpodobností začlenění než lidé v Kalifornii. V tomto případě nemusí být průměr vzorku (ekvivalent 3.1) dobrý odhad. Místo toho, když existují nerovné pravděpodobnosti zařazení, vědci používají
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
kde \(\hat{\bar{y}}\) je odhad míry nezaměstnanosti a \(\pi_i\) je pravděpodobnost zařazení osoby \(i\) . Podle standardní praxe zavolám odhad v eq. 3.2 odhad Horvitz-Thompsona. Odhadník Horvitz-Thompsona je mimořádně užitečný, protože vede k nestranným odhadům pro jakýkoliv vzorek pravděpodobnosti (Horvitz and Thompson 1952) . Vzhledem k tomu, že odhad Horvitz-Thompsona se objevuje tak často, je užitečné si uvědomit, že může být přepisován jako
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
kde \(w_i = 1 / \pi_i\) . Jako ekv. 3.3 ukazuje, že odhad Horvitze-Thompsona je váženým vzorkem, kde jsou závaží nepřímo spojeny s pravděpodobností výběru. Jinými slovy, čím méně pravděpodobně je osoba zařazena do vzorku, tím větší váha by měla osoba dostat do odhadu.
Jak bylo popsáno výše, výzkumníci často zkoumají lidi s nerovnými pravděpodobnostmi začlenění. Jeden příklad návrhu, který může vést k nerovným pravděpodobnostem zařazení, je stratifikovaný vzorkování , což je důležité pochopit, protože je úzce spjato s postupem odhadu, který se nazývá post-stratifikace . Ve stratifikovaném vzorkování, výzkumník rozdělí cílovou populaci na \(H\) vzájemně vylučující a vyčerpávající skupiny. Tyto skupiny se nazývají vrstvy a jsou označeny jako \(U_1, \ldots, U_h, \ldots, U_H\) . V tomto příkladu jsou vrstvy stavy. Velikost skupin je označena jako \(N_1, \ldots, N_h, \ldots, N_H\) . Výzkumný pracovník by mohl chtít použít stratifikovaný vzorek, aby se ujistil, že má v každém státě dostatek lidí, aby získal odhady nezaměstnanosti na úrovni státu.
Jakmile je populace rozdělena na vrstvy , předpokládáme, že výzkumník vybere jednoduchý náhodný vzorek bez náhrady velikosti \(n_h\) , nezávisle na každé vrstvě. Dále předpokládejme, že každý vybraný ve vzorku se stane respondentem (v další části se zabývám neodpovědí). V tomto případě pravděpodobnost zařazení je
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Vzhledem k tomu, že se tyto pravděpodobnosti mohou lišit od osoby k osobě, při odhadu od tohoto vzorkování musí vědci vážit každý respondent na základě inverzní pravděpodobnosti jejich zařazení pomocí odhadovače Horvitze-Thompsona (ekvivalent 3.2).
I když odhad Horvitz-Thompsona je nezaujatý, vědci mohou produkovat přesnější (tj. Nižší rozptyl) odhady kombinací vzorku s pomocnými informacemi . Někteří lidé považují za překvapující, že je to pravda, i když je dokonale proveden výběr pravděpodobnosti. Tyto techniky využívající pomocné informace jsou obzvláště důležité, protože, jak ukážeme později, pomocné informace jsou kritické pro vytváření odhadů z pravděpodobnostních vzorků s nereagujícími a z nepravděpodobných vzorků.
Jednou běžnou technikou pro využívání pomocných informací je post stratifikace . Představte si například, že výzkumný pracovník zná počet mužů a žen ve všech 50 státech; můžeme tyto velikosti skupiny označit jako \(N_1, N_2, \ldots, N_{100}\) . Pro kombinaci těchto pomocných informací se vzorkem může badatel rozdělit vzorek na skupiny \(H\) (v tomto případě 100), provést odhad pro každou skupinu a pak vytvořit vážený průměr těchto skupin:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Zhruba odhad v ekv. 3.5 je pravděpodobné, že bude přesnější, protože používá známou informaci o populaci - \(N_h\) - k opravě odhadů, pokud se zvolí nevyvážený vzorek. Jedním ze způsobů, jak přemýšlet o tom, je, že post-stratifikace je jako přiblížení stratifikace poté, co byla data již shromážděna.
Závěrem jsme v této části popsali několik návrhů vzorků: jednoduché náhodné vzorky bez výměny, vzorkování s nerovnou pravděpodobností a stratifikované vzorkování. Také popsal dvě hlavní myšlenky o odhadu: odhad Horvitz-Thompson a post stratifikace. Pro formálnější definici návrhů pravděpodobnosti vzorkování viz kapitola 2 Särndal, Swensson, and Wretman (2003) . Pro formálnější a úplnější léčbu stratifikovaného vzorkování viz část 3.7 Särndal, Swensson, and Wretman (2003) . Pro technický popis vlastností odhadovače Horvitze-Thompsona viz Horvitz and Thompson (1952) , Overton and Stehman (1995) nebo sekci 2.8 @ sarndal_model_2003. Pro více formální zacházení s post stratifikací viz Holt and Smith (1979) , Smith (1991) , Little (1993) nebo oddíl 7.6 Särndal, Swensson, and Wretman (2003) .
Pravděpodobnostní vzorkování bez odezvy
Téměř všechny skutečné průzkumy mají neodpovědnost; to znamená, že ne každý ze vzorové populace odpovídá na každou otázku. Existují dva hlavní typy odezvy nonresponse: item nonresponse a unit nonresponse . V položce nonresponse někteří respondenti neodpovídají na některé položky (např. Někdy respondenti nechtějí odpovídat na otázky, které považují za citlivé). V jednotce nonresponse, někteří lidé, kteří jsou vybráni pro populaci vzorku vůbec nereagují na průzkum. Dvěma nejčastějšími důvody, proč jednotka neodpovídá, je to, že osoba, která byla vzorkována, nemůže být kontaktována a je kontaktována osoba, která je vzorkována, ale odmítá účast. V této části se zaměřím na jednotku neodpovědi; čtenáři, kteří mají zájem o položku nonresponse, by měli vidět Little a Rubin (2002) .
Výzkumníci často přemýšlejí o průzkumech s jednotkovou neodpovědí jako o dvoustupňovém procesu odběru vzorků. V první fázi výzkumník vybírá vzorek \(s\) tak, že každá osoba má pravděpodobnost zařazení \(\pi_i\) (kde \(0 < \pi_i \leq 1\) ). Potom ve druhé fázi lidé, kteří jsou vybráni do vzorku, reagují s pravděpodobností \(\phi_i\) (kde \(0 < \phi_i \leq 1\) ). Tento dvoustupňový proces vede k závěrečnému souboru respondentů \(r\) . Důležitým rozdílem mezi těmito dvěma fázemi je to, že výzkumníci kontrolují proces výběru vzorku, avšak neovlivňují, kteří z těch vzorkovaných lidí se stanou respondenty. Při sestavování těchto dvou procesů je pravděpodobné, že někdo bude respondentem
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Pro zjednodušení se budu zabývat případem, kdy původní návrh vzorku je jednoduchý náhodný vzorkování bez náhrady. Pokud výzkumník vybere vzorek velikosti \(n_s\) který dává respondentům \(n_r\) , a pokud výzkumník ignoruje neodpovědi a použije průměr respondentů, pak bude předpojatost odhadu:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
kde \(cor(\phi, y)\) je populační korelace mezi sklonem odpovědi a výsledkem (např. stav nezaměstnanosti), \(S(y)\) je obyčejná standardní odchylka výsledku ), \(S(\phi)\) je populační směrodatná odchylka sklonu odezvy a \(\bar{\phi}\) je průměrná tendence obyvatelstva (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Ekv. 3.7 ukazuje, že neodpovědnost nezavádí zaujatost, pokud je splněna některá z následujících podmínek:
Bohužel se žádná z těchto podmínek nezdá pravděpodobné. Zdá se být nepravděpodobné, že v zaměstnaneckém poměru nedojde k žádné změně nebo že se nezmění náchylnost k reakci. Tedy klíčový termín v ekv. 3.7 je korelace: \(cor(\phi, y)\) . Například, pokud jsou lidé, kteří nezaměstnaní reagují více, odhadovaná míra zaměstnanosti bude směrována směrem vzhůru.
Trik k odhadu odhadů, pokud neexistuje odpověď, je použití pomocných informací. Například jedním ze způsobů, jak můžete použít pomocné informace, je post stratifikace (vyvolání rovnice 3.5 výše). Ukazuje se, že zkreslení post-stratifikačního odhadu je:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
kde \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , a \(\bar{\phi}^{(h)}\) jsou definovány výše, ale jsou omezeny na skupiny ve skupině \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Celková odchylka bude tedy malá, pokud je předsudek v každé post stratifikační skupině malý. Existují dva způsoby, které mám rád přemýšlet o tom, jak se malá předsudek uvést do každé post-stratifikační skupiny. Nejprve se pokusíte vytvořit homogenní skupiny, kde existuje malá variace ve skloně odpovědi ( \(S(\phi)^{(h)} \approx 0\) ) a výsledek ( \(S(y)^{(h)} \approx 0\) ). Za druhé, chcete vytvořit skupiny, ve kterých lidé, které vidíte, jsou jako lidé, které nevidíte ( \(cor(\phi, y)^{(h)} \approx 0\) ). Porovnání rovnic. 3,7 a ekv. 3.8 pomáhá objasnit, kdy post-stratifikace může snížit zkreslení způsobenou neodpovídáním.
Závěrem tato část poskytla model pro vzorkování pravděpodobnosti s neodpovědnou odpovědí a ukázala předpojatost, kterou může nonresponse zavádět jak bez, tak s post stratifikačními úpravami. Bethlehem (1988) nabízí odvození zaujatosti způsobené nonresponse pro obecnější vzorkování vzory. Další informace o použití post-stratifikace pro úpravu pro neodpovědnost viz Smith (1991) a Gelman and Carlin (2002) . Post-stratifikace je součástí obecnější řady technik nazývaných kalibrační odhady, viz Zhang (2000) pro léčbu délky článku a Särndal and Lundström (2005) pro léčbu v knižní formě. Další informace o dalších váhových metodách pro úpravu pro Särndal and Lundström (2005) viz Kalton and Flores-Cervantes (2003) , Brick (2013) a Särndal and Lundström (2005) .
Odběr vzorků bez pravděpodobnosti
Neobvyklé vzorkování zahrnuje obrovskou škálu návrhů (Baker et al. 2013) . Zaměříme-li se konkrétně na vzorek uživatelů Xboxu Wangem a kolegy (W. Wang et al. 2015) , můžete uvažovat o tomto vzorku jako o vzorku, kde klíčovou částí vzorkování není \(\pi_i\) ( pravděpodobnost zahrnutí výzkumného pracovníka), ale \(\phi_i\) (reakce respondentů \(\phi_i\) na reakcích). Samozřejmě, toto není ideální, protože \(\phi_i\) jsou neznámé. Ale jak ukázal Wang a kolegové, tento druh výběrového vzorku - dokonce i ze vzorkovacího rámce s obrovskou chybou pokrytí - nemusí být katastrofální, pokud má badatel dobré pomocné informace a dobrý statistický model, který tyto problémy řeší.
Bethlehem (2010) rozšiřuje mnoho z výše uvedených odvození o post stratifikaci tak, aby zahrnovalo jak chyby bez odezvy, tak pokrytí. Kromě po-vrstvení, jiné techniky pro práci s ne-pravděpodobnostních vzorků-a pravděpodobnostních vzorků s chybami pokrytí a neodpovědí-obsahovat párování vzorku (Ansolabehere and Rivers 2013; ??? ) , sklon skóre váhových (Lee 2006; Schonlau et al. 2009) a kalibrace (Lee and Valliant 2009) . Jedním společným tématem mezi těmito technikami je použití pomocných informací.