Matematické poznámky

Tento překlad byl vytvořen na počítači. ×

Matematické poznámky

V tomto dodatku budu popisovat některé myšlenky z kapitoly v trochu více matematické formě. Cílem je pomoci vám dosáhnout komfortu v notaci a matematickém rámci používaném průzkumovými výzkumníky, abyste mohli přejít na nějaký technický materiál napsaný na těchto tématech. Začnu tím, že představím vzorkování pravděpodobnosti, poté se přesunout na vzorkování pravděpodobnosti s neodpovědností a nakonec vzorkování s nepravděpodobností.

Pravděpodobnostní vzorkování

Jako běžící příklad uvažujme o tom, jak odhadnout míru nezaměstnanosti ve Spojených státech. Nechť $U = \{1, \ldots, k, \ldots, N\}$ je cílovou populací a necháme $y_k$ hodnotou výsledné proměnné pro osobu $k$ . V tomto příkladu $y_k$ je, zda je osoba $k$ nezaměstnaná. Konečně, nechť je soubor frakcí, který je pro jednoduchost považován za stejný jako cílová populace, $F = \{1, \ldots, k, \ldots, N\}$ .

Základní návrh vzorkování je jednoduchý náhodný výběr bez náhrady. V tomto případě je každá osoba stejně pravděpodobně zahrnutá do vzorku $s = \{1, \ldots, i, \ldots, n\}$ . Když jsou údaje sbírány s tímto vzorkovacím vzorem, výzkumníci mohou odhadnout míru nezaměstnanosti obyvatelstva se vzorkem:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

kde $\bar{y}$ je míra nezaměstnanosti v populaci a $\hat{\bar{y}}$ je odhad míry nezaměstnanosti (dále jen $\hat{ }$ je běžně použitý k označení odhadovače).

Ve skutečnosti vědci zřídka používají jednoduchý náhodný výběr bez náhrady. Z nejrůznějších důvodů (jednu z nich budu popsat v okamžiku), výzkumníci často vytvářejí vzorky s nerovnými pravděpodobnostmi začlenění. Výzkumníci mohou například vybírat lidi na Floridě s vyšší pravděpodobností začlenění než lidé v Kalifornii. V tomto případě nemusí být průměr vzorku (ekvivalent 3.1) dobrý odhad. Místo toho, když existují nerovné pravděpodobnosti zařazení, vědci používají

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

kde $\hat{\bar{y}}$ je odhad míry nezaměstnanosti a $\pi_i$ je pravděpodobnost zařazení osoby $i$ . Podle standardní praxe zavolám odhad v eq. 3.2 odhad Horvitz-Thompsona. Odhadník Horvitz-Thompsona je mimořádně užitečný, protože vede k nestranným odhadům pro jakýkoliv vzorek pravděpodobnosti (Horvitz and Thompson 1952) . Vzhledem k tomu, že odhad Horvitz-Thompsona se objevuje tak často, je užitečné si uvědomit, že může být přepisován jako

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

kde $w_i = 1 / \pi_i$ . Jako ekv. 3.3 ukazuje, že odhad Horvitze-Thompsona je váženým vzorkem, kde jsou závaží nepřímo spojeny s pravděpodobností výběru. Jinými slovy, čím méně pravděpodobně je osoba zařazena do vzorku, tím větší váha by měla osoba dostat do odhadu.

Jak bylo popsáno výše, výzkumníci často zkoumají lidi s nerovnými pravděpodobnostmi začlenění. Jeden příklad návrhu, který může vést k nerovným pravděpodobnostem zařazení, je stratifikovaný vzorkování , což je důležité pochopit, protože je úzce spjato s postupem odhadu, který se nazývá post-stratifikace . Ve stratifikovaném vzorkování, výzkumník rozdělí cílovou populaci na $H$ vzájemně vylučující a vyčerpávající skupiny. Tyto skupiny se nazývají vrstvy a jsou označeny jako $U_1, \ldots, U_h, \ldots, U_H$ . V tomto příkladu jsou vrstvy stavy. Velikost skupin je označena jako $N_1, \ldots, N_h, \ldots, N_H$ . Výzkumný pracovník by mohl chtít použít stratifikovaný vzorek, aby se ujistil, že má v každém státě dostatek lidí, aby získal odhady nezaměstnanosti na úrovni státu.

Jakmile je populace rozdělena na vrstvy , předpokládáme, že výzkumník vybere jednoduchý náhodný vzorek bez náhrady velikosti $n_h$ , nezávisle na každé vrstvě. Dále předpokládejme, že každý vybraný ve vzorku se stane respondentem (v další části se zabývám neodpovědí). V tomto případě pravděpodobnost zařazení je

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

Vzhledem k tomu, že se tyto pravděpodobnosti mohou lišit od osoby k osobě, při odhadu od tohoto vzorkování musí vědci vážit každý respondent na základě inverzní pravděpodobnosti jejich zařazení pomocí odhadovače Horvitze-Thompsona (ekvivalent 3.2).

I když odhad Horvitz-Thompsona je nezaujatý, vědci mohou produkovat přesnější (tj. Nižší rozptyl) odhady kombinací vzorku s pomocnými informacemi . Někteří lidé považují za překvapující, že je to pravda, i když je dokonale proveden výběr pravděpodobnosti. Tyto techniky využívající pomocné informace jsou obzvláště důležité, protože, jak ukážeme později, pomocné informace jsou kritické pro vytváření odhadů z pravděpodobnostních vzorků s nereagujícími a z nepravděpodobných vzorků.

Jednou běžnou technikou pro využívání pomocných informací je post stratifikace . Představte si například, že výzkumný pracovník zná počet mužů a žen ve všech 50 státech; můžeme tyto velikosti skupiny označit jako $N_1, N_2, \ldots, N_{100}$ . Pro kombinaci těchto pomocných informací se vzorkem může badatel rozdělit vzorek na skupiny $H$ (v tomto případě 100), provést odhad pro každou skupinu a pak vytvořit vážený průměr těchto skupin:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Zhruba odhad v ekv. 3.5 je pravděpodobné, že bude přesnější, protože používá známou informaci o populaci - $N_h$ - k opravě odhadů, pokud se zvolí nevyvážený vzorek. Jedním ze způsobů, jak přemýšlet o tom, je, že post-stratifikace je jako přiblížení stratifikace poté, co byla data již shromážděna.

Závěrem jsme v této části popsali několik návrhů vzorků: jednoduché náhodné vzorky bez výměny, vzorkování s nerovnou pravděpodobností a stratifikované vzorkování. Také popsal dvě hlavní myšlenky o odhadu: odhad Horvitz-Thompson a post stratifikace. Pro formálnější definici návrhů pravděpodobnosti vzorkování viz kapitola 2 Särndal, Swensson, and Wretman (2003) . Pro formálnější a úplnější léčbu stratifikovaného vzorkování viz část 3.7 Särndal, Swensson, and Wretman (2003) . Pro technický popis vlastností odhadovače Horvitze-Thompsona viz Horvitz and Thompson (1952) , Overton and Stehman (1995) nebo sekci 2.8 @ sarndal_model_2003. Pro více formální zacházení s post stratifikací viz Holt and Smith (1979) , Smith (1991) , Little (1993) nebo oddíl 7.6 Särndal, Swensson, and Wretman (2003) .

Pravděpodobnostní vzorkování bez odezvy

Téměř všechny skutečné průzkumy mají neodpovědnost; to znamená, že ne každý ze vzorové populace odpovídá na každou otázku. Existují dva hlavní typy odezvy nonresponse: item nonresponse a unit nonresponse . V položce nonresponse někteří respondenti neodpovídají na některé položky (např. Někdy respondenti nechtějí odpovídat na otázky, které považují za citlivé). V jednotce nonresponse, někteří lidé, kteří jsou vybráni pro populaci vzorku vůbec nereagují na průzkum. Dvěma nejčastějšími důvody, proč jednotka neodpovídá, je to, že osoba, která byla vzorkována, nemůže být kontaktována a je kontaktována osoba, která je vzorkována, ale odmítá účast. V této části se zaměřím na jednotku neodpovědi; čtenáři, kteří mají zájem o položku nonresponse, by měli vidět Little a Rubin (2002) .

Výzkumníci často přemýšlejí o průzkumech s jednotkovou neodpovědí jako o dvoustupňovém procesu odběru vzorků. V první fázi výzkumník vybírá vzorek $s$ tak, že každá osoba má pravděpodobnost zařazení $\pi_i$ (kde $0 < \pi_i \leq 1$ ). Potom ve druhé fázi lidé, kteří jsou vybráni do vzorku, reagují s pravděpodobností $\phi_i$ (kde $0 < \phi_i \leq 1$ ). Tento dvoustupňový proces vede k závěrečnému souboru respondentů $r$ . Důležitým rozdílem mezi těmito dvěma fázemi je to, že výzkumníci kontrolují proces výběru vzorku, avšak neovlivňují, kteří z těch vzorkovaných lidí se stanou respondenty. Při sestavování těchto dvou procesů je pravděpodobné, že někdo bude respondentem

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Pro zjednodušení se budu zabývat případem, kdy původní návrh vzorku je jednoduchý náhodný vzorkování bez náhrady. Pokud výzkumník vybere vzorek velikosti $n_s$ který dává respondentům $n_r$ , a pokud výzkumník ignoruje neodpovědi a použije průměr respondentů, pak bude předpojatost odhadu:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

kde $cor(\phi, y)$ je populační korelace mezi sklonem odpovědi a výsledkem (např. stav nezaměstnanosti), $S(y)$ je obyčejná standardní odchylka výsledku ), $S(\phi)$ je populační směrodatná odchylka sklonu odezvy a $\bar{\phi}$ je průměrná tendence obyvatelstva (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Ekv. 3.7 ukazuje, že neodpovědnost nezavádí zaujatost, pokud je splněna některá z následujících podmínek:

Neexistuje žádná změna stavu nezaměstnanosti $(S(y) = 0)$ .
Neexistují žádné odchylky ve skloně odpovědí $(S(\phi) = 0)$ .
Neexistuje žádná korelace mezi sklonem reakce a stavem nezaměstnanosti $(cor(\phi, y) = 0)$ .

Bohužel se žádná z těchto podmínek nezdá pravděpodobné. Zdá se být nepravděpodobné, že v zaměstnaneckém poměru nedojde k žádné změně nebo že se nezmění náchylnost k reakci. Tedy klíčový termín v ekv. 3.7 je korelace: $cor(\phi, y)$ . Například, pokud jsou lidé, kteří nezaměstnaní reagují více, odhadovaná míra zaměstnanosti bude směrována směrem vzhůru.

Trik k odhadu odhadů, pokud neexistuje odpověď, je použití pomocných informací. Například jedním ze způsobů, jak můžete použít pomocné informace, je post stratifikace (vyvolání rovnice 3.5 výše). Ukazuje se, že zkreslení post-stratifikačního odhadu je:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

kde $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , a $\bar{\phi}^{(h)}$ jsou definovány výše, ale jsou omezeny na skupiny ve skupině $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Celková odchylka bude tedy malá, pokud je předsudek v každé post stratifikační skupině malý. Existují dva způsoby, které mám rád přemýšlet o tom, jak se malá předsudek uvést do každé post-stratifikační skupiny. Nejprve se pokusíte vytvořit homogenní skupiny, kde existuje malá variace ve skloně odpovědi ( $S(\phi)^{(h)} \approx 0$ ) a výsledek ( $S(y)^{(h)} \approx 0$ ). Za druhé, chcete vytvořit skupiny, ve kterých lidé, které vidíte, jsou jako lidé, které nevidíte ( $cor(\phi, y)^{(h)} \approx 0$ ). Porovnání rovnic. 3,7 a ekv. 3.8 pomáhá objasnit, kdy post-stratifikace může snížit zkreslení způsobenou neodpovídáním.

Závěrem tato část poskytla model pro vzorkování pravděpodobnosti s neodpovědnou odpovědí a ukázala předpojatost, kterou může nonresponse zavádět jak bez, tak s post stratifikačními úpravami. Bethlehem (1988) nabízí odvození zaujatosti způsobené nonresponse pro obecnější vzorkování vzory. Další informace o použití post-stratifikace pro úpravu pro neodpovědnost viz Smith (1991) a Gelman and Carlin (2002) . Post-stratifikace je součástí obecnější řady technik nazývaných kalibrační odhady, viz Zhang (2000) pro léčbu délky článku a Särndal and Lundström (2005) pro léčbu v knižní formě. Další informace o dalších váhových metodách pro úpravu pro Särndal and Lundström (2005) viz Kalton and Flores-Cervantes (2003) , Brick (2013) a Särndal and Lundström (2005) .

Odběr vzorků bez pravděpodobnosti

Neobvyklé vzorkování zahrnuje obrovskou škálu návrhů (Baker et al. 2013) . Zaměříme-li se konkrétně na vzorek uživatelů Xboxu Wangem a kolegy (W. Wang et al. 2015) , můžete uvažovat o tomto vzorku jako o vzorku, kde klíčovou částí vzorkování není $\pi_i$ ( pravděpodobnost zahrnutí výzkumného pracovníka), ale $\phi_i$ (reakce respondentů $\phi_i$ na reakcích). Samozřejmě, toto není ideální, protože $\phi_i$ jsou neznámé. Ale jak ukázal Wang a kolegové, tento druh výběrového vzorku - dokonce i ze vzorkovacího rámce s obrovskou chybou pokrytí - nemusí být katastrofální, pokud má badatel dobré pomocné informace a dobrý statistický model, který tyto problémy řeší.

Bethlehem (2010) rozšiřuje mnoho z výše uvedených odvození o post stratifikaci tak, aby zahrnovalo jak chyby bez odezvy, tak pokrytí. Kromě po-vrstvení, jiné techniky pro práci s ne-pravděpodobnostních vzorků-a pravděpodobnostních vzorků s chybami pokrytí a neodpovědí-obsahovat párování vzorku (Ansolabehere and Rivers 2013; ??? ) , sklon skóre váhových (Lee 2006; Schonlau et al. 2009) a kalibrace (Lee and Valliant 2009) . Jedním společným tématem mezi těmito technikami je použití pomocných informací.