Matematické poznámky

V tomto dodatku budu popisovat některé myšlenky z kapitoly v trochu více matematické formě. Cílem je pomoci vám dosáhnout komfortu v notaci a matematickém rámci používaném průzkumovými výzkumníky, abyste mohli přejít na nějaký technický materiál napsaný na těchto tématech. Začnu tím, že představím vzorkování pravděpodobnosti, poté se přesunout na vzorkování pravděpodobnosti s neodpovědností a nakonec vzorkování s nepravděpodobností.

Pravděpodobnostní vzorkování

Jako běžící příklad uvažujme o tom, jak odhadnout míru nezaměstnanosti ve Spojených státech. Nechť U={1,,k,,N} je cílovou populací a necháme yk hodnotou výsledné proměnné pro osobu k . V tomto příkladu yk je, zda je osoba k nezaměstnaná. Konečně, nechť je soubor frakcí, který je pro jednoduchost považován za stejný jako cílová populace, F={1,,k,,N} .

Základní návrh vzorkování je jednoduchý náhodný výběr bez náhrady. V tomto případě je každá osoba stejně pravděpodobně zahrnutá do vzorku s={1,,i,,n} . Když jsou údaje sbírány s tímto vzorkovacím vzorem, výzkumníci mohou odhadnout míru nezaměstnanosti obyvatelstva se vzorkem:

y¯^=isyin(3.1)

kde y¯ je míra nezaměstnanosti v populaci a y¯^ je odhad míry nezaměstnanosti (dále jen ^ je běžně použitý k označení odhadovače).

Ve skutečnosti vědci zřídka používají jednoduchý náhodný výběr bez náhrady. Z nejrůznějších důvodů (jednu z nich budu popsat v okamžiku), výzkumníci často vytvářejí vzorky s nerovnými pravděpodobnostmi začlenění. Výzkumníci mohou například vybírat lidi na Floridě s vyšší pravděpodobností začlenění než lidé v Kalifornii. V tomto případě nemusí být průměr vzorku (ekvivalent 3.1) dobrý odhad. Místo toho, když existují nerovné pravděpodobnosti zařazení, vědci používají

y¯^=1Nisyiπi(3.2)

kde y¯^ je odhad míry nezaměstnanosti a πi je pravděpodobnost zařazení osoby i . Podle standardní praxe zavolám odhad v eq. 3.2 odhad Horvitz-Thompsona. Odhadník Horvitz-Thompsona je mimořádně užitečný, protože vede k nestranným odhadům pro jakýkoliv vzorek pravděpodobnosti (Horvitz and Thompson 1952) . Vzhledem k tomu, že odhad Horvitz-Thompsona se objevuje tak často, je užitečné si uvědomit, že může být přepisován jako

y¯^=1Niswiyi(3.3)

kde wi=1/πi . Jako ekv. 3.3 ukazuje, že odhad Horvitze-Thompsona je váženým vzorkem, kde jsou závaží nepřímo spojeny s pravděpodobností výběru. Jinými slovy, čím méně pravděpodobně je osoba zařazena do vzorku, tím větší váha by měla osoba dostat do odhadu.

Jak bylo popsáno výše, výzkumníci často zkoumají lidi s nerovnými pravděpodobnostmi začlenění. Jeden příklad návrhu, který může vést k nerovným pravděpodobnostem zařazení, je stratifikovaný vzorkování , což je důležité pochopit, protože je úzce spjato s postupem odhadu, který se nazývá post-stratifikace . Ve stratifikovaném vzorkování, výzkumník rozdělí cílovou populaci na H vzájemně vylučující a vyčerpávající skupiny. Tyto skupiny se nazývají vrstvy a jsou označeny jako U1,,Uh,,UH . V tomto příkladu jsou vrstvy stavy. Velikost skupin je označena jako N1,,Nh,,NH . Výzkumný pracovník by mohl chtít použít stratifikovaný vzorek, aby se ujistil, že má v každém státě dostatek lidí, aby získal odhady nezaměstnanosti na úrovni státu.

Jakmile je populace rozdělena na vrstvy , předpokládáme, že výzkumník vybere jednoduchý náhodný vzorek bez náhrady velikosti nh , nezávisle na každé vrstvě. Dále předpokládejme, že každý vybraný ve vzorku se stane respondentem (v další části se zabývám neodpovědí). V tomto případě pravděpodobnost zařazení je

πi=nhNh for all ih(3.4)

Vzhledem k tomu, že se tyto pravděpodobnosti mohou lišit od osoby k osobě, při odhadu od tohoto vzorkování musí vědci vážit každý respondent na základě inverzní pravděpodobnosti jejich zařazení pomocí odhadovače Horvitze-Thompsona (ekvivalent 3.2).

I když odhad Horvitz-Thompsona je nezaujatý, vědci mohou produkovat přesnější (tj. Nižší rozptyl) odhady kombinací vzorku s pomocnými informacemi . Někteří lidé považují za překvapující, že je to pravda, i když je dokonale proveden výběr pravděpodobnosti. Tyto techniky využívající pomocné informace jsou obzvláště důležité, protože, jak ukážeme později, pomocné informace jsou kritické pro vytváření odhadů z pravděpodobnostních vzorků s nereagujícími a z nepravděpodobných vzorků.

Jednou běžnou technikou pro využívání pomocných informací je post stratifikace . Představte si například, že výzkumný pracovník zná počet mužů a žen ve všech 50 státech; můžeme tyto velikosti skupiny označit jako N1,N2,,N100 . Pro kombinaci těchto pomocných informací se vzorkem může badatel rozdělit vzorek na skupiny H (v tomto případě 100), provést odhad pro každou skupinu a pak vytvořit vážený průměr těchto skupin:

y¯^post=hHNhNy¯^h(3.5)

Zhruba odhad v ekv. 3.5 je pravděpodobné, že bude přesnější, protože používá známou informaci o populaci - Nh - k opravě odhadů, pokud se zvolí nevyvážený vzorek. Jedním ze způsobů, jak přemýšlet o tom, je, že post-stratifikace je jako přiblížení stratifikace poté, co byla data již shromážděna.

Závěrem jsme v této části popsali několik návrhů vzorků: jednoduché náhodné vzorky bez výměny, vzorkování s nerovnou pravděpodobností a stratifikované vzorkování. Také popsal dvě hlavní myšlenky o odhadu: odhad Horvitz-Thompson a post stratifikace. Pro formálnější definici návrhů pravděpodobnosti vzorkování viz kapitola 2 Särndal, Swensson, and Wretman (2003) . Pro formálnější a úplnější léčbu stratifikovaného vzorkování viz část 3.7 Särndal, Swensson, and Wretman (2003) . Pro technický popis vlastností odhadovače Horvitze-Thompsona viz Horvitz and Thompson (1952) , Overton and Stehman (1995) nebo sekci 2.8 @ sarndal_model_2003. Pro více formální zacházení s post stratifikací viz Holt and Smith (1979) , Smith (1991) , Little (1993) nebo oddíl 7.6 Särndal, Swensson, and Wretman (2003) .

Pravděpodobnostní vzorkování bez odezvy

Téměř všechny skutečné průzkumy mají neodpovědnost; to znamená, že ne každý ze vzorové populace odpovídá na každou otázku. Existují dva hlavní typy odezvy nonresponse: item nonresponse a unit nonresponse . V položce nonresponse někteří respondenti neodpovídají na některé položky (např. Někdy respondenti nechtějí odpovídat na otázky, které považují za citlivé). V jednotce nonresponse, někteří lidé, kteří jsou vybráni pro populaci vzorku vůbec nereagují na průzkum. Dvěma nejčastějšími důvody, proč jednotka neodpovídá, je to, že osoba, která byla vzorkována, nemůže být kontaktována a je kontaktována osoba, která je vzorkována, ale odmítá účast. V této části se zaměřím na jednotku neodpovědi; čtenáři, kteří mají zájem o položku nonresponse, by měli vidět Little a Rubin (2002) .

Výzkumníci často přemýšlejí o průzkumech s jednotkovou neodpovědí jako o dvoustupňovém procesu odběru vzorků. V první fázi výzkumník vybírá vzorek s tak, že každá osoba má pravděpodobnost zařazení πi (kde 0<πi1 ). Potom ve druhé fázi lidé, kteří jsou vybráni do vzorku, reagují s pravděpodobností ϕi (kde 0<ϕi1 ). Tento dvoustupňový proces vede k závěrečnému souboru respondentů r . Důležitým rozdílem mezi těmito dvěma fázemi je to, že výzkumníci kontrolují proces výběru vzorku, avšak neovlivňují, kteří z těch vzorkovaných lidí se stanou respondenty. Při sestavování těchto dvou procesů je pravděpodobné, že někdo bude respondentem

pr(ir)=πiϕi(3.6)

Pro zjednodušení se budu zabývat případem, kdy původní návrh vzorku je jednoduchý náhodný vzorkování bez náhrady. Pokud výzkumník vybere vzorek velikosti ns který dává respondentům nr , a pokud výzkumník ignoruje neodpovědi a použije průměr respondentů, pak bude předpojatost odhadu:

bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ϕ¯(3.7)

kde cor(ϕ,y) je populační korelace mezi sklonem odpovědi a výsledkem (např. stav nezaměstnanosti), S(y) je obyčejná standardní odchylka výsledku ), S(ϕ) je populační směrodatná odchylka sklonu odezvy a ϕ¯ je průměrná tendence obyvatelstva (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Ekv. 3.7 ukazuje, že neodpovědnost nezavádí zaujatost, pokud je splněna některá z následujících podmínek:

  • Neexistuje žádná změna stavu nezaměstnanosti (S(y)=0) .
  • Neexistují žádné odchylky ve skloně odpovědí (S(ϕ)=0) .
  • Neexistuje žádná korelace mezi sklonem reakce a stavem nezaměstnanosti (cor(ϕ,y)=0) .

Bohužel se žádná z těchto podmínek nezdá pravděpodobné. Zdá se být nepravděpodobné, že v zaměstnaneckém poměru nedojde k žádné změně nebo že se nezmění náchylnost k reakci. Tedy klíčový termín v ekv. 3.7 je korelace: cor(ϕ,y) . Například, pokud jsou lidé, kteří nezaměstnaní reagují více, odhadovaná míra zaměstnanosti bude směrována směrem vzhůru.

Trik k odhadu odhadů, pokud neexistuje odpověď, je použití pomocných informací. Například jedním ze způsobů, jak můžete použít pomocné informace, je post stratifikace (vyvolání rovnice 3.5 výše). Ukazuje se, že zkreslení post-stratifikačního odhadu je:

bias(y¯^post)=1Nh=1HNhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ϕ¯(h)(3.8)

kde cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , a ϕ¯(h) jsou definovány výše, ale jsou omezeny na skupiny ve skupině h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Celková odchylka bude tedy malá, pokud je předsudek v každé post stratifikační skupině malý. Existují dva způsoby, které mám rád přemýšlet o tom, jak se malá předsudek uvést do každé post-stratifikační skupiny. Nejprve se pokusíte vytvořit homogenní skupiny, kde existuje malá variace ve skloně odpovědi ( S(ϕ)(h)0 ) a výsledek ( S(y)(h)0 ). Za druhé, chcete vytvořit skupiny, ve kterých lidé, které vidíte, jsou jako lidé, které nevidíte ( cor(ϕ,y)(h)0 ). Porovnání rovnic. 3,7 a ekv. 3.8 pomáhá objasnit, kdy post-stratifikace může snížit zkreslení způsobenou neodpovídáním.

Závěrem tato část poskytla model pro vzorkování pravděpodobnosti s neodpovědnou odpovědí a ukázala předpojatost, kterou může nonresponse zavádět jak bez, tak s post stratifikačními úpravami. Bethlehem (1988) nabízí odvození zaujatosti způsobené nonresponse pro obecnější vzorkování vzory. Další informace o použití post-stratifikace pro úpravu pro neodpovědnost viz Smith (1991) a Gelman and Carlin (2002) . Post-stratifikace je součástí obecnější řady technik nazývaných kalibrační odhady, viz Zhang (2000) pro léčbu délky článku a Särndal and Lundström (2005) pro léčbu v knižní formě. Další informace o dalších váhových metodách pro úpravu pro Särndal and Lundström (2005) viz Kalton and Flores-Cervantes (2003) , Brick (2013) a Särndal and Lundström (2005) .

Odběr vzorků bez pravděpodobnosti

Neobvyklé vzorkování zahrnuje obrovskou škálu návrhů (Baker et al. 2013) . Zaměříme-li se konkrétně na vzorek uživatelů Xboxu Wangem a kolegy (W. Wang et al. 2015) , můžete uvažovat o tomto vzorku jako o vzorku, kde klíčovou částí vzorkování není πi ( pravděpodobnost zahrnutí výzkumného pracovníka), ale ϕi (reakce respondentů ϕi na reakcích). Samozřejmě, toto není ideální, protože ϕi jsou neznámé. Ale jak ukázal Wang a kolegové, tento druh výběrového vzorku - dokonce i ze vzorkovacího rámce s obrovskou chybou pokrytí - nemusí být katastrofální, pokud má badatel dobré pomocné informace a dobrý statistický model, který tyto problémy řeší.

Bethlehem (2010) rozšiřuje mnoho z výše uvedených odvození o post stratifikaci tak, aby zahrnovalo jak chyby bez odezvy, tak pokrytí. Kromě po-vrstvení, jiné techniky pro práci s ne-pravděpodobnostních vzorků-a pravděpodobnostních vzorků s chybami pokrytí a neodpovědí-obsahovat párování vzorku (Ansolabehere and Rivers 2013; ??? ) , sklon skóre váhových (Lee 2006; Schonlau et al. 2009) a kalibrace (Lee and Valliant 2009) . Jedním společným tématem mezi těmito technikami je použití pomocných informací.