V tomto dodatku budu popisovat některé myšlenky z kapitoly v trochu více matematické formě. Cílem je pomoci vám dosáhnout komfortu v notaci a matematickém rámci používaném průzkumovými výzkumníky, abyste mohli přejít na nějaký technický materiál napsaný na těchto tématech. Začnu tím, že představím vzorkování pravděpodobnosti, poté se přesunout na vzorkování pravděpodobnosti s neodpovědností a nakonec vzorkování s nepravděpodobností.
Pravděpodobnostní vzorkování
Jako běžící příklad uvažujme o tom, jak odhadnout míru nezaměstnanosti ve Spojených státech. Nechť je cílovou populací a necháme hodnotou výsledné proměnné pro osobu . V tomto příkladu je, zda je osoba nezaměstnaná. Konečně, nechť je soubor frakcí, který je pro jednoduchost považován za stejný jako cílová populace, .
Základní návrh vzorkování je jednoduchý náhodný výběr bez náhrady. V tomto případě je každá osoba stejně pravděpodobně zahrnutá do vzorku . Když jsou údaje sbírány s tímto vzorkovacím vzorem, výzkumníci mohou odhadnout míru nezaměstnanosti obyvatelstva se vzorkem:
kde je míra nezaměstnanosti v populaci a je odhad míry nezaměstnanosti (dále jen je běžně použitý k označení odhadovače).
Ve skutečnosti vědci zřídka používají jednoduchý náhodný výběr bez náhrady. Z nejrůznějších důvodů (jednu z nich budu popsat v okamžiku), výzkumníci často vytvářejí vzorky s nerovnými pravděpodobnostmi začlenění. Výzkumníci mohou například vybírat lidi na Floridě s vyšší pravděpodobností začlenění než lidé v Kalifornii. V tomto případě nemusí být průměr vzorku (ekvivalent 3.1) dobrý odhad. Místo toho, když existují nerovné pravděpodobnosti zařazení, vědci používají
kde je odhad míry nezaměstnanosti a je pravděpodobnost zařazení osoby . Podle standardní praxe zavolám odhad v eq. 3.2 odhad Horvitz-Thompsona. Odhadník Horvitz-Thompsona je mimořádně užitečný, protože vede k nestranným odhadům pro jakýkoliv vzorek pravděpodobnosti (Horvitz and Thompson 1952) . Vzhledem k tomu, že odhad Horvitz-Thompsona se objevuje tak často, je užitečné si uvědomit, že může být přepisován jako
kde . Jako ekv. 3.3 ukazuje, že odhad Horvitze-Thompsona je váženým vzorkem, kde jsou závaží nepřímo spojeny s pravděpodobností výběru. Jinými slovy, čím méně pravděpodobně je osoba zařazena do vzorku, tím větší váha by měla osoba dostat do odhadu.
Jak bylo popsáno výše, výzkumníci často zkoumají lidi s nerovnými pravděpodobnostmi začlenění. Jeden příklad návrhu, který může vést k nerovným pravděpodobnostem zařazení, je stratifikovaný vzorkování , což je důležité pochopit, protože je úzce spjato s postupem odhadu, který se nazývá post-stratifikace . Ve stratifikovaném vzorkování, výzkumník rozdělí cílovou populaci na vzájemně vylučující a vyčerpávající skupiny. Tyto skupiny se nazývají vrstvy a jsou označeny jako . V tomto příkladu jsou vrstvy stavy. Velikost skupin je označena jako . Výzkumný pracovník by mohl chtít použít stratifikovaný vzorek, aby se ujistil, že má v každém státě dostatek lidí, aby získal odhady nezaměstnanosti na úrovni státu.
Jakmile je populace rozdělena na vrstvy , předpokládáme, že výzkumník vybere jednoduchý náhodný vzorek bez náhrady velikosti , nezávisle na každé vrstvě. Dále předpokládejme, že každý vybraný ve vzorku se stane respondentem (v další části se zabývám neodpovědí). V tomto případě pravděpodobnost zařazení je
Vzhledem k tomu, že se tyto pravděpodobnosti mohou lišit od osoby k osobě, při odhadu od tohoto vzorkování musí vědci vážit každý respondent na základě inverzní pravděpodobnosti jejich zařazení pomocí odhadovače Horvitze-Thompsona (ekvivalent 3.2).
I když odhad Horvitz-Thompsona je nezaujatý, vědci mohou produkovat přesnější (tj. Nižší rozptyl) odhady kombinací vzorku s pomocnými informacemi . Někteří lidé považují za překvapující, že je to pravda, i když je dokonale proveden výběr pravděpodobnosti. Tyto techniky využívající pomocné informace jsou obzvláště důležité, protože, jak ukážeme později, pomocné informace jsou kritické pro vytváření odhadů z pravděpodobnostních vzorků s nereagujícími a z nepravděpodobných vzorků.
Jednou běžnou technikou pro využívání pomocných informací je post stratifikace . Představte si například, že výzkumný pracovník zná počet mužů a žen ve všech 50 státech; můžeme tyto velikosti skupiny označit jako . Pro kombinaci těchto pomocných informací se vzorkem může badatel rozdělit vzorek na skupiny (v tomto případě 100), provést odhad pro každou skupinu a pak vytvořit vážený průměr těchto skupin:
Zhruba odhad v ekv. 3.5 je pravděpodobné, že bude přesnější, protože používá známou informaci o populaci - - k opravě odhadů, pokud se zvolí nevyvážený vzorek. Jedním ze způsobů, jak přemýšlet o tom, je, že post-stratifikace je jako přiblížení stratifikace poté, co byla data již shromážděna.
Závěrem jsme v této části popsali několik návrhů vzorků: jednoduché náhodné vzorky bez výměny, vzorkování s nerovnou pravděpodobností a stratifikované vzorkování. Také popsal dvě hlavní myšlenky o odhadu: odhad Horvitz-Thompson a post stratifikace. Pro formálnější definici návrhů pravděpodobnosti vzorkování viz kapitola 2 Särndal, Swensson, and Wretman (2003) . Pro formálnější a úplnější léčbu stratifikovaného vzorkování viz část 3.7 Särndal, Swensson, and Wretman (2003) . Pro technický popis vlastností odhadovače Horvitze-Thompsona viz Horvitz and Thompson (1952) , Overton and Stehman (1995) nebo sekci 2.8 @ sarndal_model_2003. Pro více formální zacházení s post stratifikací viz Holt and Smith (1979) , Smith (1991) , Little (1993) nebo oddíl 7.6 Särndal, Swensson, and Wretman (2003) .
Pravděpodobnostní vzorkování bez odezvy
Téměř všechny skutečné průzkumy mají neodpovědnost; to znamená, že ne každý ze vzorové populace odpovídá na každou otázku. Existují dva hlavní typy odezvy nonresponse: item nonresponse a unit nonresponse . V položce nonresponse někteří respondenti neodpovídají na některé položky (např. Někdy respondenti nechtějí odpovídat na otázky, které považují za citlivé). V jednotce nonresponse, někteří lidé, kteří jsou vybráni pro populaci vzorku vůbec nereagují na průzkum. Dvěma nejčastějšími důvody, proč jednotka neodpovídá, je to, že osoba, která byla vzorkována, nemůže být kontaktována a je kontaktována osoba, která je vzorkována, ale odmítá účast. V této části se zaměřím na jednotku neodpovědi; čtenáři, kteří mají zájem o položku nonresponse, by měli vidět Little a Rubin (2002) .
Výzkumníci často přemýšlejí o průzkumech s jednotkovou neodpovědí jako o dvoustupňovém procesu odběru vzorků. V první fázi výzkumník vybírá vzorek tak, že každá osoba má pravděpodobnost zařazení (kde ). Potom ve druhé fázi lidé, kteří jsou vybráni do vzorku, reagují s pravděpodobností (kde ). Tento dvoustupňový proces vede k závěrečnému souboru respondentů . Důležitým rozdílem mezi těmito dvěma fázemi je to, že výzkumníci kontrolují proces výběru vzorku, avšak neovlivňují, kteří z těch vzorkovaných lidí se stanou respondenty. Při sestavování těchto dvou procesů je pravděpodobné, že někdo bude respondentem
Pro zjednodušení se budu zabývat případem, kdy původní návrh vzorku je jednoduchý náhodný vzorkování bez náhrady. Pokud výzkumník vybere vzorek velikosti který dává respondentům , a pokud výzkumník ignoruje neodpovědi a použije průměr respondentů, pak bude předpojatost odhadu:
kde je populační korelace mezi sklonem odpovědi a výsledkem (např. stav nezaměstnanosti), je obyčejná standardní odchylka výsledku ), je populační směrodatná odchylka sklonu odezvy a je průměrná tendence obyvatelstva (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Ekv. 3.7 ukazuje, že neodpovědnost nezavádí zaujatost, pokud je splněna některá z následujících podmínek:
Bohužel se žádná z těchto podmínek nezdá pravděpodobné. Zdá se být nepravděpodobné, že v zaměstnaneckém poměru nedojde k žádné změně nebo že se nezmění náchylnost k reakci. Tedy klíčový termín v ekv. 3.7 je korelace: . Například, pokud jsou lidé, kteří nezaměstnaní reagují více, odhadovaná míra zaměstnanosti bude směrována směrem vzhůru.
Trik k odhadu odhadů, pokud neexistuje odpověď, je použití pomocných informací. Například jedním ze způsobů, jak můžete použít pomocné informace, je post stratifikace (vyvolání rovnice 3.5 výše). Ukazuje se, že zkreslení post-stratifikačního odhadu je:
kde , , , a jsou definovány výše, ale jsou omezeny na skupiny ve skupině (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Celková odchylka bude tedy malá, pokud je předsudek v každé post stratifikační skupině malý. Existují dva způsoby, které mám rád přemýšlet o tom, jak se malá předsudek uvést do každé post-stratifikační skupiny. Nejprve se pokusíte vytvořit homogenní skupiny, kde existuje malá variace ve skloně odpovědi ( ) a výsledek ( ). Za druhé, chcete vytvořit skupiny, ve kterých lidé, které vidíte, jsou jako lidé, které nevidíte ( ). Porovnání rovnic. 3,7 a ekv. 3.8 pomáhá objasnit, kdy post-stratifikace může snížit zkreslení způsobenou neodpovídáním.
Závěrem tato část poskytla model pro vzorkování pravděpodobnosti s neodpovědnou odpovědí a ukázala předpojatost, kterou může nonresponse zavádět jak bez, tak s post stratifikačními úpravami. Bethlehem (1988) nabízí odvození zaujatosti způsobené nonresponse pro obecnější vzorkování vzory. Další informace o použití post-stratifikace pro úpravu pro neodpovědnost viz Smith (1991) a Gelman and Carlin (2002) . Post-stratifikace je součástí obecnější řady technik nazývaných kalibrační odhady, viz Zhang (2000) pro léčbu délky článku a Särndal and Lundström (2005) pro léčbu v knižní formě. Další informace o dalších váhových metodách pro úpravu pro Särndal and Lundström (2005) viz Kalton and Flores-Cervantes (2003) , Brick (2013) a Särndal and Lundström (2005) .
Odběr vzorků bez pravděpodobnosti
Neobvyklé vzorkování zahrnuje obrovskou škálu návrhů (Baker et al. 2013) . Zaměříme-li se konkrétně na vzorek uživatelů Xboxu Wangem a kolegy (W. Wang et al. 2015) , můžete uvažovat o tomto vzorku jako o vzorku, kde klíčovou částí vzorkování není ( pravděpodobnost zahrnutí výzkumného pracovníka), ale (reakce respondentů na reakcích). Samozřejmě, toto není ideální, protože jsou neznámé. Ale jak ukázal Wang a kolegové, tento druh výběrového vzorku - dokonce i ze vzorkovacího rámce s obrovskou chybou pokrytí - nemusí být katastrofální, pokud má badatel dobré pomocné informace a dobrý statistický model, který tyto problémy řeší.
Bethlehem (2010) rozšiřuje mnoho z výše uvedených odvození o post stratifikaci tak, aby zahrnovalo jak chyby bez odezvy, tak pokrytí. Kromě po-vrstvení, jiné techniky pro práci s ne-pravděpodobnostních vzorků-a pravděpodobnostních vzorků s chybami pokrytí a neodpovědí-obsahovat párování vzorku (Ansolabehere and Rivers 2013; ??? ) , sklon skóre váhových (Lee 2006; Schonlau et al. 2009) a kalibrace (Lee and Valliant 2009) . Jedním společným tématem mezi těmito technikami je použití pomocných informací.