Ebben a függelékben néhány fejezet ötletét kissé matematikai formában ismertetem. A cél itt az, hogy megkönnyítse a felmérő kutatók által alkalmazott jelölést és matematikai kereteket, hogy átválthasson ezekre a témákra írt több technikai anyagra. Elindítom a valószínűségi mintavétel bevezetését, majd a valószínűség nélküli mintavételezésre nem válaszul, végül a nem valószínűségi mintavételezéssel.
Valószínűségi mintavétel
Folyó példaként nézzük meg a munkanélküliségi ráta Egyesült Államokban történő becslésének célját. Legyen \(U = \{1, \ldots, k, \ldots, N\}\) a célpopuláció és hagyja \(y_k\) a \(k\) személy kimeneti változójának értékét. Ebben a példában \(y_k\) az, hogy a személy \(k\) munkanélküli-e. Végül, hagyjuk, hogy \(F = \{1, \ldots, k, \ldots, N\}\) legyen a keretpopuláció, amely az egyszerűség kedvéért ugyanaz, mint a célpopuláció.
Az alapvető mintavételi terv egyszerű véletlenszerű mintavétel csere nélkül. Ebben az esetben mindegyik személy azonos valószínűséggel szerepel a \(s = \{1, \ldots, i, \ldots, n\}\) mintában. Amikor az adatokat összegyűjtik ezzel a mintavételi tervvel, a kutatók becsülhetik a népességi munkanélküliségi ráta a minta átlagával:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
ahol \(\bar{y}\) a munkanélküliségi ráta a népességben és \(\hat{\bar{y}}\) a munkanélküliségi ráta becslése (a \(\hat{ }\) használt egy becslés jelzésére).
A valóságban a kutatók ritkán használnak egyszerű véletlenszerű mintavételt csere nélkül. Különböző okokból (amelyek közül az egyiket egy pillanat alatt leírni fogom), a kutatók gyakran olyan mintákat hoznak létre, amelyekben a beilleszkedés egyenlőtlen valószínűségei vannak. Például a kutatók választhatnak Floridában élő embereket, akik nagyobb valószínűséggel vesznek részt, mint a kaliforniaiak. Ebben az esetben a minta átlaga (3.1.) Esetleg nem jó becslés. Ehelyett, amikor a befogadás egyenlőtlen valószínűségei vannak, a kutatók használják
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
ahol \(\hat{\bar{y}}\) a munkanélküliségi ráta becslése és \(\pi_i\) a személy \(i\) valószínűsége a befogadásnak. A szokásos gyakorlat szerint a becslőt eq. 3.2 a Horvitz-Thompson becslõje. A Horvitz-Thompson becslõje rendkívül hasznos, mert minden lehetséges mintavételi tervhez (Horvitz and Thompson 1952) becslésekhez vezet. Mivel a Horvitz-Thompson becslése gyakran előfordul, hasznos lehet észrevenni, hogy újraírható
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
ahol \(w_i = 1 / \pi_i\) . Mint eq. A 3.3. Ábrán látható, a Horvitz-Thompson becslõje súlyozott mintaérték, ahol a súlyok fordítottan kapcsolódnak a szelekció valószínûségéhez. Más szóval, annál kevésbé valószínű, hogy egy személy bejön a minta közé, annál nagyobb súlyt kap az illető a becslésben.
Amint azt korábban leírtuk, a kutatók gyakran bevonják a befogadottság esélyeit. A beillesztés egyenlőtlen valószínûségéhez vezetõ tervezés egyik példája a rétegzett mintavétel , amely fontos megérteni, mert szorosan kapcsolódik a rétegzettség becslési eljárásához. A rétegzett mintavétel során a kutató a célpopulációt \(H\) kölcsönösen kizáró és kimerítő csoportokra osztja. Ezeket a csoportokat rétegnek nevezzük, és \(U_1, \ldots, U_h, \ldots, U_H\) . Ebben a példában a rétegek állapotok. A csoportok méretét \(N_1, \ldots, N_h, \ldots, N_H\) . A kutató réteges mintavételezést igényelne annak érdekében, hogy minden államból elegendő ember legyen, hogy állampolgári szintű becsléseket készítsen a munkanélküliségről.
Miután a lakosságot rétegekre osztották fel, feltételezzék, hogy a kutató egy egyszerű véletlenszerű mintát választ ki a \(n_h\) méret kicserélése nélkül, minden rétegtől függetlenül. Továbbá feltételezzük, hogy a mintában kiválasztott mindenki válaszadóvá válik (a következő szakaszban nem válaszolok). Ebben az esetben a befogadás valószínűsége
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Mivel ezek a valószínűségek személyenként változhatnak, a mintavételi terv becslésénél a kutatóknak a Horvitz-Thompson-becslõvel (3.2.) A befogadási valószínûségük inverzével kell súlyozniuk.
Annak ellenére, hogy a Horvitz-Thompson becslõje elfogulatlan, a kutatók pontosabb (azaz alacsonyabb variancia) becsléseket tudnak készíteni a minta segédadatokkal való kombinálásával. Néhányan meglepőnek tartják, hogy ez akkor is igaz, ha tökéletesen végrehajtott valószínűségi mintavétel van. Ezek a technikák a segédadatok felhasználásával különösen fontosak, mivel, amint később bemutatom, a kiegészítő információ kritikus ahhoz, hogy becsléseket készítsen a nem válaszfüggő valószínűségi mintákból és a nem valószínűségi mintákból.
A kiegészítő információk felhasználásának egyik közös módja a poszt-rétegződés . Képzeld el például, hogy egy kutató ismeri a férfiak és a nők számát az 50 állam mindegyikében; ezeket a csoportméreteket \(N_1, N_2, \ldots, N_{100}\) . Ha ezt a kiegészítő információt kombináljuk a mintával, akkor a kutató a mintát \(H\) csoportokra oszthatja (ebben az esetben 100), készítsen becslést minden csoportra, majd hozzon létre egy csoport súlyozott átlagát:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Nagyjából, a becslõ eq. A 3.5 valószínűleg pontosabb, mivel az ismert populációs információkat - a \(N_h\) - a becslések korrigálására használja, ha kiegyensúlyozatlan mintát választ ki. Az egyik mód arra gondolni, hogy a poszt-rétegződés olyan, mint a rétegződés közelítése az adatok összegyűjtése után.
Összefoglalva, ez a rész néhány mintavételi tervet ír le: egyszerű véletlenszerű mintavétel pótlások nélkül, mintavétel egyenlőtlen valószínűséggel és rétegzett mintavétel. A becsléssel kapcsolatban két fő gondolatot is leír: a Horvitz-Thompson-becslõ és a poszt-rétegzõdés. A valószínűségi mintavételi tervek formálisabb definícióját lásd a Särndal, Swensson, and Wretman (2003) 2. fejezetében. A rétegzett mintavétel formálisabb és teljes körű kezelését lásd a Särndal, Swensson, and Wretman (2003) 3.7. Särndal, Swensson, and Wretman (2003) . A Horvitz-Thompson Overton and Stehman (1995) tulajdonságainak technikai leírását lásd: Horvitz and Thompson (1952) , Overton and Stehman (1995) , vagy a @ sarndal_model_2003 2.8. A Särndal, Swensson, and Wretman (2003) formálisabb kezelésére lásd: Holt and Smith (1979) , Smith (1991) , Little (1993) , vagy a Särndal, Swensson, and Wretman (2003) 7.6.
Valószínűségi mintavétel nem választható
Majdnem minden valódi felmérésnek nincs felelőssége; azaz nem mindenki válaszol minden kérdésre. Két fő féle nem választható: nem választható elem és nem választható egység . A nem választható elemben egyes válaszadók nem válaszolnak bizonyos elemekre (pl. Néha a válaszadók nem akarnak olyan kérdésekre válaszolni, amelyeket érzékenynek találnak). A nem válaszadó egységben a mintapopulációra kiválasztott egyes emberek egyáltalán nem reagálnak a felmérésre. Az egységenkénti felelősség két leggyakoribb oka, hogy a mintában szereplő személyt nem lehet kapcsolatba lépni, és a minta személlyel kapcsolatba lépnek, de nem hajlandó részt venni. Ebben a szakaszban a nem válaszfájlra koncentrálok; Az elemek iránt érdeklődő olvasóknak lásd Little and Rubin (2002) .
A kutatók gyakran gondolkodnak a nem válaszreakcióval végzett felmérésekről, mint kétlépcsős mintavételi folyamat. Az első szakaszban a kutató kiválaszt egy \(s\) mintát úgy, hogy mindegyik személynek valószínűsége van a \(\pi_i\) beillesztésre (ahol \(0 < \pi_i \leq 1\) ). Ezután a második szakaszban a mintába kiválasztott emberek valószínűséggel válaszolnak \(\phi_i\) (ahol \(0 < \phi_i \leq 1\) ). Ez a kétlépcsős folyamat a válaszadók végső csoportját eredményezi \(r\) . E két lépés között fontos különbség az, hogy a kutatók ellenőrzik a minta kiválasztásának folyamatát, de nem ellenőrzik, hogy melyik mintavételezett ember válik válaszadóvá. E két folyamat összevonása, annak valószínűsége, hogy valaki válaszadó lesz
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Az egyszerűség kedvéért megfontolom azt az esetet, amikor az eredeti mintaterv egyszerű véletlenszerű mintavétel csere nélkül. Ha egy kutató kiválasztja a \(n_s\) méretű mintát, amely \(n_r\) válaszadókat hoz létre, és ha a kutató figyelmen kívül hagyja a válasz nem válaszolt, és a válaszadók átlagát használja, akkor a becslés bias értéke:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
ahol \(cor(\phi, y)\) a populációs korreláció a válaszigényesség és az eredmény között (pl. munkanélküliség), \(S(y)\) az eredmény népességi szórása (pl. állapot), \(S(\phi)\) a populáció szórása a válasz hajlam, és \(\bar{\phi}\) a népesség átlagos válasz hajlamot (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. A 3.7. Ábra azt mutatja, hogy a nem válaszfájl nem vet fel az elfogultságot, ha az alábbi feltételek valamelyike teljesül:
Sajnálatos módon egyik ilyen feltétel sem tűnik valószínűnek. Valószínűtlennek tűnik, hogy a foglalkoztatási státuszban nem lesz változás, vagy nem fog változni a válaszadási hajlandóság. Így az eq. 3.7 a korreláció: \(cor(\phi, y)\) . Például ha az emberek olyanok, akiknél a munkanélküliek nagyobb valószínűséggel reagálnak, akkor a becsült foglalkoztatási ráta felfelé torzul.
A trükk, hogy becsléseket készítsen, ha nincs válasz, a segédadatok használata. Például a segédadatok felhasználásának egyik módja az utólagos rétegződés (a fenti 3.5 feljegyzést felülről). Kiderül, hogy a poszt-rétegződés becslésének torzulása:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
ahol \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , és \(\bar{\phi}^{(h)}\) a fent meghatározott, de a \(h\) csoportba tartozó személyekre korlátozódik (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Így az átfogó torzítás kicsi lesz, ha az egyes rétegződés utáni csoportokban a torzítás kicsi. Kétféleképpen gondolhatok arra, hogy az előítéletek kicsiek legyenek az egyes rétegződés utáni csoportokban. Először meg kell próbálnunk olyan homogén csoportokat létrehozni, ahol kevés válaszváltozási válasz van ( \(S(\phi)^{(h)} \approx 0\) ) és az eredmény ( \(S(y)^{(h)} \approx 0\) ). Másodszor olyan csoportokat akarsz létrehozni, ahol az emberek, akiket látsz, olyanok, mint azok, akiket nem látsz ( \(cor(\phi, y)^{(h)} \approx 0\) ). Összehasonlítva az ekv. 3.7 és eq. A 3.8 segít tisztázni, hogy a poszt-rétegződés hogyan csökkentheti a nem válaszfájl okozta előítéleteket.
Összefoglalva, ez a szakasz modellt adott a nem válaszadású valószínûségi mintavételre, és bemutatta a nem felelõs válaszfüggvények bevezetését a rétegzettség nélküli módosítások nélkül és azokkal együtt. Bethlehem (1988) a nemresponse által okozott torzítás származtatását mutatja általánosabb mintavételi tervekhez. További tudnivalók a post-rétegzés alkalmazására a nem válaszadáshoz való alkalmazkodáshoz lásd Smith (1991) és Gelman and Carlin (2002) . A poszt-rétegződés egy általánosabb technikák családjába tartozik, amelyet kalibrációs becsléseknek neveznek. Lásd Zhang (2000) egy Särndal and Lundström (2005) kezelésre, valamint Särndal and Lundström (2005) könyvkötéses kezelésre. További tudnivalók a nonresponse módosítására szolgáló egyéb súlyozási módszerekről lásd Kalton and Flores-Cervantes (2003) , Brick (2013) és Särndal and Lundström (2005) .
Nem valószínűségi mintavétel
A nem valószínûségi mintavétel hatalmas tervezési változatot tartalmaz (Baker et al. 2013) . A Wang és munkatársai (W. Wang et al. 2015) esetében az Xbox felhasználók által használt mintákra összpontosítva, úgy gondolhatja az ilyen típusú mintát, ahol a mintavételi terv legfontosabb része nem \(\pi_i\) ( a kutatók által vezérelt bekapcsolódási valószínűség), de a \(\phi_i\) (válaszadó által vezérelt válasz-hajlam). Természetesen ez nem ideális, mert a \(\phi_i\) ismeretlen. De ahogy Wang és munkatársai megmutatták, ez a fajta opt-in minta - akár egy hatalmas lefedettségi hiba esetén is - nem kell katasztrofálisnak lennie, ha a kutatónak jó kiegészítői és jó statisztikai modellje van ezeknek a problémáknak.
Bethlehem (2010) kiterjeszti a fenti rétegződés utáni származtatások közül sokat mind a nem válaszfüggő, mind a lefedettségi hibákra. A rétegzettségen túl a nem valószínûségi mintákkal való munkavégzés egyéb módszerei és a lefedettségi hibákkal és a nem válaszfüggvényekkel kapcsolatos (Ansolabehere and Rivers 2013; ??? ) között szerepel a mintapárosítás (Ansolabehere and Rivers 2013; ??? ) , a hajlékonysági pontszám súlyozása (Lee 2006; Schonlau et al. 2009) és a kalibráció (Lee and Valliant 2009) . E technikák egyik közös téma a segédadatok használata.