Ebben a függelékben néhány fejezet ötletét kissé matematikai formában ismertetem. A cél itt az, hogy megkönnyítse a felmérő kutatók által alkalmazott jelölést és matematikai kereteket, hogy átválthasson ezekre a témákra írt több technikai anyagra. Elindítom a valószínűségi mintavétel bevezetését, majd a valószínűség nélküli mintavételezésre nem válaszul, végül a nem valószínűségi mintavételezéssel.
Valószínűségi mintavétel
Folyó példaként nézzük meg a munkanélküliségi ráta Egyesült Államokban történő becslésének célját. Legyen U={1,…,k,…,N}U={1,…,k,…,N} a célpopuláció és hagyja ykyk a kk személy kimeneti változójának értékét. Ebben a példában ykyk az, hogy a személy kk munkanélküli-e. Végül, hagyjuk, hogy F={1,…,k,…,N}F={1,…,k,…,N} legyen a keretpopuláció, amely az egyszerűség kedvéért ugyanaz, mint a célpopuláció.
Az alapvető mintavételi terv egyszerű véletlenszerű mintavétel csere nélkül. Ebben az esetben mindegyik személy azonos valószínűséggel szerepel a s={1,…,i,…,n}s={1,…,i,…,n} mintában. Amikor az adatokat összegyűjtik ezzel a mintavételi tervvel, a kutatók becsülhetik a népességi munkanélküliségi ráta a minta átlagával:
ˆˉy=∑i∈syin(3.1)^¯y=∑i∈syin(3.1)
ahol ˉy¯y a munkanélküliségi ráta a népességben és ˆˉy^¯y a munkanélküliségi ráta becslése (a ^^ használt egy becslés jelzésére).
A valóságban a kutatók ritkán használnak egyszerű véletlenszerű mintavételt csere nélkül. Különböző okokból (amelyek közül az egyiket egy pillanat alatt leírni fogom), a kutatók gyakran olyan mintákat hoznak létre, amelyekben a beilleszkedés egyenlőtlen valószínűségei vannak. Például a kutatók választhatnak Floridában élő embereket, akik nagyobb valószínűséggel vesznek részt, mint a kaliforniaiak. Ebben az esetben a minta átlaga (3.1.) Esetleg nem jó becslés. Ehelyett, amikor a befogadás egyenlőtlen valószínűségei vannak, a kutatók használják
ˆˉy=1N∑i∈syiπi(3.2)^¯y=1N∑i∈syiπi(3.2)
ahol ˆˉy^¯y a munkanélküliségi ráta becslése és πiπi a személy ii valószínűsége a befogadásnak. A szokásos gyakorlat szerint a becslőt eq. 3.2 a Horvitz-Thompson becslõje. A Horvitz-Thompson becslõje rendkívül hasznos, mert minden lehetséges mintavételi tervhez (Horvitz and Thompson 1952) becslésekhez vezet. Mivel a Horvitz-Thompson becslése gyakran előfordul, hasznos lehet észrevenni, hogy újraírható
ˆˉy=1N∑i∈swiyi(3.3)^¯y=1N∑i∈swiyi(3.3)
ahol wi=1/πiwi=1/πi . Mint eq. A 3.3. Ábrán látható, a Horvitz-Thompson becslõje súlyozott mintaérték, ahol a súlyok fordítottan kapcsolódnak a szelekció valószínûségéhez. Más szóval, annál kevésbé valószínű, hogy egy személy bejön a minta közé, annál nagyobb súlyt kap az illető a becslésben.
Amint azt korábban leírtuk, a kutatók gyakran bevonják a befogadottság esélyeit. A beillesztés egyenlőtlen valószínûségéhez vezetõ tervezés egyik példája a rétegzett mintavétel , amely fontos megérteni, mert szorosan kapcsolódik a rétegzettség becslési eljárásához. A rétegzett mintavétel során a kutató a célpopulációt HH kölcsönösen kizáró és kimerítő csoportokra osztja. Ezeket a csoportokat rétegnek nevezzük, és U1,…,Uh,…,UHU1,…,Uh,…,UH . Ebben a példában a rétegek állapotok. A csoportok méretét N1,…,Nh,…,NHN1,…,Nh,…,NH . A kutató réteges mintavételezést igényelne annak érdekében, hogy minden államból elegendő ember legyen, hogy állampolgári szintű becsléseket készítsen a munkanélküliségről.
Miután a lakosságot rétegekre osztották fel, feltételezzék, hogy a kutató egy egyszerű véletlenszerű mintát választ ki a nhnh méret kicserélése nélkül, minden rétegtől függetlenül. Továbbá feltételezzük, hogy a mintában kiválasztott mindenki válaszadóvá válik (a következő szakaszban nem válaszolok). Ebben az esetben a befogadás valószínűsége
πi=nhNh for all i∈h(3.4)πi=nhNh for all i∈h(3.4)
Mivel ezek a valószínűségek személyenként változhatnak, a mintavételi terv becslésénél a kutatóknak a Horvitz-Thompson-becslõvel (3.2.) A befogadási valószínûségük inverzével kell súlyozniuk.
Annak ellenére, hogy a Horvitz-Thompson becslõje elfogulatlan, a kutatók pontosabb (azaz alacsonyabb variancia) becsléseket tudnak készíteni a minta segédadatokkal való kombinálásával. Néhányan meglepőnek tartják, hogy ez akkor is igaz, ha tökéletesen végrehajtott valószínűségi mintavétel van. Ezek a technikák a segédadatok felhasználásával különösen fontosak, mivel, amint később bemutatom, a kiegészítő információ kritikus ahhoz, hogy becsléseket készítsen a nem válaszfüggő valószínűségi mintákból és a nem valószínűségi mintákból.
A kiegészítő információk felhasználásának egyik közös módja a poszt-rétegződés . Képzeld el például, hogy egy kutató ismeri a férfiak és a nők számát az 50 állam mindegyikében; ezeket a csoportméreteket N1,N2,…,N100N1,N2,…,N100 . Ha ezt a kiegészítő információt kombináljuk a mintával, akkor a kutató a mintát HH csoportokra oszthatja (ebben az esetben 100), készítsen becslést minden csoportra, majd hozzon létre egy csoport súlyozott átlagát:
ˆˉypost=∑h∈HNhNˆˉyh(3.5)^¯ypost=∑h∈HNhN^¯yh(3.5)
Nagyjából, a becslõ eq. A 3.5 valószínűleg pontosabb, mivel az ismert populációs információkat - a NhNh - a becslések korrigálására használja, ha kiegyensúlyozatlan mintát választ ki. Az egyik mód arra gondolni, hogy a poszt-rétegződés olyan, mint a rétegződés közelítése az adatok összegyűjtése után.
Összefoglalva, ez a rész néhány mintavételi tervet ír le: egyszerű véletlenszerű mintavétel pótlások nélkül, mintavétel egyenlőtlen valószínűséggel és rétegzett mintavétel. A becsléssel kapcsolatban két fő gondolatot is leír: a Horvitz-Thompson-becslõ és a poszt-rétegzõdés. A valószínűségi mintavételi tervek formálisabb definícióját lásd a Särndal, Swensson, and Wretman (2003) 2. fejezetében. A rétegzett mintavétel formálisabb és teljes körű kezelését lásd a Särndal, Swensson, and Wretman (2003) 3.7. Särndal, Swensson, and Wretman (2003) . A Horvitz-Thompson Overton and Stehman (1995) tulajdonságainak technikai leírását lásd: Horvitz and Thompson (1952) , Overton and Stehman (1995) , vagy a @ sarndal_model_2003 2.8. A Särndal, Swensson, and Wretman (2003) formálisabb kezelésére lásd: Holt and Smith (1979) , Smith (1991) , Little (1993) , vagy a Särndal, Swensson, and Wretman (2003) 7.6.
Valószínűségi mintavétel nem választható
Majdnem minden valódi felmérésnek nincs felelőssége; azaz nem mindenki válaszol minden kérdésre. Két fő féle nem választható: nem választható elem és nem választható egység . A nem választható elemben egyes válaszadók nem válaszolnak bizonyos elemekre (pl. Néha a válaszadók nem akarnak olyan kérdésekre válaszolni, amelyeket érzékenynek találnak). A nem válaszadó egységben a mintapopulációra kiválasztott egyes emberek egyáltalán nem reagálnak a felmérésre. Az egységenkénti felelősség két leggyakoribb oka, hogy a mintában szereplő személyt nem lehet kapcsolatba lépni, és a minta személlyel kapcsolatba lépnek, de nem hajlandó részt venni. Ebben a szakaszban a nem válaszfájlra koncentrálok; Az elemek iránt érdeklődő olvasóknak lásd Little and Rubin (2002) .
A kutatók gyakran gondolkodnak a nem válaszreakcióval végzett felmérésekről, mint kétlépcsős mintavételi folyamat. Az első szakaszban a kutató kiválaszt egy ss mintát úgy, hogy mindegyik személynek valószínűsége van a πiπi beillesztésre (ahol 0<πi≤10<πi≤1 ). Ezután a második szakaszban a mintába kiválasztott emberek valószínűséggel válaszolnak ϕiϕi (ahol 0<ϕi≤10<ϕi≤1 ). Ez a kétlépcsős folyamat a válaszadók végső csoportját eredményezi rr . E két lépés között fontos különbség az, hogy a kutatók ellenőrzik a minta kiválasztásának folyamatát, de nem ellenőrzik, hogy melyik mintavételezett ember válik válaszadóvá. E két folyamat összevonása, annak valószínűsége, hogy valaki válaszadó lesz
pr(i∈r)=πiϕi(3.6)
Az egyszerűség kedvéért megfontolom azt az esetet, amikor az eredeti mintaterv egyszerű véletlenszerű mintavétel csere nélkül. Ha egy kutató kiválasztja a ns méretű mintát, amely nr válaszadókat hoz létre, és ha a kutató figyelmen kívül hagyja a válasz nem válaszolt, és a válaszadók átlagát használja, akkor a becslés bias értéke:
bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)
ahol cor(ϕ,y) a populációs korreláció a válaszigényesség és az eredmény között (pl. munkanélküliség), S(y) az eredmény népességi szórása (pl. állapot), S(ϕ) a populáció szórása a válasz hajlam, és ˉϕ a népesség átlagos válasz hajlamot (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. A 3.7. Ábra azt mutatja, hogy a nem válaszfájl nem vet fel az elfogultságot, ha az alábbi feltételek valamelyike teljesül:
Sajnálatos módon egyik ilyen feltétel sem tűnik valószínűnek. Valószínűtlennek tűnik, hogy a foglalkoztatási státuszban nem lesz változás, vagy nem fog változni a válaszadási hajlandóság. Így az eq. 3.7 a korreláció: cor(ϕ,y) . Például ha az emberek olyanok, akiknél a munkanélküliek nagyobb valószínűséggel reagálnak, akkor a becsült foglalkoztatási ráta felfelé torzul.
A trükk, hogy becsléseket készítsen, ha nincs válasz, a segédadatok használata. Például a segédadatok felhasználásának egyik módja az utólagos rétegződés (a fenti 3.5 feljegyzést felülről). Kiderül, hogy a poszt-rétegződés becslésének torzulása:
bias(ˆˉypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)
ahol cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , és ˉϕ(h) a fent meghatározott, de a h csoportba tartozó személyekre korlátozódik (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Így az átfogó torzítás kicsi lesz, ha az egyes rétegződés utáni csoportokban a torzítás kicsi. Kétféleképpen gondolhatok arra, hogy az előítéletek kicsiek legyenek az egyes rétegződés utáni csoportokban. Először meg kell próbálnunk olyan homogén csoportokat létrehozni, ahol kevés válaszváltozási válasz van ( S(ϕ)(h)≈0 ) és az eredmény ( S(y)(h)≈0 ). Másodszor olyan csoportokat akarsz létrehozni, ahol az emberek, akiket látsz, olyanok, mint azok, akiket nem látsz ( cor(ϕ,y)(h)≈0 ). Összehasonlítva az ekv. 3.7 és eq. A 3.8 segít tisztázni, hogy a poszt-rétegződés hogyan csökkentheti a nem válaszfájl okozta előítéleteket.
Összefoglalva, ez a szakasz modellt adott a nem válaszadású valószínûségi mintavételre, és bemutatta a nem felelõs válaszfüggvények bevezetését a rétegzettség nélküli módosítások nélkül és azokkal együtt. Bethlehem (1988) a nemresponse által okozott torzítás származtatását mutatja általánosabb mintavételi tervekhez. További tudnivalók a post-rétegzés alkalmazására a nem válaszadáshoz való alkalmazkodáshoz lásd Smith (1991) és Gelman and Carlin (2002) . A poszt-rétegződés egy általánosabb technikák családjába tartozik, amelyet kalibrációs becsléseknek neveznek. Lásd Zhang (2000) egy Särndal and Lundström (2005) kezelésre, valamint Särndal and Lundström (2005) könyvkötéses kezelésre. További tudnivalók a nonresponse módosítására szolgáló egyéb súlyozási módszerekről lásd Kalton and Flores-Cervantes (2003) , Brick (2013) és Särndal and Lundström (2005) .
Nem valószínűségi mintavétel
A nem valószínûségi mintavétel hatalmas tervezési változatot tartalmaz (Baker et al. 2013) . A Wang és munkatársai (W. Wang et al. 2015) esetében az Xbox felhasználók által használt mintákra összpontosítva, úgy gondolhatja az ilyen típusú mintát, ahol a mintavételi terv legfontosabb része nem πi ( a kutatók által vezérelt bekapcsolódási valószínűség), de a ϕi (válaszadó által vezérelt válasz-hajlam). Természetesen ez nem ideális, mert a ϕi ismeretlen. De ahogy Wang és munkatársai megmutatták, ez a fajta opt-in minta - akár egy hatalmas lefedettségi hiba esetén is - nem kell katasztrofálisnak lennie, ha a kutatónak jó kiegészítői és jó statisztikai modellje van ezeknek a problémáknak.
Bethlehem (2010) kiterjeszti a fenti rétegződés utáni származtatások közül sokat mind a nem válaszfüggő, mind a lefedettségi hibákra. A rétegzettségen túl a nem valószínûségi mintákkal való munkavégzés egyéb módszerei és a lefedettségi hibákkal és a nem válaszfüggvényekkel kapcsolatos (Ansolabehere and Rivers 2013; ??? ) között szerepel a mintapárosítás (Ansolabehere and Rivers 2013; ??? ) , a hajlékonysági pontszám súlyozása (Lee 2006; Schonlau et al. 2009) és a kalibráció (Lee and Valliant 2009) . E technikák egyik közös téma a segédadatok használata.