Tässä liitteessä kuvataan joitakin ideoita luvusta hiukan matemaattisemmassa muodossa. Tavoitteena on auttaa sinua tyydyttämään kyselyn tutkijoiden käyttämä notaatio ja matemaattinen kehys, jotta voit siirtyä muutamiin näihin aiheisiin kirjoitetuista teknisistä materiaaleista. Aloitan ottamalla käyttöön todennäköisyysnäytteenotto, siirry todennäköisyysnäytteenottoon vastattavaksi ja lopuksi ei-todennäköisyysnäytteeksi.
Todennäköisyysnäytteenotto
Esimerkiksi juoksevana esimerkkinä on otettava huomioon työttömyysasteen arvioiminen Yhdysvalloissa. Olkoon kohderyhmä \(U = \{1, \ldots, k, \ldots, N\}\) ja anna \(y_k\) henkilön \(k\) tulosmuuttujan arvosta. Tässä esimerkissä \(y_k\) on se, onko henkilö \(k\) työttömänä. Lopuksi, anna \(F = \{1, \ldots, k, \ldots, N\}\) olla kehysväestö, joka yksinkertaisuuden vuoksi oletetaan olevan sama kuin kohderyhmä.
Perusnäytteenottosuunnittelu on yksinkertainen satunnaisotanta ilman korvaamista. Tällöin jokainen henkilö on yhtä todennäköisesti mukana otoksessa \(s = \{1, \ldots, i, \ldots, n\}\) . Kun tiedot kerätään tällä näytteenottosuunnitelmalla, tutkijat voivat arvioida väestötietojen työttömyyden keskiarvon keskiarvolla:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
jossa \(\bar{y}\) on työttömyysaste väestössä ja \(\hat{\bar{y}}\) on työttömyysasteen arvio \(\hat{ }\) käytetään arvioimaan estimaattoria).
Todellisuudessa tutkijat harvoin käyttävät yksinkertaisia satunnaisotannoksia korvaamatta. Useista syistä (joista yksi kuvaan hetkessä) tutkijat luo usein näytteitä, joilla on epätasa-arvoisia mahdollisuuksia sisällyttää. Esimerkiksi tutkijat saattavat valita Floridassa asuvilta ihmisiltä suuremman todennäköisyyden osallisuutta kuin Kaliforniassa. Tällöin näytteen keskiarvo (eq. 3.1) ei ehkä ole hyvä estimaattori. Sen sijaan tutkijoiden käytössä on epätasa-arvoisia sisällyttämismahdollisuuksia
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
jossa \(\hat{\bar{y}}\) on työttömyysasteen arvio ja \(\pi_i\) on henkilön \(i\) todennäköisyys sisällyttämiseen. Vakiokäytännön mukaisesti kutsun arvioijan eq. 3.2 Horvitz-Thompson-arvioija. Horvitz-Thompson-estimaattori on äärimmäisen hyödyllinen, koska se johtaa puolueettomiin arvioihin mahdollisista todennäköisyysnäytteistä (Horvitz and Thompson 1952) . Koska Horvitz-Thompsonin arvioija tulee niin usein, on hyvä huomata, että sitä voidaan kirjoittaa uudelleen
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
missä \(w_i = 1 / \pi_i\) . Kuten eq. 3.3 paljastaa, Horvitz-Thompson-estimaattori on painotettu keskiarvo, jossa painot ovat kääntäen riippuvaisia valinnan todennäköisyydestä. Toisin sanoen sitä, mitä todennäköisempää henkilöä on otettu mukaan otokseen, sitä enemmän painoarvoa pitäisi saada arvioon.
Kuten aiemmin on kuvattu, tutkijat usein näyttävät ihmisiä, joilla on epätasa-arvoisia mahdollisuuksia sisällyttää. Yksi esimerkki mallista, joka voi johtaa epätasa-arvoisiin integroitumismahdollisuuksiin, on kerrostettu näytteenotto , joka on tärkeä ymmärtää, koska se liittyy läheisesti arviointimenetelmään, jota kutsutaan jälkipinnoitusmenetelmäksi . Kerrostuneessa näytteenotossa tutkija jakaa kohderyhmän \(H\) keskenään yksinomaiseen ja tyhjentävään ryhmään. Nämä ryhmät kutsutaan kerroksia ja on merkitty \(U_1, \ldots, U_h, \ldots, U_H\) . Tässä esimerkissä kerrokset ovat tiloja. Ryhmien koot on merkitty nimellä \(N_1, \ldots, N_h, \ldots, N_H\) . Tutkija saattaa haluta käyttää kerrostettua näytteenottoa varmistaakseen, että hänellä on tarpeeksi ihmisiä kussakin valtiossa tekemään valtiontason työttömyyden arvioita.
Kun väestö on jaettu kerroksiin , oletetaan, että tutkija valitsee yksinkertaisen satunnaisnäytteen korvaamatta kokoa \(n_h\) riippumatta jokaisesta kerroksesta. Oletetaan myös, että näytteessä valituista tulee vastaaja (käsitellään vastaamatta jättäminen seuraavassa jaksossa). Tällöin osallisuuden todennäköisyys on
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Koska nämä todennäköisyydet voivat vaihdella henkilöstä toiseen, arvioitaessa tätä näytteenottosuunnittelua tutkijoiden on painotettava jokaista vastaajaa invertoimalla todennäköisyytensä sisällyttämisestä Horvitz-Thompson-estimaattorin avulla (esim. 3.2).
Vaikka Horvitz-Thompson-arvioija on puolueeton, tutkijat voivat tuottaa tarkempia (ts. Pienempiä variansseja) arvioita yhdistämällä näyte lisätietoihin . Jotkut ihmiset pitävät yllättävänä, että tämä pätee myös silloin, kun on täysin toteutettu todennäköisyysnäytteenotto. Nämä tekniikat, jotka käyttävät ylimääräisiä tietoja, ovat erityisen tärkeitä, koska, kuten aiomme myöhemmin näyttää, ylimääräiset tiedot ovat kriittisiä estimaattien tekemiseksi todennäköisyysnäytteistä, joilla ei ole vastetta ja ei-todennäköisyysnäytteistä.
Yksi tavallinen apu-informaation hyödyntämismenetelmä on post-stratifikaatio . Kuvittele esimerkiksi, että tutkija tuntee miesten ja naisten määrän kaikissa 50 valtiossa; voimme merkitä nämä ryhmäkokoiset \(N_1, N_2, \ldots, N_{100}\) . Tämän lisätiedon yhdistämiseksi näytteeseen tutkija voi jakaa näytteen \(H\) ryhmiin (tässä tapauksessa 100), laatia arvio kunkin ryhmän kohdalla ja sitten luoda näiden ryhmien painotetun keskiarvon:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Noin, arvioija eq. 3.5 on todennäköisesti tarkempi, koska se käyttää tunnettuja väestötietoja - \(N_h\) - korjaa arviot, jos valitaan epätasapainoinen näyte. Yksi tapa ajatella sitä on, että jälkikartoitus on kuin kerrottu stratifiointiin sen jälkeen, kun tiedot on kerätty.
Lopuksi tässä osassa on kuvattu muutamia näytteenottomalleja: yksinkertainen satunnaisotanta ilman korvaavia aineita, näytteenotto epätasaisella todennäköisyydellä ja kerrostettu näytteenotto. Se on myös kuvannut kahta tärkeintä arvioinnin käsitystä: Horvitz-Thompson-arvioija ja post-stratifiointi. Todennäköisyystodennemallien muodollisempi määritelmä on Särndal, Swensson, and Wretman (2003) luvussa 2. Jotta Särndal, Swensson, and Wretman (2003) näytteenotto voitaisiin muodollisesti ja täydellisemmin käsitellä, katso Särndal, Swensson, and Wretman (2003) . Horvitz-Thompson-estimaattorin ominaisuuksien teknisestä kuvauksesta katso Horvitz and Thompson (1952) , Overton and Stehman (1995) tai sarja sarndal_model2003 kohdassa 2.8. Jälkikirjoituksen muodollisempaa käsittelyä varten on esitetty Holt and Smith (1979) , Smith (1991) , Little (1993) tai Särndal, Swensson, and Wretman (2003) .
Todennäköisyysnäytteenotto ilman vastinetta
Lähes kaikilla todellisilla tutkimuksilla ei ole vastausta; eli kaikki näytteen väestö ei vastaa kaikkiin kysymyksiin. On olemassa kaksi pääasiallista vastinetta: erä ei-vastine ja yksikkö vastuuton . Eräässä vastineessa jotkut vastaajat eivät vastaa tiettyihin osiin (esim. Joskus vastaajat eivät halua vastata kysymyksiin, jotka he pitävät arkaluonteisina). Yksikön vastuutonta, jotkut näytteen väestölle valitut ihmiset eivät vastaa kyselyyn ollenkaan. Yksikön vastuuton kaksi yleisintä syytä ovat se, että otokseen valittua henkilöä ei voida ottaa yhteyttä ja näytehenkilö otettaisiin yhteyttä, mutta hän kieltäytyy osallistumasta. Tässä osiossa keskityn yksikön vastuuseen; lukijoille, jotka ovat kiinnostuneita kohteen vastuutuksesta, pitäisi nähdä Little and Rubin (2002) .
Tutkijat ajattelevat usein tutkimuksia, joissa yksiköt eivät reagoi kaksivaiheiseksi näytteenottoprosessiksi. Ensimmäisessä vaiheessa tutkija valitsee esimerkin \(s\) siten, että jokaisella henkilöllä on todennäköisyys inkluusiolle \(\pi_i\) (jossa \(0 < \pi_i \leq 1\) ). Sitten toisessa vaiheessa näytteeseen valitut ihmiset reagoivat todennäköisyydellä \(\phi_i\) (missä \(0 < \phi_i \leq 1\) ). Tämä kaksivaiheinen prosessi johtaa lopulliseen joukkoon vastaajia \(r\) . Näiden kahden vaiheen välillä on tärkeä ero, että tutkijat hallitsevat näytteen valintamenettelyä, mutta he eivät valvo, mitkä näistä näytteistetyistä ihmisistä tulevat vastaajiksi. Näiden kahden prosessin tekeminen yhdessä, todennäköisyys, että joku on vastaaja, on
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Yksinkertaisuuden vuoksi tarkastelen tapausta, jossa alkuperäinen otos on yksinkertainen satunnaisotanta ilman korvaamista. Jos tutkija valitsee \(n_s\) näytteen, joka tuottaa \(n_r\) vastaajia ja jos tutkija jättää vastaamatta ja käyttää vastaajien keskiarvoa, arvioinnin esijännite on:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
jossa \(cor(\phi, y)\) on väestökorrelaatio vastausprojektin ja tuloksen välillä (esim. työttömyysaste), \(S(y)\) on tuloksen väestön keskihajonta (esim. \(S(\phi)\) on väestön standardipoikkeama vastausprojektissa, ja \(\bar{\phi}\) on väestön keskimääräinen vastauskyky (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 osoittaa, että vastuu ei esitä puolueellisuutta, jos jokin seuraavista ehdoista täyttyy:
Valitettavasti mikään näistä ehdoista ei näytä todennäköiseltä. Vaikuttaa epätodennäköiseltä, että työllisyystilanteessa ei tapahdu vaihtelua tai että vastatoimattomuus ei muutu. Täten avainkäsite eq. 3.7 on korrelaatio: \(cor(\phi, y)\) . Esimerkiksi jos työttömät ovat todennäköisemmin vastaamassa, arvioitu työllisyysaste supistuu ylöspäin.
Haastetta arvioiden tekemiseen, kun vastuu ei ole, on käyttää aputoimintoja. Esimerkiksi yksi tapa, jolla voit käyttää aputoimintoja, on jälkikartoitus (muistutus edellä 3.5). Tuloksena on, että poststratifioinnin estimaatin bias on:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
jossa \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , ja \(\bar{\phi}^{(h)}\) on määritelty edellä, mutta rajoitettu ihmisiin ryhmässä \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Tällöin yleinen esijännitys on pieni, jos jokaisen jälkikartoitusryhmän bias on pieni. Minulla on kaksi tapaa, joista haluan miettiä, että bias pieni on kussakin post-stratification-ryhmässä. Ensinnäkin yrität muodostaa homogeenisia ryhmiä, joissa vastauspotentiaali vaihtelee ( \(S(\phi)^{(h)} \approx 0\) ) ja tulos ( \(S(y)^{(h)} \approx 0\) ). Toiseksi, haluat muodostaa ryhmiä, joissa ihmiset, joita näet, ovat kuin ihmisiä, joita et näe ( \(cor(\phi, y)^{(h)} \approx 0\) ). Vertaa eq. 3,7 ja eq. 3.8 auttaa selventämään, milloin jälkikäsittely voi vähentää vastaamattomuudesta johtuvaa puolueellisuutta.
Yhteenvetona voidaan todeta, että tämä osio on toimittanut mallin todennäköisyysnäytteenotolle, jolla ei ole vastausta, ja osoittanut, että vastus voidaan ottaa käyttöön ilman ja ilman jälkikartoituksen säätöjä. Bethlehem (1988) tarjoaa johdannaisen, joka aiheutuu vastarinnasta, joka aiheutuu yleisemmistä näytteenottomuodoista. Lisätietoja post-stratifioinnin käyttämisestä säätelemättä vastaamattomuudesta on Smith (1991) ja Gelman and Carlin (2002) . Post-stratifiointi on osa yleisempiä tekniikoita, joita kutsutaan kalibrointiestimaattoreiksi, ks. Zhang (2000) artikkelipituisesta käsittelystä ja Särndal and Lundström (2005) kirjojen pituudelle. Lisätietoja muille painotusmenetelmille vastinettavasta muutoksesta on Kalton and Flores-Cervantes (2003) , Brick (2013) ja Särndal and Lundström (2005) .
Ei-todennäköisyysnäytteenotto
Ei-todennäköisyysnäytteisiin kuuluu valtava valikoima malleja (Baker et al. 2013) . Wangin ja työtovereiden (W. Wang et al. 2015) näytteestä Xbox-käyttäjiin keskittyen voit ajatella tällaista näytettä sellaisena, jossa näytteenottosuunnittelun keskeinen osa ei ole \(\pi_i\) ( tutkijalla ajettava todennäköisyys osallisuudelle), mutta \(\phi_i\) (vastaajan ohjaama vaste- \(\phi_i\) ). Luonnollisesti tämä ei ole ihanteellinen, koska \(\phi_i\) ei ole tiedossa. Mutta kuten Wang ja kollegat osoittivat, tällainen opt-in-näyte - jopa näytteenottokehyksessä, jolla on valtava kattavuusvirhe - ei tarvitse olla katastrofaalinen, jos tutkijalla on hyvät lisätiedot ja hyvä tilastollinen malli näiden ongelmien ratkaisemiseksi.
Bethlehem (2010) laajentaa monia edellä mainittuja johdannaisia post-stratifikaatiosta sisältämään sekä vastuutonta että kattavuusvirheitä. Post-stratifikaation lisäksi muita menetelmiä ei-todennäköisyysnäytteiden käsittelyyn ja todennäköisyysnäytteisiin, joissa on kattavuusvirheitä ja vastustamattomia, ovat esimerkkien (Ansolabehere and Rivers 2013; ??? ) , (Lee 2006; Schonlau et al. 2009) score -painotus (Lee 2006; Schonlau et al. 2009) ja kalibrointi (Lee and Valliant 2009) . Näiden tekniikoiden yhteinen teema on aputoiminnon käyttö.