Dina lampiran ieu, kuring baris nerangkeun sababaraha gagasan tina bab dina formulir rada leuwih matematik. Tujuanana dieu nyaeta pikeun mantuan anjeun meunang teu nyaman jeung notasi sarta kerangka matematik dipaké ku panalungtik survey ku kituna anjeun bisa transisi ka sababaraha bahan leuwih teknis ditulis dina jejer ieu. Kuring bakal ngamimitian ku ngawanohkeun probability sampling, teras ngalih ka probability sampling jeung nonresponse, sarta tungtungna, non-probability sampling.
probabilitas sampling
Salaku conto ngajalankeun, hayu urang nganggap tujuan estimasi tingkat pangangguran di Amérika Serikat. Hayu \(U = \{1, \ldots, k, \ldots, N\}\) jadi populasi sasaran sarta ngantep \(y_k\) ku nilai variabel hasilna keur jalma nu \(k\) . Dina conto ieu \(y_k\) nyaeta naha jalma \(k\) nyaéta pangangguran. Tungtungna, hayu \(F = \{1, \ldots, k, \ldots, N\}\) jadi populasi pigura nu demi kesederhanaan dianggap janten sarua populasi sasaran.
A rarancang dasar sampling nyaeta basajan sampling acak tanpa ngagantian. Dina hal ieu, unggal jalma geus sarua gampang jadi kaasup kana sampel \(s = \{1, \ldots, i, \ldots, n\}\) . Lamun data dikumpulkeun kalawan desain sampling ieu mangrupa peneliti tiasa estimasi tingkat pangangguran populasi mibanda mean sampel:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
dimana \(\bar{y}\) nyaeta tingkat pangangguran di populasi jeung \(\hat{\bar{y}}\) nyaeta estimasi tina tingkat pangangguran (nu \(\hat{ }\) ilaharna dipaké pikeun nandaan estimator).
Dina kanyataanana, peneliti jarang ngagunakeun basajan random sampling tanpa ngagantian. Pikeun rupa-rupa alesan (salah sahiji nu abdi gé ngajelaskeun dina masihan), peneliti mindeng nyieun sampel jeung probabiliti unequal tina citakan. Contona, peneliti bisa milih jalma di Florida ku probability luhur citakan ti jalma di California. Dina hal ieu, sampel mean (EQ. 3.1) bisa henteu janten estimator alus. Gantina, nalika aya probabiliti unequal tina citakan, peneliti nganggo
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
dimana \(\hat{\bar{y}}\) nyaeta estimasi tina tingkat pangangguran sarta \(\pi_i\) nyaeta jalma \(i\) 's probabiliti citakan. Handap prakték baku, kuring gé nelepon estimator di EQ. 3.2 estimator Horvitz-Thompson. The Horvitz-Thompson estimator pisan mangpaat sabab ngabalukarkeun perkiraan unbiased pikeun sagala rarancang probability sampling (Horvitz and Thompson 1952) . Kusabab estimator Horvitz-Thompson asalna nepi jadi remen, éta mantuan mun aya bewara yen eta bisa ulang tulisan saperti
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
dimana \(w_i = 1 / \pi_i\) . Salaku EQ. 3.3 mangka, estimator Horvitz-Thompson nyaeta sampel rata hartosna tempat nu beurat téh tibalik patali kamungkinan Pilihan. Kalayan kecap séjén, dina kurang kamungkinan jalma anu geus bisa kaasup kana sampel, beuki beurat nu baé kedah meunang di estimasi nu.
Sakumaha nu ditétélakeun saméméhna, peneliti mindeng sampel jalma kalawan probabiliti unequal tina citakan. Salasahiji conto desain anu bisa ngabalukarkeun probabiliti unequal tina citakan anu ngabedakeun lapisan sampel, nu penting ngartos sabab ieu raket patalina jeung prosedur estimasi disebut pos-stratifikasi. Dina sampling ku cara ngabedakeun lapisan, panalungtik a splits populasi sasaran kana \(H\) grup saling ekslusif jeung tuntas. Grup ieu disebut strata na anu dituduhkeun salaku \(U_1, \ldots, U_h, \ldots, U_H\) . Dina conto ieu, strata nu nyebutkeun. The ukuran sahiji gorombolan anu dituduhkeun salaku \(N_1, \ldots, N_h, \ldots, N_H\) . A panalungtik bisa hoyong nganggo ngabedakeun lapisan sampel guna mastikeun yén Aisyah boga cukup jalma dina unggal kaayaan sangkan perkiraan kaayaan-tingkat pangangguran.
Sakali populasi geus dibeulah nepi ka strata, nganggap yén panalungtik milih sampel acak basajan tanpa ngagantian tina ukuran \(n_h\) , sacara mandiri ti unggal strata. Salajengna, nganggap yén dulur dipilih dina sampel janten réspondén a (I gé nanganan non-response di bagian hareup). Dina hal ieu, kamungkinan citakan nyaéta
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Kusabab probabiliti ieu bisa rupa-rupa ti jalma ka jalma, nalika nyieun estimasi tina rarancang sampling ieu, peneliti kudu beurat unggal réspondén ku kabalikan tina probability maranéhanana citakan ngagunakeun Horvitz-Thompson estimator (EQ. 3.2).
Sanajan estimator Horvitz-Thompson nyaeta bias, peneliti bisa ngahasilkeun leuwih akurat (ie, varian handap) perkiraan ku ngagabungkeun sampel kalayan informasi bantu. Sababaraha urang manggihan eta heran ieu leres sanajan aya sampurna dieksekusi probability sampling. Téhnik ieu ngagunakeun informasi bantu anu hal penting sabab, sabab kuring moal ningalikeun engké, informasi bantu mangrupa kritik pikeun nyieun perkiraan tina sampel probabilitas jeung nonresponse ti sampel non-probability.
Hiji téhnik umum pikeun ngamangpaatkeun informasi bantu nyaeta pos-stratifikasi. Ngabayangkeun, contona, anu panalungtik a weruh jumlah lalaki jeung awewe di tiap tina 50 nagara; bisa denote ukuran grup ieu salaku \(N_1, N_2, \ldots, N_{100}\) . Pikeun ngagabungkeun informasi bantu ieu kalayan sampel, panalungtik bisa dibeulah sampel kana \(H\) grup (dina hal ieu 100), nyieun estimasi keur unggal golongan, lajeng nyiptakeun rata rata tina grup ieu hartosna:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Kasarna, estimator di EQ. 3,5 kamungkinan janten langkung akurat sabab ngagunakeun dipikawanoh Populasi informasi-éta \(N_h\) -to perkiraan anu bener lamun hiji sampel henteu saimbang kajadian bisa dipilih. Hiji cara mikir ngeunaan éta yén pos-stratifikasi téh kawas approximating stratifikasi sanggeus data di geus kungsi dikumpulkeun.
Dina kacindekan, bagian ieu geus dijéntrékeun sababaraha desain sampling: basajan random sampling tanpa Panggantian, sampling jeung probability unequal, sarta ngabedakeun lapisan sampel. Éta ogé ditétélakeun dua gagasan utama ngeunaan estimasi: estimator Horvitz-Thompson na pos-stratifikasi. Pikeun harti leuwih formal desain sampling probabilitas, tingali surah 2 of Särndal, Swensson, and Wretman (2003) . Pikeun pengobatan leuwih formal tur lengkep sampling ku cara ngabedakeun lapisan, tingali bagian 3,7 of Särndal, Swensson, and Wretman (2003) . Pikeun pedaran teknis ngeunaan sipat tina estimator Horvitz-Thompson, tingali Horvitz and Thompson (1952) , Overton and Stehman (1995) , atawa bagian 2.8 of @ sarndal_model_2003. Pikeun pengobatan leuwih formal pos-stratifikasi, tingali Holt and Smith (1979) , Smith (1991) , Little (1993) , atawa bagian 7.6 tina Särndal, Swensson, and Wretman (2003) .
Probabilitas sampling jeung nonresponse
Ampir kabéh survey nyatana mibanda nonresponse; maksudna, dina populasi sampel teu dulur ngajawab unggal pertanyaan. Aya dua rupa utama nonresponse: item nonresponse sarta Unit nonresponse. Dina item nonresponse, sababaraha responden teu ngajawab sababaraha item (misalna, kadang responden teu hayang ngajawab patarosan nu maranéhna nganggap sénsitip). Dina Unit nonresponse, sababaraha urang nu dipilih pikeun populasi sampel teu ngabales survey pisan. Dua alesan paling umum pikeun Unit nonresponse téh yén jalma disampel teu bisa ngahubungi na baé sampel anu ngahubungi tapi refuses pikeun ilubiung. Dina bagian ieu, kuring baris difokuskeun Unit nonresponse; pamiarsa museurkeun item nonresponse kedah tingali Little na Rubin (2002) .
Peneliti mindeng mikir ngeunaan survey jeung Unit non-response salaku prosés sampling dua-tahap. Dina tahap munggaran, panalungtik milih sampel \(s\) sapertos nu unggal jalma ngabogaan probability citakan \(\pi_i\) (dimana \(0 < \pi_i \leq 1\) ). Saterusna, dina tahap kadua, jalma anu dipilih kana ngaréspon sampel jeung probability \(\phi_i\) (dimana \(0 < \phi_i \leq 1\) ). Prosés dua-tahap ieu hasil dina set ahir responden \(r\) . Hiji bédana penting diantara dua hambalan ieu mangrupa nu peneliti ngadalikeun prosés milih sampel, tapi maranéhna teu ngadalikeun nu jalma jalma disampel jadi responden. Putting dua prosés ieu babarengan, probability anu batur bakal réspondén hiji
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Demi kesederhanaan, abdi gé mertimbangkeun masalahna dimana rarancang sampel aslina nyaeta basajan sampling acak tanpa ngagantian. Mun panalungtik a milih sampel ukuranana \(n_s\) nu ngahasilkeun \(n_r\) responden, sarta lamun panalungtik ignores non-response sarta ngagunakeun mean tina responden, teras bias tina estimasi bakal:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
dimana \(cor(\phi, y)\) nyaeta korelasi populasi antara propensity respon na hasilna (misalna Status pangangguran), \(S(y)\) ieu populasi simpangan baku hasilna (misalna, pangangguran status), \(S(\phi)\) nyaéta nu nyicingan simpangan baku tina propensity respon, sarta \(\bar{\phi}\) ngarupakeun populasi mean respon propensity (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
EQ. 3,7 nunjukeun yen nonresponse moal ngenalkeun bias lamun salah sahiji kaayaan handap patepung:
Hanjakal, taya kaayaan ieu sigana dipikaresep. Sigana implausible yen bakal aya moal variasi dina status pagawean atawa nu bakal aya moal variasi dina propensities response. Ku kituna, istilah konci dina EQ. 3,7 nyaéta korelasi: \(cor(\phi, y)\) . Contona, upami jalma anu anu pangangguran anu leuwih gampang ngabales, teras laju pagawean estimasi bakal bias luhur.
The trik nyieun perkiraan lamun aya nonresponse nyaeta ngagunakeun informasi bantu. Contona, hiji cara nu bisa ngagunakeun informasi bantu nyaeta pos-stratifikasi (ngelingan EQ. 3,5 ti luhur). Tétéla yén bias tina estimator pos-stratifikasi nyaeta:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
dimana \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , sarta \(\bar{\phi}^{(h)}\) nu diartikeun luhur tapi diwatesan pikeun jalma di group \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Ku kituna, bias sakabéh bakal leutik lamun bias dina unggal grup pos-stratifikasi téh leutik. Aya dua cara anu kuring resep mun dipikir ngeunaan nyieun bias leutik di unggal grup pos-stratifikasi. Heula, rék nyobaan pikeun ngabentuk grup homogen dimana aya saeutik variasi dina respon propensity ( \(S(\phi)^{(h)} \approx 0\) ) jeung hasilna ( \(S(y)^{(h)} \approx 0\) ). Kadua, rék ngawangun grup dimana rahayat nu ningali téh kawas jelema anu anjeun teu ningali ( \(cor(\phi, y)^{(h)} \approx 0\) ). Ngabandingkeun EQ. 3,7 jeung EQ. 3,8 mantuan netelakeun lamun pos-stratifikasi bisa ngurangan bias disababkeun ku nonresponse.
Dina kacindekan, bagian ieu geus disadiakeun model keur probabiliti sampling jeung nonresponse tur ditémbongkeun bias nu nonresponse tiasa ngenalkeun duanana tanpa sarta kalawan pangaluyuan pos-stratifikasi. Bethlehem (1988) nawarkeun hiji derivasi tina bias disababkeun ku nonresponse pikeun leuwih desain sampling umum. Pikeun langkung lengkep ihwal maké pos-stratifikasi saluyukeun keur nonresponse, tingali Smith (1991) sarta Gelman and Carlin (2002) . Pos-stratifikasi mangrupa bagian ti kulawarga leuwih umum téhnik disebut calibration estimators, tingali Zhang (2000) kanggo hiji perlakuan artikel-panjang tur Särndal and Lundström (2005) pikeun pengobatan buku-panjangna. Pikeun langkung lengkep ihwal métode weighting séjén séjén pikeun nyaluyukeun pikeun nonresponse, tingali Kalton and Flores-Cervantes (2003) , Brick (2013) , sarta Särndal and Lundström (2005) .
Non-probability sampling
Non-probability sampling ngawengku rupa-badag desain (Baker et al. 2013) . Fokus husus dina sampel pamaké Xbox ku Wang sareng kolega Anjeun (W. Wang et al. 2015) , Anjeun bisa mikir yén jenis sampel salaku hiji tempat nu bagian konci tina rarancang sampling teu \(\pi_i\) ( probabilitas panalungtik-disetir tina citakan) tapi \(\phi_i\) (ka réspondén-disetir respon propensities). Alami, ieu teu ideal kumargi \(\phi_i\) nu can kanyahoan. Tapi, sakumaha Wang sareng kolega Anjeun némbongkeun, jenis ieu milih-dina sampel-malah ti pigura sampling jeung sinyalna pisan kasalahan-kedah jadi catastrophic lamun panalungtik ngabogaan informasi bantu alus sarta Model statistik alus pikeun akun pikeun masalah ieu.
Bethlehem (2010) ngalegaan seueur derivations luhur ngeunaan pos-stratifikasi jeung kaasup duanana nonresponse sarta kasalahan sinyalna. Salian pos-stratifikasi, téhnik séjén pikeun gawé bareng non-probability sampel-na kamungkinan sampel jeung kasalahan sinyalna na nonresponse-kaasup cocog sampel (Ansolabehere and Rivers 2013; ??? ) , propensity skor weighting (Lee 2006; Schonlau et al. 2009) , sarta calibration (Lee and Valliant 2009) . Hiji tema ilahar dipimilik ku téhnik ieu téh pamakéan informasi bantu.