Apendizean, kapituluaren ideia batzuei modu matematiko apur bat azalduko diet. Helburua inkesta ikertzaileek erabilitako notazioa eta matematika esparruarekin eroso jartzen laguntzea da gai horri buruz idatzitako material tekniko gehiagorako. Probabilitatearen laginak sartuz hasten naiz, probabilitatearen laginketa ez erantzutearekin batera, eta, azkenik, ez probabilitatearen laginketa.
Probabilitatearen laginketa
Ejertzito gisa, kontuan hartu dezagun Estatu Batuetako langabezia-tasa kalkulatzeko helburua. Dezagun \(U = \{1, \ldots, k, \ldots, N\}\) helburuko biztanleria izan eta utzi \(y_k\) pertsonaren emaitzen balioa \(k\) . Adibide honetan \(y_k\) pertsona \(k\) den ala ez adierazten du. Azkenik, utzi \(F = \{1, \ldots, k, \ldots, N\}\) markoaren biztanleria izan, xede-populazioaren berdina dela sinpletasunaren arabera.
Oinarrizko laginketa-diseinua ausazko laginketa sinplea da, ordezkapenik gabe. Kasu honetan, pertsona bakoitzak litekeena da \(s = \{1, \ldots, i, \ldots, n\}\) , laginean sartuta \(s = \{1, \ldots, i, \ldots, n\}\) . Laginketa diseinurako datuak jasotzen direnean, ikertzaileek biztanleriaren langabezi tasa kalkulatu ahal izango dute batez besteko laginarekin:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
non \(\bar{y}\) biztanleriaren langabezia-tasa eta \(\hat{\bar{y}}\) langabezia-tasaren estimazioa da \(\hat{ }\) normalean estimatzaile bat adierazteko erabiltzen da).
Egia esan, ikertzaileek oso gutxitan ausazko laginketa sinplea erabiltzen dute ordezko gabe. Hainbat arrazoirengatik (horietako bat une batez deskribatuko dut), ikertzaileek sarritan inklusio probabilitate desberdinak dituzten laginak sortu ohi dituzte. Esate baterako, ikertzaileek Florida-n jendea aukeratzea ahalbidetzen dute, Kaliforniako pertsonak baino probabilitate handiagoa dutenak. Kasu honetan, laginaren batezbestekoa (3.1. Zenb.) Agian ez da zenbatesle ona. Horren ordez, inklusio probabilitate desberdinak badira, ikertzaileek erabiltzen dute
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
non \(\hat{\bar{y}}\) langabezia-tasaren estimazioa eta \(\pi_i\) pertsona \(i\) inklusio probabilitatea da. Praktika estandarraren ondoren, kalkulagailua deituko dut eq. 3.2 Horvitz-Thompson estimatzailea. Horvitz-Thompson estimatzailea oso erabilgarria da probabilitateen laginketa diseinurako estimazio ez-estimatuak (Horvitz and Thompson 1952) . Horvitz-Thompson-en estimatzailea hain maiz gertatzen denez, lagungarria da berreskura daitekeela
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
non \(w_i = 1 / \pi_i\) . Eq. 3.3 agerian uzten du, Horvitz-Thompson estimatzailea da pisu bateko laginaren batezbestekoa, pisuak hautapen probabilitatearekin alderantzizkoak direnean. Beste era batera esanda, litekeena da pertsona bat laginean sartuta izatea, zenbat eta pisu gehiago izan behar duen estimazioa.
Lehenago azaldu bezala, ikertzaileek maiz frogatzen dute inklusioaren probabilitate desberdina duten pertsonak. Inklusioaren probabilitate desberdinak izateko diseinurako adibide bat laginketaren estratifikazioa da. Horregatik, garrantzitsua da ulertzea estratifikazio izeneko estima-prozedura estuki lotuta dagoela. Laginketa estratifikatuan, ikertzaileak xede-populazioa zatitzen du \(H\) talde elkarren esklusibo eta zehatzei dagokienez. Talde horiek estratu deitzen dira, eta gisa adierazten \(U_1, \ldots, U_h, \ldots, U_H\) . Adibide honetan, estatuak estatu dira. Taldeen tamainak \(N_1, \ldots, N_h, \ldots, N_H\) . Ikertzaile batek laginketa estratifikatua erabiltzea nahi du, estatu bakoitzean egoera nahikoa duten biztanleriaren kalkuluak egiteko nahikoa dela ziurtatzeko.
Biztanleria estratifikatu egin ondoren , ikertzaileak ausazko lagin sinple bat hautatzen du \(n_h\) , estratu bakoitzaren arabera. Gainera, kontuan hartu laginean hautatutako jendeak erantzuten duela (hurrengo atalean erantzunik ez dut egingo). Kasu honetan, inklusio probabilitatea da
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Probabilitate horiek pertsona batetik bestera aldatu ahal izateko, laginketa diseinurako estimazioa egiteaz gain, ikertzaile bakoitzak bere inkestaren probabilitatea alderantzizkoa dela esan behar du, Horvitz-Thompson estimatzailea erabiliz (3.2.
Horvitz-Thompson estimatzailea alboragabea bada ere, ikertzaileek zehatzagoak (hau da, bariantzaren beherakada txikiagoak) kalkulatu ditzakete lagina informazio gehigarriarekin konbinatuz. Zenbaitek harrigarria iruditzen zaie egia dela egiaztatutako probabilitatearen arabera. Informazio osagarria erabiliz teknika horiek bereziki garrantzitsuak dira, geroago azalduko dudan bezala, informazio osagarria kritikoa da probabilitate-laginekin kalkulatutako estimazioak ez erantzutea eta ez probabilitatearen laginekin.
Informazio osagarria erabiltzeko ohiko teknika post-estratifikazioa da . Imajinatu, adibidez, ikertzaileak 50 estatuetako gizon eta emakumeen kopurua ezagutzen duela; talde-tamainak hauei \(N_1, N_2, \ldots, N_{100}\) adierazi ditzakegu. Laginaren informazio osagarria hau konbinatzeko, ikertzaileak laginak \(H\) taldeetan banatu ahal izango ditu (100 kasu honetan), talde bakoitzarentzako estimazioa egin eta talde horientzako batez besteko errenkada bat sortzeko:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Gutxi gorabehera, eq estimatzaile. 3.5 litekeena da zehatzagoa izan dadin biztanleriaren informazio ezaguna, \(N_h\) - kalkuluen arabera, hautatutako lagin bat hautatzen bada. Modu bat pentsatzeko post-estratifikazioa dagoeneko bildutako datuen ondoren estratifikazio hurbiltzailea bezalakoa da.
Laburbilduz, atal honek laginketa-diseinu batzuk azaltzen ditu: ausazko laginketa sinplea ordezkapenik gabe, probabilitate desberdina laginketa eta laginketa estratifikatua. Estimazioari buruzko bi ideia nagusiak ere deskribatu ditu: Horvitz-Thompson estimatzailea eta post-estratifikazioa. Probabilitatearen laginketa-diseinuen definizio formalagoa lortzeko, ikus Särndal, Swensson, and Wretman (2003) 2. kapitulua. Laginketa estratifikatuaren tratamendu formala eta osoa lortzeko, ikus Särndal, Swensson, and Wretman (2003) 3.7 atala. Horvitz-Thompson estimatzailearen propietateen deskribapen tekniko bat lortzeko, ikus Horvitz and Thompson (1952) , Overton and Stehman (1995) edo 2. sarndal_model_2003 atala. Post-estratifikazioaren tratamendu formala lortzeko, ikus Holt and Smith (1979) , Smith (1991) , Little (1993) edo Särndal, Swensson, and Wretman (2003) 7.6. Särndal, Swensson, and Wretman (2003) .
Probabilitate laginketa, erantzunik gabe
Ia erreal inkesta guztiak ez dira erantzunik; hau da, lagineko biztanle guztiek ez dute galdera bakoitza erantzuten. Bi erantzun mota nagusi daude: ez- erantzuna eta unresponsible unitatea . Elementu ez-erantzunean, inkestatu batzuek ez dute elementu batzuei erantzun (adibidez, batzuetan inkestatuek ez dute nahi sentikorrak direla uste duten galderei erantzuteko). Unitatean erantzun ezean, lagineko biztanleek hautatutako jendeak ez du inkestan erantzun. Unitatearen erantzun ezaren arrazoi nagusienak honako hauek dira: lagin pertsonala ezin da kontaktatu eta laginaren pertsona harremanetan jarri da, baina ez du parte hartzen. Atal honetan, unresponsible unitatean egingo dut arreta; Ikasleek ez dute erantzuten ez duten elementuek Little and Rubin (2002) ikusi beharko lukete.
Ikertzaileek maiz erabiltzen dituzte inkestak, unitateko erantzunik ez duten bi etapa laginketa prozesu gisa. Lehenengo fasean, ikertzaileak \(s\) lagina hautatzen du, horrela pertsona bakoitzak \(\pi_i\) (non \(0 < \pi_i \leq 1\) ). Ondoren, bigarren fasean, laginean hautatutako pertsonak probabilitatea \(\phi_i\) probabilitatearekin erantzuten dute (non \(0 < \phi_i \leq 1\) ). Bi etapa prozesuek erantzun zuzena ematen diote \(r\) . Bi fase hauen arteko diferentzia garrantzitsu bat da ikertzaileek lagina hautatzeko prozesua kontrolatzen dutela, baina ez dute kontrolatzen hauetako lagin horiek inkestatu direnak. Bi prozesu horiek elkarrekin jartzea, norbaitek erantzungo duen probabilitatea da
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Sinpletasunagatik, jatorrizko laginaren diseinua ausazko laginketa sinplea izango da. Ikertzaile baten tamaina lagin bat aukeratzen baduzu \(n_s\) dakarren \(n_r\) inkestatuen, eta ikertzaileak ez erantzun baztertzen bada eta inkestatuen bestekoa erabiltzen du, orduan estimazio alborapena izango da:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
non \(cor(\phi, y)\) erantzuna proposamenaren eta emaitzaren arteko biztanleriaren arteko korrelazioa (adib., langabezia egoera), \(S(y)\) emaitzen desbiderapen estandarraren biztanleria da (adibidez, langabezia Egoera), \(S(\phi)\) erantzuna da proposamenaren desbiderapenen desbiderapen estandarraren populazioa, eta \(\bar{\phi}\) biztanleriaren batez besteko erantzunaren joera da (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Ek. 3.7 erakusten du erantzunik ez duela aldaketarik izango baldintza hauek betetzen baditu:
Zoritxarrez, baldintza horietako bat ere ez dirudi. Ez dirudi inola ere ez dagoela enplegu egoera aldaketarik izango, edo ez dela aldaketarik izango erantzunaren joera. Horrela, eq. 3.7 korrelazioa da: \(cor(\phi, y)\) . Esate baterako, jendeak langabezian dauden pertsonak erantzuten badizkio, aurreikusitako enplegu tasa gorantz joango da.
Ez dago erantzuna non kalkulatzen den kalkulatzeko trikimailua informazio osagarria erabiltzea da. Adibidez, informazio osagarria erabiltzeko modu bat post-estratifikazioa da (gogora ekarpenak 3,5tik gorago). Bi geruzak post-estratifikazioaren zenbateslea alboratu egiten dela da:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
non \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , eta \(\bar{\phi}^{(h)}\) goian definitzen dira, baina taldean \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Horrela, bi alborapen orokorra txikia izango da post-estratifikazio taldearen biasa txikia bada. Bi estruktura talde bakoitzean bi alea txikia dela pentsatzen dudan bi modu daude. Lehenik eta behin, talde homogeneoak eratu nahi ditugu, non aldakuntzako aldakuntzarik txikiena ( \(S(\phi)^{(h)} \approx 0\) ) eta emaitza ( \(S(y)^{(h)} \approx 0\) ). Bigarrenik, ikusi nahi duzun jendea ikusiko ez duzun jendea bezalakoa da ( \(cor(\phi, y)^{(h)} \approx 0\) ). Eq alderatuz. 3.7 eta eq. 3.8 argitzen laguntzen du post-estratifikazioak ez erantzutea eragindako bi aldeak murrizteko.
Laburbilduz, atal honek probabilitatearen laginketa eredu bat eman du erantzunik gabe, eta erantzunik ez duen bidegurutzeak bai post-estratifikazio doikuntzarik gabe nola sartu dezakeen erakusten du. Bethlehem (1988) laginketa orokorren diseinuak ez erantzuteko eragindako alborapena deritzo. Post-estratifikazioa erabiltzerakoan, erantzun ez egokitzeko, ikus Smith (1991) eta Gelman and Carlin (2002) . Post-estratifikazioa kalibratzeko zenbatesle izeneko teknika familia orokor baten parte da, ikusi Zhang (2000) tratamendu artikuluaren eta Särndal and Lundström (2005) tratamendu liburuen tratamendurako. Beste erantzun batzuei buruzko informazio gehiago lortzeko, ikus Kalton and Flores-Cervantes (2003) , Brick (2013) eta Särndal and Lundström (2005) .
Ez probabilitatearen laginketa
Ez probabilitatearen laginketak diseinu ugari ditu (Baker et al. 2013) . Wang eta lankideek (W. Wang et al. 2015) Xbox erabiltzaileen lagin zehatzei arreta \(\pi_i\) , lagin-diseinuaren funtsezko zatiak ez du lagin mota hori \(\pi_i\) inklusioaren probabilitatea bultzatu zuen ikertzailea), baina \(\phi_i\) (erantzunak zuzendutako erantzunaren joera). Jakina, hau ez da egokia \(\phi_i\) ezezagunak direlako. Baina, Wangek eta lankideek erakutsi duten moduan, lagineko optika-mota hau, nahiz eta laginketa-markoaren estaldura izugarria izan, ezin da hondamena izan, ikertzaileak informazio osagarria eta estatistikako eredu ona du arazo horiei aurre egiteko.
Bethlehem (2010) post-estratifikazioari buruzko gaineko eratorpenak asko hedatzen ditu, ez erantzuteko eta estaldura-akatsak sartzeko. Postestratifikazioa gain, estaldura akatsak eta erantzun gabekoak-artean, lagin bat datorren ez-probabilitatea lagin-eta probabilitatea laginak lan egiteko beste teknika (Ansolabehere and Rivers 2013; ??? ) , joera puntuazio ponderazio (Lee 2006; Schonlau et al. 2009) , eta kalibrazioa (Lee and Valliant 2009) . Teknika horien artean ohikoena da informazio osagarria erabiltzea.