Adin digitalak probabilitatearen laginak praktikan egiten ditu eta probabilitate ez-laginerako aukera berriak sortzen ari da.
Laginketaren historiako bi ikuspegi lehiakorrak izan dira: probabilitatearen laginketa metodoak eta probabilitate ez-laginketa metodoak. Nahiz eta bi ikuspegi erabili ziren laginaren lehen egunetan, probabilitatearen laginak menderatu egin dira eta ikertzaile sozial askok esposizio handiko ez probabilitate laginketa ikusarazten dute. Hala ere, behean azalduko dudan bezala, adin digitalak sortutako aldaketak esan nahi du ikertzaileek probabilitate ez-laginketa berrazter dezaten. Batez ere, probabilitatearen laginak praktikan egiteko gogoa izan du, eta ez probabilitatearen laginketa azkarragoa, merkeagoa eta hobea izan da. Inkestak azkarragoak eta merkeak ez dira berez bukatzen: aukera berriak ematen dituzte, besteak beste, maizago inkestetan eta lagin tamainagotan. Adibidez, ez probabilitate metodoak erabiliz, Kongresuko Hauteskundeen Kongresuko Kooperatiben (CCES) probabilitatearen laginketa erabiliz aurreko ikasketak baino 10 aldiz gehiago parte hartzera animatu daitezke. Lagin askoz handiago honek aukera ematen die ikertzaile politikoek subjektu eta testuinguru sozialetan jarrerak eta portaerak aldatzen ikasteko. Gainera, eskala erantsi hau jaitsi egin da kalkuluen kalitatean (Ansolabehere and Rivers 2013) .
Gaur egun, ikerketa sozialerako laginketa hurbilketa nagusia probabilitatearen laginketa da . Probabilitatearen laginketaz, xede-populazioko kide guztiek laginaren probabilitate ezaguna eta ez-izugarria dute, eta galdekatutako lagin guztiek inkesta erantzuten dute. Baldintza hauek betetzen direnean, emaitza matematiko dotoreek berme frogagarriak eskaintzen dituzte ikertzaile batek laginaren erabileraren gaitasuna, helburuko biztanleei buruzko ondorioak lortzeko.
Mundu errealean, ordea, oso gutxitan betetzen dira emaitza matematiko horien azpiko baldintzak. Esate baterako, sarritan estalduraren akatsak eta ez erantzuten dira. Arazo hauei esker, ikertzaileek estatistiken zenbait doikuntza egin behar izaten dute beren laginetik beren xede-populaziotik ateratzeko. Hortaz, garrantzitsua da teoria probabilitatearen laginketa bereiztea, berme teoriko sendoak eta probabilitatearen laginak praktikan jartzea , eta horrek ez du bermerik eskaintzen, eta estatistika-doikuntza ugari dago.
Denborarekin, probabilitatearen laginken arteko ezberdintasunak teorian eta probabilitatean laginketa praktikan gertatu dira. Adibidez, erantzun ez-tasak etengabe areagotu dira, nahiz eta inkesten kalitate handikoak eta garestiak (3. irudia) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Erantzun ez diren tasak telefono komertzialen inkestetan askoz ere handiagoak dira, batzuetan% 90 bezain altuak (Kohut et al. 2012) . Ez-erantzunaren gehikuntzek estimazioen kalitatea mehatxatzen dute, gero eta kalkuluen arabera, ikertzaileek ez duten erantzunaren arabera erabiltzen diren estatistika-ereduek baitute. Gainera, kalitatearen jaitsiera horiek inkestaren ikertzaileen ahaleginak gero eta garestiagoak izan dira, erantzun altuak mantentzeko. Jende askok beldurra du kalitate jaitsiera eta kostu handiagoaren joera bikiak horiek mehatxatzen duten inkesta ikerketaren oinarria (National Research Council 2013) .
Hori ez du hazten zailtasunak izan probabilitate-laginketa metodoak Aldi berean, badira garapen zirraragarria ez-probabilitatea laginketa metodoak ere izan da. Badago probabilitate probabilitateen laginketa matematikoan (Baker et al. 2013) , probabilitate ez-laginketa metodoen estilo desberdinak, baina komunean dauden gauza bakarra da. Beste era batera esanda, probabilitatea ez duten laginketa-metodoetan, inork ez du inklusio probabilitate ezaguna eta ez-zertifikatua. Ez probabilitatearen laginketa-metodoek ikertzaile sozialen artean izugarrizko ospea dute, eta inkesten ikertzaileen hutsegite nabarmenenekin lotzen dira, hala nola Literal Digest fiasco (lehenago eztabaidatua) eta "Dewey Defeats Truman", Estatu Batuei buruzko aurreikuspen okerra 1948ko hauteskunde presidentzialak (3.6 irudia).
Modu ez-probabilitatearen laginketa modua, adin digitalarekin bat datorrena, lineako panelen erabilera da. Lineako panelak erabiltzen dituzten ikertzaileak paneleko hornitzaile baten menpe daude, normalean enpresa, gobernu edo unibertsitatekoak, inkestatuen inkesten arabera onartzeko ados dauden pertsonen talde handi eta anitza eraikitzeko. Panela parte-hartzaile hauek sarritan kontratatu ohi dira hainbat ad hoc metodo erabilita, adibidez, online banner iragarkiak. Ondoren, ikertzaileak panela hornitzaileari ordaintzeko aukera ematen die inkestatutako laginetako laginetara sartzeko (adibidez, helduen ordezkari nazionala). Lineako panel hauek probabilitate ez-metodoak dira, ez baitago inor ezagutzen ez duten probabilitateak. Nahiz eta ez probabilitatea lineako panelak erabiltzen ari diren ikertzaile sozialak (adibidez, CCES) erabiltzen badira ere, horietako etekinen kalitateari buruzko eztabaida dago (Callegaro et al. 2014) .
Eztabaidak izan arren, uste dut bi arrazoi direla zientzialariek ordurako ez dutela probabilitatearen laginketa berrazter dezaten. Lehenik, adin digitalean, probabilitate ez-laginetan bildumak eta azterketak garatu dira. Metodo berriagoak nahikoa ezberdintzen dira iraganeko arazoek sortutako metodoetatik, uste dut zentzuzkoa dela "probabilitate ez-laginketa 2.0" bezala pentsatzea. Bigarren arrazoia, beraz, ikertzaileek probabilitate ez-laginketa berriro aztertzea da probabilitatearen laginketa praktikatzen dira gero eta zailagoak. Erantzun ez diren tasak handiak direnean, inkesta errealetan dauden inkesten benetako probabilitateak ez dira ezagutzen, eta, beraz, probabilitatearen laginak eta ez probabilitatearen laginak ez dira hain ezberdinak, ikertzaile askok uste dute.
Lehen esan dudan bezala, probabilitate ez-laginak ikertzaile sozial askok eszeptizismo handia ikusten dute, inkesten ikerketaren lehen egunetan porrot izugarria izan duten zenbaitetan. Lagun ez probabilitateetatik datozenen adibide argia Wei Wang, David Rothschild, Sharad Goel eta Andrew Gelman (2015) ikerlariek 2012ko hauteskundeen emaitzek behar bezala berreskuratu dute, ez probabilitatearen lagin bat erabiliz. American Xbox erabiltzaileak, estatubatuarren lagin erabakigarria. Ikertzaileek XBox joko-sistemako galdekizunak kontratatu zituzten, eta agian espero zen bezala, Xboxek gizonezkoak eta zakarrontzitako gazteak bereizi zituen: 18- eta 29 urte bitarteko hautesleen% 19 osatzen dute, baina Xbox-eko laginaren% 65a eta gizonak hautesleen% 47 osatzen dute, baina Xbox-eko laginaren% 93 (3.7 irudia). Datu demografiko sendo hauei esker, Xbox datu gordinak itzulera hauen adierazle txarra izan zen. Mitt Romneyren garaipen sendoa iragarri zuen Barack Obama-ren gainetik. Berriro ere, probabilitate gordinak, ez zuzenak ez diren probabilitateen arriskuei buruzko beste adibide bat da eta Literal Digest fiasco gogorarazten du.
Hala eta guztiz ere, Wangek eta lankideek arazo horiei buruz jakitun ziren eta ez ziren ausazko laginketa-prozesura moldatzen saiatu ziren kalkuluak egiteko. Bereziki, post-estratifikazioa erabili zuten, estaldura-akatsak eta ez-erantzunak dituzten probabilitate laginak egokitzeko oso erabilia.
Post-estratifikazioaren ideia nagusia xede-populazioaren inguruko informazio osagarria erabiltzea da laginetik datorren estimazioa hobetzeko. Post-estratifikazioa egin ondoren, probabilitate ez-laginetik kalkulatutako kalkuluak egiteko, Wang-ek eta lankideek kolektibo desberdinetako populazioa murriztu zutenean, Obama talde bakoitzarentzat laguntza estimatu zuten, eta, ondoren, estimazio orokor bat egiteko taldearen estimazioen batez besteko pisua hartu zuten. Esate baterako, bi taldeetan (gizonezkoak eta emakumeak) biztanleria zatitu ahal izan zuten, gizonezkoen eta emakumezkoen artean Obama estimatzen zuten, eta, ondoren, Obama-ren laguntza orokorra kalkulatu zuten, emakumeek emakumeek batez besteko zantzuak hartuz. hautesleen% 53 eta gizonezkoen% 47. Gutxi gorabehera, post-estratifikazioak lagin desorekatua zuzentzen laguntzen du taldeen tamainaren inguruko informazioa osatuz.
Post-estratifikazioaren gakoa eskuineko taldeak osatzea da. Biztanleria populazio homogeneo bihurtzen baduzu, erantzunaren joera berdina izango da talde bakoitzarentzat, ondoren post-estratifikazioak estimazio ezberdinak sortuko ditu. Beste era batera esanda, generoaren osteko geruzak estimazio ezegonkorrak sortuko ditu gizonezkoek erantzuna jasaten dutenean eta emakume guztiek erantzun egokia izan dezaten. Suposizio hau homogeneo-erantzuna-joera-taldeen hipotesia deritzo, eta kapitulu honen amaieran ohar matematiko gehiago deskribatzen dut.
Noski, zaila dirudi erantzunaren joera gizon eta emakume guztiek berdina izatea. Hala eta guztiz ere, homogeneo-erantzuna-joera-taldeen prestakuntzak sinesgarriagoa bihurtzen du talde kopurua handitzen denean. Gutxi gorabehera, errazago bihurtzen da biztanleria talde homogeneotan, talde gehiago sortzen badituzu. Esate baterako, ezinezkoa dirudi emakumezko guztiek erantzun berberak dituztela, baina badirudi uste gehiago dagoela 18-29 urte bitarteko emakume guztiek duten joera berbera izatea, unibertsitateko graduatuek eta Kalifornian bizi direnak . Horrela, post-estratifikazioan erabiltzen diren talde kopurua handiagoak direnez, metodoari laguntzeko behar diren hipotesia arrazoizkoa bihurtzen da. Izan ere, ikertzaileek, askotan, post-estratifikazioko talde ugari sortu nahi dituzte. Hala ere, talde kopurua handitzen denean, ikertzaileek beste arazo bat dute: datuen eskasia. Talde bakoitzean talde txiki bat baino gutxiago badago, kalkuluen arabera, ez dago inkestarik ez duen talde batean, eta post-estratifikazioa guztiz hautsi egingo da.
Bi modu daude, tentsio berezi hau, homogeneo-erantzuna-joera-taldeen hipotesiaren sosgarritasunaren eta talde bakoitzaren lagin-tamainen eskakizunen eskariaren artean. Lehenik eta behin, ikertzaileek lagin handiagoa eta askotarikoa biltzea lortu dute, eta horrek talde bakoitzaren zentzuzko lagin tamainak bermatzen ditu. Bigarrenik, kalkulu estatistiko sofistikatuagoak erabil ditzakete taldeen kalkuluak egiteko. Eta, hain zuzen ere, batzuetan ikertzaileek biak egiten dituzte, Wangek eta lankideek Xbox-eko galdeketak hauteskundeen azterketarekin egin dute.
Laginketa metodoa probabilitate ez-probatzailea erabiliz ordenagailu bidez kudeatutako elkarrizketetan (3.5 ataleko ordenagailu-administrazioei buruzko elkarrizketei buruz gehiago hitz egin dut), Wangek eta lankideek datuen bilketa oso merkeak izan zituzten, 345.858 partaide bakarreko informazioa biltzeko. Hauteskundeen hauteslekuen estandarren arabera. Lagin-tamaina masibo honek post-estratifikazio talde ugari sor ditzake. Post-estratifikazioak biztanleria ehunka taldeetan moztea dakar, Wangek eta lankideek biztanleria banatu zuten 176.256 taldeek generoaren arabera (2 kategoria), arraza (4 kategoria), adina (4 kategoria), hezkuntza (4 kategoria), egoera (51 kategoria), party ID (3 kategoria), ideologia (3 kategoria), eta 2008ko botoa (3 kategoria). Beste era batera esanda, lagineko tamaina erraldoia, kostu txikiko datuak biltzeko gaituak izan zitezen, beren estimazio prozesuan aurreikuspen gehiago izateko aukera eman zioten.
Nahiz eta 345.858 partaide bakarrak izan, ordea, Wang eta lankideek ia ez zuten inongo inkestarik izan. Horregatik, multinivelen regresio deritzon teknika bat erabili zuten talde bakoitzeko laguntza kalkulatzeko. Funtsean, Obama talde jakin baten barnean hartutako laguntza kalkulatzeko, maila anitzeko erregresioek estuki erlazionatutako taldeen informazioa biltzen dute. Esate baterako, imajinatu Obama gizartearen artean 18 eta 29 urte bitarteko haurrentzat, graduondokoak direnak, demokratak erregistratuak direnak, norberak identifikatzeko modukoak diren eta Obamaren bozak 2008an bozkatu zituen artean. , talde oso zehatzak, eta posible da ezaugarri horiekin laga ez dagoela. Hori dela eta, talde honi buruzko estimazioak egiteko, maila anitzeko erregresioek eredu estatistikoa erabiltzen dute talde oso antzekoetan elkarrekin estekatzeko.
Horrela, Wangek eta lankideek maila anitzeko erregresio eta post estratifikazioa konbinatzen zuten ikuspegi bat erabili zuten. Horrela, beren estrategiak maila altuko erregresioa deitu zuten post-estratifikazioarekin edo, maitasunez, "Mr. P. "Noiz Wang eta lankideek P. jauna erabiltzen zuten XBox probabilitatearen probabilitatearen arabera kalkulatzeko, Obama 2012ko hauteskundeetan jasotako laguntza orokorraren inguruko estimazioak egin zituzten (3.8 irudia). Izan ere, beren estimazioak zehatzagoak ziren iritzi publikoetako inkesten agregatuarengatik baino. Horrela, kasu honetan, estatistiken doikuntzak, zehazki P. jaunak, dirudienez ez da probabilitatearen datuetan zuzentzea zuzentzea; Xehetasunik gabeko Xbox datuen kalkuluen arabera ikusten dituzun zirrikituak argi eta garbi ikusten dira.
Wang eta lankideei buruzko bi ikasgaia nagusiak daude. Lehenik eta behin, ez-zuzendu gabeko probabilitatearen laginak kalkulu txarrak ekar ditzake; Ikasle askok entzuten duten ikasgai bat da. Bigarren ikasgaia, ordea, probabilitate ez-laginak, behar bezala aztertuta, kalkuluak onak izan daitezke; Probabilitate probak ez dira automatikoki literatur Digesten fiasco bezalakoak.
Aurrera, probabilitatearen laginken hurbilketa eta probabilitate probabilitatearen probabilitatearen arabera erabakitzen saiatzen ari ez bazara, aukera zaila izango duzu. Batzuetan, ikertzaileek arau bizkorra eta zurruna nahi dute (adibidez, beti probabilitatearen laginketa metodoak erabiltzen dituzte), baina gero eta zailagoa da arau hori eskaintzea. Ikertzaileek probabilitatearen laginketa metodoen arteko aukera zaila egiten dute praktikan, gero eta garestiagoak direnak eta haien erabilera justifikatzen duten eta ez probabilitate-laginketa metodoak merkeago eta azkarragoak diren emaitz teorikoetatik urrun, baina ez hain ezagunak eta anitzak. Argi dago argi eta garbi dagoela probabilitate ez-laginekin edo datu-iturri handiagorik ez duten (ikus 2. kapituluan pentsatu) lan egiteko behartuta badago. Ondoren, arrazoi sendo bat dago post-estratifikazioa erabiliz egindako kalkuluen arabera. erlazionatutako teknika hobeak izango dira, aurrez kalkulatutakoak baino.