Umur digital anu nyieun probability sampling dina praktekna harder sarta nyieun kasempetan anyar keur non-probability sampling.
Dina sajarah sampling, aya geus dua deukeut competing: métode probability sampling jeung métode sampling non-probability. Sanajan duanana deukeut anu dipaké dina dinten awal sampling, probability sampling geus datang ka ngadominasi, sarta loba peneliti sosial diajar nempo non-probability sampling jeung skepticism hébat. Sanajan kitu, sakumaha kuring bakal ngajelaskeun handap, parobahan dijieun ku umur digital hartosna yén éta téh waktu keur panalungtik pikeun nimbangkeun balik non-probability sampling. Dina sababaraha hal, probability sampling geus meunang hésé ngalakukeun dina praktekna, sarta non-probability sampling geus meunang gancang, langkung mirah, sarta hadé. survey gancang sarta leuwih murah teu ngan ends dina diri: aranjeunna ngaktipkeun kasempetan anyar kayaning survey leuwih sering jeung ukuran sampel nu leuwih gede. Contona, ku cara ngagunakeun métode non-kamungkinan nu Koperasi Congressional Study Pemilihan (CCES) nyaéta bisa mibanda pamilon kasarna 10 kali leuwih ti studi saméméhna migunakeun probability sampling. sampel loba nu leuwih gede ieu nyandak peneliti pulitik keur diajar variasi dina sikap jeung tingkah laku sakuliah subgroups jeung konteks sosial. Salajengna, sakabéh skala ditambahkeun kieu sumping tanpa nurun dina kualitas perkiraan (Ansolabehere and Rivers 2013) .
Ayeuna, pendekatan dominan nepi sampling pikeun panalungtikan sosial nyaeta probability sampling. Dina probability sampling, sadaya anggota populasi sasaran boga dipikawanoh, probability nonzero keur sampel, sarta sakabeh jalma anu disampel ngabales survey. Sawaktos kondisi ieu patepung, hasilna matematik elegan nawiskeun jaminan provable ngeunaan pangabisa hiji panalungtik urang ngagunakeun sampel nyieun kasimpulan ngeunaan populasi sasaran.
Di alam nyata, kumaha oge, kaayaanana kaayaan ieu hasil matematik nu jarang patepung. Contona, aya sering kasalahan sinyalna na nonresponse. Kusabab masalah ieu, peneliti mindeng kudu employ rupa-rupa pangaluyuan statistik dina urutan sangkan Kaputusan ti sampel maranéhna pikeun populasi sasaran maranéhanana. Ku kituna, hal anu penting pikeun ngabédakeun antara probability sampling dina teori, nu boga jaminan teoritis kuat, sarta kamungkinan sampling dina praktekna, anu nawarkeun euweuh jaminan sapertos na gumantung kana rupa-rupa pangaluyuan statistik.
Kana waktu, béda antara probability sampling dina teori na probability sampling dina prakna geus ngaronjatna. Contona, ongkos nonresponse geus steadily ngaronjatna, sanajan di-kualitas luhur, survey mahal (inohong 3,5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) . Ongkos Nonresponse téh loba nu leuwih luhur di survey-kadang telepon komersial malah saluhur 90% (Kohut et al. 2012) . nambahan ieu dina nonresponse ngancem kualitas perkiraan sabab perkiraan beuki gumantung kana model statistik nu peneliti nganggo saluyukeun keur nonresponse. Salajengna, nurun ieu dina kualitas geus kajadian sanajan usaha beuki mahal ku peneliti survey pikeun mulasara ongkos respon tinggi. Sababaraha urang sieun ieu tren kembar tina nurunna kualitas sarta ngaronjatkeun waragad ngancem yayasan panalungtikan survéy (National Research Council 2013) .
Dina waktu nu sarua nu aya geus kasusah tumuwuh pikeun métode probability sampling, aya ogé geus kamajuan seru dina padika sampling non-probability. Aya rupa-rupa gaya sahiji metodeu sampling non-probabilitas, tapi hiji hal anu dipibanda dina umum nyaeta aranjeunna moal bisa gampang pas dina kerangka matematik ngeunaan probabilitas sampling (Baker et al. 2013) . Kalayan kecap séjén, dina padika sampling non-probabiliti teu sadaya jelema boga kamungkinan dipikawanoh tur nonzero tina citakan. Métode sampling non-kamungkinan gaduh reputasi dahsyat diantara peneliti sosial jeung nu pakait sareng sababaraha gagal paling dramatis peneliti survéy, kayaning nu fiasco Literary Digest (dibahas saméméhna) jeung "Dewey ngéléhkeun Truman," nu prediksi lepat ngeunaan AS pamilu présidén of 1948 (inohong 3,6).
Hiji wangun non-probability sampling nu mangrupa sabagean cocog kana umur digital nyaéta pamakéan panels online. Peneliti maké panels online gumantung kana sababaraha panel panyadia-biasana hiji pausahaan, pamaréntah, atanapi universitas-keur nyusunna mangrupa, golongan sagala rupa badag jalma anu satuju kana ngawula salaku réspondén pikeun survey. pamilon panel ieu téh mindeng direkrut ngagunakeun rupa-rupa métode ad hoc kayaning Iklan banner online. Lajeng, panalungtik bisa mayar ka panyadia panel pikeun aksés ka sampel responden kalawan ciri nu dipikahoyong (misalna nasional perwakilan sawawa). Ieu panels online mangrupakeun métode non-probabiliti sabab teu sadaya jelema boga dipikawanoh, probability nonzero tina citakan. Sanajan non-probability panels online nu geus dipake ku peneliti sosial (misalna, anu CCES), aya kénéh sabagian perdebatan ngeunaan kualitas perkiraan anu asalna ti aranjeunna (Callegaro et al. 2014) .
Sanajan debat ieu, Jigana aya dua alesan naha waktu anu katuhu pikeun peneliti sosial pikeun nimbangkeun balik non-probability sampling. Kahiji, dina umur digital, aya geus loba kamajuan di kempelan jeung analisis sampel non-probability. Métode nu leuwih anyar ieu cukup béda ti padika anu disababkeun masalah nu geus kaliwat nu Jigana ngajadikeun rasa mikir aranjeunna salaku "non-probability sampling 2.0". Alesan kadua naha peneliti kedah nimbangkeun balik non-probability sampling sabab probability sampling di prakték anu jadi beuki hésé. Lamun aya ongkos tinggi non respon-sakumaha aya dina survey nyatana ayeuna-nu probabiliti sabenerna citakan pikeun responden teu dipikawanoh, sahingga, sampel probabilitas jeung sampel non-kamungkinan henteu sakumaha béda saloba peneliti yakin.
Salaku Cenah mah baheula, sampel non-kamungkinan nu ditempo ku skepticism hébat ku loba peneliti sosial, dina bagian kusabab peranna dina sababaraha gagal paling ngerakeun dina poé mimiti panalungtikan survéy. Hiji conto jelas ngeunaan sabaraha jauh kami geus datang jeung sampel non-kamungkinan mangrupa hasil panalungtikan ku Wei Wang, David Rothschild, Sharad Goel, sarta Andrew Gelman (2015) yén neuleu pulih hasil tina Pemilu 2012 AS ngagunakeun sampel non-probabiliti pamaké-a Amérika Xbox sampel decidedly nonrandom rakyat Amerika. Para panalungtik direkrut responden ti sistem kaulinan Xbox, sarta anjeun bisa nyangka, sampel Xbox skewed jalu jeung skewed ngora: 18- nepi 29 taun olds sangkan nepi 19% tina electorate tapi 65% tina sampel Xbox, sarta lalaki sangkan nepi 47% tina electorate tapi 93% tina sampel Xbox (inohong 3,7). Kusabab ieu biases demografi kuat, data Xbox atah éta hiji indikator goréng tina mulih pamilihan. Ieu diprediksi meunangna kuat pikeun Mitt Romney leuwih Barack Obama. Deui, ieu conto sejen tina bahaya atah, sampel non-probability unadjusted na nyaeta reminiscent tina fiasco Literary Digest.
Sanajan kitu, Wang sareng kolega Anjeun geus awas masalah ieu sarta ngusahakeun pikeun ngaluyukeun pikeun prosés maranéhanana non-random sampling nalika nyieun perkiraan. Dina sababaraha hal, aranjeunna dipaké pos-stratifikasi, téhnik anu ogé loba dipaké pikeun ngaluyukeun sampel probabiliti nu gaduh kasalahan sinyalna sarta non-response.
Gagasan utama pos-stratifikasi nyaeta ngagunakeun informasi bantu ngeunaan populasi sasaran pikeun mantuan ngaronjatkeun estimasi nu asalna tina sampel. Lamun maké pos-stratifikasi nyieun perkiraan tina sampel non-probability maranéhanana, Wang na batur sapagawean dicincang populasi kana Grup béda, diperkirakeun pangrojong pikeun Obama dina unggal grup, lajeng nyandak rata rata tina perkiraan grup pikeun ngahasilkeun keur estimasu sakabéh. Contona, aranjeunna bisa geus dibeulah populasi kana dua grup (lalaki sarta awéwé), diperkirakeun pangrojong pikeun Obama diantara lalaki sarta awéwé, sarta lajeng diperkirakeun rojongan sakabéh pikeun Obama ku cara nyokot rata rata guna akun pikeun kanyataan yén awéwé sangkan up 53% tina electorate jeung lalaki 47%. Kasarna, pos-stratifikasi mantuan bener pikeun hiji sampel imbalanced ku bringing di informasi bantu ngeunaan ukuran sahiji gorombolan.
Konci pikeun pos-stratifikasi téh pikeun ngabentuk grup katuhu. Lamun bisa rendang up populasi kana Grup homogen misalna yén propensities respon anu sami pikeun dulur di unggal grup, teras pos-stratifikasi baris ngahasilkeun unbiased perkiraan. Dina basa sejen, pos-stratifying ku gender baris ngahasilkeun unbiased perkiraan lamun kabeh lalaki boga propensity respon na kabeh awéwé boga respon propensity sami. Anggapan ieu disebut anggapan homogen-response-propensities-dina-grup, sarta kuring ngajelaskeun eta bit leuwih dina catetan matematika di ahir surah ieu.
Tangtu, sigana saperti teu mirip yén propensities respon bakal sami pikeun sakabéh lalaki jeung sagala awéwé. Sanajan kitu, anggapan homogen-response-propensities-dina-grup janten langkung masuk akal salaku Jumlah Grup nambahan. Kasarna, janten gampang rendang populasi kana Grup homogen lamun nyieun grup langkung. Contona, eta bisa sigana implausible yén sakabéh awéwé kudu respon propensity sami, tapi bisa sigana langkung masuk akal anu aya respon propensity sarua pikeun sakabéh awéwé anu yuswa 18-29, anu lulusan kuliah, sarta anu aya tinggal di California . Ku kituna, salaku Jumlah Grup dipaké di pos-stratifikasi meunang nu leuwih gede, asumsi diperlukeun pikeun ngarojong metode jadi leuwih lumrah. Dibikeun kanyataan ieu, peneliti sering hoyong nyieun jumlah badag grup pikeun pos-stratifikasi. Najan kitu, salaku Jumlah Grup naek, peneliti ngajalankeun kana masalah béda: sparsity data. Mun aya ukur sajumlah leutik jalma dina unggal grup, mangka taksiran bakal leuwih pasti, tur dina kasus ékstrim dimana aya grup anu boga responden, teras pos-stratifikasi lengkep ngarecah.
Aya dua cara kaluar tina tegangan alamiah ieu antara plausibility tina panyangka homogen-response-propensity-dina-grup jeung paménta keur ukuran sample nu lumrah di unggal grup. Mimiti, panalungtik bisa ngumpulkeun anu leuwih badag, leuwih beragam sampel nu mantuan mastikeun ukuran sampel nu lumrah di unggal grup. Kadua, maranéhna bisa migunakeun model statistik leuwih canggih pikeun nyieun perkiraan dina grup. Na, dina kanyataanana, sakapeung peneliti ngalakukeun duanana, sabab Wang sareng kolega Anjeun tuh ku ulikan maranéhanana pemilihan maké responden ti Xbox.
Sabab anu ngagunakeun metoda sampling non-probabilitas jeung ngawawancara komputer-dikaluarkeun (I gé ngobrol ngeunaan ngawawancara komputer-dikaluarkeun dina bagian 3,5), Wang sareng kolega Anjeun kungsi pendataan pisan murah, nu sangkan aranjeunna pikeun ngumpulkeun informasi tina 345.858 pamilon unik , jumlah badag ku standar polling pamilihan. Ukuran sampel masif Ieu sangkan aranjeunna pikeun ngabentuk angka badag Grup pos-stratifikasi. Padahal pos-stratifikasi ilaharna ngawengku chopping populasi kana ratusan grup, Wang sareng kolega Anjeun dibagi populasi kana 176.256 Grup ditetepkeun ku génder (2 kategori), lomba (4 kategori), umur (4 kategori), atikan (4 kategori), kaayaan (51 kategori), ID pihak (3 kategori), idéologi (3 kategori), sarta 2008 sora (3 kategori). Dina basa sejen, ukuran sampelna gede maranéhanana, nu ieu diaktipkeun ku pendataan béaya rendah, sangkan aranjeunna nyieun asumsi langkung masuk akal dina prosés estimasi maranéhanana.
Malah jeung 345.858 pamilon unik, kumaha oge, aya kénéh loba, loba grup pikeun nu Wang sareng kolega Anjeun kungsi ampir euweuh responden. Kituna, aranjeunna dipaké téhnik disebut regression multilevel keur estimasi rojongan dina unggal grup. Intina, keur estimasi rojongan pikeun Obama dina grup husus, anu regression multilevel pooled informasi tina loba grup patali raket. Contona, ngabayangkeun nyobian keur estimasi rojongan pikeun Obama diantara Hispanics bikang heubeul antara 18 jeung 29 taun, anu lulusan kuliah, anu didaptarkeun Demokrat, nu timer ngaidentipikasi sakumaha moderates, sarta nu milih pikeun Obama dina 2008. Ieu pisan , grup pisan husus, sarta éta mungkin yen aya taya sahijieun dina sampel kalawan ciri ieu. Kituna, sangkan perkiraan ngeunaan ieu grup, régrési multilevel ngagunakeun Model statistik keur kolam renang babarengan perkiraan tina jalma di grup pisan sarupa.
Ku kituna, Wang sareng kolega Anjeun dipaké hiji pendekatan anu digabungkeun regression multilevel na pos-stratifikasi, ngarah disebut strategi regression multilevel maranéhanana jeung pos-stratifikasi atawa, leuwih affectionately, "Mr. P. "Nalika Wang sareng kolega Anjeun dipaké Mr. P. nyieun perkiraan tina sampel Xbox non-probabilitas, aranjeunna dihasilkeun perkiraan pisan nutup kana rojongan sakabéh nu Obama nampi dina 2012 pamilihan (inohong 3,8). Kanyataanna perkiraan maranéhanana éta leuwih akurat ti hiji agrégat tina jajal pamanggih umum tradisional. Ku kituna, dina hal ieu, pangaluyuan-husus statistical Mr. P.-sigana ngalakukeun pakasaban alus koréksi di biases dina data non-kamungkinan; biases yén éta jelas katempo mun anjeun kasampak di perkiraan tina data Xbox unadjusted.
Aya dua palajaran utama tina ulikan Wang sareng kolega Anjeun. Kahiji, unadjusted sampel non-kamungkinan bisa ngakibatkeun perkiraan goréng; ieu téh palajaran nu loba peneliti geus uninga saméméh. Pangajaran kadua kitu, yen sampel non-probabilitas, nalika dianalisis leres, sabenerna bisa ngahasilkeun perkiraan alus; sampel non-probabiliti teu kudu otomatis ngakibatkeun hal kawas éta fiasco Literary Digest.
Bade maju, lamun nyobian mutuskeun antara ngagunakeun pendekatan sampling probabilitas jeung pendekatan sampling non-kamungkinan nu nyanghareupan hiji pilihan hésé. Kadangkala peneliti hoyong aturan gancang jeung kaku (misalna, sok make metode probability sampling), tapi éta beuki hese nawiskeun aturan kitu. Peneliti nyanghareupan hiji pilihan hésé antara métode probability sampling dina praktekna-mana anu beuki mahal na tebih ti hasil teoritis nu menerkeun métode-mana sampling pamakéan-na non-probability disebut langkung mirah tur gancang, tapi kirang dalit jeung leuwih variatif. Hiji hal anu jelas kitu, yen lamun kapaksa digawekeun ku sampel non-probability atawa sumber data badag nonrepresentative (pikir deui Bab 2), lajeng aya hiji alesan kuat pikeun yakin yén perkiraan dijieun maké pos-stratifikasi jeung téhnik patali bakal leuwih hade tinimbang unadjusted, perkiraan atah.