Бус магадлал дээж нь, жин гэж үзэж дээж авах явцад үүссэн гажуудал буцаах боломжтой.
Судлаачид магадлал дээж авсан хариу жин адил тэд бас бус магадлал нь дээж авсан хариу жин болох юм. Жишээ нь, CPS өөр нэг хувилбар болгон, та ажилгүйдлийн түвшинг тооцох нь судалгаанд оролцогчдыг сонгон шалгаруулж авах вэб сайт мянган талаар сурталчилгаа зар байрлуулах гэж төсөөлдөг. Мэдээж та өөрийн дээж энгийн дундаж ажилгүйдлийн түвшин сайн тооцоо гэж эргэлзэж байж болох юм. Хэрэв та ямар нэг хүмүүс бусдыгаа бодвол өөрийн судалгааг дуусгах магадлал их байдаг гэж боддог, учир нь таны эргэлзэх байж болох юм. Жишээ нь, вэб дээр их цаг зарцуулах байхгүй бол хүмүүс таны судалгааг дуусгах магадлал бага байдаг.
Бид сүүлийн хэсэгт харсан хэдий ч, дээж сонгон-бид мэдэж байвал ямар байсан бид магадлал хийх дээжийг-дараа нь бид дээж авах явцад үүссэн гажуудал буцаах боломжтой. Харамсалтай нь, төрийн бус магадлал дээж ажиллаж байхдаа бид дээжийг хэрхэн сонгосон юм мэдэхгүй. Гэхдээ бид дээж авах үйл явцын талаар таамаглал хийж болно, дараа нь адил жингийн хэрэглэнэ. Эдгээр таамаглал зөв бол жингийн дээж авах явцад үүссэн гажуудлыг арилгана.
Жишээ нь, таны сурталчилгаа зар хариуд та 100,000 оролцогчдыг элсүүлсэн гэж төсөөлдөг. Гэсэн хэдий ч, та эдгээр 100,000 оролцогчид АНУ-ын насанд хүрсэн энгийн санамсаргүй түүврийн байна гэдэгт итгэхгүй байна. Үнэндээ та АНУ-ын хүн амын таны оролцогчдыг харьцуулах үед та ямар нэг муж (жишээ нь, Нью-Йорк) хүмүүс зарим нэг улс орнууд (жишээ нь, Аляскийн) -аас-гаруй төлөөлөл, энэ ард түмэн дор төлөөлөл байна гэж үздэг. Тиймээс таны дээж ажилгүйдлийн түвшин зорилтот хүн амын ажилгүйдлийн түвшин нь муу тооцоо байх магадлалтай юм.
дээж авах явцад тохиолдсон гажуудал тайлах нэг арга нь хүн бүрт жинг зааж өгөх юм; дээж (жишээ нь, Аляскийн) -д заасан төлөөлөл байгаа улсууд нь хүмүүст дээж (жишээ нь, Нью-Йорк), дээд жин нь хэт төлөөлж байгаа улс орнуудын авсан хүмүүст бага жин. Тодруулбал, хариуцагч тус бүрийн жин нь АНУ-ын хүн амын тэдгээрийн тархалт таны дээж харьцуулахад тэдгээрийн тархалт холбоотой юм. Энэ жингийн журмыг дараах ангилал гэж нэрлэдэг бөгөөд жинтэй санаа Rhode Island-аас оролцогчид Калифорнийн оролцогчдын-аас доошгүй жин өгсөн бол Хэсэг 3.4.1, жишээ нь та нарт сануулж байх ёстой. Дараах ангилал Та оролцогчдыг бүлгүүд болгон тавьж, бүлэг тус бүрийн зорилтот хүн амын эзлэх хувийг мэдэх нь хангалттай мэддэг байхыг шаарддаг.
магадлал дээж болон төрийн бус магадлал дээжийн жингийн адил математик (техникийн хавсралтыг үзнэ үү) хэдий ч, өөр өөр нөхцөл байдалд сайн ажиллаж байна. судлаач төгс магадлал дээж (өөрөөр хэлбэл, ямар ч хамрах хүрээ нь алдаа, ямар ч төрийн бус хариу) байгаа бол жингийн бүх тохиолдолд бүх шинж алагчлалгүй тооцоог гаргаж болно. яагаад магадлал дээж дэмжигчид нь тэдэнд маш сонирхолтой олж Энэ нь бат бөх онолын баталгаа юм. Нөгөө талаас, жингийн бус магадлал нь дээж нь зөвхөн хариу дур бүлэг тус бүрийн хүн бүрт ижил байдаг бол бүх шинж алагчлалгүй тооцоог гаргаж болно. Өөрөөр хэлбэл, буцаж Бидний жишээн тулд дараах давхрага ашиглан Нью-Йорк хотод хүн бүр оролцож, Аляскад хүн бүр гэх оролцож, мөн магадлал байна мөн магадлал бол шударга тооцоо бий болно гэж бодож. Энэ таамаглал нэг төрлийн, хариу арга хэмжээ, дур-доторхи бүлгүүд таамаглал гэж нэрлэдэг бөгөөд дараах ангилал бус магадлал нь дээж сайн ажиллах юм бол энэ нь мэдэх нь чухал үүрэг гүйцэтгэдэг.
Харамсалтай нь, манай жишээн дээр, нэг төрлийн, хариу арга хэмжээ, дур-доторх бүлэг таамаглал үнэн байх магадлал бага байна. Өөрөөр хэлбэл, энэ нь Аляскийн нь хүн бүр таны Судалгаанд хамрагдсан байх мөн магадлал байна гэсэн магадлал бага байна. Гэхдээ бүгдийг нь илүү ирээдүйтэй юм шиг санагдаж хийх дараах уян хатан,-ий тухай санаж байх гурван чухал оноо байдаг.
Нэгдүгээрт, нэг төрлийн, хариу арга хэмжээ, дур-доторх бүлэг таамаглал бүлгүүд нэмэгдэж тоо нь илүү ашигтай болж байна. Мөн судлаачид зөвхөн ганц газар зүйн хэмжээс дээр суурилсан бүлэг нь хязгаарлагдмал байна. Жишээ нь, бид төр, нас, хүйс, боловсролын түвшин дээр үндэслэн бүлгүүдийг үүсгэж болох юм. Энэ нь 18-29 бүлэг дотор нэгэн төрлийн хариу дур байдаг гэдгийг илүү үнэмшилтэй юм шиг, Аляска-д амьдарч буй бүх хүмүүсийн бүлэг дотор илүү Аляскад амьдардаг эмэгтэй, коллежийн төгсөгчид. Тиймээс дараах ангилал нэмэгдэж ашиглаж бүлгийн тоо, таамаглал илүү үндэслэлтэй болж дэмжихэд шаардлагатай. Энэ үнэн тул, энэ нь судлаачид дараах уян хатан, нь бүлэг нь асар олон тооны бий болгох хүсдэг шиг санагдаж байна. мэдээ sparsity: Гэхдээ, бүлэг нэмэгдэх тоо, судлаачид өөр асуудал руу ажиллуулах хэрэгтэй. бүлэг тус бүрийн ард зөвхөн цөөн тооны байдаг бол, тооцоо илүү тодорхой бус байх болно, мөн эрс тэс нөхцөлд оролцогчдыг ямар ч юм нь бүлэг байдаг бол, дараа нь дараах ангилал нь бүрэн доош нь хийх боломжгүй. homogeneous- хариу-хандлага-доторх бүлэг таамаглал үнэн зөвийг, бүлэг тус бүрт хангалттай түүврийн хэмжээ эрэлт хэрэгцээ хоёрын хооронд энэ угаасаа хурцадмал байдал гарч хоёр арга зам байдаг. Нэг арга нь жинг тооцох нь илүү төвөгтэй статистик загварт шилжих явдал юм, нөгөө нь том, илүү олон төрлийн дээж, бүлэг тус бүрийн боломжийн жишээ хэмжээ нь баталгаажуулж өгдөг цуглуулах явдал юм. Тэгээд заримдаа судлаачид аль аль нь, би доор илүү дэлгэрэнгүй тайлбарлах болно гэж байна.
бус магадлал нь дээж авсан дараах уян хатан, ажлын хоёр дахь хэлэлцүүлэг магадлал дээж шинжилгээ хийх үед нэгэн төрлийн, хариу арга хэмжээ, хандлага, доторх бүлэг төсөөлөл аль хэдийн байнга хийж байгаа явдал юм. Энэ таамаглал практикт магадлал дээж хэрэгтэй байна гэсэн шалтгаан магадлал дээж бус хариу байх юм, төрийн бус хариу арга хэмжээ авах тохируулах нь хамгийн түгээмэл арга нь дээр тайлбарласны дагуу дараах ангилал юм. Мэдээж, олон судлаачид тодорхой төсөөлөл танд ч бас үүнийг хийх ёстой гэсэн үг биш хийх л юм. Гэвч энэ нь бодит байдалд магадлал дээж бус магадлал дээж харьцуулахад бид аль аль нь тооцоо бий болгохын тулд таамаглал болон тээвэрлэлтийн нэмэлт мэдээлэл хамааралтай санаж байх хэрэгтэй гэсэн үг юм. хамгийн бодитой тохиргоо нь тэнд зүгээр л дүгнэлт ямар ч төсөөлөл үнэ төлбөргүй арга юм.
Эцэст нь хэлэхэд, та нар бидний жишээ нь ажилгүйдэл, ялангуяа-д нэг орчим тооцоог тавьдаг бол хувь, дараа нь та нэг төрлийн, хариу арга хэмжээ, хандлага-доторхи бүлгүүд таамаглал илүү сул дорой нөхцөл хэрэгтэй. Тухайлбал, та зөвхөн бүлэг тус бүрийн дотор хариу хандлагаас болон ажилгүйдлийн түвшин хооронд ямар хамаарал байна гэж үзэх хэрэгтэй, хүн бүр адил хариу орох сонирхлын хандлагатай байна гэж үзэх хэрэггүй. Мэдээж хэрэг, тэр ч байтугай энэ сул дорой байдал нь зарим нөхцөл байдалд барьж байх нь үгүй. Жишээ нь, Америкчууд сайн дурын ажил хийх эзлэх хувийг тооцож төсөөлж байна. Сайн дурын ажил хийх хүмүүс судалгааны байх зөвшөөрч магадлал их байдаг бол, судлаачид нь системтэйгээр хэт тооцох нь дараах ангилал зохицуулалт хийх замаар туршлагаар батлагдсан үр дүнд хийх байсан ч гэсэн, сайн дурын хэмжээг Abraham, Helms, and Presser (2009) .
Би өмнө нь хэлсэн, төрийн бус магадлал дээж их эргэлзээтэй нийгмийн эрдэмтэд, хэсэгчлэн, учир нь судалгаа эрдэм шинжилгээний эхний өдрүүдэд хамгийн их ичмээр алдаа зарим нэг нь тэдний үүрэг нь үзсэн байна. Бид хэр хол бус магадлал нь дээж ирсэн нь тодорхой жишээ нь зөв Америкийн Xbox хэрэглэгчдийн бус магадлал дээжийг ашиглан 2012 оны АНУ-ын сонгуулийн үр дүнг эргэн Вэй Ван Дэвид Rothschild, Sharad Goel болон Эндрю Gelman судалгааны байна -a Америкчуудын бол энэ бус санамсаргүй түүвэр (Wang et al. 2015) . Судлаачид Xbox тоглоомын системийн оролцогчдыг элсүүлсэн, мөн та нар хүлээж байж болох юм шиг, Xbox дээж эрэгтэй гажуудалтай, залуу гажуудалтай: 18 - 29 настай хүүхдүүд сонгогчдын 19% харин Xbox дээжний 65% -ийг эзэлж, эрэгтэй 47% бүрдүүлдэг сонгогчдын болон Xbox дээж (Зураг 3.4) 93% байна. Учир нь эдгээр хүчирхэг хүн ам зүйн хэвийх, түүхий Xbox мэдээлэл сонгуулийн өгөөж нь муу үзүүлэлт байсан юм. Энэ нь Барак Обама гаруй Митт Ромни хүчтэй ялалт таамаглажээ. Дахин хэлэхэд энэ нь түүхий эд, тохируулаагүй бус магадлал дээж аюул бас нэг жишээ юм, уран зохиолын товч бүтэлгүйтлийг санагдуулам юм.
Гэсэн хэдий ч, Ван болон хамт олон нь эдгээр асуудлуудын талаар мэдлэгтэй байсан ба дээж авах үйл явцад засварлахын тулд оролцогчдыг жин оролджээ. Тухайлбал, тэд дараах уян хатан, Би-ий тухай та нарт илүү боловсронгуй хэлбэрийг ашигласан байна. Энэ нь дараах уян хатан,-ий тухай зөн совин бүтээдэг учир тэдний хандлагын талаар арай илүү сурах нь зүйтэй юм, хэрэглэсэн тодорхой хувилбар Ван болон түүний хамтрагчид жингийн бус магадлал дээжийг хамгийн сонирхолтой арга нэг юм.
Хэсэг 3.4.1-д ажилгүйдэл тооцох тухай Бидний энгийн жишээн дээр бид оршин суугаа байдалд үндэслэн бүлгүүд болгон хүн амыг хувааж. Харин Ван болон түүний хамтрагчид тодорхойлсон 176.256 бүлэг болгон хүн амыг хувааж: Жендэрийн (2 ангилал), арьсны өнгө (4 ангилал), нас (4 ангилал), боловсрол (4 ангилал), төлөв (51 ангилал), нам ID (3 ангилал), үзэл суртал (3 ангилал) болон 2008 санал (3 ангилал). Дэлгэрэнгүй бүлэг нь, судлаачид энэ нь улам бүлэг тус бүрийн дотор хариу хандлага Обама дэмжлэгтэйгээр uncorrelated байсан гэсэн үг байх гэж найдаж. Дараа нь, харин хувь хүний түвшинд жинг барьж бидний жишээн шиг илүү Ван болон хамт олон цогц загварыг Обамагийн төлөө саналаа өгөх вэ бүлэг тус бүрийн хүн амын эзлэх хувийг тооцож байсан. Эцэст нь хэлэхэд, тэдгээр нь дэмжлэг үзүүлэх нь тооцоолсон нийт түвшинг үйлдвэрлэх бүлэг тус бүрийн мэдэгдэж байгаа хэмжээ нь дэмжлэг нь эдгээр бүлэг тооцоог хосолсон. Өөрөөр хэлбэл, тэд хүн амын янз бүрийн бүлгүүд болгон, жижиглэсэн бүлэг тус бүрийн Обамагийн дэмжлэг тооцоо, дараа нь ерөнхий үнэлгээг гаргах бүлгийн тооцооны жигнэсэн дундаж авав.
Тиймээс тэдний арга барил том бэрхшээл нь эдгээр 176.256 бүлэг тус бүр Обамагийн дэмжлэг тооцох явдал юм. Тэдний самбар 345.858 өвөрмөц оролцогчдыг сонгуулийн санал хураалт стандартаар нь асар олон тооны орсон боловч, учир нь Ван болон түүний хамтрагчид оролцогчдыг бараг ямар ч байсан олон олон бүлэг байсан юм. Тиймээс дараах уян хатан, олон талт регрессийн нэртэй бүлэг тус бүр нь тэд техник ашиглаж, судлаачид дотноор ноён П. Гол нь, тодорхой бүлгийн Обама дэмжлэг тооцох, ноён П. сан олон аас мэдээлэл дуудах дэмжлэг тооцох нягт холбоотой бүлэг. Жишээ нь, эмэгтэй Hispanics дунд Обама дэмжлэг тооцоолох сорилт, 18-29 настай хооронд, коллежийн төгсөгчид, Ардчилсан бүртгэгдсэн байна тогтворжихын хэрээр өөрийгөө таних хүмүүс байдаг бөгөөд 2008 онд Обамагийн төлөө саналаа өгсөн хүмүүс энэ үзэх нь маш тодорхой бүлэг байдаг бөгөөд эдгээр шинж чанар бүхий дээж хэн ч байдаг байж болох юм. Тиймээс энэ бүлгийн талаар тооцоолол хийж, ноён П. сан хамтад нь маш төстэй бүлэг хүмүүсийн тооцоо гарчээ.
Энэ шинжилгээ нь стратегийг ашиглах нь Ван болон түүний хамтрагчид маш нягт Барак Обама 2012 оны сонгуульд хүлээн авсан нийт дэмжлэг тооцоолох Xbox бус магадлал дээжийг ашиглах боломжтой байсан байна (Зураг 3.5). Үнэндээ тэдний тооцоог олон нийтийн санал асуулга нь дүүргэгчийн илүү зөв байсан. Тиймээс энэ тохиолдолд жингийн-тусгайлан ноён төрийн бус магадлал өгөгдлийн алдааг засаж залруулах нь сайн ажил хийх П.-бололтой, Та тохируулаагүй Xbox өгөгдлөөс тооцоо харахад харагдаж байна хэвийсэн утгатай.
Ван болон хамтран судлах хоёр гол сургамж байдаг. Нэгдүгээрт, тохируулаагүй бус магадлал нь дээж муу тооцоогоор хүргэж болно; Энэ нь олон судлаачид өмнө нь сонссон гэж хичээл юм. Гэсэн хэдий ч, хоёр дахь хичээл бус магадлал нь дээж, зөв жигнэсэн үед үнэндээ маш сайн тооцоо гаргаж чаддаг явдал юм. Үнэн хэрэгтээ тэдний тооцоо pollster.com, уламжлалт сонгуулийн санал нь нэгтгэх нь тооцоолж байснаас илүү үнэн зөв байна.
Эцэст нь хэлэхэд, бид үүнийг нэг тодорхой судалгааны сурч болох юу чухал хязгаарлалт байдаг. дараах ангилал энэ онцгой тохиолдолд сайн ажиллаж л, учир нь энэ нь бусад тохиолдолд сайн ажиллах болно гэсэн баталгаа байхгүй юм. Үнэндээ сонгууль pollsters бараг 100 жилийн турш сонгуульд суралцаж байна, учир нь хамгийн хялбар тохиргоо нэг байж болох юм, тогтмол санал (бид сонгуульд ялалт хэн харж болно), мөн намын таних байдаг ба хүн ам зүйн үзүүлэлтүүд санал хураалтын харьцангуй таамнал байдаг. Энэ үед бид хатуу онол болон төрийн бус магадлал дээжийн жинг тохируулга хангалттай үнэн зөв тооцоо гаргах болно гэдгээ мэдэх эмпирик туршлага дутагдаж байна. тодорхой нэг зүйл, гэхдээ та бус магадлал нь дээж албадан хөдөлмөрлүүлж байгаа бол байгаа, дараа нь тэнд тохируулсан тооцоо бус тохируулж тооцоо илүү сайн байх болно гэдэгт итгэж хүчтэй шалтгаан болж байна.