บันทึกทางคณิตศาสตร์

ในภาคผนวกนี้ฉันจะอธิบายความคิดบางส่วนจากบทในรูปแบบทางคณิตศาสตร์เล็กน้อย เป้าหมายนี้คือการช่วยให้คุณทำความคุ้นเคยกับสัญกรณ์และกรอบทางคณิตศาสตร์ที่นักวิจัยสำรวจใช้เพื่อให้คุณสามารถเปลี่ยนไปใช้เนื้อหาด้านเทคนิคที่เขียนขึ้นในหัวข้อเหล่านี้ได้ ฉันจะเริ่มต้นโดยการแนะนำการสุ่มตัวอย่างจากนั้นย้ายไปที่การสุ่มตัวอย่างความน่าจะเป็นด้วย nonresponse และสุดท้ายการสุ่มตัวอย่างที่ไม่น่าจะเป็น

การสุ่มตัวอย่างความน่าจะเป็น

ในฐานะที่เป็นตัวอย่างให้ลองพิจารณาเป้าหมายของการประมาณอัตราการว่างงานในสหรัฐอเมริกา ให้ U={1,,k,,N}U={1,,k,,N} เป็นกลุ่มเป้าหมายและให้ ykyk โดยค่าของตัวแปรผลลัพธ์สำหรับบุคคล kk ในตัวอย่างนี้ ykyk คือว่าคน kk ตกงานหรือไม่ สุดท้ายให้ F={1,,k,,N}F={1,,k,,N} เป็นจำนวนเฟรมซึ่งเพื่อความเรียบง่ายจะถือว่าเหมือนกับประชากรเป้าหมาย

การสุ่มตัวอย่างขั้นพื้นฐานคือการสุ่มอย่างง่ายโดยไม่ต้องเปลี่ยน ในกรณีนี้แต่ละคนมีแนวโน้มที่จะถูกรวมไว้ในตัวอย่าง s={1,,i,,n}s={1,,i,,n} เมื่อข้อมูลถูกเก็บรวบรวมด้วยการออกแบบการสุ่มตัวอย่างนี้นักวิจัยสามารถประมาณอัตราการว่างงานของประชากรได้โดยใช้ค่าเฉลี่ยตัวอย่าง:

ˆˉy=isyin(3.1)^¯y=isyin(3.1)

ที่ ˉy¯y เป็นอัตราการว่างงานของประชากรและ ˆˉy^¯y คือการประมาณอัตราการว่างงาน ( ^^ เป็นปกติ ใช้เพื่อระบุตัวประมาณ)

ในความเป็นจริงนักวิจัยไม่ค่อยใช้แบบสุ่มตัวอย่างอย่างง่ายโดยไม่ต้องเปลี่ยน ด้วยเหตุผลหลายประการ (ซึ่งฉันจะอธิบายในช่วงเวลาหนึ่ง ๆ ) นักวิจัยมักจะสร้างตัวอย่างที่มีความไม่แน่นอนในการรวม ตัวอย่างเช่นนักวิจัยอาจเลือกผู้คนในฟลอริด้าที่มีความเป็นไปได้ที่จะมีการรวมตัวมากกว่าคนในรัฐแคลิฟอร์เนีย ในกรณีนี้ค่าเฉลี่ยตัวอย่าง (eq. 3.1) อาจไม่ใช่ตัวประมาณที่ดี นักวิจัยใช้วิธีการที่ไม่เท่าเทียมกัน

ˆˉy=1Nisyiπi(3.2)^¯y=1Nisyiπi(3.2)

ที่ ˆˉy^¯y คือการประมาณอัตราการว่างงานและ πiπi คือความน่าจะเป็นของบุคคล ii ของการรวม ปฏิบัติตามมาตรฐานฉันจะเรียก estimator ใน eq 3.2 ประมาณการ Horvitz-Thompson ประมาณการ Horvitz-Thompson เป็นประโยชน์อย่างมากเพราะนำไปสู่การประมาณการที่เป็นกลางสำหรับการออกแบบการสุ่มตัวอย่างใด ๆ (Horvitz and Thompson 1952) เนื่องจากตัวประมาณการณ์ Horvitz-Thompson เกิดขึ้นบ่อยครั้งจึงเป็นประโยชน์ที่จะแจ้งให้ทราบว่าสามารถเขียนใหม่เป็น

ˆˉy=1Niswiyi(3.3)^¯y=1Niswiyi(3.3)

ที่ไหน wi=1/πiwi=1/πi . เป็น eq. 3.3 เผยให้เห็นตัวประมาณค่า Horvitz-Thompson เป็นตัวอย่างที่ถ่วงน้ำหนักซึ่งหมายความว่าน้ำหนักจะสัมพันธ์กับความน่าจะเป็นของการเลือก กล่าวอีกนัยหนึ่งโอกาสที่บุคคลจะรวมอยู่ในกลุ่มตัวอย่างจะมีน้ำหนักมากขึ้นที่คนควรได้รับในการประมาณการ

ตามที่ได้อธิบายไว้ก่อนหน้านี้นักวิจัยมักจะสุ่มตัวอย่างผู้ที่มีความไม่เท่าเทียมกันในการรวม ตัวอย่างหนึ่งของการออกแบบที่อาจนำไปสู่ความไม่เท่าเทียมกันในการรวมเป็น ตัวอย่างการสุ่มตัวอย่างแบบแบ่งชั้น ซึ่งเป็นเรื่องสำคัญที่ต้องเข้าใจเพราะเกี่ยวข้องกับขั้นตอนการประมาณค่าที่เรียกว่า หลังการแบ่งชั้น ในการสุ่มตัวอย่างแบบแบ่งชั้นนักวิจัยแบ่งกลุ่มเป้าหมายออกเป็นกลุ่ม HH และกลุ่มที่ร่วมกันอย่างครบถ้วน HH กลุ่มเหล่านี้เรียกว่า ชั้น และระบุเป็น U1,,Uh,,UHU1,,Uh,,UH ในตัวอย่างนี้ชั้นเป็นสถานะ ขนาดของกลุ่มจะถูกระบุเป็น N1,,Nh,,NHN1,,Nh,,NH นักวิจัยอาจต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อให้แน่ใจว่าเธอมีคนมากพอในแต่ละรัฐเพื่อทำประมาณการการว่างงานในระดับรัฐ

เมื่อประชากรถูกแยกออกเป็น ชั้น ให้สมมติว่านักวิจัยเลือกตัวอย่างแบบสุ่มอย่างง่ายโดยไม่ต้องเปลี่ยนขนาด nhnh แยกจากแต่ละชั้น นอกจากนี้สมมติว่าทุกคนที่เลือกในตัวอย่างจะกลายเป็นผู้ถูกร้องเรียน (ฉันจะจัดการกับการไม่ตอบสนองในส่วนถัดไป) ในกรณีนี้ความน่าจะเป็นของการรวมเป็น

πi=nhNh for all ih(3.4)πi=nhNh for all ih(3.4)

เนื่องจากความน่าจะเป็นเหล่านี้อาจแตกต่างกันไปในแต่ละบุคคลเมื่อทำการประมาณการจากการออกแบบการสุ่มตัวอย่างนี้นักวิจัยจำเป็นต้องให้น้ำหนักผู้ตอบแต่ละรายโดยการผกผันของความน่าจะเป็นของการรวมโดยใช้ตัวประมาณการณ์ Horvitz-Thompson (eq. 3.2)

แม้ว่านักประมาณการ Horvitz-Thompson จะไม่เป็นธรรมนักวิจัยสามารถให้ค่าประมาณได้อย่างถูกต้อง (เช่นค่าความแปรปรวนต่ำ) โดยการรวมตัวอย่างกับ ข้อมูลเสริม บางคนรู้สึกแปลกใจว่านี่เป็นความจริงแม้ว่าจะมีการสุ่มตัวอย่างความเป็นไปได้อย่างสมบูรณ์แบบ เทคนิคเหล่านี้ใช้ข้อมูลเสริมเป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่งเพราะตามที่ฉันจะแสดงในภายหลังข้อมูลเสริมเป็นสิ่งสำคัญสำหรับการประมาณค่าจากตัวอย่างความน่าจะเป็นด้วย nonresponse และจากตัวอย่างที่ไม่ใช่ความน่าจะเป็น

หนึ่งเทคนิคทั่วไปสำหรับการใช้ข้อมูลเสริมคือ หลังการแบ่งชั้น ลองนึกภาพเช่นว่านักวิจัยรู้จำนวนชายและหญิงในแต่ละรัฐ 50 แห่ง เราสามารถระบุขนาดกลุ่มเหล่านี้เป็น N1,N2,,N100N1,N2,,N100 ในการรวมข้อมูลเสริมนี้กับกลุ่มตัวอย่างผู้วิจัยสามารถแบ่งกลุ่มตัวอย่างออกเป็นกลุ่ม HH (ในกรณีนี้คือ 100) ประมาณค่าแต่ละกลุ่มจากนั้นสร้างค่าเฉลี่ยถ่วงน้ำหนักของกลุ่มเหล่านี้:

ˆˉypost=hHNhNˆˉyh(3.5)^¯ypost=hHNhN^¯yh(3.5)

ประมาณค่าประมาณในสมการ 3.5 น่าจะถูกต้องมากขึ้นเนื่องจากใช้ข้อมูลประชากรที่รู้จัก - NhNh เพื่อประมาณค่าที่ถูกต้องหากเลือกตัวอย่างที่ไม่สมดุล วิธีหนึ่งที่จะนึกถึงเรื่องนี้ก็คือการแบ่งชั้นหลังเป็นเหมือนการแบ่งชั้นหลังข้อมูลที่เก็บรวบรวมแล้ว

สรุปได้ว่าส่วนนี้ได้กล่าวถึงการออกแบบการสุ่มตัวอย่างไม่กี่แบบคือการสุ่มอย่างง่ายโดยไม่ต้องเปลี่ยนตัวเองการสุ่มตัวอย่างที่มีความไม่เท่าเทียมกันและการสุ่มตัวอย่างแบบแบ่งชั้น นอกจากนี้ยังได้อธิบายถึงแนวคิดหลักสองประการเกี่ยวกับการประมาณค่า: การประมาณค่า Horvitz-Thompson และการโพสต์ - แบ่งชั้น สำหรับรูปแบบการสุ่มตัวอย่างที่เป็นทางการมากขึ้นโปรดดูบทที่ 2 ของ Särndal, Swensson, and Wretman (2003) สำหรับการสุ่มตัวอย่างแบบแบ่งชั้นอย่างเป็นทางการและสมบูรณ์โปรดดูหัวข้อ 3.7 ของ Särndal, Swensson, and Wretman (2003) สำหรับคำอธิบายด้านเทคนิคของคุณสมบัติของตัวประมาณค่า Horvitz-Thompson ดู Horvitz and Thompson (1952) , Overton and Stehman (1995) หรือส่วน 2.8 ของ @ sarndal_model_2003 สำหรับการรักษาอย่างเป็นทางการของโพสต์ - แบ่งดู Holt and Smith (1979) , Smith (1991) , Little (1993) หรือ 7.6 ส่วนของ Särndal, Swensson, and Wretman (2003)

การสุ่มตัวอย่างความน่าจะเป็นด้วย nonresponse

เกือบทุกแบบสำรวจจริงมี nonresponse; นั่นคือไม่ใช่ทุกคนในกลุ่มตัวอย่างที่ตอบคำถามทุกข้อ มีสองประเภทหลักของ nonresponse คือ nonresponse รายการ และ nonresponse หน่วย ในรายการที่ไม่ตอบสนองผู้ตอบบางรายไม่ตอบคำถามบางอย่าง (เช่นบางครั้งผู้ตอบไม่ต้องการตอบคำถามที่คิดว่ามีความละเอียดอ่อน) ในการไม่ตอบสนองต่อหน่วยงานบางคนที่ได้รับเลือกสำหรับกลุ่มตัวอย่างไม่ตอบแบบสำรวจเลย เหตุผลสองประการที่พบบ่อยที่สุดสำหรับการตอบสนองต่อหน่วยคือไม่สามารถติดต่อบุคคลที่ถูกสุ่มตัวอย่างและบุคคลที่ได้รับการติดต่อ แต่ไม่ยอมเข้าร่วม ในส่วนนี้ฉันจะมุ่งเน้นไปที่ nonresponse หน่วย; ผู้อ่านที่สนใจในรายการ nonresponse ควรจะเห็น Little และ Rubin (2002)

นักวิจัยมักคิดถึงการสำรวจด้วยการไม่ตอบสนองต่อหน่วยเป็นกระบวนการสุ่มตัวอย่างแบบสองขั้นตอน ในขั้นตอนแรกนักวิจัยเลือกตัวอย่าง ss เพื่อให้แต่ละคนมีความเป็นไปได้ที่จะรวม πiπi (โดยที่ 0<πi10<πi1 ) จากนั้นในขั้นตอนที่สองผู้ที่ถูกเลือกลงในตัวอย่างจะตอบกลับด้วยความน่าจะเป็น ϕiϕi (โดยที่ 0<ϕi1 ) ผลการดำเนินการสองขั้นตอนนี้เป็นชุดสุดท้ายของผู้ตอบแบบสอบถาม r ข้อแตกต่างที่สำคัญระหว่างสองขั้นตอนนี้คือนักวิจัยควบคุมกระบวนการคัดเลือกตัวอย่าง แต่ไม่สามารถควบคุมว่าคนในกลุ่มตัวอย่างเหล่านั้นกลายเป็นผู้ตอบแบบสอบถามได้อย่างไร การใส่สองกระบวนการนี้เข้าด้วยกันความน่าจะเป็นที่ผู้ถูกร้องจะเป็น

pr(ir)=πiϕi(3.6)

เพื่อความเรียบง่ายฉันจะพิจารณากรณีที่การออกแบบตัวอย่างเดิมเป็นแบบสุ่มตัวอย่างอย่างง่ายโดยไม่ต้องเปลี่ยน ถ้านักวิจัยเลือกตัวอย่างขนาด ns ที่ให้ผลตอบรับ nr และหากนักวิจัยละเว้นการตอบสนองและใช้ค่าเฉลี่ยของผู้ตอบแบบสอบถามความลำเอียงของการประเมินจะเป็นดังนี้

bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)

ที่ cor(ϕ,y) คือความสัมพันธ์ของประชากรระหว่างความเอนเอียงตอบและผลลัพธ์ (เช่นสถานะการว่างงาน), S(y) คือค่าเบี่ยงเบนมาตรฐานของประชากร (เช่นการว่างงาน สถานะ () S(ϕ) เป็นค่าเบี่ยงเบนมาตรฐานของพลวัตการตอบสนองและ ˉϕ คือค่าเฉลี่ยของการตอบสนองของประชากร (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4)

อีคิว 3.7 แสดงให้เห็นว่า nonresponse จะไม่ก่อให้เกิดความลำเอียงหากมีเงื่อนไขใด ๆ ต่อไปนี้:

  • ไม่มีการเปลี่ยนแปลงในสถานะการว่างงาน (S(y)=0)
  • ไม่มีความแปรปรวนในการตอบสนอง propensities (S(ϕ)=0)
  • ไม่มีความสัมพันธ์ระหว่างความชอบพอตอบสนองกับสถานะการว่างงาน (cor(ϕ,y)=0)

แต่น่าเสียดายที่ไม่มีเงื่อนไขเหล่านี้ดูเหมือนจะเป็นไปได้ ดูเหมือนว่าจะไม่เป็นไปได้ว่าจะไม่มีการแปรผันในสถานะการจ้างงานหรือว่าจะไม่มีความแปรปรวนในความสามารถในการตอบสนอง ดังนั้นคำที่สำคัญใน eq. 3.7 คือความสัมพันธ์: cor(ϕ,y) ตัวอย่างเช่นถ้าคนที่ว่างงานมีแนวโน้มที่จะตอบสนองได้มากขึ้นอัตราการจ้างงานโดยประมาณจะสูงขึ้น

เคล็ดลับในการประมาณค่าเมื่อมี nonresponse คือการใช้ข้อมูลเสริม ตัวอย่างเช่นวิธีหนึ่งที่คุณสามารถใช้ข้อมูลเสริมคือการแบ่งชั้นหลัง (การเรียกคืนจาก 3.5 ด้านบน) ปรากฎว่าอคติของตัวประมาณหลังแบ่งชั้นคือ:

bias(ˆˉypost)=1NHh=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)

ที่ cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , และ ˉϕ(h) ถูกกำหนดไว้ข้างต้น แต่ จำกัด เฉพาะกลุ่มในกลุ่ม h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) ดังนั้นความลำเอียงโดยรวมจะมีขนาดเล็กถ้าความลำเอียงในกลุ่มชนชั้นแต่ละกลุ่มมีขนาดเล็ก มีสองวิธีที่ฉันชอบคิดเกี่ยวกับการสร้างความลำเอียงเล็ก ๆ ในกลุ่มชนชั้นแต่ละกลุ่ม อันดับแรกคุณต้องการที่จะลองสร้างกลุ่มที่เหมือนกันซึ่งมีความแปรปรวนเพียงเล็กน้อยในการตอบสนองเชิงบวก (propensity) ( S(ϕ)(h)0 ) และผลลัพธ์ ( S(y)(h)0 ) ประการที่สองคุณต้องการสร้างกลุ่มที่คนที่คุณเห็นชอบคนที่คุณไม่เห็น ( cor(ϕ,y)(h)0 ) เปรียบเทียบสมการ 3.7 และ eq. 3.8 ช่วยชี้แจงเมื่อโพสต์ - แบ่งชั้นสามารถลดลำเอียงที่เกิดจาก nonresponse

สรุปได้ว่าส่วนนี้ได้จัดทำแบบจำลองสำหรับการสุ่มตัวอย่างความน่าจะเป็นโดยไม่มีการตอบสนองและแสดงให้เห็นถึงความลำเอียงที่ nonresponse สามารถแนะนำได้ทั้งโดยที่ไม่มีการปรับปรุงหลังการแบ่งชั้น Bethlehem (1988) มีต้นกำเนิดของอคติที่เกิดจาก nonresponse สำหรับการออกแบบการสุ่มตัวอย่างทั่วไปมากขึ้น สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้โพสต์ - การแบ่งชั้นเพื่อปรับเปลี่ยนการไม่ตอบสนองให้ดูที่ Smith (1991) และ Gelman and Carlin (2002) โพสต์ - แบ่งเป็นส่วนหนึ่งของครอบครัวทั่วไปของเทคนิคที่เรียกว่า estimators สอบเทียบดู Zhang (2000) สำหรับการรักษาความยาวบทความและ Särndal and Lundström (2005) สำหรับการรักษาหนังสือยาว สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการชั่งน้ำหนักแบบอื่น ๆ สำหรับการปรับค่าสำหรับ nonresponse ให้ดูที่ Kalton and Flores-Cervantes (2003) , Brick (2013) และ Särndal and Lundström (2005)

การสุ่มตัวอย่างแบบไม่น่าจะเป็น

การสุ่มตัวอย่างที่ไม่ใช่ความน่าจะเป็นความหลากหลายของการออกแบบ (Baker et al. 2013) โดยเฉพาะอย่างยิ่งกับตัวอย่างของผู้ใช้ Xbox โดย Wang และเพื่อนร่วมงาน (W. Wang et al. 2015) คุณอาจคิดว่าตัวอย่างแบบนี้เป็นส่วนที่สำคัญที่สุดของการออกแบบการสุ่มตัวอย่างไม่ใช่ πi ( ϕi (propensities ตอบสนองผู้ตอบสนอง) ธรรมชาตินี้ไม่เหมาะเพราะ ϕi ไม่เป็นที่รู้จัก แต่อย่างที่ Wang และเพื่อนร่วมงานได้แสดงให้เห็นว่าตัวอย่างเช่นการสุ่มตัวอย่างจากแบบสุ่มตัวอย่างที่มีข้อผิดพลาดครอบคลุมอย่างมากไม่จำเป็นต้องเป็นภัยพิบัติหากนักวิจัยมีข้อมูลเสริมที่ดีและเป็นแบบจำลองทางสถิติที่ดีในการอธิบายปัญหาเหล่านี้

Bethlehem (2010) ขยายคำที่กล่าวถึงข้างต้นเกี่ยวกับการโพสต์ - แบ่งชั้นเพื่อรวมทั้งข้อผิดพลาด nonresponse และความคุ้มครอง นอกเหนือไปจากการโพสต์การแบ่งชั้นเทคนิคอื่น ๆ สำหรับการทำงานกับที่ไม่น่าจะเป็นตัวอย่างและความน่าจะเป็นตัวอย่างที่มีข้อผิดพลาดและความคุ้มครอง nonresponse-รวมถึงการจับคู่ตัวอย่าง (Ansolabehere and Rivers 2013; ??? ) นิสัยชอบคะแนนถ่วงน้ำหนัก (Lee 2006; Schonlau et al. 2009) และการสอบเทียบ (Lee and Valliant 2009) หนึ่งในรูปแบบทั่วไปของเทคนิคเหล่านี้คือการใช้ข้อมูลเสริม