บันทึกทางคณิตศาสตร์

ในภาคผนวกนี้ฉันจะอธิบายความคิดบางส่วนจากบทในรูปแบบทางคณิตศาสตร์เล็กน้อย เป้าหมายนี้คือการช่วยให้คุณทำความคุ้นเคยกับสัญกรณ์และกรอบทางคณิตศาสตร์ที่นักวิจัยสำรวจใช้เพื่อให้คุณสามารถเปลี่ยนไปใช้เนื้อหาด้านเทคนิคที่เขียนขึ้นในหัวข้อเหล่านี้ได้ ฉันจะเริ่มต้นโดยการแนะนำการสุ่มตัวอย่างจากนั้นย้ายไปที่การสุ่มตัวอย่างความน่าจะเป็นด้วย nonresponse และสุดท้ายการสุ่มตัวอย่างที่ไม่น่าจะเป็น

การสุ่มตัวอย่างความน่าจะเป็น

ในฐานะที่เป็นตัวอย่างให้ลองพิจารณาเป้าหมายของการประมาณอัตราการว่างงานในสหรัฐอเมริกา ให้ \(U = \{1, \ldots, k, \ldots, N\}\) เป็นกลุ่มเป้าหมายและให้ \(y_k\) โดยค่าของตัวแปรผลลัพธ์สำหรับบุคคล \(k\) ในตัวอย่างนี้ \(y_k\) คือว่าคน \(k\) ตกงานหรือไม่ สุดท้ายให้ \(F = \{1, \ldots, k, \ldots, N\}\) เป็นจำนวนเฟรมซึ่งเพื่อความเรียบง่ายจะถือว่าเหมือนกับประชากรเป้าหมาย

การสุ่มตัวอย่างขั้นพื้นฐานคือการสุ่มอย่างง่ายโดยไม่ต้องเปลี่ยน ในกรณีนี้แต่ละคนมีแนวโน้มที่จะถูกรวมไว้ในตัวอย่าง \(s = \{1, \ldots, i, \ldots, n\}\) เมื่อข้อมูลถูกเก็บรวบรวมด้วยการออกแบบการสุ่มตัวอย่างนี้นักวิจัยสามารถประมาณอัตราการว่างงานของประชากรได้โดยใช้ค่าเฉลี่ยตัวอย่าง:

\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]

ที่ \(\bar{y}\) เป็นอัตราการว่างงานของประชากรและ \(\hat{\bar{y}}\) คือการประมาณอัตราการว่างงาน ( \(\hat{ }\) เป็นปกติ ใช้เพื่อระบุตัวประมาณ)

ในความเป็นจริงนักวิจัยไม่ค่อยใช้แบบสุ่มตัวอย่างอย่างง่ายโดยไม่ต้องเปลี่ยน ด้วยเหตุผลหลายประการ (ซึ่งฉันจะอธิบายในช่วงเวลาหนึ่ง ๆ ) นักวิจัยมักจะสร้างตัวอย่างที่มีความไม่แน่นอนในการรวม ตัวอย่างเช่นนักวิจัยอาจเลือกผู้คนในฟลอริด้าที่มีความเป็นไปได้ที่จะมีการรวมตัวมากกว่าคนในรัฐแคลิฟอร์เนีย ในกรณีนี้ค่าเฉลี่ยตัวอย่าง (eq. 3.1) อาจไม่ใช่ตัวประมาณที่ดี นักวิจัยใช้วิธีการที่ไม่เท่าเทียมกัน

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]

ที่ \(\hat{\bar{y}}\) คือการประมาณอัตราการว่างงานและ \(\pi_i\) คือความน่าจะเป็นของบุคคล \(i\) ของการรวม ปฏิบัติตามมาตรฐานฉันจะเรียก estimator ใน eq 3.2 ประมาณการ Horvitz-Thompson ประมาณการ Horvitz-Thompson เป็นประโยชน์อย่างมากเพราะนำไปสู่การประมาณการที่เป็นกลางสำหรับการออกแบบการสุ่มตัวอย่างใด ๆ (Horvitz and Thompson 1952) เนื่องจากตัวประมาณการณ์ Horvitz-Thompson เกิดขึ้นบ่อยครั้งจึงเป็นประโยชน์ที่จะแจ้งให้ทราบว่าสามารถเขียนใหม่เป็น

\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]

ที่ไหน \(w_i = 1 / \pi_i\) . เป็น eq. 3.3 เผยให้เห็นตัวประมาณค่า Horvitz-Thompson เป็นตัวอย่างที่ถ่วงน้ำหนักซึ่งหมายความว่าน้ำหนักจะสัมพันธ์กับความน่าจะเป็นของการเลือก กล่าวอีกนัยหนึ่งโอกาสที่บุคคลจะรวมอยู่ในกลุ่มตัวอย่างจะมีน้ำหนักมากขึ้นที่คนควรได้รับในการประมาณการ

ตามที่ได้อธิบายไว้ก่อนหน้านี้นักวิจัยมักจะสุ่มตัวอย่างผู้ที่มีความไม่เท่าเทียมกันในการรวม ตัวอย่างหนึ่งของการออกแบบที่อาจนำไปสู่ความไม่เท่าเทียมกันในการรวมเป็น ตัวอย่างการสุ่มตัวอย่างแบบแบ่งชั้น ซึ่งเป็นเรื่องสำคัญที่ต้องเข้าใจเพราะเกี่ยวข้องกับขั้นตอนการประมาณค่าที่เรียกว่า หลังการแบ่งชั้น ในการสุ่มตัวอย่างแบบแบ่งชั้นนักวิจัยแบ่งกลุ่มเป้าหมายออกเป็นกลุ่ม \(H\) และกลุ่มที่ร่วมกันอย่างครบถ้วน \(H\) กลุ่มเหล่านี้เรียกว่า ชั้น และระบุเป็น \(U_1, \ldots, U_h, \ldots, U_H\) ในตัวอย่างนี้ชั้นเป็นสถานะ ขนาดของกลุ่มจะถูกระบุเป็น \(N_1, \ldots, N_h, \ldots, N_H\) นักวิจัยอาจต้องการใช้การสุ่มตัวอย่างแบบแบ่งชั้นเพื่อให้แน่ใจว่าเธอมีคนมากพอในแต่ละรัฐเพื่อทำประมาณการการว่างงานในระดับรัฐ

เมื่อประชากรถูกแยกออกเป็น ชั้น ให้สมมติว่านักวิจัยเลือกตัวอย่างแบบสุ่มอย่างง่ายโดยไม่ต้องเปลี่ยนขนาด \(n_h\) แยกจากแต่ละชั้น นอกจากนี้สมมติว่าทุกคนที่เลือกในตัวอย่างจะกลายเป็นผู้ถูกร้องเรียน (ฉันจะจัดการกับการไม่ตอบสนองในส่วนถัดไป) ในกรณีนี้ความน่าจะเป็นของการรวมเป็น

\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]

เนื่องจากความน่าจะเป็นเหล่านี้อาจแตกต่างกันไปในแต่ละบุคคลเมื่อทำการประมาณการจากการออกแบบการสุ่มตัวอย่างนี้นักวิจัยจำเป็นต้องให้น้ำหนักผู้ตอบแต่ละรายโดยการผกผันของความน่าจะเป็นของการรวมโดยใช้ตัวประมาณการณ์ Horvitz-Thompson (eq. 3.2)

แม้ว่านักประมาณการ Horvitz-Thompson จะไม่เป็นธรรมนักวิจัยสามารถให้ค่าประมาณได้อย่างถูกต้อง (เช่นค่าความแปรปรวนต่ำ) โดยการรวมตัวอย่างกับ ข้อมูลเสริม บางคนรู้สึกแปลกใจว่านี่เป็นความจริงแม้ว่าจะมีการสุ่มตัวอย่างความเป็นไปได้อย่างสมบูรณ์แบบ เทคนิคเหล่านี้ใช้ข้อมูลเสริมเป็นสิ่งสำคัญโดยเฉพาะอย่างยิ่งเพราะตามที่ฉันจะแสดงในภายหลังข้อมูลเสริมเป็นสิ่งสำคัญสำหรับการประมาณค่าจากตัวอย่างความน่าจะเป็นด้วย nonresponse และจากตัวอย่างที่ไม่ใช่ความน่าจะเป็น

หนึ่งเทคนิคทั่วไปสำหรับการใช้ข้อมูลเสริมคือ หลังการแบ่งชั้น ลองนึกภาพเช่นว่านักวิจัยรู้จำนวนชายและหญิงในแต่ละรัฐ 50 แห่ง เราสามารถระบุขนาดกลุ่มเหล่านี้เป็น \(N_1, N_2, \ldots, N_{100}\) ในการรวมข้อมูลเสริมนี้กับกลุ่มตัวอย่างผู้วิจัยสามารถแบ่งกลุ่มตัวอย่างออกเป็นกลุ่ม \(H\) (ในกรณีนี้คือ 100) ประมาณค่าแต่ละกลุ่มจากนั้นสร้างค่าเฉลี่ยถ่วงน้ำหนักของกลุ่มเหล่านี้:

\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]

ประมาณค่าประมาณในสมการ 3.5 น่าจะถูกต้องมากขึ้นเนื่องจากใช้ข้อมูลประชากรที่รู้จัก - \(N_h\) เพื่อประมาณค่าที่ถูกต้องหากเลือกตัวอย่างที่ไม่สมดุล วิธีหนึ่งที่จะนึกถึงเรื่องนี้ก็คือการแบ่งชั้นหลังเป็นเหมือนการแบ่งชั้นหลังข้อมูลที่เก็บรวบรวมแล้ว

สรุปได้ว่าส่วนนี้ได้กล่าวถึงการออกแบบการสุ่มตัวอย่างไม่กี่แบบคือการสุ่มอย่างง่ายโดยไม่ต้องเปลี่ยนตัวเองการสุ่มตัวอย่างที่มีความไม่เท่าเทียมกันและการสุ่มตัวอย่างแบบแบ่งชั้น นอกจากนี้ยังได้อธิบายถึงแนวคิดหลักสองประการเกี่ยวกับการประมาณค่า: การประมาณค่า Horvitz-Thompson และการโพสต์ - แบ่งชั้น สำหรับรูปแบบการสุ่มตัวอย่างที่เป็นทางการมากขึ้นโปรดดูบทที่ 2 ของ Särndal, Swensson, and Wretman (2003) สำหรับการสุ่มตัวอย่างแบบแบ่งชั้นอย่างเป็นทางการและสมบูรณ์โปรดดูหัวข้อ 3.7 ของ Särndal, Swensson, and Wretman (2003) สำหรับคำอธิบายด้านเทคนิคของคุณสมบัติของตัวประมาณค่า Horvitz-Thompson ดู Horvitz and Thompson (1952) , Overton and Stehman (1995) หรือส่วน 2.8 ของ @ sarndal_model_2003 สำหรับการรักษาอย่างเป็นทางการของโพสต์ - แบ่งดู Holt and Smith (1979) , Smith (1991) , Little (1993) หรือ 7.6 ส่วนของ Särndal, Swensson, and Wretman (2003)

การสุ่มตัวอย่างความน่าจะเป็นด้วย nonresponse

เกือบทุกแบบสำรวจจริงมี nonresponse; นั่นคือไม่ใช่ทุกคนในกลุ่มตัวอย่างที่ตอบคำถามทุกข้อ มีสองประเภทหลักของ nonresponse คือ nonresponse รายการ และ nonresponse หน่วย ในรายการที่ไม่ตอบสนองผู้ตอบบางรายไม่ตอบคำถามบางอย่าง (เช่นบางครั้งผู้ตอบไม่ต้องการตอบคำถามที่คิดว่ามีความละเอียดอ่อน) ในการไม่ตอบสนองต่อหน่วยงานบางคนที่ได้รับเลือกสำหรับกลุ่มตัวอย่างไม่ตอบแบบสำรวจเลย เหตุผลสองประการที่พบบ่อยที่สุดสำหรับการตอบสนองต่อหน่วยคือไม่สามารถติดต่อบุคคลที่ถูกสุ่มตัวอย่างและบุคคลที่ได้รับการติดต่อ แต่ไม่ยอมเข้าร่วม ในส่วนนี้ฉันจะมุ่งเน้นไปที่ nonresponse หน่วย; ผู้อ่านที่สนใจในรายการ nonresponse ควรจะเห็น Little และ Rubin (2002)

นักวิจัยมักคิดถึงการสำรวจด้วยการไม่ตอบสนองต่อหน่วยเป็นกระบวนการสุ่มตัวอย่างแบบสองขั้นตอน ในขั้นตอนแรกนักวิจัยเลือกตัวอย่าง \(s\) เพื่อให้แต่ละคนมีความเป็นไปได้ที่จะรวม \(\pi_i\) (โดยที่ \(0 < \pi_i \leq 1\) ) จากนั้นในขั้นตอนที่สองผู้ที่ถูกเลือกลงในตัวอย่างจะตอบกลับด้วยความน่าจะเป็น \(\phi_i\) (โดยที่ \(0 < \phi_i \leq 1\) ) ผลการดำเนินการสองขั้นตอนนี้เป็นชุดสุดท้ายของผู้ตอบแบบสอบถาม \(r\) ข้อแตกต่างที่สำคัญระหว่างสองขั้นตอนนี้คือนักวิจัยควบคุมกระบวนการคัดเลือกตัวอย่าง แต่ไม่สามารถควบคุมว่าคนในกลุ่มตัวอย่างเหล่านั้นกลายเป็นผู้ตอบแบบสอบถามได้อย่างไร การใส่สองกระบวนการนี้เข้าด้วยกันความน่าจะเป็นที่ผู้ถูกร้องจะเป็น

\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]

เพื่อความเรียบง่ายฉันจะพิจารณากรณีที่การออกแบบตัวอย่างเดิมเป็นแบบสุ่มตัวอย่างอย่างง่ายโดยไม่ต้องเปลี่ยน ถ้านักวิจัยเลือกตัวอย่างขนาด \(n_s\) ที่ให้ผลตอบรับ \(n_r\) และหากนักวิจัยละเว้นการตอบสนองและใช้ค่าเฉลี่ยของผู้ตอบแบบสอบถามความลำเอียงของการประเมินจะเป็นดังนี้

\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]

ที่ \(cor(\phi, y)\) คือความสัมพันธ์ของประชากรระหว่างความเอนเอียงตอบและผลลัพธ์ (เช่นสถานะการว่างงาน), \(S(y)\) คือค่าเบี่ยงเบนมาตรฐานของประชากร (เช่นการว่างงาน สถานะ () \(S(\phi)\) เป็นค่าเบี่ยงเบนมาตรฐานของพลวัตการตอบสนองและ \(\bar{\phi}\) คือค่าเฉลี่ยของการตอบสนองของประชากร (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4)

อีคิว 3.7 แสดงให้เห็นว่า nonresponse จะไม่ก่อให้เกิดความลำเอียงหากมีเงื่อนไขใด ๆ ต่อไปนี้:

  • ไม่มีการเปลี่ยนแปลงในสถานะการว่างงาน \((S(y) = 0)\)
  • ไม่มีความแปรปรวนในการตอบสนอง propensities \((S(\phi) = 0)\)
  • ไม่มีความสัมพันธ์ระหว่างความชอบพอตอบสนองกับสถานะการว่างงาน \((cor(\phi, y) = 0)\)

แต่น่าเสียดายที่ไม่มีเงื่อนไขเหล่านี้ดูเหมือนจะเป็นไปได้ ดูเหมือนว่าจะไม่เป็นไปได้ว่าจะไม่มีการแปรผันในสถานะการจ้างงานหรือว่าจะไม่มีความแปรปรวนในความสามารถในการตอบสนอง ดังนั้นคำที่สำคัญใน eq. 3.7 คือความสัมพันธ์: \(cor(\phi, y)\) ตัวอย่างเช่นถ้าคนที่ว่างงานมีแนวโน้มที่จะตอบสนองได้มากขึ้นอัตราการจ้างงานโดยประมาณจะสูงขึ้น

เคล็ดลับในการประมาณค่าเมื่อมี nonresponse คือการใช้ข้อมูลเสริม ตัวอย่างเช่นวิธีหนึ่งที่คุณสามารถใช้ข้อมูลเสริมคือการแบ่งชั้นหลัง (การเรียกคืนจาก 3.5 ด้านบน) ปรากฎว่าอคติของตัวประมาณหลังแบ่งชั้นคือ:

\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]

ที่ \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , และ \(\bar{\phi}^{(h)}\) ถูกกำหนดไว้ข้างต้น แต่ จำกัด เฉพาะกลุ่มในกลุ่ม \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) ดังนั้นความลำเอียงโดยรวมจะมีขนาดเล็กถ้าความลำเอียงในกลุ่มชนชั้นแต่ละกลุ่มมีขนาดเล็ก มีสองวิธีที่ฉันชอบคิดเกี่ยวกับการสร้างความลำเอียงเล็ก ๆ ในกลุ่มชนชั้นแต่ละกลุ่ม อันดับแรกคุณต้องการที่จะลองสร้างกลุ่มที่เหมือนกันซึ่งมีความแปรปรวนเพียงเล็กน้อยในการตอบสนองเชิงบวก (propensity) ( \(S(\phi)^{(h)} \approx 0\) ) และผลลัพธ์ ( \(S(y)^{(h)} \approx 0\) ) ประการที่สองคุณต้องการสร้างกลุ่มที่คนที่คุณเห็นชอบคนที่คุณไม่เห็น ( \(cor(\phi, y)^{(h)} \approx 0\) ) เปรียบเทียบสมการ 3.7 และ eq. 3.8 ช่วยชี้แจงเมื่อโพสต์ - แบ่งชั้นสามารถลดลำเอียงที่เกิดจาก nonresponse

สรุปได้ว่าส่วนนี้ได้จัดทำแบบจำลองสำหรับการสุ่มตัวอย่างความน่าจะเป็นโดยไม่มีการตอบสนองและแสดงให้เห็นถึงความลำเอียงที่ nonresponse สามารถแนะนำได้ทั้งโดยที่ไม่มีการปรับปรุงหลังการแบ่งชั้น Bethlehem (1988) มีต้นกำเนิดของอคติที่เกิดจาก nonresponse สำหรับการออกแบบการสุ่มตัวอย่างทั่วไปมากขึ้น สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้โพสต์ - การแบ่งชั้นเพื่อปรับเปลี่ยนการไม่ตอบสนองให้ดูที่ Smith (1991) และ Gelman and Carlin (2002) โพสต์ - แบ่งเป็นส่วนหนึ่งของครอบครัวทั่วไปของเทคนิคที่เรียกว่า estimators สอบเทียบดู Zhang (2000) สำหรับการรักษาความยาวบทความและ Särndal and Lundström (2005) สำหรับการรักษาหนังสือยาว สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการชั่งน้ำหนักแบบอื่น ๆ สำหรับการปรับค่าสำหรับ nonresponse ให้ดูที่ Kalton and Flores-Cervantes (2003) , Brick (2013) และ Särndal and Lundström (2005)

การสุ่มตัวอย่างแบบไม่น่าจะเป็น

การสุ่มตัวอย่างที่ไม่ใช่ความน่าจะเป็นความหลากหลายของการออกแบบ (Baker et al. 2013) โดยเฉพาะอย่างยิ่งกับตัวอย่างของผู้ใช้ Xbox โดย Wang และเพื่อนร่วมงาน (W. Wang et al. 2015) คุณอาจคิดว่าตัวอย่างแบบนี้เป็นส่วนที่สำคัญที่สุดของการออกแบบการสุ่มตัวอย่างไม่ใช่ \(\pi_i\) ( \(\phi_i\) (propensities ตอบสนองผู้ตอบสนอง) ธรรมชาตินี้ไม่เหมาะเพราะ \(\phi_i\) ไม่เป็นที่รู้จัก แต่อย่างที่ Wang และเพื่อนร่วมงานได้แสดงให้เห็นว่าตัวอย่างเช่นการสุ่มตัวอย่างจากแบบสุ่มตัวอย่างที่มีข้อผิดพลาดครอบคลุมอย่างมากไม่จำเป็นต้องเป็นภัยพิบัติหากนักวิจัยมีข้อมูลเสริมที่ดีและเป็นแบบจำลองทางสถิติที่ดีในการอธิบายปัญหาเหล่านี้

Bethlehem (2010) ขยายคำที่กล่าวถึงข้างต้นเกี่ยวกับการโพสต์ - แบ่งชั้นเพื่อรวมทั้งข้อผิดพลาด nonresponse และความคุ้มครอง นอกเหนือไปจากการโพสต์การแบ่งชั้นเทคนิคอื่น ๆ สำหรับการทำงานกับที่ไม่น่าจะเป็นตัวอย่างและความน่าจะเป็นตัวอย่างที่มีข้อผิดพลาดและความคุ้มครอง nonresponse-รวมถึงการจับคู่ตัวอย่าง (Ansolabehere and Rivers 2013; ??? ) นิสัยชอบคะแนนถ่วงน้ำหนัก (Lee 2006; Schonlau et al. 2009) และการสอบเทียบ (Lee and Valliant 2009) หนึ่งในรูปแบบทั่วไปของเทคนิคเหล่านี้คือการใช้ข้อมูลเสริม