ตัวอย่างความน่าจะเป็นตัวอย่างที่ไม่น่าจะเป็นไม่ได้ที่แตกต่างกันในการปฏิบัติ ในทั้งสองกรณีมันเป็นเรื่องของน้ำหนัก
การเก็บตัวอย่างเป็นพื้นฐานในการสำรวจวิจัย นักวิจัยเกือบจะไม่เคยถามคำถามของพวกเขาให้กับทุกคนในกลุ่มประชากรเป้าหมายของพวกเขา ในเรื่องนี้การสำรวจไม่ได้ที่ไม่ซ้ำกัน งานวิจัยส่วนใหญ่ในหรืออีกวิธีหนึ่งที่เกี่ยวข้องกับการสุ่มตัวอย่าง บางครั้งการสุ่มตัวอย่างนี้จะทำอย่างชัดเจนโดยนักวิจัย; ครั้งอื่น ๆ มันเกิดขึ้นโดยปริยาย ยกตัวอย่างเช่นนักวิจัยที่ทำงานการทดลองในห้องปฏิบัติการนักศึกษาระดับปริญญาตรีในมหาวิทยาลัยของเธอยังได้นำตัวอย่าง ดังนั้นการสุ่มตัวอย่างเป็นปัญหาที่เกิดขึ้นตลอดทั้งเล่มนี้ ในความเป็นจริงหนึ่งในความกังวลที่พบมากที่สุดที่ฉันได้ยินเกี่ยวกับแหล่งที่มาของยุคดิจิตอลของข้อมูลคือ "พวกเขาจะไม่ได้เป็นตัวแทน." ในฐานะที่เราจะเห็นในส่วนนี้ความกังวลนี้เป็นทั้งที่รุนแรงน้อยกว่าและลึกซึ้งยิ่งขึ้นกว่าที่หลายคนคลางแคลงตระหนัก ในความเป็นจริงผมจะยืนยันว่าแนวคิดทั้ง "มูล" ไม่ได้เป็นประโยชน์สำหรับการคิดเกี่ยวกับความน่าจะเป็นและไม่น่าจะเป็นตัวอย่าง แต่ที่สำคัญคือการคิดเกี่ยวกับวิธีการที่ข้อมูลที่ถูกเก็บรวบรวมและวิธีอคติใด ๆ ในการเก็บรวบรวมข้อมูลที่สามารถยกเลิกได้เมื่อประมาณการ
ปัจจุบันวิธีการทางทฤษฎีที่โดดเด่นคือการเป็นตัวแทนการสุ่มตัวอย่างความน่าจะเป็น เมื่อข้อมูลจะถูกเก็บรวบรวมด้วยวิธีการสุ่มตัวอย่างความน่าจะเป็นที่ได้รับการดำเนินการที่ดีที่สุดที่นักวิจัยสามารถที่จะได้ข้อมูลน้ำหนักของพวกเขาขึ้นอยู่กับวิธีที่พวกเขาได้ถูกเก็บรวบรวมเพื่อให้ประมาณการที่เป็นกลางเกี่ยวกับประชากรเป้าหมาย อย่างไรก็ตามการสุ่มตัวอย่างความน่าจะเป็นที่สมบูรณ์แบบโดยทั่วไปไม่เคยเกิดขึ้นในโลกแห่งความจริง มักจะมีสองปัญหาหลักที่ 1) ความแตกต่างระหว่างกลุ่มเป้าหมายและจำนวนประชากรกรอบและ 2) ไม่ใช่การตอบสนอง (เหล่านี้ว่าปัญหาที่อับปางโพลวรรณกรรม Digest) ดังนั้นแทนที่จะคิดของการสุ่มตัวอย่างความน่าจะเป็นรูปแบบที่เป็นจริงของสิ่งที่เกิดขึ้นจริงในโลกที่มันจะดีกว่าที่จะคิดว่าการสุ่มตัวอย่างความน่าจะเป็นประโยชน์รูปแบบนามธรรมมากเช่นฟิสิกส์วิธีคิดเกี่ยวกับลูกฝืดกลิ้งลงนานอนันต์ ทางลาด
ทางเลือกที่จะสุ่มตัวอย่างความน่าจะเป็นคือการสุ่มตัวอย่างที่ไม่น่าจะเป็น ความแตกต่างที่สำคัญระหว่างความน่าจะเป็นและการสุ่มตัวอย่างที่ไม่น่าจะเป็นที่ที่มีทุกคนน่าจะเป็นในการสุ่มตัวอย่างประชากรที่มีความน่าจะเป็นที่รู้จักกันของการรวม นอกจากนี้ในความเป็นจริงหลายพันธุ์ของการสุ่มตัวอย่างที่ไม่น่าจะเป็นและวิธีการเหล่านี้การเก็บรวบรวมข้อมูลจะกลายเป็นกันมากขึ้นในยุคดิจิตอล แต่การสุ่มตัวอย่างที่ไม่น่าจะมีชื่อเสียงที่น่ากลัวในหมู่นักวิทยาศาสตร์สังคมและสถิติ ในความเป็นจริงการสุ่มตัวอย่างที่ไม่น่าจะมีความเกี่ยวข้องกับบางส่วนของความล้มเหลวที่น่าทึ่งที่สุดของนักวิจัยสำรวจเช่นวรรณกรรม Digest ล้มเหลว (กล่าวก่อนหน้านี้) และการคาดการณ์ที่ไม่ถูกต้องเกี่ยวกับการเลือกตั้งประธานาธิบดีสหรัฐ 1948 ( "ดิวอี้เอาชนะทรูแมน") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007)
แต่เวลาที่เหมาะสมที่จะพิจารณาการสุ่มตัวอย่างที่ไม่น่าจะเป็นด้วยเหตุผลสองประการ ขั้นแรกให้เป็นตัวอย่างที่น่าจะได้กลายเป็นเรื่องยากมากขึ้นที่จะทำในทางปฏิบัติตัวอย่างเส้นแบ่งระหว่างความน่าจะเป็นตัวอย่างที่ไม่น่าจะเป็นทำให้เปรอะเปื้อน เมื่อมีอัตราที่สูงของการไม่ตอบสนอง (ที่มีอยู่ในการสำรวจที่แท้จริงในขณะนี้) น่าจะเป็นจริงของการรวมสำหรับผู้ตอบแบบสอบถามจะไม่รู้จักกันและทำให้ตัวอย่างความน่าจะเป็นตัวอย่างที่ไม่น่าจะเป็นไม่ได้แตกต่างกันราวกับนักวิจัยหลายคนเชื่อว่า ในความเป็นจริงเราจะเห็นด้านล่างทั้งสองวิธีโดยทั่วไปพึ่งพาวิธีการประมาณเดียวกัน: โพสต์แบ่งชั้น ประการที่สองมีการพัฒนาจำนวนมากในการเก็บรวบรวมและการวิเคราะห์ของกลุ่มตัวอย่างที่ไม่น่าจะเป็น วิธีการเหล่านี้จะแตกต่างกันที่เพียงพอจากวิธีการที่ก่อให้เกิดปัญหาในอดีตที่ผมคิดว่ามันทำให้ความรู้สึกที่คิดว่าพวกเขาเป็น "การสุ่มตัวอย่างที่ไม่น่าจะเป็น 2.0." เราไม่ควรจะมีความเกลียดชังไม่ลงตัวกับวิธีการที่ไม่น่าจะเป็นเพราะความผิดพลาดที่เกิดขึ้น กระโน้น.
ถัดไปเพื่อที่จะทำให้เรื่องนี้เป็นรูปธรรมมากขึ้นผมจะตรวจสอบความน่าจะเป็นมาตรฐานการสุ่มตัวอย่างและน้ำหนัก (มาตรา 3.4.1) ความคิดที่สำคัญคือวิธีการที่คุณเก็บรวบรวมข้อมูลของคุณควรจะส่งผลกระทบต่อวิธีการที่คุณทำประมาณการ โดยเฉพาะอย่างยิ่งถ้าทุกคนไม่ได้มีความน่าจะเป็นของการรวมเดียวกันแล้วทุกคนไม่ควรมีน้ำหนักเดียวกัน ในคำอื่น ๆ ถ้าการสุ่มตัวอย่างของคุณจะไม่เป็นประชาธิปไตยแล้วประมาณการของคุณไม่ควรจะเป็นประชาธิปไตย หลังจากตรวจสอบน้ำหนักผมจะอธิบายสองวิธีการสุ่มตัวอย่างที่ไม่น่าจะเป็นหนึ่งที่มุ่งเน้นในการถ่วงน้ำหนักในการจัดการกับปัญหาของข้อมูลที่เก็บรวบรวมส่งเดช (มาตรา 3.4.2) และหนึ่งที่พยายามจะวางการควบคุมที่มากกว่าวิธีการที่ข้อมูลเป็น เก็บรวบรวม (มาตรา 3.4.3) ข้อโต้แย้งในข้อความหลักจะอธิบายด้านล่างด้วยคำพูดและภาพ; ผู้อ่านที่ต้องการการรักษาทางคณิตศาสตร์มากขึ้นนอกจากนี้ยังควรดูภาคผนวกทางเทคนิค