Маси можуть скасувати спотворення навмисно викликані процесом взяття проб.
Зразки ймовірності є ті , де все люди мають відому ненульова ймовірність включення, і найпростіший дизайн вибірки ймовірність простої випадкової вибірки , де кожна людина має рівну ймовірність включення. Коли респонденти вибираються за допомогою простої випадкової вибірки з досконалим виконанням (наприклад, без помилок і без покриття неотримання відповіді), то оцінка дуже проста, оскільки вибірка буде-в середньому-бути мініатюрною версією населення.
Проста випадкова вибірка рідко використовується на практиці, однак. Швидше за все, дослідники навмисно вибрати людей з нерівною ймовірністю включення для того, щоб скоротити витрати і підвищити точність. Коли дослідники навмисно вибрати людей з різними можливостями включення, то коригування необхідні, щоб скасувати спотворення, викликані процесом взяття проб. Іншими словами, як ми узагальнюють з зразка залежить від того, як був обраний зразок.
Наприклад, Поточне обстеження населення (CPS) використовується урядом США для оцінки рівня безробіття. Щомісяця близько 100 000 чоловік проходять співбесіду, або лицем до лиця або по телефону, а результати використовуються для отримання оціненого рівня безробіття. Тому що уряд хоче оцінити рівень безробіття в кожній державі, воно не може зробити простий випадкової вибірки дорослих, тому що це дало б занадто мало респондентів в країнах з невеликим населенням (наприклад, Род-Айленд) і занадто багато з країн з великою чисельністю населення (наприклад, , Каліфорнія). Замість того , КПС зразки людей в різних штатах з різною швидкістю, цей процес називається стратифікованою вибірки з нерівній ймовірністю відбору. Наприклад, якщо КПС хотів 2000 респондентів в штаті, а потім дорослих в Род-Айленд матиме приблизно в 30 разів вище ймовірність включення, ніж дорослі в Каліфорнії (Род-Айленд: 2000 респондентів на 800000 дорослих проти Каліфорнії: 2000 респондентів в 30000000 дорослих). Як ми побачимо пізніше, цей вид вибірки з нерівній ймовірністю відбувається з інтернет-джерелами даних теж, але на відміну від КПС, механізм відбору проб зазвичай не відома або під контролем дослідника.
З огляду на дизайн вибірки, Росспоживнагляд не є безпосередньо представником США; вона включає в себе занадто багато людей зі штату Род-Айленд і занадто мало з Каліфорнії. Таким чином, було б нерозумно, щоб оцінити рівень безробіття в країні з рівнем безробіття в зразку. Замість вибіркового середнього, то краще взяти зважене середнє, де на частку ваги за те, що люди з Род-Айленд були більш імовірно, будуть включені, ніж люди з Каліфорнії. Наприклад, кожна людина з Каліфорнії буде upweighted- вони будуть розраховувати більше в кошторисні та кожної людини зі штату Род-Айленд буде downweighted-то вони будуть зараховуватися менше в горизонтальній осі. По суті, ви отримуєте більше почути голоси людей, які ви менш імовірно, щоб дізнатися про.
Ця іграшка приклад ілюструє важливий, але часто невірно розуміється: зразок не повинен бути мініатюрну версію населення з метою отримання хороших оцінок. Якщо досить відомо про те, як були зібрані дані, то ця інформація може бути використана при проведенні оцінки з зразка. Підхід, який я тільки що описав, і що я математично описати в технічному додатку, падає прямо в класичних рамках ймовірнісної вибірки. Тепер я покажу, як та ж ідея може бути застосована до зразків неймовірності.