Уявлення про те , щоб висновки з ваших респондентів до вашої цільової аудиторії.
Для того , щоб зрозуміти вид помилок , які можуть статися , коли виводячи від респондентів до більшої частини населення, давайте розглянемо опитування Literary Digest , які намагалися передбачити результат виборів 1936 року президента США. Хоча це було більше 75 років тому, це Розгром як і раніше має важливий урок, щоб навчити дослідників сьогодні.
Literary Digest був популярний журнал загальний інтерес, а починаючи з 1920 року вони почали працювати солом'яні опитування , щоб передбачити результати президентських виборів. Для того, щоб зробити ці передбачення вони будуть посилати бюлетені до великої кількості людей, а потім просто підраховувати бюлетені , які були повернуті; Literary Digest з гордістю повідомили , що бюлетені , які вони отримали не були ні "зважене, з поправкою, ні інтерпретувати" . Ця процедура правильно передбачив переможця виборів в 1920, 1924, 1928 і 1932 року в 1936 році, в розпал Великої депресії, Literary Digest розіслав бюлетені до 10 мільйонів чоловік, чиї імена переважно прийшли з телефонних довідників і реєстраційних записів про автомобілі. Ось як вони описали свою методику:
"Налагоджена машина рухається дайджесту з швидкою точністю досвіду тридцять років, щоб зменшити здогадок до жорстких фактів. , , .Це Тиждень 500 ручки закреслив понад чверть мільйона адрес в день. Кожен день, в великій кімнаті, високо над моторно-авеню четвертої стрічками, в Нью-Йорку, 400 робочих спритно ковзають мільйон штук друкованої продукції, досить, щоб прокласти сорок міських кварталів, записаними в адресованих конвертах [так в оригіналі]. Щогодини, в власне поштове відділення ПС дайджесту'S, три дискутують доставку дозувальні машини герметизують і штамповані білі прямокутники; кваліфіковані працівники пошти перекинув їх в виряченими mailsacks; флот ДАЙДЖЕСТ вантажівки прискорило їх експрес-пошти поїздів. , , Наступного тижня, перші відповіді з цих десяти мільйонів чоловік почне припливом зазначених бюлетенів, щоб бути потрійним перевірено, перевірено, п'ять разів перехресної класифікації і склав. Коли остання цифра була totted і перевіряється, якщо минулий досвід є критерієм, країна буде знати з точністю до часток 1 відсотка фактичного всенародного голосування сорока мільйонів [виборців]. "(22 серпня 1936)
фетишизація дайджесту за розміром миттєво упізнаваним для будь-якого дослідника "великі дані" сьогодні. З 10 мільйонів бюлетенів розподілені, дивовижні 2,4 мільйона бюлетенів були повернуті, що приблизно в 1000 разів більше, ніж сучасних політичних опитувань. З цих 2,4 мільйона респондентів вердикт був ясний: Literary Digest передбачив , що претендентом Альф Лендон збирався перемогти чинного Франкліна Рузвельта. Але, по суті, прямо протилежне сталося. Рузвельт переміг Лендон в обвалі. Як Literary Digest може піти не так , з такою кількістю даних? Наше сучасне розуміння вибірки робить помилки Literary Digest ясно і допомагає нам уникнути подібних помилок у майбутньому.
Мислення ясно про вибірку вимагає від нас розглянути чотири різні групи людей (Малюнок 3.1). Перша група людей є цільовою групи населення; це група, що дослідження визначає як інтерес населення. У разі Literary Digest цільова група населення була виборці в 1936 році президентських виборах. Після прийняття рішення про цільову групу населення, дослідник наступний необхідно розробити список людей, які можуть бути використані для відбору проб. Цей список називається структура вибірки і населення на вибіркової сукупності називається населення кадрів. У разі Literary Digest населення кадрів було 10 мільйонів чоловік , чиї імена прийшли головним чином з телефонних довідників і реєстраційних записів про автомобілі. В ідеалі цільова група населення і населення кадрів буде точно такий же, але на практиці це часто не так. Відмінності між цільової групи населення і населення кадру називаються помилки охоплення. Помилка Покриття не саме по собі гарантує проблеми. Але, якщо люди в кадрі населення систематично відрізняються від людей не в популяції кадрів буде ухил покриття. Помилка покриття була першою з головних недоліків з опитування Literary Digest. Вони хотіли дізнатися про виборців-це їхня цільова група населення, але вони побудували структуру вибірки переважно з телефонних довідників і автомобільних реєстрів джерел, які надмірно представлені багатшими американців, які були більш схильні підтримувати Альф Лендон (нагадаємо, що обидві ці технології, які є загальними сьогодні, були відносно новим в той час і що США в розпал Великої депресії).
Після визначення популяції кадру, наступний крок для дослідника , щоб вибрати вибірки населення; це ті люди, які дослідник намагатимуться взяти інтерв'ю. Якщо зразок має різні характеристики , ніж населення кадру, то можна ввести похибку вибірки. Це свого роду помилка кількісно в межах похибки, яка зазвичай супроводжує оцінки. У разі провалу Literary Digest, там на самому ділі не було ніякого зразка; вони спробували зв'язатися з усіма в популяції кадру. Незважаючи на те, що не було ніякої помилки вибірки, то, очевидно, досі помилка. Це пояснює, що поля помилок, які, як правило, повідомляється з оцінками за результатами обстежень, як правило, оманливе малі; вони не включають в себе всі джерела помилок.
Нарешті, дослідник намагається взяти інтерв'ю у всіх в групі людей. Ті люди, які успішно Опитані називають респондентів. В ідеалі, населення вибірки і респонденти були б точно такими ж, але на практиці не є відповіддю. Тобто, люди, які вибирають в зразку відмовитися від участі. Якщо люди , які відповідають відрізняються від тих , хто не відповідає, тобто може бути без відповіді зміщення. Без відповіді зміщення була друга головна проблема опитування Literary Digest. Тільки 24% людей, які отримали виборчий бюлетень відповів, і виявилося, що люди, які підтримували Лендон були більш схильні реагувати.
Крім просто бути прикладом уявити ідеї вистави, опитування Літературний дайджест є часто повторювана притча, попереджаючи дослідників про небезпеку безсистемної вибірки. На жаль, я думаю, що урок, що багато людей взяти з цієї історії є не той. Найбільш поширеним мораль цієї історії є те, що дослідники не можуть що-небудь із зразків неймовірності дізнатися (тобто зразків без строгих правил на основі імовірнісних відбору учасників). Але, як я покажу далі в цій главі, це не зовсім вірно. Замість цього, я думаю, що насправді є дві моралі цієї історії; моралі, які так само вірно сьогодні, як вони були в 1936 р По-перше, велика кількість безсистемно зібраних даних не гарантує гарну оцінку. По-друге, дослідники повинні враховувати, як збирали їх дані, коли вони роблять оцінки від нього. Іншими словами, так як процес збору даних в опитуванні Literary Digest систематично перекіс в сторону деяких респондентів, дослідники повинні використовувати більш складний процес оцінки , що ваги деякі респонденти більше , ніж інші. Пізніше в цій главі я покажу вам один такий ваговій порядок-постстратіфікація-що може дозволити вам зробити кращі оцінки зразків неймовірності.