Образцы вероятности и образцы невероятности не отличаются на практике; в обоих случаях, это все о весах.
Отбор проб имеет фундаментальное значение для обследования исследований. Исследователи почти никогда не задавать вопросы всем в своей целевой группы населения. В связи с этим, исследования не являются уникальными. Большинство исследований, в той или иной мере, включает в себя отбор проб. Иногда это делается выборка явно исследователем; иногда это происходит неявно. Например, исследователь, который работает лабораторный эксперимент на студентов в своем университете также принимал образец. Таким образом, выборка является проблемой, которая приходит на протяжении всей книги. На самом деле, одна из наиболее распространенных проблем, которые я слышу о цифровых источниках возрастных данных "они не являются репрезентативными." Как мы увидим в этом разделе, эта проблема является и менее серьезными и более тонкие, чем многие скептики понимают. На самом деле, я буду утверждать, что вся концепция "репрезентативности" не полезно думать о вероятности и не вероятностных выборок. Вместо этого, ключ должен думать о том, как были собраны данные и как любые перекосы в этой коллекции данных могут быть отменены при проведении оценок.
В настоящее время доминирует теоретический подход к представлению является вероятностная выборка. Когда данные собираются с помощью метода вероятностной выборки, которая была прекрасно выполнена, исследователи могут взвешивать свои данные на основе так, чтобы они были собраны, чтобы сделать несмещенные оценки о целевой популяции. Однако идеальный вероятностная выборка в принципе никогда не происходит в реальном мире. Есть , как правило , две основные проблемы : 1) различия между целевой группы населения и населения кадров и 2) неполучения ответов (это именно те проблемы , которые разрушали опрос Literary Digest). Таким образом, вместо того, чтобы думать о вероятностной выборки в качестве реалистичной модели того, что на самом деле происходит в мире, то лучше думать о вероятностной выборки в качестве полезного, абстрактной модели, так же, как то, как физики думают о невязкой шара катятся бесконечно долго рампы.
Альтернативой вероятностной выборки является выборка без вероятности. Основное различие между вероятностью и выборки невероятности является то, что с вероятностью выборки всех в популяции имеет известную вероятность включения. Есть, на самом деле, много разновидностей выборки невероятности, и эти методы сбора данных становятся все более распространенными в эпоху цифровых технологий. Но, отбор проб без вероятности имеет ужасную репутацию среди социологов и статистиков. На самом деле, отбор проб , не вероятности , связано с некоторыми из наиболее драматических неудач исследователей обследований, таких как фиаско Literary Digest (обсуждалось ранее) и неправильного предсказания о президентских выборах в США 1948 года ( "Дьюи Поражения Трумэна") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
Тем не менее, настало время пересмотреть выборки без вероятности по двум причинам. Во-первых, в качестве образцов вероятности становятся все более трудно сделать на практике, линия между образцами вероятности и образцов невероятности размывается. Когда есть высокие показатели неполучения ответов (как есть в реальных обследований в настоящее время), фактическая вероятность включений для респондентов не известны, и, таким образом, образцы вероятности и образцы невероятности не столь различны, как полагают многие исследователи. На самом деле, как мы увидим ниже, оба подхода в основном полагаются на том же методе оценки: после стратификации. Во-вторых, было много разработок в области сбора и анализа проб невероятности. Эти методы достаточно отличаются от методов, которые вызвали проблемы в прошлом, что я думаю, что это имеет смысл думать о них как "невероятности выборки 2.0." Мы не должны иметь иррациональное отвращение к методам без вероятности из-за ошибок, которые произошли давным давно.
Далее, для того, чтобы сделать этот довод более конкретным, я рассмотрю стандартной вероятности выборки и весов (раздел 3.4.1). Ключевая идея заключается в том, что, как вы собрали данные должны влиять, как вы делаете оценки. В частности, если все не имеют одинаковую вероятность включения, то все не должны иметь одинаковый вес. Другими словами, если ваша выборка не является демократическим, то ваши оценки не должны быть демократическими. После рассмотрения взвешивания, я опишу два подхода к отбору проб невероятности: один, который фокусируется на взвешивание, чтобы иметь дело с проблемой бессистемно собранных данных (раздел 3.4.2), и тот, который пытается установить более полный контроль над тем, как данные собраны (раздел 3.4.3). Аргументы в основном тексте будет разъяснено ниже со словами и рисунками; Читатели, которые хотели бы более математическую обработку следует также в техническом приложении.