В этом приложении я опишу некоторые идеи из главы в несколько более математической форме. Цель здесь - помочь вам устроиться с нотацией и математической основой, используемой исследователями-исследователями, чтобы вы могли перейти к некоторым техническим материалам, написанным по этим темам. Я начну с введения вероятностной выборки, затем перейду к выборке вероятности с ответом и, наконец, не вероятностной выборкой.
Выборка вероятности
В качестве примерного примера давайте рассмотрим цель оценки уровня безработицы в Соединенных Штатах. Пусть \(U = \{1, \ldots, k, \ldots, N\}\) - целевая совокупность, а \(y_k\) - значение переменной результата для человека \(k\) . В этом примере \(y_k\) является ли человек \(k\) безработным. Наконец, пусть \(F = \{1, \ldots, k, \ldots, N\}\) - это совокупность кадров, которая для простоты считается такой же, как целевая совокупность.
Базовая схема выборки - простая случайная выборка без замены. В этом случае каждый человек в равной степени может быть включен в образец \(s = \{1, \ldots, i, \ldots, n\}\) . Когда данные собираются с этой схемой выборки, исследователи могут оценить уровень безработицы населения с помощью среднего значения выборки:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
где \(\bar{y}\) - уровень безработицы в популяции, а \(\hat{\bar{y}}\) - это оценка уровня безработицы (обычно \(\hat{ }\) используется для обозначения оценки).
В действительности, исследователи редко используют простую случайную выборку без замены. По ряду причин (один из которых я опишу в одно мгновение), исследователи часто создают образцы с неравными вероятностями включения. Например, исследователи могут выбирать людей во Флориде с большей вероятностью включения, чем люди в Калифорнии. В этом случае среднее значение выборки (уравнение 3.1) может не быть хорошей оценкой. Вместо этого, когда есть неравные вероятности включения, исследователи используют
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
где \(\hat{\bar{y}}\) - оценка уровня безработицы, а \(\pi_i\) - вероятность включения человека \(i\) . Следуя стандартной практике, я буду называть оценку в уравнении 3.2 оценщик Хорвица-Томпсона. Оценка Horvitz-Thompson чрезвычайно полезна, поскольку она приводит к непредвзятым оценкам для любой конструкции вероятностной выборки (Horvitz and Thompson 1952) . Поскольку оценка Horvitz-Thompson появляется так часто, полезно заметить, что ее можно переписать как
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
где \(w_i = 1 / \pi_i\) . В качестве уравнения 3.3 показывает, что оценка Horvitz-Thompson представляет собой взвешенное среднее значение выборки, где веса обратно связаны с вероятностью выбора. Другими словами, чем меньше вероятность того, что человек будет включен в выборку, тем больше веса этот человек должен получить в оценке.
Как описано выше, исследователи часто опробовают людей с неравными вероятностями включения. Одним из примеров конструкции, которая может привести к неравным вероятностям включения, является стратифицированная выборка , что важно понимать, поскольку она тесно связана с процедурой оценки, называемой пост-стратификацией . В стратифицированной выборке исследователь разбивает целевую совокупность на \(H\) взаимоисключающие и исчерпывающие группы. Эти группы называются стратами и обозначаются как \(U_1, \ldots, U_h, \ldots, U_H\) . В этом примере страты являются состояниями. Размеры групп обозначаются как \(N_1, \ldots, N_h, \ldots, N_H\) . Исследователь может захотеть использовать стратифицированную выборку, чтобы убедиться, что у нее достаточно людей в каждом штате, чтобы сделать оценки уровня безработицы на уровне штата.
Как только население будет разделено на слои , предположите, что исследователь выбирает простой случайный образец без замены размера \(n_h\) , независимо от каждой страты. Кроме того, предположим, что все, выбранные в выборке, становятся респондентами (я буду обрабатывать неответ в следующем разделе). В этом случае вероятность включения
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Поскольку эти вероятности могут варьироваться от человека к человеку, при оценке из этого образца выборки исследователи должны весить каждого респондента, обратившись к их вероятности включения, используя оценку Хорвица-Томпсона (уравнение 3.2).
Несмотря на то, что оценщик Horvitz-Thompson объективен, исследователи могут давать более точные (т. Е. Более низкие дисперсии) оценки, объединяя образец со вспомогательной информацией . Некоторым людям кажется удивительным, что это справедливо, даже если есть отлично выполненная выборка вероятности. Эти методы, использующие вспомогательную информацию, особенно важны, поскольку, как я покажу ниже, вспомогательная информация имеет решающее значение для составления оценок из вероятностных выборок с неответствием и из образцов с не вероятностью.
Одним из распространенных методов использования вспомогательной информации является постстратификация . Представьте себе, например, что исследователь знает количество мужчин и женщин в каждом из 50 штатов; мы можем обозначить эти размеры групп как \(N_1, N_2, \ldots, N_{100}\) . Чтобы объединить эту вспомогательную информацию с образцом, исследователь может разбить образец на группы \(H\) (в этом случае 100), сделать оценку для каждой группы, а затем создать средневзвешенное значение этих групповых средств:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Грубо, оценка в уравнении 3.5, скорее всего, будет более точным, поскольку он использует известную информацию о населении - \(N_h\) - для правильной оценки, если выбран небалансный образец. Один из способов подумать об этом заключается в том, что пост-расслоение похоже на приближение стратификации после того, как данные уже собраны.
В заключение в этом разделе описано несколько образцов выборки: простая случайная выборка без замены, выборка с неравной вероятностью и стратифицированная выборка. Он также описал две основные идеи об оценке: оценку Горвица-Томпсона и пост-стратификацию. Более формальное определение конструкций выборки вероятностей см. В главе 2 Särndal, Swensson, and Wretman (2003) . Более формальное и полное лечение стратифицированной выборки см. В разделе 3.7 Särndal, Swensson, and Wretman (2003) . Для технического описания свойств оценки Хорвица-Томпсона см. Horvitz and Thompson (1952) , Overton and Stehman (1995) или раздел 2.8 @ sarndal_model_2003. Для более формального лечения постстратификации, см. Holt and Smith (1979) , Smith (1991) , Little (1993) или раздел 7.6 Särndal, Swensson, and Wretman (2003) .
Вероятностная выборка без ответа
Почти все реальные опросы не имеют ответа; то есть не каждый в выборке населения отвечает на каждый вопрос. Существует два основных вида ответа: отсутствие ответа и единичный ответ . В случае отсутствия ответа некоторые респонденты не отвечают на некоторые вопросы (например, иногда респонденты не хотят отвечать на вопросы, которые они считают чувствительными). В случае отсутствия ответа некоторые люди, выбранные для выборочной совокупности, вообще не отвечают на опрос. Двумя наиболее распространенными причинами отсутствия ответа являются то, что с выбранным человеком нельзя связаться, а к собеседнику обращаются, но он отказывается участвовать. В этом разделе я остановлюсь на единичном ответе; читатели, заинтересованные в неподтверждении статьи, должны увидеть Little and Rubin (2002) .
Исследователи часто думают об опросах с единичным откликом в качестве двухэтапного процесса выборки. На первом этапе исследователь выбирает образец \(s\) такой, что каждый человек имеет вероятность включения \(\pi_i\) (где \(0 < \pi_i \leq 1\) ). Затем на втором этапе люди, отобранные в образец, отвечают с вероятностью \(\phi_i\) (где \(0 < \phi_i \leq 1\) ). Этот двухэтапный процесс приводит к окончательному набору респондентов \(r\) . Важное различие между этими двумя этапами заключается в том, что исследователи контролируют процесс выбора образца, но не контролируют, кто из этих опрошенных людей становится респондентами. Объединяя эти два процесса, вероятность того, что кто-то станет респондентом,
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Для простоты я рассмотрю случай, когда исходная модель образца является простой случайной выборкой без замены. Если исследователь выбирает образец размера \(n_s\) который дает респондентам \(n_r\) , и если исследователь игнорирует \(n_r\) и использует среднее число респондентов, тогда смещение оценки будет:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
где \(cor(\phi, y)\) является корреляцией населения между склонностью ответа и результатом (например, статусом безработицы), \(S(y)\) является стандартным отклонением населения от результата (например, безработица статус), \(S(\phi)\) - стандартное отклонение популяции склонности отклика, а \(\bar{\phi}\) - средняя склонность к популяционному ответу (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 показывает, что неответ не приведет к смещению, если выполнено одно из следующих условий:
К сожалению, ни одно из этих условий не кажется вероятным. Кажется неправдоподобным, что не будет изменений в статусе занятости или что не будет изменений в склонности к ответным действиям. Таким образом, ключевой член в уравнении 3.7 - корреляция: \(cor(\phi, y)\) . Например, если люди, с которыми неработают безработные, с большей вероятностью будут реагировать, тогда предполагаемый уровень занятости будет предвзятым.
Трюк для составления оценок при отсутствии ответа заключается в использовании вспомогательной информации. Например, одним из способов использования вспомогательной информации является постстратификация (см. Выше 3.5). Оказывается, что смещение оценки после стратификации:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
где \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , и \(\bar{\phi}^{(h)}\) определяются, как указано выше, но ограничены людьми в группе \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Таким образом, общее смещение будет небольшим, если смещение в каждой группе после стратификации мало. Есть два способа, которыми мне нравится думать о том, чтобы сделать смещение небольшим в каждой группе после стратификации. Во-первых, вы хотите попытаться сформировать однородные группы, где мало различий в склонности ответа ( \(S(\phi)^{(h)} \approx 0\) ) и результат ( \(S(y)^{(h)} \approx 0\) ). Во-вторых, вы хотите сформировать группы, в которых люди, которые вы видите, похожи на людей, которых вы не видите ( \(cor(\phi, y)^{(h)} \approx 0\) ). Сравнивая уравнение 3,7 и экв. 3.8 помогает уточнить, когда постстратификация может уменьшить предвзятость, вызванную неответствием.
В заключение, этот раздел предоставил модель для выборки вероятностей с отсутствием ответа и показал смещение, что неответ может вводиться как без, так и с корректировками после стратификации. Bethlehem (1988) предлагает вывод смещения, вызванный не ответом на более общие образцы выборки. Подробнее о том, как использовать постстратификацию для адаптации к непредвзятости, см. Smith (1991) Gelman and Carlin (2002) . Пост стратификация является частью более общего семейства методов, называемых калибровочными оценщиками, см. Zhang (2000) для лечения длины статьи и Särndal and Lundström (2005) для лечения длины книги. Более подробно о других других методах взвешивания для корректировки на отсутствие ответа см. Kalton and Flores-Cervantes (2003) , Brick (2013) и Särndal and Lundström (2005) .
Невероятная выборка
Невероятная выборка включает в себя огромное разнообразие конструкций (Baker et al. 2013) . Сосредоточившись конкретно на образце пользователей Xbox от Wang и его коллег (W. Wang et al. 2015) , вы можете подумать о таком виде образца, где ключевая часть дизайна выборки - это не \(\pi_i\) ( определяемая исследователем вероятность включения), но \(\phi_i\) (склонность к ответным реакциям). Естественно, это не идеально, потому что \(\phi_i\) неизвестны. Но, как показали Ван и коллеги, такая выборка выборки - даже из рамки выборки с огромной ошибкой покрытия - не должна быть катастрофической, если у исследователя есть хорошая вспомогательная информация и хорошая статистическая модель для учета этих проблем.
Bethlehem (2010) распространяет многие из вышеприведенных выводов о пост-стратификации, чтобы включить как ошибки ответа, так и ошибки покрытия. В дополнение к постстратификации, другим методам работы с (Ansolabehere and Rivers 2013; ??? ) с не вероятностью - и вероятностными выборками с ошибками покрытия и сопоставлением выборки без (Ansolabehere and Rivers 2013; ??? ) , взвешиванием оценки склонности (Lee 2006; Schonlau et al. 2009) и калибровки (Lee and Valliant 2009) . Одной из распространенных тем среди этих методов является использование вспомогательной информации.