Математические заметки

Этот перевод был создан с помощью компьютера. ×

Математические заметки

В этом приложении я опишу некоторые идеи из главы в несколько более математической форме. Цель здесь - помочь вам устроиться с нотацией и математической основой, используемой исследователями-исследователями, чтобы вы могли перейти к некоторым техническим материалам, написанным по этим темам. Я начну с введения вероятностной выборки, затем перейду к выборке вероятности с ответом и, наконец, не вероятностной выборкой.

Выборка вероятности

В качестве примерного примера давайте рассмотрим цель оценки уровня безработицы в Соединенных Штатах. Пусть $U = \{1, \ldots, k, \ldots, N\}$ - целевая совокупность, а $y_k$ - значение переменной результата для человека $k$ . В этом примере $y_k$ является ли человек $k$ безработным. Наконец, пусть $F = \{1, \ldots, k, \ldots, N\}$ - это совокупность кадров, которая для простоты считается такой же, как целевая совокупность.

Базовая схема выборки - простая случайная выборка без замены. В этом случае каждый человек в равной степени может быть включен в образец $s = \{1, \ldots, i, \ldots, n\}$ . Когда данные собираются с этой схемой выборки, исследователи могут оценить уровень безработицы населения с помощью среднего значения выборки:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

где $\bar{y}$ - уровень безработицы в популяции, а $\hat{\bar{y}}$ - это оценка уровня безработицы (обычно $\hat{ }$ используется для обозначения оценки).

В действительности, исследователи редко используют простую случайную выборку без замены. По ряду причин (один из которых я опишу в одно мгновение), исследователи часто создают образцы с неравными вероятностями включения. Например, исследователи могут выбирать людей во Флориде с большей вероятностью включения, чем люди в Калифорнии. В этом случае среднее значение выборки (уравнение 3.1) может не быть хорошей оценкой. Вместо этого, когда есть неравные вероятности включения, исследователи используют

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

где $\hat{\bar{y}}$ - оценка уровня безработицы, а $\pi_i$ - вероятность включения человека $i$ . Следуя стандартной практике, я буду называть оценку в уравнении 3.2 оценщик Хорвица-Томпсона. Оценка Horvitz-Thompson чрезвычайно полезна, поскольку она приводит к непредвзятым оценкам для любой конструкции вероятностной выборки (Horvitz and Thompson 1952) . Поскольку оценка Horvitz-Thompson появляется так часто, полезно заметить, что ее можно переписать как

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

где $w_i = 1 / \pi_i$ . В качестве уравнения 3.3 показывает, что оценка Horvitz-Thompson представляет собой взвешенное среднее значение выборки, где веса обратно связаны с вероятностью выбора. Другими словами, чем меньше вероятность того, что человек будет включен в выборку, тем больше веса этот человек должен получить в оценке.

Как описано выше, исследователи часто опробовают людей с неравными вероятностями включения. Одним из примеров конструкции, которая может привести к неравным вероятностям включения, является стратифицированная выборка , что важно понимать, поскольку она тесно связана с процедурой оценки, называемой пост-стратификацией . В стратифицированной выборке исследователь разбивает целевую совокупность на $H$ взаимоисключающие и исчерпывающие группы. Эти группы называются стратами и обозначаются как $U_1, \ldots, U_h, \ldots, U_H$ . В этом примере страты являются состояниями. Размеры групп обозначаются как $N_1, \ldots, N_h, \ldots, N_H$ . Исследователь может захотеть использовать стратифицированную выборку, чтобы убедиться, что у нее достаточно людей в каждом штате, чтобы сделать оценки уровня безработицы на уровне штата.

Как только население будет разделено на слои , предположите, что исследователь выбирает простой случайный образец без замены размера $n_h$ , независимо от каждой страты. Кроме того, предположим, что все, выбранные в выборке, становятся респондентами (я буду обрабатывать неответ в следующем разделе). В этом случае вероятность включения

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

Поскольку эти вероятности могут варьироваться от человека к человеку, при оценке из этого образца выборки исследователи должны весить каждого респондента, обратившись к их вероятности включения, используя оценку Хорвица-Томпсона (уравнение 3.2).

Несмотря на то, что оценщик Horvitz-Thompson объективен, исследователи могут давать более точные (т. Е. Более низкие дисперсии) оценки, объединяя образец со вспомогательной информацией . Некоторым людям кажется удивительным, что это справедливо, даже если есть отлично выполненная выборка вероятности. Эти методы, использующие вспомогательную информацию, особенно важны, поскольку, как я покажу ниже, вспомогательная информация имеет решающее значение для составления оценок из вероятностных выборок с неответствием и из образцов с не вероятностью.

Одним из распространенных методов использования вспомогательной информации является постстратификация . Представьте себе, например, что исследователь знает количество мужчин и женщин в каждом из 50 штатов; мы можем обозначить эти размеры групп как $N_1, N_2, \ldots, N_{100}$ . Чтобы объединить эту вспомогательную информацию с образцом, исследователь может разбить образец на группы $H$ (в этом случае 100), сделать оценку для каждой группы, а затем создать средневзвешенное значение этих групповых средств:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

Грубо, оценка в уравнении 3.5, скорее всего, будет более точным, поскольку он использует известную информацию о населении - $N_h$ - для правильной оценки, если выбран небалансный образец. Один из способов подумать об этом заключается в том, что пост-расслоение похоже на приближение стратификации после того, как данные уже собраны.

В заключение в этом разделе описано несколько образцов выборки: простая случайная выборка без замены, выборка с неравной вероятностью и стратифицированная выборка. Он также описал две основные идеи об оценке: оценку Горвица-Томпсона и пост-стратификацию. Более формальное определение конструкций выборки вероятностей см. В главе 2 Särndal, Swensson, and Wretman (2003) . Более формальное и полное лечение стратифицированной выборки см. В разделе 3.7 Särndal, Swensson, and Wretman (2003) . Для технического описания свойств оценки Хорвица-Томпсона см. Horvitz and Thompson (1952) , Overton and Stehman (1995) или раздел 2.8 @ sarndal_model_2003. Для более формального лечения постстратификации, см. Holt and Smith (1979) , Smith (1991) , Little (1993) или раздел 7.6 Särndal, Swensson, and Wretman (2003) .

Вероятностная выборка без ответа

Почти все реальные опросы не имеют ответа; то есть не каждый в выборке населения отвечает на каждый вопрос. Существует два основных вида ответа: отсутствие ответа и единичный ответ . В случае отсутствия ответа некоторые респонденты не отвечают на некоторые вопросы (например, иногда респонденты не хотят отвечать на вопросы, которые они считают чувствительными). В случае отсутствия ответа некоторые люди, выбранные для выборочной совокупности, вообще не отвечают на опрос. Двумя наиболее распространенными причинами отсутствия ответа являются то, что с выбранным человеком нельзя связаться, а к собеседнику обращаются, но он отказывается участвовать. В этом разделе я остановлюсь на единичном ответе; читатели, заинтересованные в неподтверждении статьи, должны увидеть Little and Rubin (2002) .

Исследователи часто думают об опросах с единичным откликом в качестве двухэтапного процесса выборки. На первом этапе исследователь выбирает образец $s$ такой, что каждый человек имеет вероятность включения $\pi_i$ (где $0 < \pi_i \leq 1$ ). Затем на втором этапе люди, отобранные в образец, отвечают с вероятностью $\phi_i$ (где $0 < \phi_i \leq 1$ ). Этот двухэтапный процесс приводит к окончательному набору респондентов $r$ . Важное различие между этими двумя этапами заключается в том, что исследователи контролируют процесс выбора образца, но не контролируют, кто из этих опрошенных людей становится респондентами. Объединяя эти два процесса, вероятность того, что кто-то станет респондентом,

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

Для простоты я рассмотрю случай, когда исходная модель образца является простой случайной выборкой без замены. Если исследователь выбирает образец размера $n_s$ который дает респондентам $n_r$ , и если исследователь игнорирует $n_r$ и использует среднее число респондентов, тогда смещение оценки будет:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

где $cor(\phi, y)$ является корреляцией населения между склонностью ответа и результатом (например, статусом безработицы), $S(y)$ является стандартным отклонением населения от результата (например, безработица статус), $S(\phi)$ - стандартное отклонение популяции склонности отклика, а $\bar{\phi}$ - средняя склонность к популяционному ответу (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 показывает, что неответ не приведет к смещению, если выполнено одно из следующих условий:

Нет никакого различия в статусе безработицы $(S(y) = 0)$ .
Не существует вариации в ответных наклонностях $(S(\phi) = 0)$ .
Нет никакой корреляции между склонностью ответа и статусом безработицы $(cor(\phi, y) = 0)$ .

К сожалению, ни одно из этих условий не кажется вероятным. Кажется неправдоподобным, что не будет изменений в статусе занятости или что не будет изменений в склонности к ответным действиям. Таким образом, ключевой член в уравнении 3.7 - корреляция: $cor(\phi, y)$ . Например, если люди, с которыми неработают безработные, с большей вероятностью будут реагировать, тогда предполагаемый уровень занятости будет предвзятым.

Трюк для составления оценок при отсутствии ответа заключается в использовании вспомогательной информации. Например, одним из способов использования вспомогательной информации является постстратификация (см. Выше 3.5). Оказывается, что смещение оценки после стратификации:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

где $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , и $\bar{\phi}^{(h)}$ определяются, как указано выше, но ограничены людьми в группе $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Таким образом, общее смещение будет небольшим, если смещение в каждой группе после стратификации мало. Есть два способа, которыми мне нравится думать о том, чтобы сделать смещение небольшим в каждой группе после стратификации. Во-первых, вы хотите попытаться сформировать однородные группы, где мало различий в склонности ответа ( $S(\phi)^{(h)} \approx 0$ ) и результат ( $S(y)^{(h)} \approx 0$ ). Во-вторых, вы хотите сформировать группы, в которых люди, которые вы видите, похожи на людей, которых вы не видите ( $cor(\phi, y)^{(h)} \approx 0$ ). Сравнивая уравнение 3,7 и экв. 3.8 помогает уточнить, когда постстратификация может уменьшить предвзятость, вызванную неответствием.

В заключение, этот раздел предоставил модель для выборки вероятностей с отсутствием ответа и показал смещение, что неответ может вводиться как без, так и с корректировками после стратификации. Bethlehem (1988) предлагает вывод смещения, вызванный не ответом на более общие образцы выборки. Подробнее о том, как использовать постстратификацию для адаптации к непредвзятости, см. Smith (1991) Gelman and Carlin (2002) . Пост стратификация является частью более общего семейства методов, называемых калибровочными оценщиками, см. Zhang (2000) для лечения длины статьи и Särndal and Lundström (2005) для лечения длины книги. Более подробно о других других методах взвешивания для корректировки на отсутствие ответа см. Kalton and Flores-Cervantes (2003) , Brick (2013) и Särndal and Lundström (2005) .

Невероятная выборка

Невероятная выборка включает в себя огромное разнообразие конструкций (Baker et al. 2013) . Сосредоточившись конкретно на образце пользователей Xbox от Wang и его коллег (W. Wang et al. 2015) , вы можете подумать о таком виде образца, где ключевая часть дизайна выборки - это не $\pi_i$ ( определяемая исследователем вероятность включения), но $\phi_i$ (склонность к ответным реакциям). Естественно, это не идеально, потому что $\phi_i$ неизвестны. Но, как показали Ван и коллеги, такая выборка выборки - даже из рамки выборки с огромной ошибкой покрытия - не должна быть катастрофической, если у исследователя есть хорошая вспомогательная информация и хорошая статистическая модель для учета этих проблем.

Bethlehem (2010) распространяет многие из вышеприведенных выводов о пост-стратификации, чтобы включить как ошибки ответа, так и ошибки покрытия. В дополнение к постстратификации, другим методам работы с (Ansolabehere and Rivers 2013; ??? ) с не вероятностью - и вероятностными выборками с ошибками покрытия и сопоставлением выборки без (Ansolabehere and Rivers 2013; ??? ) , взвешиванием оценки склонности (Lee 2006; Schonlau et al. 2009) и калибровки (Lee and Valliant 2009) . Одной из распространенных тем среди этих методов является использование вспомогательной информации.