В этом приложении я опишу некоторые идеи из главы в несколько более математической форме. Цель здесь - помочь вам устроиться с нотацией и математической основой, используемой исследователями-исследователями, чтобы вы могли перейти к некоторым техническим материалам, написанным по этим темам. Я начну с введения вероятностной выборки, затем перейду к выборке вероятности с ответом и, наконец, не вероятностной выборкой.
Выборка вероятности
В качестве примерного примера давайте рассмотрим цель оценки уровня безработицы в Соединенных Штатах. Пусть U={1,…,k,…,N}U={1,…,k,…,N} - целевая совокупность, а ykyk - значение переменной результата для человека kk . В этом примере ykyk является ли человек kk безработным. Наконец, пусть F={1,…,k,…,N}F={1,…,k,…,N} - это совокупность кадров, которая для простоты считается такой же, как целевая совокупность.
Базовая схема выборки - простая случайная выборка без замены. В этом случае каждый человек в равной степени может быть включен в образец s={1,…,i,…,n}s={1,…,i,…,n} . Когда данные собираются с этой схемой выборки, исследователи могут оценить уровень безработицы населения с помощью среднего значения выборки:
ˆˉy=∑i∈syin(3.1)^¯y=∑i∈syin(3.1)
где ˉy¯y - уровень безработицы в популяции, а ˆˉy^¯y - это оценка уровня безработицы (обычно ^^ используется для обозначения оценки).
В действительности, исследователи редко используют простую случайную выборку без замены. По ряду причин (один из которых я опишу в одно мгновение), исследователи часто создают образцы с неравными вероятностями включения. Например, исследователи могут выбирать людей во Флориде с большей вероятностью включения, чем люди в Калифорнии. В этом случае среднее значение выборки (уравнение 3.1) может не быть хорошей оценкой. Вместо этого, когда есть неравные вероятности включения, исследователи используют
ˆˉy=1N∑i∈syiπi(3.2)^¯y=1N∑i∈syiπi(3.2)
где ˆˉy^¯y - оценка уровня безработицы, а πiπi - вероятность включения человека ii . Следуя стандартной практике, я буду называть оценку в уравнении 3.2 оценщик Хорвица-Томпсона. Оценка Horvitz-Thompson чрезвычайно полезна, поскольку она приводит к непредвзятым оценкам для любой конструкции вероятностной выборки (Horvitz and Thompson 1952) . Поскольку оценка Horvitz-Thompson появляется так часто, полезно заметить, что ее можно переписать как
ˆˉy=1N∑i∈swiyi(3.3)^¯y=1N∑i∈swiyi(3.3)
где wi=1/πiwi=1/πi . В качестве уравнения 3.3 показывает, что оценка Horvitz-Thompson представляет собой взвешенное среднее значение выборки, где веса обратно связаны с вероятностью выбора. Другими словами, чем меньше вероятность того, что человек будет включен в выборку, тем больше веса этот человек должен получить в оценке.
Как описано выше, исследователи часто опробовают людей с неравными вероятностями включения. Одним из примеров конструкции, которая может привести к неравным вероятностям включения, является стратифицированная выборка , что важно понимать, поскольку она тесно связана с процедурой оценки, называемой пост-стратификацией . В стратифицированной выборке исследователь разбивает целевую совокупность на HH взаимоисключающие и исчерпывающие группы. Эти группы называются стратами и обозначаются как U1,…,Uh,…,UHU1,…,Uh,…,UH . В этом примере страты являются состояниями. Размеры групп обозначаются как N1,…,Nh,…,NHN1,…,Nh,…,NH . Исследователь может захотеть использовать стратифицированную выборку, чтобы убедиться, что у нее достаточно людей в каждом штате, чтобы сделать оценки уровня безработицы на уровне штата.
Как только население будет разделено на слои , предположите, что исследователь выбирает простой случайный образец без замены размера nhnh , независимо от каждой страты. Кроме того, предположим, что все, выбранные в выборке, становятся респондентами (я буду обрабатывать неответ в следующем разделе). В этом случае вероятность включения
πi=nhNh for all i∈h(3.4)πi=nhNh for all i∈h(3.4)
Поскольку эти вероятности могут варьироваться от человека к человеку, при оценке из этого образца выборки исследователи должны весить каждого респондента, обратившись к их вероятности включения, используя оценку Хорвица-Томпсона (уравнение 3.2).
Несмотря на то, что оценщик Horvitz-Thompson объективен, исследователи могут давать более точные (т. Е. Более низкие дисперсии) оценки, объединяя образец со вспомогательной информацией . Некоторым людям кажется удивительным, что это справедливо, даже если есть отлично выполненная выборка вероятности. Эти методы, использующие вспомогательную информацию, особенно важны, поскольку, как я покажу ниже, вспомогательная информация имеет решающее значение для составления оценок из вероятностных выборок с неответствием и из образцов с не вероятностью.
Одним из распространенных методов использования вспомогательной информации является постстратификация . Представьте себе, например, что исследователь знает количество мужчин и женщин в каждом из 50 штатов; мы можем обозначить эти размеры групп как N1,N2,…,N100N1,N2,…,N100 . Чтобы объединить эту вспомогательную информацию с образцом, исследователь может разбить образец на группы HH (в этом случае 100), сделать оценку для каждой группы, а затем создать средневзвешенное значение этих групповых средств:
ˆˉypost=∑h∈HNhNˆˉyh(3.5)^¯ypost=∑h∈HNhN^¯yh(3.5)
Грубо, оценка в уравнении 3.5, скорее всего, будет более точным, поскольку он использует известную информацию о населении - Nh - для правильной оценки, если выбран небалансный образец. Один из способов подумать об этом заключается в том, что пост-расслоение похоже на приближение стратификации после того, как данные уже собраны.
В заключение в этом разделе описано несколько образцов выборки: простая случайная выборка без замены, выборка с неравной вероятностью и стратифицированная выборка. Он также описал две основные идеи об оценке: оценку Горвица-Томпсона и пост-стратификацию. Более формальное определение конструкций выборки вероятностей см. В главе 2 Särndal, Swensson, and Wretman (2003) . Более формальное и полное лечение стратифицированной выборки см. В разделе 3.7 Särndal, Swensson, and Wretman (2003) . Для технического описания свойств оценки Хорвица-Томпсона см. Horvitz and Thompson (1952) , Overton and Stehman (1995) или раздел 2.8 @ sarndal_model_2003. Для более формального лечения постстратификации, см. Holt and Smith (1979) , Smith (1991) , Little (1993) или раздел 7.6 Särndal, Swensson, and Wretman (2003) .
Вероятностная выборка без ответа
Почти все реальные опросы не имеют ответа; то есть не каждый в выборке населения отвечает на каждый вопрос. Существует два основных вида ответа: отсутствие ответа и единичный ответ . В случае отсутствия ответа некоторые респонденты не отвечают на некоторые вопросы (например, иногда респонденты не хотят отвечать на вопросы, которые они считают чувствительными). В случае отсутствия ответа некоторые люди, выбранные для выборочной совокупности, вообще не отвечают на опрос. Двумя наиболее распространенными причинами отсутствия ответа являются то, что с выбранным человеком нельзя связаться, а к собеседнику обращаются, но он отказывается участвовать. В этом разделе я остановлюсь на единичном ответе; читатели, заинтересованные в неподтверждении статьи, должны увидеть Little and Rubin (2002) .
Исследователи часто думают об опросах с единичным откликом в качестве двухэтапного процесса выборки. На первом этапе исследователь выбирает образец s такой, что каждый человек имеет вероятность включения πi (где 0<πi≤1 ). Затем на втором этапе люди, отобранные в образец, отвечают с вероятностью ϕi (где 0<ϕi≤1 ). Этот двухэтапный процесс приводит к окончательному набору респондентов r . Важное различие между этими двумя этапами заключается в том, что исследователи контролируют процесс выбора образца, но не контролируют, кто из этих опрошенных людей становится респондентами. Объединяя эти два процесса, вероятность того, что кто-то станет респондентом,
pr(i∈r)=πiϕi(3.6)
Для простоты я рассмотрю случай, когда исходная модель образца является простой случайной выборкой без замены. Если исследователь выбирает образец размера ns который дает респондентам nr , и если исследователь игнорирует nr и использует среднее число респондентов, тогда смещение оценки будет:
bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)
где cor(ϕ,y) является корреляцией населения между склонностью ответа и результатом (например, статусом безработицы), S(y) является стандартным отклонением населения от результата (например, безработица статус), S(ϕ) - стандартное отклонение популяции склонности отклика, а ˉϕ - средняя склонность к популяционному ответу (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 показывает, что неответ не приведет к смещению, если выполнено одно из следующих условий:
К сожалению, ни одно из этих условий не кажется вероятным. Кажется неправдоподобным, что не будет изменений в статусе занятости или что не будет изменений в склонности к ответным действиям. Таким образом, ключевой член в уравнении 3.7 - корреляция: cor(ϕ,y) . Например, если люди, с которыми неработают безработные, с большей вероятностью будут реагировать, тогда предполагаемый уровень занятости будет предвзятым.
Трюк для составления оценок при отсутствии ответа заключается в использовании вспомогательной информации. Например, одним из способов использования вспомогательной информации является постстратификация (см. Выше 3.5). Оказывается, что смещение оценки после стратификации:
bias(ˆˉypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)
где cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , и ˉϕ(h) определяются, как указано выше, но ограничены людьми в группе h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Таким образом, общее смещение будет небольшим, если смещение в каждой группе после стратификации мало. Есть два способа, которыми мне нравится думать о том, чтобы сделать смещение небольшим в каждой группе после стратификации. Во-первых, вы хотите попытаться сформировать однородные группы, где мало различий в склонности ответа ( S(ϕ)(h)≈0 ) и результат ( S(y)(h)≈0 ). Во-вторых, вы хотите сформировать группы, в которых люди, которые вы видите, похожи на людей, которых вы не видите ( cor(ϕ,y)(h)≈0 ). Сравнивая уравнение 3,7 и экв. 3.8 помогает уточнить, когда постстратификация может уменьшить предвзятость, вызванную неответствием.
В заключение, этот раздел предоставил модель для выборки вероятностей с отсутствием ответа и показал смещение, что неответ может вводиться как без, так и с корректировками после стратификации. Bethlehem (1988) предлагает вывод смещения, вызванный не ответом на более общие образцы выборки. Подробнее о том, как использовать постстратификацию для адаптации к непредвзятости, см. Smith (1991) Gelman and Carlin (2002) . Пост стратификация является частью более общего семейства методов, называемых калибровочными оценщиками, см. Zhang (2000) для лечения длины статьи и Särndal and Lundström (2005) для лечения длины книги. Более подробно о других других методах взвешивания для корректировки на отсутствие ответа см. Kalton and Flores-Cervantes (2003) , Brick (2013) и Särndal and Lundström (2005) .
Невероятная выборка
Невероятная выборка включает в себя огромное разнообразие конструкций (Baker et al. 2013) . Сосредоточившись конкретно на образце пользователей Xbox от Wang и его коллег (W. Wang et al. 2015) , вы можете подумать о таком виде образца, где ключевая часть дизайна выборки - это не πi ( определяемая исследователем вероятность включения), но ϕi (склонность к ответным реакциям). Естественно, это не идеально, потому что ϕi неизвестны. Но, как показали Ван и коллеги, такая выборка выборки - даже из рамки выборки с огромной ошибкой покрытия - не должна быть катастрофической, если у исследователя есть хорошая вспомогательная информация и хорошая статистическая модель для учета этих проблем.
Bethlehem (2010) распространяет многие из вышеприведенных выводов о пост-стратификации, чтобы включить как ошибки ответа, так и ошибки покрытия. В дополнение к постстратификации, другим методам работы с (Ansolabehere and Rivers 2013; ??? ) с не вероятностью - и вероятностными выборками с ошибками покрытия и сопоставлением выборки без (Ansolabehere and Rivers 2013; ??? ) , взвешиванием оценки склонности (Lee 2006; Schonlau et al. 2009) и калибровки (Lee and Valliant 2009) . Одной из распространенных тем среди этих методов является использование вспомогательной информации.