У цьому додатку я опишу деякі ідеї з розділу у дещо більш математичній формі. Мета полягає в тому, щоб допомогти вам заспокоїти позначення та математичні рамки, які використовують дослідники досліджень, щоб ви могли перейти на деякі технічні матеріали, написані на цих теми. Почну з введення ймовірності вибірки, а потім перейти до вибірки з ймовірністю з невідповідністю, і, нарешті, вибірковою вибіркою.
Вибірка ймовірності
Як приклад, розглянемо мету оцінити рівень безробіття в Сполучених Штатах. Нехай \(U = \{1, \ldots, k, \ldots, N\}\) буде цільова популяція і нехай \(y_k\) значенням змінної результату для особи \(k\) . У цьому прикладі \(y_k\) визначається, чи є людина \(k\) безробітним. Нарешті, нехай \(F = \{1, \ldots, k, \ldots, N\}\) - це кадрова популяція, яка для простоти вважається такою ж, як цільова популяція.
Основний дизайн вибірки - це проста випадкова вибірка без заміни. У цьому випадку кожна людина рівною мірою може бути включена в зразок \(s = \{1, \ldots, i, \ldots, n\}\) . Коли дані збираються з таким дизайном вибірки, дослідники можуть оцінити рівень безробіття населення за вибіркою:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
де \(\bar{y}\) - рівень безробіття населення і \(\hat{\bar{y}}\) - оцінка рівня безробіття ( \(\hat{ }\) зазвичай використовується для позначення оцінки).
Насправді дослідники рідко використовують просту випадкову вибірку без заміни. З різних причин (одним з яких я опишу в одну мить), дослідники часто створюють зразки з нерівними ймовірністю включення. Наприклад, дослідники можуть вибирати людей у Флориді з більш високою ймовірністю включення, ніж люди в Каліфорнії. У цьому випадку середня вибірка (екв. 3.1) може не бути хорошою оцінкою. Натомість, коли існують нерівні ймовірності включення, використовують дослідники
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
де \(\hat{\bar{y}}\) - оцінка рівня безробіття і \(\pi_i\) - це ймовірність включення людини \(i\) . Слідуючи стандартній практиці, я називаю оцінку в еквіваленті. 3.2. Оцінювач Хорвіца-Томпсона. Оцінка Horvitz-Thompson надзвичайно корисна, оскільки вона призводить до об'єктивної оцінки будь-якого (Horvitz and Thompson 1952) вірогідності вибірки (Horvitz and Thompson 1952) . Оскільки оцінювач Хорвіца-Томпсона надходить так часто, корисно помітити, що його можна переписати як
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
де \(w_i = 1 / \pi_i\) . Як екв. 3.3 видно, що оцінювач Хромвіца-Томпсона є середньозваженим зразком, де ваги зворотньо пов'язані з ймовірністю вибору. Іншими словами, чим менша ймовірність того, що людина буде включена до зразка, тим більше вага, яку ця людина має отримати в оцінці.
Як вже описано раніше, дослідники часто вибирають людей з неоднорідними ймовірністю включення. Один з прикладів дизайну, який може призвести до нерівних вірогідності включення, - це стратифікована вибірка , важлива для розуміння, оскільки вона тісно пов'язана з процедурою оцінки, що називається після стратифікації . У стратифікованій вибірці дослідник розбиває цільову популяцію на \(H\) взаємовиключних і вичерпних груп. Ці групи називаються стратами і позначаються як \(U_1, \ldots, U_h, \ldots, U_H\) . У цьому прикладі страти є станами. Розміри груп позначаються як \(N_1, \ldots, N_h, \ldots, N_H\) . Дослідник, можливо, захоче використати стратифіковану вибірку для того, щоб переконатись, що вона має достатньо людей у кожній державі, щоб оцінити рівень безробіття на державному рівні.
Коли населення розділено на верстви , припустимо, що дослідник вибирає простий випадковий зразок без заміни розміру \(n_h\) незалежно від кожного \(n_h\) . Далі, припустимо, що кожен вибраний у вибірці стає респондентом (я розглядаю невідповідність у наступному розділі). У цьому випадку ймовірність включення є
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Оскільки ці вірогідності можуть відрізнятися від людини до людини, при складанні оцінки з цього проекту вибірки, дослідники повинні вагати кожен респондент інверсією своєї ймовірності включення, використовуючи оцінювач Хроувіца-Томпсона (рівняння 3.2).
Незважаючи на те, що оцінювач Хроувіца-Томпсона є неупередженою, дослідники можуть створювати більш точні (тобто нижні дисперсії) оцінки, об'єднуючи вибірку з допоміжною інформацією . Деякі люди дивують, що це так, навіть якщо є ідеальна вибірка ймовірності. Ці методи, що використовують допоміжну інформацію, є особливо важливими, оскільки, як я покажу згодом, допоміжна інформація має вирішальне значення для складання оцінок з імовірнісних зразків з невідповідністю та вибірками з неможливості.
Однією з поширених способів використання допоміжної інформації є пост-стратифікація . Уявіть, наприклад, що дослідник знає кількість чоловіків і жінок у кожному з 50 штатів; ці групи можна вказати як \(N_1, N_2, \ldots, N_{100}\) . Щоб поєднати цю допоміжну інформацію з зразком, дослідник може розділити зразок на групи \(H\) (у цьому випадку 100), скласти оцінку для кожної групи, а потім створити середньозважене значення цієї групи означає:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Приблизно, оцінка в еквіваленті. 3.5, швидше за все, буде точнішим, оскільки він використовує відомі дані про населення - \(N_h\) - для правильних оцінок, якщо вибирається незбалансована вибірка. Один із способів думати про те, що пост-стратифікація нагадує наближення стратифікації після того, як дані вже були зібрані.
На закінчення, у цьому розділі описано декілька варіантів вибірки: проста випадкова вибірка без заміни, вибірка з нерівною ймовірністю та стратифікована вибірка. Вона також описала дві основні ідеї оцінки: оцінку Хорвіца-Томпсона та пост-стратифікацію. Більш офіційне визначення варіантів вірогідності вибірки див. У главі 2 Särndal, Swensson, and Wretman (2003) . Для більш формальної та повної обробки стратифікованих зразків див. Розділ 3.7 Särndal, Swensson, and Wretman (2003) . Для технічного опису властивостей оцінювача Хорвіца-Томпсона див. Horvitz and Thompson (1952) , Overton and Stehman (1995) або розділ 2.8 з @ sarndal_model_2003. Для більш формальної обробки пост-стратифікації див. Holt and Smith (1979) , Smith (1991) , Little (1993) або розділ 7.6 Särndal, Swensson, and Wretman (2003) .
Вибірка ймовірності з невідповідністю
Майже всі реальні опитування мають нереакцію; Тобто, не кожен у вибірці населення відповідає на кожне питання. Існує два основних види невідповідей: невідповідність елементу та невідповідність одиниці . У разі відсутності відповідей деякі респонденти не відповідають деяким пунктам (наприклад, іноді респонденти не хочуть відповідати на питання, які вони вважають чутливими). У невідповіді на одиницю деякі люди, які обрані для вибірки населення, взагалі не реагують на опитування. Два найбільш поширених причини невідповідності одиниці полягають у тому, що не можна зв'язатися з обраним особам, і про з'єднання із зразком звертаються, але відмовляються брати участь. У цьому розділі я зосереджуся на невідповідності одиниці; Читачі, зацікавлені в невідповідності предмета, повинні бачити Літл і Рубін (2002) .
Дослідники часто замислюються над дослідженнями з невідповідністю блоком як двоетапним процесом відбору. На першому етапі дослідник вибирає зразок \(s\) такий, що у кожної людини є ймовірність включення \(\pi_i\) (де \(0 < \pi_i \leq 1\) ). Потім, на другому етапі, люди, які обрані у вибірку, реагують з ймовірністю \(\phi_i\) (де \(0 < \phi_i \leq 1\) ). Цей двоетапний процес приводить до остаточного набору респондентів \(r\) . Важливою відмінністю між цими двома етапами є те, що дослідники контролюють процес відбору зразка, але вони не контролюють, хто з цих вибіркових людей стає респондентами. Поєднуючи ці два процеси разом, є ймовірність того, що хтось буде респондентом
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
Для простоти розглянемо випадок, коли оригінальний дизайн зразка - це проста випадкова вибірка без заміни. Якщо дослідник вибирає зразок розміру \(n_s\) що дає \(n_r\) респондентів, а якщо дослідник ігнорує невідповідність і використовує середнє число респондентів, то зміщення оцінки буде:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
де \(cor(\phi, y)\) - співвідношення населення між схильністю до відповіді та результатом (наприклад, статус безробіття), \(S(y)\) - стандартне відхилення населення від результату (наприклад, безробіття статус), \(S(\phi)\) - стандартне відхилення популяції відхилення відгуку, а \(\bar{\phi}\) - середня схильність відгуку населення (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Екв. 3.7 показує, що невідповідність не призведе до зміщення, якщо виконано будь-яке з наступних умов:
На жаль, жодне з цих умов не схоже. Мабуть, неправдоподібно, що не буде змін у статусі зайнятості або що не буде змін у схильності до відповідей. Таким чином, ключовий термін у еквіваленті 3.7 - це кореляція: \(cor(\phi, y)\) . Наприклад, якщо люди, які безробітні частіше реагують, то очікуваний рівень зайнятості буде зміщений у бік збільшення.
Хитрість при складанні оцінок при відсутності відповіді полягає у використанні допоміжної інформації. Наприклад, одним із способів використання допоміжної інформації є пост-стратифікація (відкликання рівня 3.5 згори). Виявляється, упередженість оцінки пост-стратифікації полягає в наступному:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
де \(cor(\phi, y)^{(h)}\) , \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , і \(\bar{\phi}^{(h)}\) визначаються як зазначено вище, але обмежуються лише людьми з групи \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Таким чином, загальний зміщення буде невеликим, якщо зміщення в кожній пост-стратифікованій групі невелике. Існує два способи, якими я хотів би подумати про те, щоб зробити кожне пост-розшарування групою мізерні упередження. По-перше, ви хочете спробувати сформувати однорідні групи, в яких мало варіацій у схильності відповіді ( \(S(\phi)^{(h)} \approx 0\) ) і результат ( \(S(y)^{(h)} \approx 0\) ). По-друге, ви хочете створити групи, де люди, які ви бачите, схожі на людей, яких ви не бачите ( \(cor(\phi, y)^{(h)} \approx 0\) ). Порівняння екв. 3.7 і екв. 3.8 допомагає з'ясувати, коли пост-стратифікація може зменшити упередженість, спричинену невідповідністю.
На закінчення, цей розділ представив модель для вибірки ймовірності з невідповідністю та показав упередження, що невідповідність може вводити як без, так і з пост-стратифікаційними коригуваннями. Bethlehem (1988) пропонує виведення зміщення, викликаного невідповідністю для більш загальних конструкцій вибірки. Докладніше про використання пост-стратифікації для коригування на невідповідність див Smith (1991) і Gelman and Carlin (2002) . Пост-стратифікація є частиною більш загальної сімейства методів, що називаються калібрувальними оцінювачами, див. Чжанг (2000) для обробки Särndal and Lundström (2005) для обробки книжкової довжини. Більш детальну інформацію про інші вагові методи для коригування невідповідності див. У статті Kalton and Flores-Cervantes (2003) , Brick (2013) та Särndal and Lundström (2005) .
Неочікувана вибірка
Неоцінка вибірки включає в себе величезну кількість різноманітних конструкцій (Baker et al. 2013) . Зосереджуючись саме на зразках користувачів Xbox Вана та інших його колег (W. Wang et al. 2015) , ви можете думати про такий зразок, як той, де ключовою частиною дизайну вибірки є не \(\pi_i\) ( досліджувана ймовірність включення), але \(\phi_i\) ( \(\phi_i\) відповідей на відповідь респондентів). Природно, це не є ідеальним, оскільки \(\phi_i\) невідомі. Але, як показали Ванг та його колеги, подібний вибір вибірки навіть з рамки вибірки з величезною помилкою покриття не повинен бути катастрофічним, якщо дослідник має хорошу допоміжну інформацію та хорошу статистичну модель для обліку цих проблем.
Bethlehem (2010) розширює багато вищезгаданих положень щодо пост-розшарування, що включає помилки невідповіді та покриття. На додаток до пост-стратифікації, інші методи роботи з невизначеними зразками та імовірнісні зразки з помилками покриття та збігаються з відповіддю з вибіркою (Ansolabehere and Rivers 2013; ??? ) , оцінкою оцінки схильності (Lee 2006; Schonlau et al. 2009) та калібрування (Lee and Valliant 2009) . Однією з поширених тем серед цих методів є використання допоміжної інформації.