В това допълнение ще опиша някои от идеите от главата в малко по-математическа форма. Целта тук е да ви помогнем да се чувствате комфортно с нотацията и математическата рамка, използвана от изследователите, за да можете да преминете към някои от по-технически материали, написани по тези теми. Аз ще започна с въвеждането на probability вземане на проби, след това преминете към probability вземане на проби с nonresponse, и накрая, не-вероятност вземане на проби.
Вероятно вземане на проби
Като пример, нека разгледаме целта за оценка на нивото на безработица в Съединените щати. Нека \(U = \{1, \ldots, k, \ldots, N\}\) бъде целевата популация и нека \(y_k\) от стойността на \(y_k\) променлива за човека \(k\) . В този пример \(y_k\) е дали човек \(k\) е безработен. Най-накрая, нека е \(F = \{1, \ldots, k, \ldots, N\}\) рамковата популация, която за простота се приема за същата като целевата популация.
Основен проект за вземане на проби е прост случайно вземане на проби без замяна. В този случай всеки човек е еднакво вероятно да бъде включен в извадката \(s = \{1, \ldots, i, \ldots, n\}\) . Когато данните се събират с този модел на вземане на проби, изследователите могат да изчислят процента на безработица сред населението със средната стойност на пробата:
\[ \hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)\]
където \(\bar{y}\) е коефициентът на безработица в населението и \(\hat{\bar{y}}\) е оценката на нивото на безработица (на \(\hat{ }\) е обикновено използван за посочване на оценител).
В действителност изследователите рядко използват прости случайни извадки без замяна. По редица причини (един от които ще опиша в един момент), изследователите често създават проби с неравностойни вероятности за включване. Например, изследователите могат да избират хора във Флорида с по-голяма вероятност за включване, отколкото хората в Калифорния. В този случай средната проба (еквивалент 3.1) може да не е добра оценка. Вместо това, когато има неравностойни вероятности за включване, изследователите използват
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)\]
където \(\hat{\bar{y}}\) е прогнозата за нивото на безработица и \(\pi_i\) е вероятността за включване на човек \(i\) . Следвайки стандартната практика, ще се обадя на оценителя в ур. 3.2 оценката на Horvitz-Thompson. Оценката на Horvitz-Thompson е изключително полезна, тъй като води до безпристрастни оценки за всеки проект за вземане на проби с вероятност (Horvitz and Thompson 1952) . Тъй като оценката на Horvitz-Thompson се появява толкова често, е полезно да забележите, че тя може да бъде пренаписана като
\[ \hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)\]
където \(w_i = 1 / \pi_i\) . Като екв. 3.3 разкрива, че оценката на Horvitz-Thompson е претеглена средна проба, където теглата са обратно свързани с вероятността за избор. С други думи, колкото по-малко вероятно е човек да бъде включен в извадката, толкова по-голяма тежест трябва да получи човек в прогнозата.
Както е описано по-рано, изследователите често изпробват хора с неравностойни вероятности за включване. Един пример за дизайн, който може да доведе до неравностойни вероятности за включване, е стратифицирано вземане на проби , което е важно да се разбере, защото тя е тясно свързана с процедурата за оценка, наречена следслотификация . При разслоените извадки един изследовател разделя целевата група на \(H\) взаимно изключващи се и изчерпателни групи. Тези групи се наричат слоеве и са обозначени като \(U_1, \ldots, U_h, \ldots, U_H\) . В този пример слоевете са състояния. Размерите на групите са означени като \(N_1, \ldots, N_h, \ldots, N_H\) . Изследователят може да поиска да използва извадка от стратификации, за да се увери, че има достатъчно хора във всяка държава, за да направи оценки на безработицата на държавно ниво.
След като населението бъде разделено на слоеве , приемете, че изследователят избира проста случайна извадка без замяна на размер \(n_h\) , независимо от всяка от слоевете. Освен това, приемете, че всички избрани в извадката стават респондент (ще се справя с липсата на отговор в следващия раздел). В този случай вероятността за включване е
\[ \pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)\]
Тъй като тези вероятности могат да варират от човек на човек, при извършване на оценка от този модел на вземане на проби, изследователите трябва да наберат всеки от респондентите обратно на тяхната вероятност за включване, използвайки оценителя на Horvitz-Thompson (еквивалент 3.2).
Въпреки че оценката на Horvitz-Thompson е безпристрастна, изследователите могат да произведат по-точни оценки (т.е. по-ниска вариация), като комбинират извадката с допълнителна информация . Някои хора смятат, че това е изненадващо, че това е вярно, дори когато има напълно изпълнена вероятност за вземане на проби. Тези техники, които използват допълнителна информация, са особено важни, тъй като, както ще покажа по-нататък, допълнителната информация е критична за изготвянето на прогнози от вероятностни проби с липса на отговор и от проби с вероятност.
Една обща техника за използване на допълнителна информация е след стратификацията . Представете си например, че един изследовател знае броя на мъжете и жените във всяка от 50-те държави; можем да обозначим тези групи като \(N_1, N_2, \ldots, N_{100}\) . За да комбинирате тази допълнителна информация с извадката, изследователят може да разделя пробата на \(H\) групи (в този случай 100), да направи оценка за всяка група и след това да създаде претеглена средна стойност от тези групи:
\[ \hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)\]
Приблизително оценката в еквивалент. 3.5 е вероятно да бъде по-точна, защото използва известната информация за населението - \(N_h\) - за да коригира прогнозите, ако се избере небалансирана проба. Един от начините да се мисли за това е, че следслотирането е като приближаване на стратификацията, след като данните вече са събрани.
В заключение, в този раздел са описани няколко извадкови извадки: прости случайни извадки без заместители, вземане на проби с неравномерна вероятност и стратифицирано вземане на проби. Той също така описва две основни идеи за оценката: оценителя на Horvitz-Thompson и пост-стратификацията. За по-формално определение на Särndal, Swensson, and Wretman (2003) вземане на проби вижте глава 2 на Särndal, Swensson, and Wretman (2003) . За по-формално и цялостно третиране на стратифицираните проби вижте раздел 3.7 на Särndal, Swensson, and Wretman (2003) . За техническо описание на свойствата на оценителя на Horvitz-Thompson вижте Horvitz and Thompson (1952) , Overton and Stehman (1995) или раздел 2.8 на @ sarndal_model_2003. За по-формално отношение към пост-стратификацията вижте Holt and Smith (1979) , Smith (1991) , Little (1993) или раздел 7.6 на Särndal, Swensson, and Wretman (2003) .
Вероятно вземане на проби с липса на отговор
Почти всички реални проучвания нямат отговор; тоест, не всички в пробната популация отговарят на всеки въпрос. Има два основни вида липса на отговор: елемент без отговор и единичен отговор . В елемента nonresponse някои от анкетираните не отговарят на някои от тях (напр. Понякога респондентите не искат да отговарят на въпроси, които смятат за чувствителни). При единица отсъствие, някои хора, които са избрани за извадката, изобщо не отговарят на проучването. Двете най-често срещани причини за липсата на отговор на единиците са, че не може да се свърже с извадката и да се свърже с извадката, но отказва да участва. В този раздел ще се съсредоточа върху единицата без отговор; читателите, които се интересуват от липсата на отговор, трябва да видят Little and Rubin (2002) .
Изследователите често мислят за проучвания с единична липса на отговор като двуетапен процес на вземане на проби. В първия етап изследователят избира проба \(s\) така че всеки човек има вероятност за включване \(\pi_i\) (където \(0 < \pi_i \leq 1\) ). След това във втория етап хората, избрани в извадката, отговарят на вероятността \(\phi_i\) (където \(0 < \phi_i \leq 1\) ). Този двуетапен процес води до крайния набор от респонденти \(r\) . Важна разлика между тези два етапа е, че изследователите контролират процеса на подбор на извадката, но те не контролират кои от избраните хора стават респонденти. Прилагайки тези два процеса заедно, вероятността някой да бъде респондент е
\[ pr(i \in r) = \pi_i \phi_i \qquad(3.6)\]
За по-голяма яснота ще разгледаме случая, когато оригиналната проба е проста случайна извадка без замяна. Ако изследователят избере извадка от размера \(n_s\) която дава \(n_r\) и ако изследователят пренебрегне липсата на отговор и използва средната стойност на респондентите, то приблизителната оценка ще бъде:
\[ \mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)\]
където \(cor(\phi, y)\) е коефициентът на населението между склонността към реакция и резултата (напр. статус на безработица), \(S(y)\) е стандартното отклонение на населението от резултата ), \(S(\phi)\) е стандартното отклонение на популацията на склонността към отговор и \(\bar{\phi}\) е средната (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) на популацията на реакцията (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Екв. 3.7 показва, че липсата на отговор няма да доведе до пристрастност, ако е изпълнено някое от следните условия:
За съжаление, никое от тези условия не изглежда вероятно. Изглежда невероятно, че няма да има промяна в статуса на заетостта или че няма да има вариации в склонността към отговор. По този начин ключовият термин в ур. 3.7 е корелацията: \(cor(\phi, y)\) . Например, ако хората са безработни, е по-вероятно да реагират, тогава прогнозният процент на заетост ще бъде предубеден.
Трикът за изготвяне на прогнози при липса на отговор е използването на допълнителна информация. Например, един начин, по който можете да използвате допълнителна информация, е следслоцирането (припомнете eq 3.5 от по-горе). Оказва се, че пристрастието на оценката след стратификацията е:
\[ bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)\]
където \(cor(\phi, y)^{(h)}\) \(S(y)^{(h)}\) , \(S(\phi)^{(h)}\) , и \(\bar{\phi}^{(h)}\) са дефинирани по-горе, но са ограничени само до хората в група \(h\) (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . По този начин общото пристрастие ще бъде малко, ако пристрастието във всяка група след стратификация е малко. Има два начина, които ми харесва да мисля за това, че пристрастността е малка във всяка група след стратификацията. Първо, вие искате да се опитате да оформите хомогенни групи, където има малък вариация в склонността към отговор ( \(S(\phi)^{(h)} \approx 0\) ) и резултатът ( \(S(y)^{(h)} \approx 0\) ). Второ, искате да създадете групи, в които хората, които виждате, са като хората, които не виждате ( \(cor(\phi, y)^{(h)} \approx 0\) ). Сравнявайки урав. 3.7 и екв. 3.8 помага да се изясни кога след стратификацията може да се намали предубеждението, причинено от липсата на отговор.
В заключение, този раздел е предоставил модел за вземане на проби с вероятност с липса на отговор и показал пристрастия, който може да се въведе без отговор и без корекции след стратификацията. Bethlehem (1988) предлага деривация на пристрастията, причинена от липса на отговор за по-общи проекти за вземане на проби. За повече информация относно използването на стратификация за коригиране на липсата на отговор, вижте Smith (1991) и Gelman and Carlin (2002) . Post-стратификацията е част от по-общото семейство техники, наречени калибриращи оценители, виж Zhang (2000) за лечение на дължина на статия и Särndal and Lundström (2005) за лечение в дълги размери. За повече информация относно другите методи за претегляне за коригиране на липсата на отговор, вижте Kalton and Flores-Cervantes (2003) , Brick (2013) и Särndal and Lundström (2005) .
Необходимо е вземане на проби
Необходимото вземане на проби включва голямо разнообразие от проекти (Baker et al. 2013) . Съсредоточавайки се конкретно върху извадката на потребителите на Xbox от Wang и колегите (W. Wang et al. 2015) , можете да помислите за този вид проба като за такъв, при който основната част от дизайна на пробите не е \(\pi_i\) вероятността за включване на изследователя), но \(\phi_i\) (склонността на ответниците да реагират). Естествено, това не е идеално, защото \(\phi_i\) са неизвестни. Но както показаха Уанг и колеги, този вид извадка - дори и от рамката за вземане на проби с огромна грешка в покритието - не е необходимо да бъде катастрофално, ако изследователят има добра спомагателна информация и добър статистически модел, който да отчете тези проблеми.
Bethlehem (2010) разширява много от горепосочените деривации за пост-стратификацията, така че да включва както грешките при липса на отговор, така и покритието. В допълнение към пост-стратификация, други техники за работа с неслучайни извадки,-и случайни извадки с грешки покритие и липса на отговор, включва проба съвпадение (Ansolabehere and Rivers 2013; ??? ) , склонност резултат претегляне (Lee 2006; Schonlau et al. 2009) и калибриране (Lee and Valliant 2009) . Една обща тема сред тези техники е използването на допълнителната информация.