Гэты дадатак я апішу некаторыя ідэі з кіраўніка ў крыху больш матэматычнай форме. Мэта тут, каб дапамагчы вам асвоіцца з пазначэннямі і матэматычнай структурай, якая выкарыстоўваецца даследчыкамі абследавання, так што вы можаце перайсці да некаторых з больш тэхнічнага матэрыялу, напісанага па гэтых тэмах. Пачну шляхам увядзення імавернаснай выбаркі, а затым перайсці да імавернаснай выбарцы з неатрыманне, і, нарэшце, адбор проб без верагоднасці.
імавернасны выбарка
У бягучым прыкладзе, давайце разгледзім задачу ацэнкі ўзроўню беспрацоўя ў Злучаных Штатах. Хай быць мэтавай група насельніцтва і хай значэннем пераменнага зыходу для чалавека . У гэтым прыкладзе ці з'яўляецца чалавек з'яўляецца беспрацоўным. Хай , нарэшце, будзе насельніцтва кадра, які для прастаты мяркуецца, што такі ж , як мэтавай групы насельніцтва.
Базавая канструкцыя выбаркі простая выпадковая выбарка без замены. У гэтым выпадку, кожны чалавек у роўнай ступені верагодна, будуць уключаны ва ўзоры . Калі дадзеныя сабраны з гэтай схемай выбаркі, а даследчыкі могуць ацаніць узровень беспрацоўя насельніцтва з выбарачным сярэднім:
дзе з'яўляецца ўзровень беспрацоўя сярод насельніцтва і з'яўляецца ацэнка ўзроўню беспрацоўя ( звычайна выкарыстоўваецца для ўказанні ацэншчыка).
На самай справе, даследчыкі рэдка выкарыстоўваюць простую выпадковую выбарку без замены. Па розных прычынах (адзін з якіх я апішу у хвіліну), даследчыкі часта ствараюць ўзоры з няроўнай верагоднасцю ўключэння. Напрыклад, даследчыкі маглі б выбраць чалавек у Фларыдзе з больш высокай верагоднасцю ўключэння, чым людзі ў Каліфорніі. У гэтым выпадку выбарачнае сярэдняе (экв. 3,1) не можа быць добрай ацэнкай. Замест гэтага, калі існуюць няроўныя верагоднасці ўключэння, даследчыкі выкарыстоўваюць
дзе з'яўляецца ацэнка ўзроўню беспрацоўя і з'яўляецца чалавек «s верагоднасць ўключэння. Вынікаючы стандартнай практыцы, я пазваню ацэншчык ў ек. 3,2 ацэншчык Хорвица-Томпсан. Ацэнкі Хорвиц-Томпсан з'яўляецца надзвычай карыснай , паколькі яно прыводзіць да несмещенным ацэнак для любога дызайну выбаркі верагоднасці (Horvitz and Thompson 1952) , (Horvitz and Thompson 1952) . Паколькі адзнака Хорвица-Томпсан прыходзіць так часта, карысна заўважыць, што яна можа быць перапісана ў выглядзе
дзе . У э. 3.3 паказвае, блок ацэнкі Хорвиц-Томпсана ўяўляе сабой узважанае выбарачнае сярэдняе дзе вагі назад прапарцыйныя верагоднасці выбару. Іншымі словамі, менш верагодна, чалавек павінен быць уключаны ў выбарку, тым больш вагі, што чалавек павінен атрымаць у ацэнцы.
Як было апісана раней, даследчыкі часта выбаркі людзей з няроўнай верагоднасцю ўключэння. Адным з прыкладаў канструкцыі , якія могуць прывесці да няроўных верагоднасцю ўключэння распластоўваецца выбаркі, што важна зразумець , таму што яна цесна звязана з працэдурай ацэнкі званай постстратификацией. У стратыфікаваная выбарцы, даследчык дзеліць мэтавую групу насельніцтва ў ўзаемавыключальныя і вычарпальныя групы. Гэтыя групы называюцца пласты і пазначаныя як . У гэтым прыкладзе, страты стан. Памеры груп пазначаныя як . Даследчык можа хацець выкарыстоўваць стратыфікаваць выбарку для таго, каб пераканацца, што ў яе ёсць дастатковую колькасць людзей у кожным штаце, каб зрабіць ацэнкі стану ўзроўню беспрацоўя.
Пасля таго , як насельніцтва было падзяліць на пласты, прадставіць , што даследчык выбірае простую выпадковую выбарку без замены памеру , незалежна адзін ад аднаго слаёў. Далей, выкажам здагадку, што кожны ў выбарку становіцца адказчыкам (я разбяруся неатрымання адказу ў наступнай частцы). У гэтым выпадку верагоднасць ўключэння з'яўляецца
Паколькі гэтыя верагоднасці могуць вар'іравацца ў залежнасці ад чалавека да чалавека, пры выкананні ацэнкі ад гэтай схемы выбаркі, даследчыкі павінны вагой кожнага рэспандэнта інверсіі іх верагоднасці ўключэння, выкарыстоўваючы ацэначныя Хорвицы-Томпсан (э. 3,2).
Нават нягледзячы на тое адзнака Хорвиц-Томпсан з'яўляецца несмещенной, даследчыкі могуць вырабляць больш дакладныя (г.зн. ніжэй дысперсію) ацэнкі шляхам камбінавання ўзору з дапаможнай інфармацыяй. Некаторыя людзі лічаць, што дзіўна, што гэта праўда, нават калі ёсць цалкам выконваецца імавернасны выбарка. Гэтыя метады з выкарыстаннем дапаможнай інфармацыі, асабліва важныя, таму што, як будзе паказана пазней, дапаможная інфармацыя мае вырашальнае значэнне для атрымання адзнак з узораў імавернасных з неатрымання і ад узораў, ня верагоднасці.
Адзін агульны метад для выкарыстання дапаможнай інфармацыі з'яўляецца пост-стратыфікацыі. Уявіце, напрыклад, што даследчык ведае колькасць мужчын і жанчын у кожным з 50 штатаў; мы можам пазначыць гэтыя памеры групы як . Для таго, каб аб'яднаць гэтую дапаможную інфармацыю з узорам, даследчык можа падзяліць ўзор у групы (у дадзеным выпадку 100), зрабіць ацэнку для кожнай групы, а затым стварыць узважанае сярэдняе з іх азначае група:
Груба кажучы, адзнака ў раўнанні. 3,5, верагодна, будзе больш дакладным , паколькі ён выкарыстоўвае вядомае насельніцтва інфармацыі аб -у правільных ацэнак , калі незбалансаванай ўзор здараецца быць абраны. Адзін са спосабаў думаць пра гэта з'яўляецца тое, што пасля стратыфікацыі, як апраксімуецца стратыфікацыю пасля таго, як дадзеныя ўжо былі сабраныя.
У заключэнне, у дадзеным раздзеле апісаў некалькі канструкцый выбаркі: простая выпадковая выбарка без замен, выбаркі з няроўнай верагоднасцю, і стратыфікаваная выбаркі. Ён таксама апісаў дзве асноўныя ідэі аб ацэнкі: ацэнкі Хорвица-Томпсана і наступнай стратыфікацыі. Для больш фармальнага вызначэння імавернасных мадэляў выбаркі, глядзіце раздзел 2 Särndal, Swensson, and Wretman (2003) . Для больш фармальнай і поўнага лячэння стратыфікаваная выбаркі, глядзіце раздзел 3.7 Särndal, Swensson, and Wretman (2003) . Для тэхнічнага апісання уласцівасцяў ацэнкі Хорвиц-Томпсан, см Horvitz and Thompson (1952) , Overton and Stehman (1995) , ці падзел 2.8 @ sarndal_model_2003. Для больш фармальнага лячэння пасля стратыфікацыі, см Holt and Smith (1979) , Smith (1991) , Little (1993) , ці падзел 7.6 Särndal, Swensson, and Wretman (2003) .
Верагоднасць выбарка з неатрымання
Амаль усе рэальныя абследавання маюць неатрыманне; гэта значыць, не ўсё ў выбарачнай сукупнасці адказвае на кожнае пытанне. Ёсць два асноўных выгляду: неатрыманне пункт неатрыманне і блок неатрыманне. У пункце неатрыманні, некаторыя рэспандэнты не адказваць на некаторыя элементы (напрыклад, часам рэспандэнты не хочуць адказваць на пытанні, якія яны лічаць адчувальныя). У адзінкавым неатрыманні, некаторыя людзі, якія абраныя для выбаркі насельніцтва не рэагуюць на апытанне на ўсіх. Два найбольш распаўсюджаных прычын для блока неатрыманне з'яўляецца тое, што выбарачны чалавек не можа звязацца і ўзор чалавек кантактуе, але адмаўляецца ад удзелу. У гэтай частцы я спынюся на адзінку неатрыманне; Чытачы , зацікаўленыя ў пункце неатрыманне павінны ўбачыць Літл і Рубін (2002) .
Даследчыкі часта думаюць пра абследаваннях з адзінкавым неответом як працэс адбору пробаў дзве стадыі. На першым этапе, даследчык выбірае ўзор такім чынам, што кожны чалавек мае верагоднасць ўключэння (дзе ). Затым, на другім этапе, людзі , якія абраныя ва ўзоры рэагуюць з верагоднасцю (дзе ). Гэты двухстадийный працэс прыводзіць да канчатковага набору рэспандэнтаў . Важнае адрозненне паміж гэтымі двума этапамі з'яўляецца тое, што даследчыкі кантраляваць працэс адбору ўзору, але яны не кантралююць, якія з гэтых адабраных людзей становяцца рэспандэнтамі. Злучаючы гэтыя два працэсы разам, то верагоднасць таго, што хто-то будзе рэспандэнт
Дзеля прастаты я буду разглядаць выпадак, калі арыгінальны дызайн ўзор просты выпадковай выбаркі без замены. Калі даследчык выбірае ўзор памеру , які дае рэспандэнтам, а калі даследчык ігнаруе адсутнасць адказу і выкарыстоўвае сярэднія рэспандэнт, то зрушэнне ацэнкі будзе:
дзе з'яўляецца суадносіны насельніцтва паміж схільнасцю рэакцыі і зыходам (напрыклад, станам беспрацоўя), з'яўляецца насельніцтва стандартнага адхіленні выніку (напрыклад, беспрацоўе статус), з'яўляецца насельніцтва стандартнага адхіленні схільнасці водгуку, і з'яўляецца матэматычным чаканне адказу схільнасць (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .
Eq. 3.7 паказвае, што неатрыманне не будзе ўводзіць зрушэння, калі любы з наступных умоў:
На жаль, ні адна з гэтых умоў не ўяўляецца верагодным. Здаецца неверагодным, што не будзе якіх-небудзь змяненняў у статусе занятасці або што не будзе якіх-небудзь змяненняў у схільнасцяў адказу. Такім чынам, ключавы член ў раўнанні. 3.7 з'яўляецца суадносіны: . Напрыклад, калі людзі, якія беспрацоўныя больш схільна рэагаваць, то паводле ацэнак, узровень занятасці будзе зрушаны ўверх.
Хітрасць, каб зрабіць ацэнкі, калі ёсць неатрыманне з'яўляецца выкарыстанне дапаможнай інфармацыі. Напрыклад, адзін са спосабаў, у якіх можна выкарыстоўваць дапаможную інфармацыю пост-стратыфікацыі (нагадаем экв. 3,5 зверху). Аказваецца, што ўхіл ацэнкі пасля стратыфікацыі з'яўляецца:
дзе , , , і вызначаны , як паказана вышэй , але абмяжоўваецца людзьмі ў групе (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Такім чынам, агульнае зрушэнне будзе невялікім, калі зрушэнне ў кожнай пасце-стратыфікацыю групы мала. Ёсць два спосабу, якія я люблю думаць пра тое, што робіць зрушэнне мала ў кожнай постстратификацию групы. Ва- першых, вы хочаце , каб паспрабаваць сфармаваць аднастайныя групы , дзе ёсць невялікае змяненне ў схільнасці рэакцыі ( ) і вынік ( ). Ва- другое, вы хочаце , каб сфармаваць групы , дзе людзі , якія вы бачыце, як людзі , якія вы не бачыце ( ). Параўноўваючы ек. 3.7 і экв. 3,8 дапамагае высветліць, калі постстратификация можа паменшыць Зрушэнне выкліканае неатрымання.
У зняволенні гэтага падзелу прадаставіла мадэль імавернаснай выбаркі з неатрымання і паказала, што зрушэнне неатрымання можна ўвесці і без і з карэкціроўкай пасля стратыфікацыі. Bethlehem (1988) прапануе выснову зрушэння , выкліканага неатрыманне для больш агульных мадэляў выбаркі. Для дадатковай інфармацыі аб выкарыстанні постстратификации для карэкціроўкі неатрыманне см Smith (1991) і Gelman and Carlin (2002) . Пост-стратыфікацыя з'яўляецца часткай больш агульнага сямейства метадаў , званых калібровачнае ацэншчыкамі см Zhang (2000) для апрацоўкі артыкула даўжыні і Särndal and Lundström (2005) для лячэння кнігі даўжынёй. Больш падрабязную інфармацыю пра іншыя іншых метадаў ўзважвання для карэкціроўкі на неатрыманне см Kalton and Flores-Cervantes (2003) , Brick (2013) , і Särndal and Lundström (2005) .
выбаркі неверагоднасці
Выбаркі неверагоднасці ўключае ў сябе вялікая разнастайнасць канструкцый (Baker et al. 2013) і (Baker et al. 2013) . Арыентуючыся менавіта на выбарцы карыстальнікаў Xbox Ван і яго калегамі (W. Wang et al. 2015) і (W. Wang et al. 2015) , вы можаце думаць аб такім родзе ўзор , як адзін , дзе ключавы элемент дызайну выбаркі не ( даследчык кіраванай верагоднасць ўключэння) , але (рэспандэнт ініцыятыве схільнасці адказу). Натуральна, гэта не з'яўляецца ідэальным , так як невядомыя. Але, як Ван і яго калегі паказалі, гэты від неаўтаматычныя выбаркі нават з выбаркі з велізарна пакрыццём памылак неабходнасці не быць катастрафічным, калі даследчык мае добрую дапаможную інфармацыю і добрую статыстычную мадэль для тлумачэння гэтых праблем.
Bethlehem (2010) пашырае многія з вышэйзгаданых высноў аб наступнай стратыфікацыі ўключае як неатрыманне і памылкі пакрыцця. У дадатак да пост-стратыфікацыі, іншыя метады для працы з не-імавернасных узораў-і імавернасных выбарак з памылкамі ахопу і неатрыманне-ўключаюць у сябе ўзгадненне ўзору (Ansolabehere and Rivers 2013; ??? ) , схільнасць адзнака вагавых каэфіцыентаў (Lee 2006; Schonlau et al. 2009) , і каліброўкі (Lee and Valliant 2009) . Адна агульная тэма сярод гэтых метадаў з'яўляецца выкарыстанне дапаможнай інфармацыі.