матэматычныя нататкі

Гэты дадатак я апішу некаторыя ідэі з кіраўніка ў крыху больш матэматычнай форме. Мэта тут, каб дапамагчы вам асвоіцца з пазначэннямі і матэматычнай структурай, якая выкарыстоўваецца даследчыкамі абследавання, так што вы можаце перайсці да некаторых з больш тэхнічнага матэрыялу, напісанага па гэтых тэмах. Пачну шляхам увядзення імавернаснай выбаркі, а затым перайсці да імавернаснай выбарцы з неатрыманне, і, нарэшце, адбор проб без верагоднасці.

імавернасны выбарка

У бягучым прыкладзе, давайце разгледзім задачу ацэнкі ўзроўню беспрацоўя ў Злучаных Штатах. Хай U={1,,k,,N} быць мэтавай група насельніцтва і хай yk значэннем пераменнага зыходу для чалавека k . У гэтым прыкладзе yk ці з'яўляецца чалавек k з'яўляецца беспрацоўным. Хай , нарэшце, F={1,,k,,N} будзе насельніцтва кадра, які для прастаты мяркуецца, што такі ж , як мэтавай групы насельніцтва.

Базавая канструкцыя выбаркі простая выпадковая выбарка без замены. У гэтым выпадку, кожны чалавек у роўнай ступені верагодна, будуць уключаны ва ўзоры s={1,,i,,n} . Калі дадзеныя сабраны з гэтай схемай выбаркі, а даследчыкі могуць ацаніць узровень беспрацоўя насельніцтва з выбарачным сярэднім:

y¯^=isyin(3.1)

дзе y¯ з'яўляецца ўзровень беспрацоўя сярод насельніцтва і y¯^ з'яўляецца ацэнка ўзроўню беспрацоўя ( ^ звычайна выкарыстоўваецца для ўказанні ацэншчыка).

На самай справе, даследчыкі рэдка выкарыстоўваюць простую выпадковую выбарку без замены. Па розных прычынах (адзін з якіх я апішу у хвіліну), даследчыкі часта ствараюць ўзоры з няроўнай верагоднасцю ўключэння. Напрыклад, даследчыкі маглі б выбраць чалавек у Фларыдзе з больш высокай верагоднасцю ўключэння, чым людзі ў Каліфорніі. У гэтым выпадку выбарачнае сярэдняе (экв. 3,1) не можа быць добрай ацэнкай. Замест гэтага, калі існуюць няроўныя верагоднасці ўключэння, даследчыкі выкарыстоўваюць

y¯^=1Nisyiπi(3.2)

дзе y¯^ з'яўляецца ацэнка ўзроўню беспрацоўя і πi з'яўляецца чалавек i «s верагоднасць ўключэння. Вынікаючы стандартнай практыцы, я пазваню ацэншчык ў ек. 3,2 ацэншчык Хорвица-Томпсан. Ацэнкі Хорвиц-Томпсан з'яўляецца надзвычай карыснай , паколькі яно прыводзіць да несмещенным ацэнак для любога дызайну выбаркі верагоднасці (Horvitz and Thompson 1952) , (Horvitz and Thompson 1952) . Паколькі адзнака Хорвица-Томпсан прыходзіць так часта, карысна заўважыць, што яна можа быць перапісана ў выглядзе

y¯^=1Niswiyi(3.3)

дзе wi=1/πi . У э. 3.3 паказвае, блок ацэнкі Хорвиц-Томпсана ўяўляе сабой узважанае выбарачнае сярэдняе дзе вагі назад прапарцыйныя верагоднасці выбару. Іншымі словамі, менш верагодна, чалавек павінен быць уключаны ў выбарку, тым больш вагі, што чалавек павінен атрымаць у ацэнцы.

Як было апісана раней, даследчыкі часта выбаркі людзей з няроўнай верагоднасцю ўключэння. Адным з прыкладаў канструкцыі , якія могуць прывесці да няроўных верагоднасцю ўключэння распластоўваецца выбаркі, што важна зразумець , таму што яна цесна звязана з працэдурай ацэнкі званай постстратификацией. У стратыфікаваная выбарцы, даследчык дзеліць мэтавую групу насельніцтва ў H ўзаемавыключальныя і вычарпальныя групы. Гэтыя групы называюцца пласты і пазначаныя як U1,,Uh,,UH . У гэтым прыкладзе, страты стан. Памеры груп пазначаныя як N1,,Nh,,NH . Даследчык можа хацець выкарыстоўваць стратыфікаваць выбарку для таго, каб пераканацца, што ў яе ёсць дастатковую колькасць людзей у кожным штаце, каб зрабіць ацэнкі стану ўзроўню беспрацоўя.

Пасля таго , як насельніцтва было падзяліць на пласты, прадставіць , што даследчык выбірае простую выпадковую выбарку без замены памеру nh , незалежна адзін ад аднаго слаёў. Далей, выкажам здагадку, што кожны ў выбарку становіцца адказчыкам (я разбяруся неатрымання адказу ў наступнай частцы). У гэтым выпадку верагоднасць ўключэння з'яўляецца

πi=nhNh for all ih(3.4)

Паколькі гэтыя верагоднасці могуць вар'іравацца ў залежнасці ад чалавека да чалавека, пры выкананні ацэнкі ад гэтай схемы выбаркі, даследчыкі павінны вагой кожнага рэспандэнта інверсіі іх верагоднасці ўключэння, выкарыстоўваючы ацэначныя Хорвицы-Томпсан (э. 3,2).

Нават нягледзячы на тое адзнака Хорвиц-Томпсан з'яўляецца несмещенной, даследчыкі могуць вырабляць больш дакладныя (г.зн. ніжэй дысперсію) ацэнкі шляхам камбінавання ўзору з дапаможнай інфармацыяй. Некаторыя людзі лічаць, што дзіўна, што гэта праўда, нават калі ёсць цалкам выконваецца імавернасны выбарка. Гэтыя метады з выкарыстаннем дапаможнай інфармацыі, асабліва важныя, таму што, як будзе паказана пазней, дапаможная інфармацыя мае вырашальнае значэнне для атрымання адзнак з узораў імавернасных з неатрымання і ад узораў, ня верагоднасці.

Адзін агульны метад для выкарыстання дапаможнай інфармацыі з'яўляецца пост-стратыфікацыі. Уявіце, напрыклад, што даследчык ведае колькасць мужчын і жанчын у кожным з 50 штатаў; мы можам пазначыць гэтыя памеры групы як N1,N2,,N100 . Для таго, каб аб'яднаць гэтую дапаможную інфармацыю з узорам, даследчык можа падзяліць ўзор у H групы (у дадзеным выпадку 100), зрабіць ацэнку для кожнай групы, а затым стварыць узважанае сярэдняе з іх азначае група:

y¯^post=hHNhNy¯^h(3.5)

Груба кажучы, адзнака ў раўнанні. 3,5, верагодна, будзе больш дакладным , паколькі ён выкарыстоўвае вядомае насельніцтва інфармацыі аб Nh -у правільных ацэнак , калі незбалансаванай ўзор здараецца быць абраны. Адзін са спосабаў думаць пра гэта з'яўляецца тое, што пасля стратыфікацыі, як апраксімуецца стратыфікацыю пасля таго, як дадзеныя ўжо былі сабраныя.

У заключэнне, у дадзеным раздзеле апісаў некалькі канструкцый выбаркі: простая выпадковая выбарка без замен, выбаркі з няроўнай верагоднасцю, і стратыфікаваная выбаркі. Ён таксама апісаў дзве асноўныя ідэі аб ацэнкі: ацэнкі Хорвица-Томпсана і наступнай стратыфікацыі. Для больш фармальнага вызначэння імавернасных мадэляў выбаркі, глядзіце раздзел 2 Särndal, Swensson, and Wretman (2003) . Для больш фармальнай і поўнага лячэння стратыфікаваная выбаркі, глядзіце раздзел 3.7 Särndal, Swensson, and Wretman (2003) . Для тэхнічнага апісання уласцівасцяў ацэнкі Хорвиц-Томпсан, см Horvitz and Thompson (1952) , Overton and Stehman (1995) , ці падзел 2.8 @ sarndal_model_2003. Для больш фармальнага лячэння пасля стратыфікацыі, см Holt and Smith (1979) , Smith (1991) , Little (1993) , ці падзел 7.6 Särndal, Swensson, and Wretman (2003) .

Верагоднасць выбарка з неатрымання

Амаль усе рэальныя абследавання маюць неатрыманне; гэта значыць, не ўсё ў выбарачнай сукупнасці адказвае на кожнае пытанне. Ёсць два асноўных выгляду: неатрыманне пункт неатрыманне і блок неатрыманне. У пункце неатрыманні, некаторыя рэспандэнты не адказваць на некаторыя элементы (напрыклад, часам рэспандэнты не хочуць адказваць на пытанні, якія яны лічаць адчувальныя). У адзінкавым неатрыманні, некаторыя людзі, якія абраныя для выбаркі насельніцтва не рэагуюць на апытанне на ўсіх. Два найбольш распаўсюджаных прычын для блока неатрыманне з'яўляецца тое, што выбарачны чалавек не можа звязацца і ўзор чалавек кантактуе, але адмаўляецца ад удзелу. У гэтай частцы я спынюся на адзінку неатрыманне; Чытачы , зацікаўленыя ў пункце неатрыманне павінны ўбачыць Літл і Рубін (2002) .

Даследчыкі часта думаюць пра абследаваннях з адзінкавым неответом як працэс адбору пробаў дзве стадыі. На першым этапе, даследчык выбірае ўзор s такім чынам, што кожны чалавек мае верагоднасць ўключэння πi (дзе 0<πi1 ). Затым, на другім этапе, людзі , якія абраныя ва ўзоры рэагуюць з верагоднасцю ϕi (дзе 0<ϕi1 ). Гэты двухстадийный працэс прыводзіць да канчатковага набору рэспандэнтаў r . Важнае адрозненне паміж гэтымі двума этапамі з'яўляецца тое, што даследчыкі кантраляваць працэс адбору ўзору, але яны не кантралююць, якія з гэтых адабраных людзей становяцца рэспандэнтамі. Злучаючы гэтыя два працэсы разам, то верагоднасць таго, што хто-то будзе рэспандэнт

pr(ir)=πiϕi(3.6)

Дзеля прастаты я буду разглядаць выпадак, калі арыгінальны дызайн ўзор просты выпадковай выбаркі без замены. Калі даследчык выбірае ўзор памеру ns , які дае nr рэспандэнтам, а калі даследчык ігнаруе адсутнасць адказу і выкарыстоўвае сярэднія рэспандэнт, то зрушэнне ацэнкі будзе:

bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ϕ¯(3.7)

дзе cor(ϕ,y) з'яўляецца суадносіны насельніцтва паміж схільнасцю рэакцыі і зыходам (напрыклад, станам беспрацоўя), S(y) з'яўляецца насельніцтва стандартнага адхіленні выніку (напрыклад, беспрацоўе статус), S(ϕ) з'яўляецца насельніцтва стандартнага адхіленні схільнасці водгуку, і ϕ¯ з'яўляецца матэматычным чаканне адказу схільнасць (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) .

Eq. 3.7 паказвае, што неатрыманне не будзе ўводзіць зрушэння, калі любы з наступных умоў:

  • Там няма зменаў у стане беспрацоўя (S(y)=0) .
  • Там няма розьніцы ў схільнасцях адказу (S(ϕ)=0) .
  • Там няма ніякай карэляцыі паміж схільнасцю рэакцыі і станы беспрацоўя (cor(ϕ,y)=0) .

На жаль, ні адна з гэтых умоў не ўяўляецца верагодным. Здаецца неверагодным, што не будзе якіх-небудзь змяненняў у статусе занятасці або што не будзе якіх-небудзь змяненняў у схільнасцяў адказу. Такім чынам, ключавы член ў раўнанні. 3.7 з'яўляецца суадносіны: cor(ϕ,y) . Напрыклад, калі людзі, якія беспрацоўныя больш схільна рэагаваць, то паводле ацэнак, узровень занятасці будзе зрушаны ўверх.

Хітрасць, каб зрабіць ацэнкі, калі ёсць неатрыманне з'яўляецца выкарыстанне дапаможнай інфармацыі. Напрыклад, адзін са спосабаў, у якіх можна выкарыстоўваць дапаможную інфармацыю пост-стратыфікацыі (нагадаем экв. 3,5 зверху). Аказваецца, што ўхіл ацэнкі пасля стратыфікацыі з'яўляецца:

bias(y¯^post)=1Nh=1HNhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ϕ¯(h)(3.8)

дзе cor(ϕ,y)(h) , S(y)(h) , S(ϕ)(h) , і ϕ¯(h) вызначаны , як паказана вышэй , але абмяжоўваецца людзьмі ў групе h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) . Такім чынам, агульнае зрушэнне будзе невялікім, калі зрушэнне ў кожнай пасце-стратыфікацыю групы мала. Ёсць два спосабу, якія я люблю думаць пра тое, што робіць зрушэнне мала ў кожнай постстратификацию групы. Ва- першых, вы хочаце , каб паспрабаваць сфармаваць аднастайныя групы , дзе ёсць невялікае змяненне ў схільнасці рэакцыі ( S(ϕ)(h)0 ) і вынік ( S(y)(h)0 ). Ва- другое, вы хочаце , каб сфармаваць групы , дзе людзі , якія вы бачыце, як людзі , якія вы не бачыце ( cor(ϕ,y)(h)0 ). Параўноўваючы ек. 3.7 і экв. 3,8 дапамагае высветліць, калі постстратификация можа паменшыць Зрушэнне выкліканае неатрымання.

У зняволенні гэтага падзелу прадаставіла мадэль імавернаснай выбаркі з неатрымання і паказала, што зрушэнне неатрымання можна ўвесці і без і з карэкціроўкай пасля стратыфікацыі. Bethlehem (1988) прапануе выснову зрушэння , выкліканага неатрыманне для больш агульных мадэляў выбаркі. Для дадатковай інфармацыі аб выкарыстанні постстратификации для карэкціроўкі неатрыманне см Smith (1991) і Gelman and Carlin (2002) . Пост-стратыфікацыя з'яўляецца часткай больш агульнага сямейства метадаў , званых калібровачнае ацэншчыкамі см Zhang (2000) для апрацоўкі артыкула даўжыні і Särndal and Lundström (2005) для лячэння кнігі даўжынёй. Больш падрабязную інфармацыю пра іншыя іншых метадаў ўзважвання для карэкціроўкі на неатрыманне см Kalton and Flores-Cervantes (2003) , Brick (2013) , і Särndal and Lundström (2005) .

выбаркі неверагоднасці

Выбаркі неверагоднасці ўключае ў сябе вялікая разнастайнасць канструкцый (Baker et al. 2013) і (Baker et al. 2013) . Арыентуючыся менавіта на выбарцы карыстальнікаў Xbox Ван і яго калегамі (W. Wang et al. 2015) і πi (W. Wang et al. 2015) , вы можаце думаць аб такім родзе ўзор , як адзін , дзе ключавы элемент дызайну выбаркі не πi ( даследчык кіраванай верагоднасць ўключэння) , але ϕi (рэспандэнт ініцыятыве схільнасці адказу). Натуральна, гэта не з'яўляецца ідэальным , так як ϕi невядомыя. Але, як Ван і яго калегі паказалі, гэты від неаўтаматычныя выбаркі нават з выбаркі з велізарна пакрыццём памылак неабходнасці не быць катастрафічным, калі даследчык мае добрую дапаможную інфармацыю і добрую статыстычную мадэль для тлумачэння гэтых праблем.

Bethlehem (2010) пашырае многія з вышэйзгаданых высноў аб наступнай стратыфікацыі ўключае як неатрыманне і памылкі пакрыцця. У дадатак да пост-стратыфікацыі, іншыя метады для працы з не-імавернасных узораў-і імавернасных выбарак з памылкамі ахопу і неатрыманне-ўключаюць у сябе ўзгадненне ўзору (Ansolabehere and Rivers 2013; ??? ) , схільнасць адзнака вагавых каэфіцыентаў (Lee 2006; Schonlau et al. 2009) , і каліброўкі (Lee and Valliant 2009) . Адна агульная тэма сярод гэтых метадаў з'яўляецца выкарыстанне дапаможнай інфармацыі.