матэматычныя нататкі

Я думаю , што лепшы спосаб зразумець эксперыменты патэнцыял рамкі вынікаў (якія я абмяркоўваў у матэматычных заўвагах ў чале 2). Патэнцыйная структура вынікаў мае блізкія адносіны да ідэй з выбаркі дызайну на аснове , якія я апісаў у чале 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Гэта дадатак было напісана такім чынам, каб падкрэсліць гэтую сувязь. Гэты акцэнт трохі нетрадыцыйны, але я думаю, што сувязь паміж адборам пробамі і эксперыментамі карысна: гэта азначае, што калі вы ведаеце што-то аб выбарцы, то вы ведаеце што-небудзь пра эксперыменты, і наадварот. Як я пакажу ў гэтых нататках, патэнцыйная база вынікаў паказвае сілу рандомізірованный кантраляваных эксперыментаў для ацэнкі прычынна-следчых сувязяў, і гэта паказвае абмежаванні таго, што можа быць зроблена з нават выдатна выкананымі эксперыментамі.

Гэты дадатак я апішу структуру патэнцыйных вынікаў, дублюючы некаторыя матэрыялы з матэматычных нот ў чале 2, каб зрабіць гэтыя нататкі больш самадастатковым. Тады я апішу некаторыя карысныя вынікі аб дакладнасці адзнак сярэдніх эфектаў лячэння, уключаючы абмеркаванне аптымальнага размеркавання і дыферэнцыяльна-в-адрозненні ацэнак. Гэта дадатак у значнай ступені абапіраецца на Gerber and Green (2012) .

Рамкі Патэнцыйныя вынікі

Для таго, каб праілюстраваць рамкі патэнцыйных вынікаў, давайце вернемся да Restivo і эксперымент ван дэ Rijt, каб ацаніць эфект ад прыёму barnstar на будучыя ўзносы ў Вікіпедыі. Патэнцыйная база вынікаў складаецца з трох асноўных элементаў: блокі, працэдуры і магчымыя вынікі. У выпадку Restivo і ван дэ Rijt, блокі былі годны рэдактары тых , у верхняй 1% плацельшчыкаў-хто да гэтага часу не атрымалі barnstar. Мы можам індэксаваць гэтыя рэдактары па \(i = 1 \ldots N\) . Лячэнне ў іх эксперыменце былі «barnstar» або «не barnstar» , і я буду пісаць \(W_i = 1\) , калі чалавек \(i\) знаходзіцца ў стане апрацоўкі і \(W_i = 0\) у адваротным выпадку. Трэці элемент магчымых рамак зыходаў з'яўляецца найбольш важным: патэнцыйныя вынікі. Гэта крыху больш канцэптуальна цяжка, таму што яны звязаны з «патэнцыял» вынікі-то, што можа адбыцца. Для кожнага рэдактара Вікіпедыі, можна ўявіць сабе колькасць правак , што яна будзе рабіць ва ўмовах лячэння ( \(Y_i(1)\) ) і нумар , што яна будзе ў стане кіравання ( \(Y_i(0)\) ).

Звярніце ўвагу, што гэты выбар адзінак, лячэння і вынікаў вызначае, што можна атрымаць з гэтага эксперыменту. Напрыклад, без якіх-небудзь дадатковых здагадак, Restivo і ван дэ Rijt не можа нічога пра ўплыў barnstars на ўсіх рэдактараў Вікіпедыі або на вынікі, такія як якасць рэдагавання кажуць. Увогуле, выбар адзінак, лячэння, і вынікі павінны быць заснаваныя на мэты даследавання.

Улічваючы гэтыя патэнцыйныя вынікі-сумаваныя ў табліцы 4.5-можна вызначыць прычынна - выніковую сувязь лячэння для чалавека \(i\) , як

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Для мяне гэта раўнаннем з'яўляецца самым ясным чынам вызначыць прычынна - выніковую сувязь, і, хоць вельмі проста, гэта структура абагульненым ў многіх важных і цікавых спосабах (Imbens and Rubin 2015) .

Табліца 4.5: табліца патэнцыйных вынікаў
чалавек Змены ў стане лячэння Змены ў стане кіравання вынік лячэння
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
азначаць \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Калі мы вызначаем прычыннасць такім чынам, аднак, мы сутыкнуліся з праблемай. Амаль ва ўсіх выпадках мы не атрымліваем назіраць як патэнцыйныя вынікі. Гэта значыць, канкрэтны рэдактар ​​Wikipedia або атрымаў barnstar ці не. Такім чынам, мы назіраем адзін з патэнцыйных outcomes- \ \(Y_i(1)\) або \(Y_i(0)\) бут ня абодва. Няздольнасць назіраць як патэнцыйныя вынікі такой сур'ёзнай праблема , якая Holland (1986) назвала гэта фундаментальнай праблемай прычынных высноў.

На шчасце, калі мы робім даследаванні, мы не толькі адзін чалавек, у нас ёсць шмат людзей, і гэта адкрывае шлях вакол фундаментальнай праблемы каузальных высноў. Замест таго, каб ацаніць эфект лячэння на індывідуальным узроўні, мы можам ацаніць сярэдні эфект лячэння:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Гэта па - ранейшаму выяўляецца ў тэрмінах \(\tau_i\) , якія з'яўляюцца невідавочнымі, але з некаторай алгебры (раўнанне 2.8 Gerber and Green (2012) ) , мы атрымліваем

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Раўнанне 4.3 паказвае , што калі мы можам ацаніць насельніцтва сярэдняга выніку пры лячэнні ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) і насельніцтва сярэдняга выніку пад кантролем ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), то можна ацаніць сярэдні эфект лячэння, нават без ацэнкі эфекту лячэння для любога канкрэтнага чалавека.

Цяпер, калі я вызначыў нашу estimand-рэч мы спрабуем ацаніць-я звярнуцца да таго, як мы можам рэальна ацаніць яго з дадзенымі. Мне падабаецца думаць аб гэтай ацэнцы задачы, як праблема выбаркі (успомніце матэматычныя нататкі ў раздзеле 3). Уявіце сабе, што мы выпадкова выбраць некаторыя людзі, каб назіраць у стане апрацоўкі, і мы выпадковым чынам выбраць некалькі чалавек, каб назіраць у стане кіравання, то мы можам ацаніць сярэдні вынік у кожным стане:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

дзе \(N_t\) і \(N_c\) з'яўляюцца колькасці людзей у лячэбных і кантрольных умовах. Раўнанне 4.4 розніца-з-сродкаў ацэнкі. З-за канструкцыі выбаркі, мы ведаем, што першы член з'яўляецца несмещенной ацэнкай для сярэдняга выніку пры апрацоўцы, а другі члена з'яўляецца несмещенной ацэнкай пад кантролем.

Яшчэ адзін спосаб думаць пра тое, што рандомизация дазваляе ў тым, што ён гарантуе, што параўнанне паміж групамі лячэння і кантролю з'яўляецца справядлівым, паколькі рандомизация гарантуе, што дзве групы будуць падобныя адзін на аднаго. Гэта падабенства мае месца для рэчаў, якія мы вымераныя (скажам, колькасць правак на працягу 30 дзён да пачатку эксперыменту) і рэчаў, якія мы не вымяралі (кажуць, падлогу). Гэтая здольнасць забяспечыць баланс на абодвух назіраных і ненаблюдаемых фактараў мае вырашальнае значэнне. Для таго, каб убачыць сілу аўтаматычнай балансавання на ненаблюдаемых фактарах, давайце прадставім сабе, што будучыя даследаванні лічаць, што мужчыны больш адчувальныя да ўзнагарод, чым у жанчын. Ці будзе, што несапраўднымі вынікі Restivo і эксперыменту ван дэ Rijt ў? Няма. Па рандомизации, яны забяспечылі, што ўсе ненаблюдаемые будуць збалансаваныя, у чаканні. Гэта абарона ад невядомага з'яўляецца вельмі магутнай, і гэта з'яўляецца важным спосабам, што эксперыменты адрозніваюцца ад не-эксперыментальных метадаў, апісаных у чале 2.

Акрамя вызначэння лячэбнага эфекту для ўсяго насельніцтва, можна вызначыць эфект лячэння для падмноства людзей. Гэта , як правіла , называюць умоўнай сярэдняй эфектам лячэння (CATE). Напрыклад, у даследаванні Restivo і ван дэ Rijt, давайце прадставім , што \(X_i\) ці з'яўляецца рэдактар вышэй або ніжэй сярэдняга ліку правак ў працягу 90 дзён да пачатку эксперыменту. Можна разлічыць эфект лячэння асобна для гэтых лёгкіх і цяжкіх рэдактараў.

Патэнцыйная база вынікаў з'яўляецца магутным сродкам, каб думаць аб прычынных высновах і эксперыментах. Тым не менш, ёсць дзве дадатковыя складанасці, якія вы павінны мець на ўвазе. Гэтыя дзве складанасці часта аб'яднаны пад тэрмінам Стабільнай адзінкі лячэнне Значэнне Успенскай (SUTVA). Першая частка SUTVA з'яўляецца здагадка аб тым, што адзінае , што мае значэнне для чалавека \(i\) вынік «s з'яўляецца гэтая асоба ў лячэнні або стану. Іншымі словамі, мяркуецца , што чалавек \(i\) не паўплывала на лячэнне дадзенага іншым людзям. Гэта часам называюць «без перашкодаў» або «не пералівы», і можа быць запісана ў выглядзе:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

дзе \(\mathbf{W_{-i}}\) з'яўляецца вектарам лячэння станаў для ўсіх , акрамя чалавека \(i\) . Адзін са спосабаў, што гэта можа быць парушана, калі лячэнне ад аднаго чалавека перацякае на іншы чалавек, альбо станоўча, альбо адмоўна. Вяртаючыся да Restivo і эксперымент ван дэ Rijt, у сабе два сяброў \(i\) і \(j\) і што чалавек \(i\) атрымлівае barnstar і \(j\) няма. Калі \(i\) атрыманне barnstar выклікае \(j\) для рэдагавання больш (з пачуцця канкурэнцыі) або рэдагаваць менш (з пачуцця адчаю), то SUTVA было парушана. Яна таксама можа быць парушаная, калі ўздзеянне лячэння залежыць ад агульнай колькасці іншых людзей, якія атрымліваюць лячэнне. Напрыклад, калі Restivo і ван дэ Rijt было выдадзена 1000 або 10000 barnstars замест 100, гэта магло б паўплываць на эфект атрымання barnstar.

Другое пытанне засяроджаны ў SUTVA з'яўляецца здагадкай пра тое, што адзінае значным лячэннем з'яўляецца той, які забяспечвае даследчык; гэта здагадка часам называюць ніякага схаванага лячэння або excludibility. Напрыклад, у Restivo і ван дэ Rijt, гэта магло б быць так, што, даючы barnstar даследчыкі выклікалі рэдактараў, якія будуць паказаны на папулярнай старонцы рэдактараў і што гэты час на папулярных рэдактараў старонак, а не атрыманне barnstar- што выклікала змяненне ў паводзінах рэдагавання. Калі гэта дакладна, то эфект barnstar не адрозніваецца ад эфекту, каб быць на папулярнай старонцы рэдактараў. Вядома, гэта не ясна, калі, з навуковай пункту гледжання, гэта варта лічыць прывабнымі ці непрывабнымі. Гэта значыць, вы маглі б прадставіць сабе даследчыка аб тым, што эфект ад прыёму barnstar ўключае ў сябе ўсе наступныя працэдуры, якія Трыгеры barnstar. Ці вы маглі б сабе ўявіць сітуацыю, калі даследаванне будзе неабходна ізаляваць эфект barnstars ад усіх гэтых іншых рэчаў. Адзін з спосабаў думаць пра гэта, каб спытаць, ці ёсць што - небудзь , што прыводзіць да таго , што Gerber and Green (2012) (с. 41) называюць «пробай ў сіметрыі»? Іншымі словамі, ці ёсць што-небудзь іншае, чым лячэнне, якое выклікае людзей на лячэнне і кантролю умоў, якія павінны разглядацца па-рознаму? Асцярогі з нагоды парушэння сіметрыі, што прыводзіць пацыентаў у кантрольнай групе ў медыцынскіх даследаваннях, каб прыняць таблетку плацебо. Такім чынам, даследчыкі могуць быць упэўнены, што адзінае адрозненне паміж гэтымі двума ўмовамі з'яўляецца фактычнай медыцыны, а не досвед прыёму таблеткі.

Больш падрабязнай інфармацыі аб SUTVA, глядзіце раздзел 2.7 Gerber and Green (2012) , раздзел 2.5 Morgan and Winship (2014) , а таксама раздзел 1.6 Imbens and Rubin (2015) .

дакладнасць

У папярэднім раздзеле я апісаў, як ацаніць сярэдні эфект лячэння. У гэтым раздзеле я прывяду некаторыя ідэі з нагоды зменлівасці гэтых ацэнак.

Калі вы думаеце аб ацэнцы сярэдняга эфекту лячэння, як ацэнка рознасці паміж двума ўзорамі сродкаў, то можна паказаць, што стандартная памылка сярэдняга эфекту лячэння з'яўляецца:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

дзе \(m\) людзі , прызначаныя на лячэнне і \(Nm\) для кіравання (гл Gerber and Green (2012) , раўнанне. 3.4). Такім чынам, калі мы разважаем пра тое , як шмат людзей , прызначыць лячэнне і колькі прызначыць для кіравання, вы можаце бачыць , што калі \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , то вы хочаце \(m \approx N / 2\) , да таго часу , як кошт лячэння і кантролю з'яўляюцца аднолькавымі. Раўнанне 4.6 тлумачыць , чаму дызайн Бонд і яго калегі (2012) эксперымент пра ўплыў сацыяльнай інфармацыі на галасаванне (малюнак 4.18) была неэфектыўная статыстычна. Нагадаем, што гэта было 98% удзельнікаў ва ўмовах лячэння. Гэта азначала, што сярэдняе паводзіны ў стане кіравання не было ацэнена настолькі дакладна, наколькі гэта магло б быць, у сваю чаргу, азначае, што разліковая розніца паміж лячэннем і кантролем станам не была ацэненая настолькі дакладна, наколькі гэта можа быць. Больш падрабязнай інфармацыі аб аптымальным размеркаванні удзельнікаў на ўмовы, у тым ліку , калі выдаткі адрозніваюцца ад умоў, см List, Sadoff, and Wagner (2011) .

І, нарэшце, у асноўным тэксце я апісаў, як блок адзнака розніцы-в-рознасць, які звычайна выкарыстоўваецца ў змяшанай канструкцыі, можа прывесці да меншай дысперсіі, чым розніца-ў-сродак ацэнка, якая звычайна выкарыстоўваецца ў між-суб'ектах дызайн. Калі \(X_i\) з'яўляецца значэнне выніку да лячэння, то колькасць , якое мы спрабуем ацаніць з падыходам розніца-в-адрозненняў:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Стандартная памылка гэтай велічыні мае выгляд (гл Gerber and Green (2012) , э. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Параўнанне экв. 4.6 і экв. 4.8 паказвае , што падыход розніца-в-адрозненні будуць мець меншую стандартную памылку , калі (гл Gerber and Green (2012) , экв. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Груба кажучы, калі \(X_i\) вельмі прэдыктар \(Y_i(1)\) і \(Y_i(0)\) , то вы можаце атрымаць больш дакладныя ацэнкі ад падыходу рознасныя з рознасцяў , чым ад рознасныя з-азначае адзін. Адзін са спосабаў думаць пра гэта ў кантэксце эксперыменту Restivo ван дэ Rijt з'яўляецца тое, што ёсць шмат натуральных варыяцый ў колькасці, якое людзі рэдагаваць, так што гэта робіць параўнанне лячэння і кантролю умоў цяжка: цяжка выявіць адноснае малы эфект у зашумленность дадзеных вынікаў. Але калі вы рознасныя гэтую прыродную зменлівасць, то ёсць нашмат менш, зменлівасць, і гэта робіць яго лягчэй выявіць невялікі эфект.

См Frison and Pocock (1992) для дакладнага параўнання рознасныя з-сродкаў, розніца-з-адрозненняў, а таксама ANCOVA падыходы , заснаваныя на больш агульнай сітуацыі , у якіх ёсць шматразовыя вымярэння папярэдняй апрацоўкі і наступная апрацоўка. У прыватнасці, яны настойліва рэкамендуюць ANCOVA, якія я не пакрытыя тут. Акрамя таго, гл McKenzie (2012) для абмеркавання важнасці некалькіх крытэраў зыходу пасля лячэння.