Мислим да је најбољи начин разумевања експеримената потенцијални оквир резултата (о чему сам дискутовао у математичким нотама у поглављу 2). Оквир потенцијалног исхода има блиске односе са идејама из узорка засноване на дизајну које сам описао у поглављу 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Овај додатак је написан тако да нагласи ту везу. Овај акценат је мало нетрадиционалан, али мислим да је веза између узимања узорака и експеримената корисна: то значи да ако знате нешто о узорковању онда знате нешто о експериментима и обрнуто. Као што ћу показати у овим напоменама, оквир потенцијалног исхода открива јачину рандомизираних контролисаних експеримената за процјену узрочних ефеката и показује ограничења онога што се може учинити чак и са савршено изведеним експериментима.
У овом додатку ћу описати потенцијални оквир резултата, дуплицирати неке од материјала из математичких белешки у поглављу 2, како би ове белешке постале свеобухватније. Онда ћу описати неке корисне резултате о прецизности процена просечних ефеката третмана, укључујући и расправу о оптималним расподјелама и процјенама разлика у разликама. Овај додатак се у великој мери односи на Gerber and Green (2012) .
Оквир потенцијалних резултата
Да бисмо илустровали потенцијални оквир исхода, вратимо се на Рестиву и ван де Ријтов експеримент да проценимо утицај примања барнстар на будуће доприносе на Википедију. Оквир потенцијалног исхода има три главна елемента: јединице , третмане и потенцијалне исходе . У случају Рестива и ван де Ријт, јединице су заслужиле уреднике - оне у првих 1% доприноса - које још нису примиле барнстар. Ове едиторе можемо индексирати помоћу \(i = 1 \ldots N\) . Третмани у њиховом експерименту били су "барнстар" или "но барнстар", а ја ћу написати \(W_i = 1\) ако је особа \(i\) у стању третмана и \(W_i = 0\) иначе. Трећи елемент потенцијалног оквира исхода је најважнији: потенцијални исходи . Ово је мало више концептуално тешко јер укључују "потенцијалне" исходе - ствари које се могу догодити. За сваки уредник Википедиа може се замислити број уноса које би она направила у условима лијечења ( \(Y_i(1)\) ) и број који би она направила у условима контроле ( \(Y_i(0)\) ).
Имајте на уму да овај избор јединица, третмана и исхода дефинише шта се може научити из овог експеримента. На пример, без икаквих додатних претпоставки, Рестиво и ван де Ријт не могу ништа рећи о ефектима барнстарса на све едиторе Википедиа-а или о исходима као што је квалитет едитовања. Генерално, избор јединица, третмана и исхода мора бити заснован на циљевима студије.
С обзиром на ове потенцијалне исходе - које су сумиране у табели 4.5 - може се дефинирати узрочни ефекат третмана за особу \(i\) као
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
За мене је ова једначина најјаснији начин дефинисања узрочног учинка и, иако изузетно једноставан, овај оквир се испоставља генерализабилним на много важних и занимљивих начина (Imbens and Rubin 2015) .
Особа | Измене у стању третмана | Измене у контролном стању | Ефекат лечења |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
Н | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
значити | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Међутим, ако дефинишемо узрочност на овај начин, налетимо на проблем. У скоро свим случајевима, не можемо посматрати и потенцијалне исходе. То јест, одређени Википедиа едитор или је примио барнстар или не. Стога посматрамо један од потенцијалних исхода - \(Y_i(1)\) или \(Y_i(0)\) али не обоје. Немогућност посматрања и потенцијалних исхода је такав велики проблем који га је Holland (1986) назвао Основним проблемом узрочног закључивања .
На срећу, када радимо истраживања, немамо само једну особу, имамо много људи, а то нуди начин око основног проблема узрочног закључивања. Умјесто да покушамо процијенити ефекат третмана на појединачном нивоу, можемо процијенити ефекат просјечног третмана:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Ово се и даље изражава у смислу \(\tau_i\) које се не могу посматрати, али са неким алгебром (Ек 2.8 Gerber and Green (2012) ) добијамо
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Једначина 4.3 показује да ако можемо да проценимо просечан исход популације под лечењем ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) и просечан исход популације под контролом ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), онда можемо проценити просечан ефекат третмана, чак и без процене ефекта третмана за било коју особу.
Сада када сам дефинисао процене - оно што желимо да проценимо - окренућу се како можемо да је проценимо са подацима. Волим да размишљам о овом изазову процене као проблему узорковања (размислите о математичким нотама у поглављу 3). Замислите да случајно одаберемо неке људе да посматрају стање лечења и да случајно одаберемо неке људе да се посматрају у контролном стању, онда можемо проценити просечан исход у сваком стању:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
где су \(N_t\) и \(N_c\) бројеви људи у условима лијечења и контроле. Једначина 4.4 је процена разлике средине. Због дизајна узорака, знамо да је први термин непристрасан проценат просечног исхода под лечењем, а други термин је непристрасан проценат под контролом.
Други начин размишљања о томе шта рандомизација омогућава јесте да обезбеђује да је поређење између лечења и контролних група поштено, јер рандомизација обезбеђује да две групе подсећају једни на друге. Ова сличност важи за ствари које смо измијенили (рецимо број измјена у 30 дана прије експеримента) и ствари које нисмо измјерили (кажу пол). Ова способност да обезбеди равнотежу ио посматраним и необавезним факторима је критична. Да видимо моћ аутоматског балансирања на необученим факторима, претпоставимо да будуће истраживање утврди да су мушкарци више одзивни на награде него жене. Да ли би то поништило резултате теста Рестиво и ван де Ријт? Не. Рандомизацијом, они су осигурали да ће сви унобсерваблес бити избалансирани, у очекивању. Ова заштита од непознатог је веома моћна и важан је начин да се експерименти разликују од неексперименталних техника описаних у поглављу 2.
Поред дефинисања ефекта третмана за целу популацију, могуће је дефинисати ефекат третмана за подскуп људи. Ово се типично зове условни просечни третман (ЦАТЕ). На пример, у студији Рестива и ван де Ријт, претпоставимо да је \(X_i\) да ли је едитор био изнад или испод средњег броја измена током 90 дана пре експеримента. Може се израчунати ефекат лечења одвојено за те лаке и тешке уређиваче.
Оквир потенцијалних исхода моћан је начин размишљања о узрочним закључцима и експериментима. Међутим, постоје две додатне сложености које бисте требали имати на уму. Ове две сложености често се спајају под појмом Стабилна јединица третмана вриједности Претпоставке (СУТВА). Први део СУТВЕ-а је претпоставка да је једина ствар која је важна за исход особе \(i\) јесте да ли је та особа била у стању лијечења или контроле. Другим речима, претпоставља се да особи \(i\) не утиче на третман који се даје другим људима. Ово се понекад назива "без сметњи" или "без преливања" и може се писати као:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
где је \(\mathbf{W_{-i}}\) вектор статуса лијечења за све осим особе \(i\) . Један од начина на који се ово може прекршити јесте да се третман од једне особе прелије на другу особу, било позитивно или негативно. Враћајући се на Рестиво и ван де Ријтов експеримент, замислите два пријатеља \(i\) и \(j\) и та особа \(i\) прима барнстар и \(j\) не. Ако \(i\) прима барнстар, узрокује \(j\) да уреди више (из осећаја конкуренције) или уреди мање (из осећаја очаја), онда је СУТВА прекрсена. Такође се може повредити ако утицај лечења зависи од укупног броја других особа које примају лечење. На пример, ако су Рестиво и ван де Ријт издали 1.000 или 10.000 барнстара уместо 100, то би могло утицати на ефекат примања барнстар-а.
Друго питање за СУТВА је претпоставка да је једини релевантни третман онај који истраживач испоручује; ова претпоставка се понекад назива без скривених третмана или искључивања . На пример, у Рестиву и ван де Ријту, можда је било случај да је давањем барнстар истраживачи довели уреднике да буду представљени на популарној страници уредника и да се налази на популарној страници уредника - умјесто да добијају барнстар- што је изазвало промјену понашања у едитовању. Ако је то тачно, онда се ефекат барнстар-а не разликује од ефекта да се налази на популарној страници уређивача. Наравно, није јасно да ли би, с научне перспективе, ово требало да се сматра атрактивним или непривлачним. То јест, можете замислити истраживача који говори да ефекат пријема Барнстар-а укључује све накнадне третмане које барнстар покреће. Или можете замислити ситуацију у којој истраживање жели да изолује ефекат барнстара из свих ових других ствари. Један од начина размишљања о томе је питати да ли постоји нешто што води до онога што Gerber and Green (2012) (стр. 41) називају "сломом у симетрији"? Другим ријечима, постоји ли још нешто осим лијечења које узрокује људе у третману и контролним условима да се третирају различито? Забринутост о кршењу симетрије је оно што доводи пацијенте у контролној групи у медицинске претраге да узимају плацебо таблету. На тај начин истраживачи могу бити сигурни да је једина разлика између ова два стања стварни лек, а не искуство узимања пилуле.
За више информација о СУТВИ, погледајте поглавље 2.7 Gerber and Green (2012) , одјељак 2.5 Morgan and Winship (2014) , и поглавље 1.6 Imbens and Rubin (2015) .
Прецизност
У претходном одељку, описао сам како проценити просечан ефекат третмана. У овом одељку ћу вам дати неке идеје о варијабилности тих процјена.
Ако размишљате о процени учинка просјечног третмана као процјене разлике између два узорка, онда је могуће показати да је стандардна грешка просјечног ефекта третмана:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
где су \(m\) особе додијељене третману и \(Nm\) за контролу (види Gerber and Green (2012) , ек 3.4). Дакле, када размишљате о томе колико људи треба додијелити третману и колико ће их додијелити контроли, можете видети да ако \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , онда желите \(m \approx N / 2\) све док су трошкови лечења и контроле исти. Једначина 4.6 објашњава зашто је дизајн експеримента Бонда и колега (2012) о ефектима друштвених информација о гласању (слика 4.18) био неефикасан статистички. Подсјетимо да је на терапији било 98% учесника. Ово је значило да се средња понашања у условима контроле нису процењивала тачно колико је могла бити, што заузврат значи да процијењена разлика између стања лијечења и контроле није процијењена тачно колико би могла бити. За више информација о оптималној расподели учесника у услове, укључујући и трошкове који се разликују између услова, погледајте List, Sadoff, and Wagner (2011) .
Најзад, у главном тексту сам описао како се процена разлике у разликама, која се типично користи у мешовитом дизајну, може довести до мање варијансе него процена разлика у средствима, која се обично користи у међусобним субјектима дизајн. Ако је \(X_i\) вредност исхода пре третмана, онда је количина коју покушавамо проценити с приступом разликама по разликама:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Стандардна грешка те количине је (видети Gerber and Green (2012) , ек 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Поређење екв. 4.6 и ек. 4.8 открива да ће приступ разлике у разликама имати мању стандардну грешку када (видети Gerber and Green (2012) , екв. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Грубо, када је \(X_i\) веома предиктивно за \(Y_i(1)\) и \(Y_i(0)\) , онда можете добити прецизније процене из приступа разлика разлика, значи један. Један од начина размишљања о овоме у контексту експеримента Рестиво и ван де Ријта јесте да постоји пуно природних варијација у количини коју људи уређују, тако да ово отежава упоређивање стања лијечења и контроле: тешко је открити сродника мали ефекат у бучним резултатима исхода. Али ако разликујете ову природно променљиву, онда је много мање варијабилности, што олакшава детекцију малих ефеката.
Видети Frison and Pocock (1992) за прецизно поређење разлика у односу на разлику, и приступе засноване на АНЦОВИ у општијем окружењу где постоје вишеструка мјерења пред третманом и пост-лијечењем. Конкретно, они снажно препоручују АНЦОВУ, што овдје нисам покривао. Даље, погледајте McKenzie (2012) за дискусију о важности вишеструких мера исхода након третмана.