Myslím, že nejlepším způsobem pochopení experimentů je potenciální výstupní rámec (o kterém jsem se zmínil v matematických poznámkách v kapitole 2). Potenciální výstupní rámec má úzkou souvislost s myšlenkami na základě vzorkování na základě návrhu, který jsem popsal v kapitole 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Tato příloha byla napsána tak, aby zdůraznila toto spojení. Tento důraz je trochu netradiční, ale myslím si, že spojení mezi vzorkováním a experimenty je užitečné: znamená to, že pokud víte něco o odběru vzorků, pak víte něco o experimentech a naopak. Jak ukážeme v těchto poznámkách, potenciální výstupní rámec odhaluje sílu randomizovaných řízených experimentů pro odhad příčinných účinků a ukazuje omezení toho, co lze provést dokonce dokonale provedenými experimenty.
V tomto dodatku budu popisovat potenciální výstupní rámec, který duplikuje některý materiál z matematických poznámek v kapitole 2, aby byly tyto poznámky více samostatné. Pak popíšu některé užitečné výsledky o přesnosti odhadu průměrných účinků léčby, včetně diskuse o optimálních alokacích a odhadu rozdílů v rozdílech. Tato příloha čerpá těžce na Gerber and Green (2012) .
Potenciální výstupní rámec
Abychom ilustrovali rámec potenciálních výstupů, vráťme se k experimentům Restivo a van de Rijt, abychom odhadli vliv příjmu barnstar na budoucí příspěvky na Wikipedii. Potenciální výstupní rámec má tři hlavní prvky: jednotky , léčby a potenciální výsledky . V případě Restivo a van de Rijta jednotky zasloužily redaktory - ty, které se nacházejí v nejvyšším 1% přispěvatelů - kteří ještě nedostali barnstaru. Tyto editory můžeme indexovat pomocí \(i = 1 \ldots N\) . Léčba v jejich experimentu byla "barnstar" nebo "no barnstar" a já napíšu \(W_i = 1\) jestliže osoba \(i\) je v podmínkách léčby a \(W_i = 0\) jinak. Třetím prvkem potenciálního výstupního rámce je nejdůležitější: potenciální výsledky . Jsou to poněkud koncepčně obtížnější, protože zahrnují "potenciální" výsledky - věci, které by se mohly stát. Pro každý editor Wikipedie si lze představit počet úprav, které by udělala v podmínkách léčby ( \(Y_i(1)\) ) a číslo, které udělala v kontrolním stavu ( \(Y_i(0)\) ).
Všimněte si, že tento výběr jednotek, léčby a výsledků definuje, co lze z tohoto experimentu naučit. Například bez dalších předpokladů Restivo a van de Rijt nemohou říci nic o účincích barnstars na všech editorech Wikipedia nebo o výsledcích, jako je kvalita editace. Obecně platí, že výběr jednotek, léčby a výsledků musí vycházet z cílů studie.
Vzhledem k těmto potenciálním výsledkům - které jsou shrnuty v tabulce 4.5 - lze definovat příčinný účinek léčby pro osobu \(i\) jako
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Pro mne je tato rovnice nejjasnějším způsobem, jak definovat kauzální efekt, a ačkoli je velmi jednoduchý, tento rámec se ukázal jako zobecňující v mnoha důležitých a zajímavých způsobech (Imbens and Rubin 2015) .
Osoba | Úpravy v ošetřovacím stavu | Úpravy v kontrolním stavu | Účinky léčby |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
znamenat | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Pokud definujeme kauzalitu tímto způsobem, narazíme však na problém. Ve většině případů se nedaří pozorovat oba možné výsledky. To znamená, že konkrétní editor Wikipedie obdržel barnstar nebo ne. Proto pozorujeme jeden z možných výsledků - \(Y_i(1)\) nebo \(Y_i(0)\) - ale ne obojí. Neschopnost pozorovat oba potenciální výsledky je tak závažným problémem, který Holland (1986) nazval základním problémem příčinné domněnky .
Naštěstí, když děláme výzkum, nemáme jen jednu osobu, máme mnoho lidí a to nabízí cestu kolem základního problému příčinné domněnky. Spíše než pokus o odhad individuálního léčebného účinku, můžeme odhadnout průměrný účinek léčby:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Toto je ještě vyjádřeno v podmínkách \(\tau_i\) které jsou nepozorovatelné, ale s nějakou algebrou (Eq 2.8 Gerber and Green (2012) ) dostaneme
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Rovnice 4.3 ukazuje, že pro odhad průměru populace výsledek, který je léčen ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) a populace průměrný výsledek pod kontrolou ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), pak můžeme odhadnout průměrný účinek léčby i bez odhadu léčebného účinku pro kteroukoli jednotlivou osobu.
Nyní, když jsem definoval náš odhad - věc, kterou se snažíme odhadnout - se obrátím na to, jak to můžeme s údaji skutečně odhadnout. Ráda přemýšlím o této výzvě k odhadu jako problému výběru (přemýšlej o matematických poznámkách v kapitole 3). Představte si, že náhodně vybíráme některé lidi, kteří se mají pozorovat v podmínkách léčby, a náhodně vybereme některé lidi, kteří se budou setkat s kontrolním stavem, pak můžeme odhadnout průměrný výsledek v každém stavu:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
kde \(N_t\) a \(N_c\) jsou počty lidí v podmínkách léčby a kontroly. Rovnice 4.4 je odhad rozdílu mezi prostředky. Vzhledem k návrhu vzorkování víme, že první termín je nestranný odhad průměrného výsledku léčby a druhý termín je nepředvídatelným odhadcem pod kontrolou.
Dalším způsobem, jak přemýšlet o tom, co umožňuje randomizace, je to, že zajistí, že srovnání mezi léčbou a kontrolními skupinami je spravedlivé, protože randomizace zajišťuje, že se obě skupiny budou navzájem podobat. Tato podobnost platí pro věci, které jsme změřili (například počet editací za 30 dní před pokusem) a věci, které jsme neměli (např. Pohlaví). Tato schopnost zajistit rovnováhu jak pozorovaných, tak nepozorovaných faktorů je kritická. Chcete-li vidět schopnost automatického vyvážení nezohledněných faktorů, představme si, že budoucí výzkum zjistí, že muži jsou citlivější na ceny než ženy. Bylo by to znehodnotit výsledky experimentů Restivo a van de Rijta? Ne. Randomizací zajistily, že všechny nepozorovatelné by byly v očekávání vyvážené. Tato ochrana proti neznámu je velmi silná a je důležitým způsobem, jak se experimenty liší od neprováděných technik popsaných v kapitole 2.
Kromě definování léčebného účinku pro celou populaci je možné definovat léčebný efekt pro podskupinu lidí. To se obvykle nazývá podmíněný průměrný účinek léčby (CATE). Například ve studii Restivo a van de Rijt si představte, že \(X_i\) je, zda byl editor nad nebo pod mediánem počtu úprav během 90 dnů před pokusem. Pro tyto lehké a těžké editory lze vypočítat zvlášť účinnost ošetření.
Potenciální výstupní rámec je silný způsob, jak přemýšlet o kauzálním závěru a pokusech. Existují však dvě další složitosti, které byste měli mít na paměti. Tyto dvě složitosti jsou často soustředěny společně pod termínem Stabilní jednotková hodnota léčby (SUTVA). První část SUTVA je předpoklad, že jediná věc, která záleží na výsledku člověka \(i\) je to, zda byla tato osoba v léčbě nebo kontrolním stavu. Jinými slovy, předpokládá se, že osoba \(i\) nemá vliv na zacházení s jinými lidmi. Toto je někdy nazýváno "žádné rušení" nebo "žádné přelití" a může být napsáno jako:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
kde \(\mathbf{W_{-i}}\) je vektor stavů léčby pro každého kromě osoby \(i\) . Jednou z možností, jak by to mohlo být porušeno, je to, že léčba od jedné osoby se přenáší na jinou osobu, ať už pozitivně nebo negativně. Vracíme-li se k experimentům Restivo a van de Rijt, představte si dva přátele \(i\) a \(j\) a tato osoba \(i\) obdrží barnstar a \(j\) to ne. Jestliže \(i\) přijímá barnstar způsobí, že \(j\) upraví více (z pocitu konkurence) nebo upraví méně (z pocitu zoufalství), pak byla porušena SUTVA. To může být také porušeno, pokud dopad léčby závisí na celkovém počtu ostatních lidí, kteří dostávají léčbu. Pokud například Restivo a van de Rijt rozdávali 1000 nebo 10 000 barnstarů namísto 100, mohlo to mít dopad na účinek přijetí barnstar.
Druhá otázka soustředěná do SUTVA je předpoklad, že jedinou relevantní léčbou je ta, kterou výzkumník poskytuje; tento předpoklad se někdy nazývá žádná skrytá léčba nebo vyloučení . Například v Restivovi a van de Rijtu to mohlo být případ, kdy by výzkumníci způsobili, že redaktoři předvedli redaktory na populární stránce redaktorů a že se nacházejí na stránce populárních editorů - spíše než aby dostali barnstar - které způsobily změnu v chování úprav. Pokud je to pravda, pak účinek barnstar nelze odlišit od efektu, který je na stránce populárních editorů. Samozřejmě není zřejmé, zda by to mělo být z vědecké perspektivy považováno za atraktivní nebo neatraktivní. To znamená, že si dokážete představit výzkumného pracovníka, který říká, že účinek přijetí barnstar zahrnuje všechny následné zacházení, které barnstar spustí. Nebo si můžete představit situaci, kdy by výzkum chtěl izolovat účinek barnstarů od všech těchto věcí. Jeden způsob, jak o tom přemýšlet, je položit otázku, zda existuje něco, co vede k tomu, co Gerber and Green (2012) (str. 41) nazývají "rozkladem symetrie"? Jinými slovy, existuje něco jiného než léčba, která způsobuje, že se s lidmi v léčbě a kontrolních podmínkách zachází jinak? Obavy z přerušení symetrie jsou důvodem, proč pacienti v kontrolní skupině v lékařských studiích užívají placebovou pilulku. Tímto způsobem si vědci mohou být jisti, že jediný rozdíl mezi těmito dvěma podmínkami je skutečný lék a ne zkušenost s podáním pilulky.
Více informací o SUTVA naleznete v části 2.7 Gerber and Green (2012) , oddíl 2.5 z Morgan and Winship (2014) a oddíl 1.6 z Imbens and Rubin (2015) .
Přesnost
V předchozí části jsem popsal, jak odhadnout průměrný účinek léčby. V této části představím několik představ o variabilitě těchto odhadů.
Pokud uvažujete o odhadu průměrného účinku léčby jako o odhadu rozdílu mezi dvěma prostředky vzorku, pak je možné ukázat, že standardní chyba průměrného účinku léčby je:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
kde \(m\) lidé jsou přiděleni k léčbě a \(Nm\) ke kontrole (viz Gerber and Green (2012) , ek 3.4). Takže když přemýšlíte o tom, kolik lidí přidělíte k léčbě a kolik jich chcete přiřadit ke kontrole, zjistíte, že pokud \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , pak chcete \(m \approx N / 2\) , pokud jsou náklady na léčbu a kontrolu stejné. Rovnice 4.6 vysvětluje, proč byl návrh experimentu Bond a kolegy (2012) o účincích sociálních informací na hlasování (obr. 4.18) statisticky neúčinný. Připomeňme, že má 98% účastníků léčby. To znamená, že průměrné chování v kontrolním stavu nebylo odhadnuto tak přesně, jak by mohlo být, což zase znamenalo, že odhadovaný rozdíl mezi léčebným a kontrolním stavem nebyl odhadnut přesně tak, jak by mohl být. Další informace o optimálním rozdělení účastníků do podmínek, včetně toho, kdy se náklady liší mezi jednotlivými podmínkami, viz List, Sadoff, and Wagner (2011) .
Konečně v hlavním textu jsem popsal, jak může odhadovač rozdílů v rozdílech, který se typicky používá ve smíšené konstrukci, vést k menší rozptylu než odhadu rozdílu v prostředku, který se obvykle používá u subjektů mezi jednotlivými subjekty design. Pokud \(X_i\) je hodnota výsledku před léčbou, pak se množství, které se snažíme odhadnout pomocí přístupu rozdílných rozdílů, je:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Standardní chyba tohoto množství je (viz Gerber and Green (2012) , ekv. 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Srovnání rovnice. 4,6 a ekv. 4.8 ukazuje, že rozdílný rozdílový přístup bude mít menší standardní chybu, když (viz Gerber and Green (2012) , ekv. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Zhruba když \(X_i\) je velice prediktivní pro \(Y_i(1)\) a \(Y_i(0)\) , pak získáte přesnější odhady z přístupu rozdílového rozdílu, of-znamená jeden. Jeden způsob, jak o tom přemýšlet v kontextu experimentů Restivo a van de Rijta, je, že existuje mnoho přirozených variací v množství, které lidé upravují, takže je to obtížné porovnat podmínky léčby a kontroly: je těžké zjistit, že příbuzný malý efekt v hlučných výsledcích. Pokud se však lišíte od této přirozeně se vyskytující variability, je mnohem méně variabilní a tím je snazší odhalit malý efekt.
Viz Frison and Pocock (1992) pro přesné porovnání přístupů založených na rozdílných prostředcích, rozdílech rozdílů a ANCOVA v obecnějším prostředí, kde se provádí více měření před ošetřením a následnou léčbou. Zejména důrazně doporučují společnost ANCOVA, kterou zde nezahrnují. Dále viz McKenzie (2012) kde se diskutuje o důležitosti několika opatření po ukončení léčby.