Myslím, že najlepší spôsob, ako porozumieť experimentom, je potenciálny výstupný rámec (o ktorom som hovoril v matematických poznámkach v kapitole 2). Potenciálny výsledný rámec má úzke vzťahy s myšlienkami vzorkovania založeného na dizajne, ktoré som opísal v kapitole 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Táto príloha bola napísaná takým spôsobom, aby zdôraznila toto spojenie. Tento dôraz je trochu netradičný, ale myslím si, že prepojenie medzi vzorkovaním a pokusmi je užitočné: to znamená, že ak viete niečo o vzorkovaní, potom viete niečo o pokusoch a naopak. Ako ukážem v týchto poznámkach, potenciálny výsledný rámec odhaľuje silu randomizovaných kontrolovaných experimentov na odhadnutie kauzálnych účinkov a ukazuje obmedzenia toho, čo sa dá dosiahnuť dokonca dokonale vykonanými experimentmi.
V tomto dodatku opíšem rámec potenciálnych výsledkov, ktorý duplikuje niektorý materiál z matematických poznámok v kapitole 2, aby boli tieto poznámky viac samostatné. Potom popíšem niektoré užitočné výsledky o presnosti odhadov priemerných účinkov liečby vrátane diskusie o optimálnych prídeloch a odhadoch rozdielov v rozdieloch. Táto príloha čerpá ťažko na Gerber and Green (2012) .
Potenciálny výsledný rámec
Aby sme ilustrovali rámec potenciálnych výsledkov, vráťme sa k experimentom Restivo a van de Rijt, aby sme odhadli vplyv prijímania barnstar na budúce príspevky na Wikipédiu. Potenciálny výstupný rámec má tri hlavné prvky: jednotky , liečby a potenciálne výsledky . V prípade Restivo a van de Rijta jednotky zaslúžili redakciu - tých, ktorí sa nachádzajú v prvom 1% prispievateľov - ktorí ešte nedostali barnstaru. Tieto editory môžeme indexovať pomocou \(i = 1 \ldots N\) . Liečba v ich experimente bola "barnstar" alebo "no barnstar" a napíšem \(W_i = 1\) ak osoba \(i\) je v liečebnom stave a \(W_i = 0\) inak. Tretí prvok potenciálneho výstupného rámca je najdôležitejší: potenciálne výsledky . Sú oveľa viac koncepčne ťažké, pretože zahŕňajú "potenciálne" výsledky - veci, ktoré sa môžu stať. Pri každom editori Wikipedia si možno predstaviť počet úprav, ktoré by vykonala v podmienkach liečby ( \(Y_i(1)\) ) a číslo, ktoré vykonala v kontrolnom stave ( \(Y_i(0)\) ).
Upozorňujeme, že tento výber jednotiek, ošetrení a výsledkov definuje to, čo sa dá z tohto experimentu naučiť. Napríklad, bez ďalších predpokladov, Restivo a van de Rijt nemôžu povedať nič o vplyve barnstars na všetkých editoroch Wikipedia alebo o výsledkoch, ako je kvalita editácie. Vo všeobecnosti musí byť výber jednotiek, liečby a výsledkov založený na cieľoch štúdie.
Vzhľadom na tieto potenciálne výsledky - ktoré sú zhrnuté v tabuľke 4.5 - možno definovať kauzálny účinok liečby pre osobu \(i\) ako
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Pre mňa je táto rovnica najjasnejšou formou definovania príčinného vplyvu a aj keď je veľmi jednoduchá, tento rámec sa (Imbens and Rubin 2015) do mnohých dôležitých a zaujímavých spôsobov (Imbens and Rubin 2015) .
človek | Úpravy v liečebnom stave | Úpravy v ovládacom stave | Liečebný účinok |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
znamenať | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Ak definujeme kauzalitu týmto spôsobom, narážame však na problém. Takmer vo všetkých prípadoch nedosahujeme oba možné výsledky. To znamená, že konkrétny editor v Wikipédii buď dostal barnstar, alebo nie. Z tohto dôvodu pozorujeme jeden z potenciálnych výsledkov - \(Y_i(1)\) alebo \(Y_i(0)\) ale nie oboje. Neschopnosť pozorovať oba možné výsledky je taký veľký problém, ktorý Holland (1986) nazval základným problémom príčinných záverov .
Našťastie, keď robíme výskum, nemáme len jednu osobu, máme veľa ľudí a to ponúka cestu okolo základného problému príčinných záverov. Namiesto pokusov o odhad individuálneho účinku liečby môžeme odhadnúť priemerný účinok liečby:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Toto je stále vyjadrené v zmysle \(\tau_i\) ktoré sú nepozorovateľné, ale s určitou algebrou (Eq 2.8 z Gerber and Green (2012) ) dostaneme
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Rovnica 4.3 ukazuje, že pre odhad priemeru populácie výsledok, ktorý je liečený ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) a populácia priemerný výsledok pod kontrolou ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), potom môžeme odhadnúť priemerný účinok liečby, a to aj bez odhadu účinku liečby pre konkrétnu osobu.
Teraz, keď som definoval náš odhad - to, čo sa snažíme odhadnúť - sa obrátim k tomu, ako ho môžeme skutočne odhadnúť údajmi. Rád by som premýšľal o probléme s odhadmi ako o vzorkovacom probléme (premyslite si matematické poznámky v kapitole 3). Predstavte si, že náhodne vyberieme niektorých ľudí, ktorí sa budú pozerať v podmienkach liečby a náhodne si vyberieme niektorých ľudí, ktorí budú pozorovať v kontrolných podmienkach, potom môžeme odhadnúť priemerný výsledok v každej podmienke:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
kde \(N_t\) a \(N_c\) sú počty ľudí v liečebných a kontrolných podmienkach. Rovnica 4.4 je odhad rozdielu prostriedkov. Vzhľadom na návrh vzorkovania vieme, že prvý termín je nestranný odhad priemerného výsledku liečby a druhý termín je nezaujatým odhadom pod kontrolou.
Iný spôsob, ako premýšľať o tom, čo umožňuje randomizácia, je to, že zabezpečuje, že porovnanie medzi liečbou a kontrolnými skupinami je spravodlivé, pretože náhodnosť zabezpečuje, že obe skupiny sa budú podobať. Táto podobnosť platí pre veci, ktoré sme merali (napríklad počet úprav v priebehu 30 dní pred experimentom) a veci, ktoré sme nezmerali (povedzme rod). Táto schopnosť zabezpečiť rovnováhu pozorovaných aj nepozorovaných faktorov je rozhodujúca. Ak chcete vidieť schopnosť automatického vyrovnávania sa s nezohľadnenými faktormi, predstavme si, že budúci výskum zistí, že muži sú citlivejšie na ocenenia než ženy. Znehodnotil by to výsledky experimentov Restivo a van de Rijta? Nie. Randomizáciou zabezpečili, že všetky nepozorovateľné subjekty budú v očakávaní vyvážené. Táto ochrana proti neznámej osobe je veľmi silná a je dôležitým spôsobom, akým sa experimenty líšia od nepeteri- nálnych techník opísaných v kapitole 2.
Okrem definovania účinku liečby pre celú populáciu je možné určiť účinok liečby pre podskupinu ľudí. Toto sa zvyčajne nazýva podmienený priemerný účinok liečby (CATE). Napríklad v štúdii Restivo a van de Rijta si predstavme, že \(X_i\) je, či editor bol nad alebo pod mediánom počtu úprav počas 90 dní pred pokusom. Dalo by sa vypočítať účinok liečby oddelene pre týchto ľahkých a ťažkých editorov.
Potenciálny výsledný rámec je silný spôsob, ako premýšľať o príčinných záveroch a pokusoch. Existujú však dve ďalšie komplikácie, ktoré by ste mali mať na pamäti. Tieto dve zložitosti sú často spojené dohromady pod pojmom Stabilná jednotka (SUTVA). Prvá časť SUTVA je predpoklad, že jediná vec, na ktorej záleží na osobu \(i\) , s výsledkom je, či táto osoba bola v stave spracovania či kontroly. Inými slovami, predpokladá sa, že osoba \(i\) nie je ovplyvnená zaobchádzaním s inými ľuďmi. Toto sa niekedy nazýva "žiadna interferencia" alebo "žiadne spillovers" a môže byť napísaná ako:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
kde \(\mathbf{W_{-i}}\) je vektor stavov liečby pre každého okrem osoby \(i\) . Jedným zo spôsobov, ako to môže byť porušené, je to, či liečba od jednej osoby prelieva na inú osobu, či už pozitívne alebo negatívne. Keď sa vrátime k experimentom Restivo a van de Rijt, predstavte dvoch priateľov \(i\) a \(j\) a táto osoba \(i\) dostane barnstar a \(j\) to neplatí. Ak \(i\) dostane barnstar príčiny \(j\) upraviť viac (z pocitu súťaže) alebo upraviť menej (z pocitu zúfalstva), potom bol porušený SUTVA. Môže to byť tiež porušené, ak vplyv liečby závisí od celkového počtu ďalších osôb, ktoré dostali liečbu. Napríklad, ak Restivo a van de Rijt rozdelili 1000 alebo 10 000 barnstarov namiesto 100, mohlo to mať vplyv na efekt prijatia barnstar.
Druhá otázka, ktorá je súčasťou SUTVA, je predpoklad, že jedinou relevantnou liečbou je tá, ktorú výskumník prináša; tento predpoklad sa niekedy nazýva žiadna skrytá liečba alebo vylúčiteľnosť . Napríklad v spoločnosti Restivo a van de Rijt to mohlo byť pravda, že tým, že dal barnstar, vedci spôsobili, že redaktori sa objavili na populárnej stránke editorov a že sa nachádzali na stránke populárnych redaktorov - namiesto toho, aby dostávali barnstar- ktoré spôsobili zmenu v správaní úprav. Ak je to pravda, potom efekt barnstar nie je odlíšiteľný od efektu byť na stránke populárnych editorov. Samozrejme, nie je jasné, či by to z vedeckého hľadiska malo byť považované za atraktívne alebo neatraktívne. To znamená, že si viete predstaviť výskumníka, ktorý hovorí, že efekt prijímania barnstar zahŕňa všetky následné úpravy, ktoré barnstar spúšťa. Alebo si môžete predstaviť situáciu, keď by výskum chcel izolovať vplyv barnštárov od všetkých týchto vecí. Jedným zo spôsobov, ako o tom premýšľať, je opýtať sa, či existuje niečo, čo vedie k tomu, že Gerber and Green (2012) (41) nazývajú "rozpad symetrie"? Inými slovami, existuje niečo iné ako liečba, ktorá spôsobuje, že sa s ľuďmi v liečebných a kontrolných podmienkach zaobchádza rozdielne? Obavy z prerušenia symetrie sú dôvodom, prečo pacienti v kontrolnej skupine v lekárskych štúdiách užívajú placebovú pilulku. Týmto spôsobom môžu vedci uistiť, že jediný rozdiel medzi týmito dvoma podmienkami je skutočný liek a nie skúsenosť s užívaním pilulky.
Viac informácií o spoločnosti SUTVA nájdete v oddiele 2.7 brožúr Gerber and Green (2012) , oddielu 2.5 z Morgan and Winship (2014) a oddielu 1.6 Imbens and Rubin (2015) .
presnosť
V predchádzajúcej časti som opísal, ako odhadnúť priemerný účinok liečby. V tejto časti uvádzam niekoľko názorov na variabilitu týchto odhadov.
Ak uvažujete o odhadovaní priemerného účinku liečby ako o odhad rozdielu medzi dvomi vzorkovými prostriedkami, potom je možné preukázať, že štandardná chyba priemerného účinku liečby je:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
kde \(m\) ľudia priradení k liečbe a \(Nm\) na kontrolu (pozri Gerber and Green (2012) , eq. 3.4). Takže keď uvažujete o tom, koľko ľudí priradíme k liečbe a koľko ich priradíme k ovládaniu, môžete vidieť, že ak \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , potom chcete \(m \approx N / 2\) , pokiaľ sú náklady na liečbu a kontrolu rovnaké. Rovnica 4.6 vysvetľuje, prečo bol návrh experimentu Bond a kolegov (2012) o vplyve sociálnych informácií na hlasovanie (obrázok 4.18) štatisticky neefektívny. Pripomeňme si, že má 98% účastníkov liečby. To znamená, že priemerné správanie sa v kontrolnom stave nebolo odhadnuté tak presne, ako by to mohlo byť, čo zase znamenalo, že odhadnutý rozdiel medzi liečebným a kontrolným stavom nebol odhadnutý tak presne, ako by mohol byť. Ďalšie informácie o optimálnom priradení účastníkov k podmienkam, vrátane prípadov, keď sa náklady líšia medzi jednotlivými podmienkami, pozri List, Sadoff, and Wagner (2011) .
Napokon v hlavnom texte som opísal, ako môže odhadovač rozdielov v rozdieloch, ktorý sa zvyčajne používa v zmiešanom dizajne, viesť k menšiemu rozdielu ako odhadovač rozdielov v prostriedkoch, ktorý sa zvyčajne používa v medziobjednat dizajnu. Ak \(X_i\) je hodnota výsledku pred liečbou, potom sa množstvo, ktoré sa snažíme odhadnúť pomocou prístupu rozdielov v rozdieloch, je:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Štandardná chyba tohto množstva je (pozri Gerber and Green (2012) , rovnica 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Porovnanie rovnice. 4,6 a ekv. 4.8 ukazuje, že prístup rozdielov v rozdieloch bude mať nižšiu štandardnú chybu, keď (pozri Gerber and Green (2012) , ekv. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Približne, ak \(X_i\) je veľmi prediktívna pre \(Y_i(1)\) a \(Y_i(0)\) , potom môžete získať presnejšie odhady z prístupu rozdielu rozdielov, z jedného prostriedku. Jedným zo spôsobov, ako o tom myslieť v kontexte experimentov Restivo a van de Rijta, je, že v množstve, ktoré ľudia upravujú, je veľa prirodzených variácií, takže je ťažké porovnať podmienky liečby a kontroly: je ťažké odhaliť príbuzného malý efekt v hlučných výsledkoch. Ak však rozlišujete túto prirodzene sa vyskytujúcu variabilitu, potom je oveľa menšia variabilita a tým sa zjednodušuje detekcia malého efektu.
Pozri Frison and Pocock (1992) na presné porovnanie prístupov založených na rozdieloch prostriedkov, rozdieloch rozdielov a prístupoch založených na ANCOVA v všeobecnejšom prostredí, kde existuje viacnásobné merania pred liečbou a následnou liečbou. Najmä dôrazne odporúčajú spoločnosti ANCOVA, ktorú tu nemám. Ďalej pozri McKenzie (2012) na diskusiu o dôležitosti viacerých opatrení po skončení liečby.