Mislim da je najbolji način razumijevanja eksperimenata potencijalni okvir ishoda (što sam razmatrao u matematičkim bilješkama u poglavlju 2). Okvir potencijalnih ishoda ima bliske odnose s idejama iz uzoraka temeljenih na dizajnu koji sam opisao u 3. poglavlju (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ovaj dodatak napisan je na način da naglašava tu vezu. Ovaj je naglasak malo ne-tradicionalan, ali mislim da je veza između uzorkovanja i eksperimenata korisna: to znači da ako znate nešto o uzorkovanju onda znate nešto o eksperimentima i obrnuto. Kao što ću pokazati u ovim bilješkama, okvir potencijala ishoda otkriva snagu randomiziranih kontroliranih eksperimenata za procjenu kauzalnih efekata i pokazuje ograničenja onoga što se može učiniti čak i savršeno izvršenim eksperimentima.
U ovom dodatku opisat ću potencijalni okvir ishoda, duplicirati neke od matematičkih bilješki u poglavlju 2 kako bi ove bilješke bile samostalne. Tada ću opisati neke korisne rezultate o preciznosti procjena prosječnih učinaka liječenja, uključujući raspravu o optimalnoj alokaciji i procjeniteljima razlike u razlici. Ovaj prilog se jako oslanja na Gerber and Green (2012) .
Potencijalni rezultati
Da bismo ilustrirali potencijalni okvir ishoda, vratimo se eksperimentu Restivo i van de Rijta kako bismo procijenili učinak primanja barnstar na buduće doprinose Wikipediji. Okvir potencijalnih ishoda ima tri glavna elementa: jedinice , tretmani i potencijalni ishodi . U slučaju Restiva i van de Rijta, jedinice su zasluživale urednike - one u prvih 1% suradnika - koji još nisu primili barnstar. Te urednike možemo indeksirati pomoću \(i = 1 \ldots N\) . Liječenje u njihovom eksperimentu bilo je "barnstar" ili "no barnstar", a ja ću pisati \(W_i = 1\) ako je osoba \(i\) u stanju liječenja i \(W_i = 0\) inače. Treći element potencijalnog ishoda je najvažniji: potencijalni ishodi . To su pomalo konceptualno teški jer uključuju "potencijalne" ishode - stvari koje bi se mogle dogoditi. Za svakog urednika Wikipedije, može se zamisliti koliko će izmjena izvršiti u stanju liječenja ( \(Y_i(1)\) ) i broj koji će napraviti u kontrolnom stanju ( \(Y_i(0)\) ).
Imajte na umu da ovaj izbor jedinica, tretmana i ishoda definira što se može naučiti iz ovog eksperimenta. Na primjer, bez dodatnih pretpostavki, Restivo i van de Rijt ne mogu ništa reći o učincima barnstara na svim urednicima Wikipedije ili o rezultatima poput kvalitete uređivanja. Općenito, izbor jedinica, tretmana i ishoda mora se temeljiti na ciljevima studije.
S obzirom na te potencijalne ishode - koji su sažeti u tablici 4.5 - može se odrediti uzročni učinak liječenja za osobe \(i\) kao
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Meni je ova jednadžba najjasniji način definiranja kauzalnog efekta i, iako izuzetno jednostavan, ovaj okvir postaje generaliziran na mnoge važne i zanimljive načine (Imbens and Rubin 2015) .
Osoba | Uređuje u stanju liječenja | Uređuje u kontrolnom stanju | Učinak liječenja |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
značiti | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Ako definiramo kauzalnost na ovaj način, međutim, nalazimo se u problemu. U gotovo svim slučajevima ne primjećuje se oba potencijalna ishoda. To jest, određeni urednik Wikipedije primio je barnstar ili ne. Zato promatramo jedan od mogućih ishoda - \(Y_i(1)\) ili \(Y_i(0)\) - ali ne oboje. Nemogućnost promatranja oba potencijalna ishoda je tako veliki problem koji je Holland (1986) nazvao temeljnim problemom kauzalnog zaključka .
Srećom, kada radimo istraživanje, nemamo samo jednu osobu, imamo mnogo ljudi, i to nudi put oko Temeljnog problema kauzalnog zaključivanja. Umjesto da pokušamo procijeniti učinak tretmana na razini pojedinca, možemo procijeniti prosječni učinak liječenja:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
To se još uvijek izražava u smislu \(\tau_i\) koji nisu \(\tau_i\) , ali s nekim algebrom (Eq 2.8 od Gerber and Green (2012) ) dobivamo
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Jednadžba 4.3 pokazuje da ako možemo procijeniti prosječni rezultat populacije pod obradom ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) i prosječni rezultat populacije pod kontrolom ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), možemo procijeniti prosječni učinak liječenja, čak i bez procjene učinka liječenja za bilo koju osobu.
Sada kada sam definisao našu procjenu - stvar koju pokušavamo procijeniti - okrenut ću se tome kako to možemo procjenjivati s podacima. Volim razmišljati o ovom izazovu procjene kao problem uzorkovanja (razmislite o matematičkim bilješkama u poglavlju 3). Zamislite da slučajno odaberemo neke ljude da promatramo stanje liječenja i slučajno odaberemo neke ljude da promatramo u kontrolnom stanju, a zatim možemo procijeniti prosječni ishod u svakom stanju:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
gdje su \(N_t\) i \(N_c\) brojevi ljudi u uvjetima liječenja i kontrole. Jednadžba 4.4 je procjenitelj razlikovanja sredstava. Zbog dizajna uzorka, znamo da je prvi izraz nepristran procjenitelj za prosječni ishod pod liječenjem, a drugi je nepristran procjenitelj pod kontrolom.
Drugi način razmišljanja o tome što omogućava randomizaciju je da osigurava da je usporedba između liječenja i kontrolnih grupa fer, jer slučajnost osigurava da će dvije grupe sličiti jedna drugoj. Ta se sličnost odnosi na stvari koje smo izmjerili (recimo broj uređivanja u 30 dana prije eksperimenta) i stvari koje nismo mjerili (recimo spol). Ova je sposobnost osiguranja ravnoteže na promatranim i neprimjetnim čimbenicima ključna. Da bismo vidjeli snagu automatskog balansiranja na neprimjetnim čimbenicima, zamislimo da buduća istraživanja pokazuju da muškarci više reagiraju na nagrade nego žene. Hoće li to poništiti rezultate pokusa Restiva i van de Rijta? Ne, slučajnim odabirom, osigurali su da će sva neobjašnjiva sredstva biti uravnotežena, u očekivanju. Ova zaštita protiv nepoznatog je vrlo moćna i važan je način da se eksperimenti razlikuju od ne-eksperimentalnih tehnika opisanih u poglavlju 2.
Pored definiranja učinka liječenja za cijelu populaciju, moguće je definirati učinak liječenja za podskup ljudi. To se obično naziva uvjetovani prosječni učinak liječenja (CATE). Na primjer, u studiji tvrtke Restivo i van de Rijt, zamislimo da je \(X_i\) je li urednik bio iznad ili ispod srednjeg broja uređivanja tijekom 90 dana prije eksperimenta. Može se izračunati učinak liječenja zasebno za ove lake i teške urednike.
Potencijalni ishodići okvir snažan je način razmišljanja o kauzalnom zaključivanju i eksperimentima. Međutim, postoje dvije dodatne složenosti koje biste trebali imati na umu. Ove dvije složenosti često se skupljaju zajedno pod pojmom Assumption Value Value Treatment Value (SUTVA). Prvi dio SUTVA je pretpostavka da je jedina stvar koja je važna za rezultat osobe \(i\) je li ta osoba bila u stanju liječenja ili kontrole. Drugim riječima, pretpostavlja se da osoba \(i\) ne utječe na tretman koji se daje drugim ljudima. Ovo se ponekad naziva "bez smetnji" ili "nema prelijevanja", a može se napisati kao:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
gdje je \(\mathbf{W_{-i}}\) vektor statusa tretmana za sve osim osobe \(i\) . Jedan od načina na koji se to može povrijediti je ako liječenje jedne osobe proliče drugu osobu, bilo pozitivno ili negativno. Vraćajući se eksperimentu Restivo i van de Rijt, zamislite dva prijatelja \(i\) i \(j\) a ta osoba \(i\) dobiva barnstar i \(j\) ne. Ako \(i\) primate barnstar uzrokuje \(j\) da uredite više (iz osjećaja konkurencije) ili manje uredite (iz osjećaja očaja), onda je prekršena SUTVA. Također se može kršiti ako učinak liječenja ovisi o ukupnom broju drugih osoba koje su primile tretman. Na primjer, ako je Restivo i van de Rijt dali 1.000 ili 10.000 barnstara umjesto 100, to bi moglo utjecati na učinak primanja barnstar.
Drugi problem složen u SUTVA je pretpostavka da je jedini relevantni tretman onaj koji istraživač donosi; ova pretpostavka se ponekad naziva skrivenim tretmanima ili isključivosti . Na primjer, u Restivo i van de Rijt, možda je bio slučaj da su istraživačima objavljivali urednike na popularnoj stranici izdavača i da se nalazila na popularnoj stranici urednika - umjesto da dobije barnstar- što je uzrokovalo promjenu u ponašanju uređivanja. Ako je to istina, tada se efekt barnstar ne razlikuje od učinka na popularnoj stranici izdavača. Naravno, nije jasno je li, iz znanstvene perspektive, to trebalo smatrati atraktivnim ili neprivlačnim. To jest, mogli biste zamisliti jednog istraživača koji kaže da učinak primanja barnstar uključuje sve naknadne tretmane koje barnstar aktivira. Ili biste mogli zamisliti situaciju u kojoj bi istraživanje trebalo izolirati učinak barnstara od svih ovih drugih stvari. Jedan od načina razmišljanja jest pitati postoji li nešto što dovodi do onoga što Gerber and Green (2012) (str. 41) nazivaju "slomom simetrije"? Drugim riječima, postoji li išta drugo osim tretmana koji uzrokuje drugačije liječenje ljudi u uvjetima liječenja i kontrole? Zabrinutost zbog simetrije je ono što vodi pacijente u kontrolnoj skupini u medicinskim ispitivanjima za uzimanje placebo pilule. Na taj način, istraživači mogu biti sigurni da je jedina razlika između dva uvjeta stvarna medicina, a ne iskustvo uzimanja pilule.
Više o SUTVA-u potražite u odjeljku 2.7 Gerber and Green (2012) , odjeljak 2.5 Morgan and Winship (2014) i odjeljak 1.6 Imbens and Rubin (2015) .
Preciznost
U prethodnom poglavlju opisao sam kako procijeniti prosječni učinak liječenja. U ovom odjeljku dati ću neke ideje o promjenjivosti tih procjena.
Ako mislite o procjeni prosječnog učinka liječenja kao procjeni razlike između dva uzorka, tada je moguće pokazati da je standardna pogreška prosječnog učinka liječenja:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
gdje se \(m\) ljudi dodjeljuju liječenju i \(Nm\) za kontrolu (vidi Gerber and Green (2012) , ekv. 3.4). Dakle, kada razmišljate o tome koliko ljudi treba dodijeliti liječenju i koliko ih je potrebno dodijeliti kontroli, možete vidjeti da ako \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , onda želite \(m \approx N / 2\) , pod uvjetom da su troškovi liječenja i kontrole isti. Jednadžba 4.6 razjasni zašto je dizajn eksperata Bonda i kolega (2012) o učincima društvenih informacija na glasovanje (slika 4.18) statistički neučinkovito. Podsjetimo da je 98% sudionika u stanju liječenja. To je značilo da se prosječno ponašanje u kontrolnom stanju ne procjenjuje točno kao što je to moglo biti, što zauzvrat znači da procijenjena razlika između stanja liječenja i kontrole nije procijenjena što je točno moguće. Više o optimalnoj raspodjeli sudionika na uvjete, uključujući i kada se troškovi razlikuju između uvjeta, pogledajte List, Sadoff, and Wagner (2011) .
Konačno, u glavnom tekstu, opisao sam kako procjenjivač razlike u razlike, koji se tipično koristi u mješovitom dizajnu, može dovesti do manjeg odstupanja od procjenitelja razlike u sredini, koji se obično koristi u među-subjektima dizajn. Ako je \(X_i\) vrijednost ishod prije tretmana, tada količina koju pokušavamo procijeniti s razlikom u različitim pristupima jest:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Standardna pogreška te količine je (vidi Gerber and Green (2012) , ekv. 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Usporedba eq. 4.6 i ekv. 4.8 otkriva da će pristup razlike u razlici imati manju standardnu pogrešku kada (vidi Gerber and Green (2012) , ekv. 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Prilično, kada je \(X_i\) vrlo predvidljiva za \(Y_i(1)\) i \(Y_i(0)\) , tada možete dobiti preciznije procjene iz razlike razlikovanja od razlike - of-znači jedan. Jedan od načina razmišljanja o ovome u kontekstu pokusa Restiva i van de Rijta jest da postoji velika količina prirodne varijacije u količini koju ljudi mijenjaju pa to čini teško usporediti uvjete liječenja i kontrole: teško je otkriti rođaka mali učinak u glasnim ishodnim podacima. Ali ako se razlikujete od ove prirodne varijabilnosti, onda postoji mnogo manje varijabilnosti, a to olakšava detektiranje malog učinka.
Vidi Frison and Pocock (1992) za preciznu usporedbu razlika u sredini, različitosti razlika i ANCOVA-based pristupa u općenitijem okruženju gdje postoji višestruka mjerenja prije tretmana i nakon tretmana. Konkretno, snažno preporučuju ANCOVA, koju ovdje nisam obuhvatio. Nadalje, vidjeti McKenzie (2012) za raspravu o važnosti višestrukih mjera ishoda nakon liječenja.