Matematičke beleške

Mislim da je najbolji način razumevanja eksperimenata potencijalni okvir rezultata (o čemu sam diskutovao u matematičkim notama u poglavlju 2). Okvir potencijalnih ishoda ima bliske odnose sa idejama iz uzorka zasnovane na dizajnu koje sam opisao u poglavlju 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ovaj dodatak je napisan tako da naglasi tu vezu. Ovaj naglasak je malo netradicionalan, ali mislim da je veza između uzimanja uzoraka i eksperimenata korisna: to znači da ako znate nešto o uzorkovanju onda znate nešto o eksperimentima i obrnuto. Kao što ću pokazati u ovim napomenama, okvir potencijalnog ishoda otkriva jačinu randomiziranih kontrolisanih eksperimenata za procjenu uzročnih efekata i pokazuje ograničenja onoga što se može učiniti čak i sjajno izvedenim eksperimentima.

U ovom dodatku ću opisati potencijalni okvir rezultata, duplicirati neke od materijala iz matematičkih napomena u poglavlju 2, kako bi ove beleške postale sveobuhvatnije. Zatim ću opisati neke korisne rezultate o preciznosti procena prosječnih efekata tretmana, uključujući i raspravu o optimalnim raspodjelama i procjenama razlika između razlika. Ovaj dodatak se u velikoj meri odnosi na Gerber and Green (2012) .

Okvir potencijalnih rezultata

Da bismo ilustrovali okvir potencijalnog ishoda, vratimo se na Restivo i van de Rijtov eksperiment da procenimo efekat primanja barnstar na buduće doprinose na Wikipedia. Okvir potencijalnog ishoda ima tri glavna elementa: jedinice , tretmane i potencijalne ishode . U slučaju Restiva i van de Rijt, jedinice su zaslužile urednike - one u prvih 1% doprinosa - koje još nisu primile barnstar. Ovim urednicima možemo indeksirati \(i = 1 \ldots N\) . Tretmani u njihovom eksperimentu bili su "barnstar" ili "no barnstar", a ja ću napisati \(W_i = 1\) ako je osoba \(i\) u stanju tretmana i \(W_i = 0\) inače. Treći element potencijalnog ishoda je najvažniji: potencijalni ishodi . Ovo je malo više konceptualno teško jer uključuju "potencijalne" ishode - stvari koje bi mogle da se dese. Za svaki urednik Wikipedia može se zamisliti broj unosa koje bi ona napravila u uslovima liječenja ( \(Y_i(1)\) ) i broj koji bi ona napravila u uslovima kontrole ( \(Y_i(0)\) ).

Imajte na umu da ovaj izbor jedinica, tretmana i ishoda definiše šta se može naučiti iz ovog eksperimenta. Na primjer, bez ikakvih dodatnih pretpostavki, Restivo i van de Rijt ne mogu ništa reći o efektima barnstarsa ​​na sve editore Wikipedia-a ili o ishodima kao što je kvalitet editovanja. Generalno, izbor jedinica, tretmana i ishoda mora biti zasnovan na ciljevima studije.

S obzirom na ove potencijalne ishode - koje su sumirane u tabeli 4.5 - može se definirati uzročni efekat tretmana za osobu \(i\) kao

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Za mene je ova jednačina najjasniji način definisanja uzročnog učinka i, iako izuzetno jednostavan, ovaj okvir se ispostavlja generalizabilnim na mnogo važnih i zanimljivih načina (Imbens and Rubin 2015) .

Tabela 4.5: Tabela potencijalnih ishoda
Osoba Izmjene u stanju tretmana Izmjene u kontrolnom stanju Efekat lečenja
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
Znači \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Međutim, ako definišemo uzročnost na ovaj način, naletimo na problem. U gotovo svim slučajevima, ne možemo posmatrati i potencijalne ishode. To jest, određeni Wikipedia editor ili je primio barnstar ili ne. Stoga posmatramo jedan od potencijalnih ishoda - \(Y_i(1)\) ili \(Y_i(0)\) ali ne oboje. Nemogućnost posmatranja i potencijalnih ishoda je takav veliki problem koji ga je Holland (1986) nazvao Osnovnim problemom uzročnog zaključivanja .

Na sreću, kada istražujemo, nemamo samo jednu osobu, imamo puno ljudi, a to nudi način oko osnovnog problema uzročnog zaključivanja. Umjesto da pokušamo procijeniti efekat tretmana na pojedinačnom nivou, možemo procijeniti prosečan efekat tretmana:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Ovo se i dalje izražava u smislu \(\tau_i\) koje se ne mogu posmatrati, ali sa nekim algebrom (Eq 2.8 Gerber and Green (2012) ) dobijamo

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Jednačina 4.3 pokazuje da ako možemo da procenimo prosečan ishod populacije pod lečenjem ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) i prosečan ishod populacije pod kontrolom ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), onda možemo proceniti prosečan efekat tretmana, čak i bez procene efekta tretmana za bilo koju osobu.

Sada kada sam definisao procene - ono što mi pokušavamo procijeniti - obratit ću se na to kako možemo stvarno procijeniti to sa podacima. Volim da razmišljam o ovom izazovu procjene kao problem uzorkovanja (razmislite o matematičkim notama u poglavlju 3). Zamislite da slučajno odaberemo neke ljude da posmatraju stanje lečenja i da slučajno odaberemo neke ljude da posmatraju u kontrolnom stanju, onda možemo proceniti prosečan ishod u svakom stanju:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

gde su \(N_t\) i \(N_c\) brojevi ljudi u uslovima liječenja i kontrole. Jednačina 4.4 je procjena razlike sredine. Zbog dizajna uzoraka, znamo da je prvi termin nepristrasan procenitelj za prosečan ishod pod lečenjem, a drugi termin je nepristrasan procenat pod kontrolom.

Drugi način razmišljanja o tome šta randomizacija omogućava jeste da obezbeđuje da je poređenje između lečenja i kontrolnih grupa pošteno, jer randomizacija osigurava da dve grupe podsećaju jedni na druge. Ova sličnost važi za stvari koje smo izmijenili (recimo broj izmjena u 30 dana prije eksperimenta) i stvari koje nismo izmjerili (recimo o polu). Ova sposobnost da obezbedi ravnotežu io posmatranim i neobaveznim faktorima je kritična. Da vidimo moć automatskog balansiranja na neobučenim faktorima, pretpostavimo da buduće istraživanje utvrdi da su muškarci više odzivni na nagrade nego žene. Da li bi to poništilo rezultate testa Restivo i van de Rijt? Ne. Randomizacijom, oni su osigurali da se svi neobavezni predmeti balansiraju, u očekivanju. Ova zaštita od nepoznatog je vrlo moćna i važan je način da se eksperimenti razlikuju od neeksperimentalnih tehnika opisanih u poglavlju 2.

Pored definiranja efekta tretmana za celu populaciju, moguće je definisati efekat tretmana za podskup ljudi. Ovo se tipično zove uslovni prosečni tretman (CATE). Na primer, u studiji Restiva i van de Rijt, pretpostavimo da je \(X_i\) da li je uredjaj bio iznad ili ispod srednjeg broja izmena tokom 90 dana pre eksperimenta. Jednostavno je moguće izračunati efekat tretmana za ove lake i teške urednike.

Okvir potencijalnih ishoda moćan je način razmišljanja o uzročnim zaključcima i eksperimentima. Međutim, postoje još dve složenosti koje treba imati u vidu. Ove dve složenosti često se spajaju pod pojmom Stabilna jedinica tretmana vrijednosti Pretpostavke (SUTVA). Prvi deo SUTVE-a je pretpostavka da je jedina stvar koja je važna za ishod osobe \(i\) je da li je ta osoba bila u stanju liječenja ili kontrole. Drugim rečima, pretpostavlja se da osobi \(i\) ne utiče na tretman koji se daje drugim ljudima. Ovo se ponekad naziva "bez smetnji" ili "bez prelivanja" i može se pisati kao:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

gde je \(\mathbf{W_{-i}}\) vektor statusa liječenja za sve osim osobe \(i\) . Jedan od načina na koji se ovo može prekršiti jeste da se tretman od jedne osobe prelazi na drugu osobu, bilo pozitivno ili negativno. Vraćajući se na Restivo i van de Rijtov eksperiment, zamislite dva prijatelja \(i\) i \(j\) i ta osoba \(i\) prima barnstar i \(j\) ne. Ako \(i\) prijem barnstar-a izaziva \(j\) da uredi više (van okvira konkurencije) ili uredi manje (iz osećaja očajanja), onda je SUTVA prekrsena. Takođe se može povrediti ako uticaj tretmana zavisi od ukupnog broja osoba koje primaju lečenje. Na primer, ako su Restivo i van de Rijt izdali 1.000 ili 10.000 barnstara umesto 100, to bi moglo utjecati na efekat prijema barnstar-a.

Drugo pitanje za SUTVA je pretpostavka da je jedini relevantni tretman onaj koji istraživač isporučuje; ova pretpostavka se ponekad naziva bez skrivenih tretmana ili isključivanja . Na primer, u Restivu i van de Rijtu, možda je bio slučaj da se davanjem barnstar istraživači dovode do toga da urednici budu prikazani na popularnoj stranici urednika i da je na popularnoj stranici uređivača, umjesto da dobiju barnstar- što je izazvalo promjenu ponašanja u editovanju. Ako je to tačno, onda se efekat Barnstar-a ne razlikuje od efekta da se nalazi na popularnoj stranici uređivača. Naravno, nije jasno da li bi, s naučne perspektive, ovo trebalo da se smatra atraktivnim ili neprivlačnim. To jest, mogli ste zamisliti istraživača koji kažu da efekat primanja Barnstar uključuje sve naknadne tretmane koje Barnstar pokreće. Ili možete zamisliti situaciju u kojoj istraživanje želi da izoluje efekat barnstara iz svih ovih drugih stvari. Jedan od načina razmišljanja o tome je pitati da li postoji nešto što vodi do onoga što Gerber and Green (2012) (str. 41) nazivaju "slomom u simetriji"? Drugim rečima, da li postoji nešto drugo osim lečenja koje uzrokuje različite načine tretmana ljudi u uslovima liječenja i kontrole? Zabrinutost o kršenju simetrije je ono što dovodi pacijente u kontrolnoj grupi u medicinske pretrage da uzimaju placebo tabletu. Na taj način istraživači mogu biti sigurni da je jedina razlika između ova dva stanja stvarni lek, a ne iskustvo uzimanja pilule.

Za više o SUTVI, pogledajte odeljak 2.7 Gerber and Green (2012) , odjeljak 2.5 Morgan and Winship (2014) , i poglavlje 1.6 Imbens and Rubin (2015) .

Preciznost

U prethodnom odeljku, opisao sam kako proceniti prosečan efekat tretmana. U ovom odeljku ću vam dati neke ideje o promenljivosti tih procjena.

Ako razmišljate o proceni efekta prosječnog tretmana kao procjene razlike između dva uzorka, onda je moguće pokazati da je standardna greška prosječnog efekta tretmana:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

gdje su \(m\) osobe dodijeljene tretmanu i \(Nm\) za kontrolu (vidi Gerber and Green (2012) , eq 3.4). Dakle, kada razmišljate o tome koliko ljudi treba dodijeliti liječenju i koliko ih dodijeliti kontroli, možete videti da ako \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , onda želite \(m \approx N / 2\) sve dok su troškovi lečenja i kontrole isti. Jednačina 4.6 objašnjava zašto je dizajn eksperimenta Bonda i kolega (2012) o uticaju socijalnih informacija na glasanje (slika 4.18) bio neefikasan statistički. Podsjetimo da je 98% učesnika u stanju liječenja. To je značilo da se srednja ponašanja u uslovima kontrole nisu procenjivala tačno koliko je mogla biti, što je za uzvrat značilo da procijenjena razlika između stanja liječenja i kontrole nije procijenjena tačno koliko bi mogla biti. Za više informacija o optimalnoj raspodeli učesnika u uslove, uključujući i troškove koji se razlikuju između uslova, pogledajte List, Sadoff, and Wagner (2011) .

Najzad, u glavnom tekstu sam opisao kako se procena razlike u razlikama, koja se obično koristi u mešovitom dizajnu, može dovesti do manje varijanse nego procena razlika u sredstvima, koja se obično koristi u međusobnim subjektima dizajn. Ako je \(X_i\) vrijednost ishoda pre tretmana, onda je količina koju pokušavamo procijeniti s pristupom razlikama u razlikama:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Standardna greška te količine je (videti Gerber and Green (2012) , eq 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Poređenje ekv. 4.6 i eq. 4.8 otkriva da će pristup razlike u razlikama imati manju standardnu ​​grešku kada (videti Gerber and Green (2012) , ekv. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Grubo, kada je \(X_i\) vrlo predvidljiv za \(Y_i(1)\) i \(Y_i(0)\) , onda možete dobiti preciznije procjene iz pristupa razlika razlika, znači jedan. Jedan od načina razmišljanja o tome u kontekstu eksperimenta Restiva i van de Rijta jeste da postoji puno prirodnih varijacija u količini koju ljudi uređuju, tako da je to teško upoređivanje stanja liječenja i kontrole teško: teško je otkriti srodnika mali efekat u bučnim rezultatima ishoda. Ali ako razlikujete ovu prirodno promenljivu, onda je mnogo manje varijabilnosti, a to olakšava otkrivanje malih efekata.

Vidi Frison and Pocock (1992) za precizno upoređivanje razlika u sredstvima, razlika u razlikama i pristupa zasnovanih na ANCOVI u opštijem okruženju gde postoje višestruka mjerenja pred tretmanom i posttreatmentom. Konkretno, snažno preporučuju ANCOVU, što ovde nisam pokrivao. Nadalje, pogledajte McKenzie (2012) za diskusiju o važnosti višestrukih mera ishoda post-tretmana.