Matematične opombe

Mislim, da je najboljši način za razumevanje eksperimentov potencialni izidni okvir (o katerem sem razpravljal v matematičnih notah v 2. poglavju). Okvir potencialnih izidov tesno povezuje ideje vzorčnega vzorčenja, ki sem jih opisal v poglavju 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ta dodatek je bil napisan tako, da poudari to povezavo. Ta poudarek je malo netradicionalen, vendar mislim, da je povezava med vzorčenjem in eksperimenti v pomoč: to pomeni, da če veste nekaj o vzorčenju, potem veste nekaj o poskusih in obratno. Kot sem prikazal v teh opombah, okvir potencialnih izidov razkrije moč randomiziranih nadzorovanih poskusov za ocenjevanje vzročnih učinkov in prikazuje omejitve, kaj je mogoče storiti s celo popolnoma izvedenimi eksperimenti.

V tem dodatku bom opisal potencialne rezultate izida, podvojil nekatere materiale iz matematičnih opomb v 2. poglavju, da bi te opombe bolj samozadostne. Nato bom opisal nekaj koristnih rezultatov o natančnosti ocen povprečnih učinkov zdravljenja, vključno z razpravo o optimalnih ocenah in ocenah razlik med različnostmi. Ta dodatek v veliki meri temelji na Gerber and Green (2012) .

Okvir potencialnih rezultatov

Da bi ponazorili potencialni okvir rezultatov, se vrnemo k poskusu Restivo in van de Rijt, da bi ocenili učinek prejema barnstar na prihodnje prispevke v Wikipediji. Okvir možnih izidov ima tri glavne elemente: enote , zdravljenje in morebitne rezultate . V primeru Restiv in van de Rijta so enote zaslužile urednike - tistih v prvih 1% sodelujočih, ki še niso prejeli barnstarja. Te urednike lahko indeksiramo z \(i = 1 \ldots N\) . Zdravljenje v njihovem poskusu je bilo "barnstar" ali "no barnstar", in napisal bom \(W_i = 1\) če je oseba \(i\) v stanju zdravljenja in \(W_i = 0\) drugače. Tretji element potencialnega rezultata je najpomembnejši: potencialni rezultati . Te so nekoliko bolj konceptualno težke, ker vključujejo "potencialne" rezultate - stvari, ki bi se lahko zgodile. Za vsak urejevalnik Wikipedije si lahko predstavljamo število sprememb, ki jih bo naredila v pogojih zdravljenja ( \(Y_i(1)\) ) in številko, ki bi jo naredila v pogojnem nadzoru ( \(Y_i(0)\) ).

Upoštevajte, da ta izbira enot, zdravljenja in rezultatov določa, kaj se lahko naučijo iz tega poskusa. Na primer, brez dodatnih predpostavk, Restivo in van de Rijt ne morejo reči ničesar o učinkih barnstars na vse urednike Wikipedije ali na izide, kot je kakovost urejanja. Na splošno mora izbira enot, zdravljenja in rezultatov temeljiti na ciljih študije.

Glede na te morebitne rezultate, ki so povzeti v tabeli 4.5, lahko določimo vzročni učinek zdravljenja za osebo \(i\) kot

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Za mene je ta enačba najjasnejši način za opredelitev vzročnega učinka in, čeprav je zelo preprost, se ta okvir izkaže na splošno pomemben in zanimiv način (Imbens and Rubin 2015) .

Tabela 4.5: Preglednica potencialnih rezultatov
Oseba Urejanje v stanju zdravljenja Urejanje v stanju nadzora Učinek zdravljenja
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
pomeni \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Če tako opredelimo vzročnost, pa naletimo na težavo. V skoraj vseh primerih ne opazujemo obeh potencialnih rezultatov. To pomeni, da je določen Wikipednik urednik bodisi prejel barnstar ali ne. Zato opazujemo enega od potencialnih rezultatov - \(Y_i(1)\) ali \(Y_i(0)\) vendar ne oboje. Nezmožnost opazovanja obeh potencialnih rezultatov je tako velik problem, ki ga je Holland (1986) imenoval temeljni problem vzročne zveze .

Na srečo, ko delamo raziskave, nimamo samo ene osebe, imamo veliko ljudi in to ponuja pot okoli temeljnega problema vzročne zveze. Namesto da bi poskušali oceniti učinek zdravljenja na posamezni ravni, lahko ocenimo učinek povprečnega zdravljenja:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

To je še vedno izraženo v izrazih \(\tau_i\) ki jih ni mogoče opazovati, vendar z neko algebro (Eq 2.8 Gerber and Green (2012) ) dobimo

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Enačba 4.3 kaže, da če lahko ocenimo povprečni rezultat populacije pod zdravljenjem ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) in populacijski povprečni izid pod kontrolo ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), nato pa lahko ocenimo povprečni učinek zdravljenja tudi brez ocene učinka zdravljenja za posamezno osebo.

Zdaj, ko sem opredelil naše ocene in stvari, ki jih skušamo oceniti, se obrnem na to, kako lahko dejansko ocenimo podatke. O tem ocenjevalnem izzivu rad razmišljam kot problem vzorčenja (razmislite o matematičnih opombah v poglavju 3). Predstavljajte si, da bomo naključno izbrali nekaj ljudi, ki bi jih opazovali v stanju zdravljenja in naključno izbrali nekaj ljudi, da bi opazovali v kontrolnem stanju, nato pa lahko ocenimo povprečni izid v vsakem pogoju:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

kjer sta \(N_t\) in \(N_c\) število ljudi v pogojih zdravljenja in nadzora. Enačba 4.4 je ocenjevalec razlik v sredstvih. Zaradi vzorčnega načrtovanja vemo, da je prvi izraz nepristranski ocenjevalec povprečnega izida pri zdravljenju, drugi izraz pa je nepristranski ocenjevalec pod nadzorom.

Drug način razmišljanja o tem, kaj omogoča randomizacija, je zagotoviti, da je primerjava med zdravljenjem in kontrolnimi skupinami poštena, ker randomizacija zagotavlja, da bosta obe skupini podobni. Ta podobnost velja za stvari, ki smo jih izmerili (recimo število urejanj v 30 dneh pred poskusom) in stvari, ki jih nismo izmerili (recimo spol). Ta sposobnost zagotavljanja ravnovesja na opazovanih in nepredvidenih dejavnikih je kritična. Če si želite ogledati moč samodejnega uravnoteženja na neopaženih dejavnikih, si predstavljamo, da bodo prihodnje raziskave ugotovile, da se moški bolj odzivajo na nagrade kot ženske. Ali bi to ovrglo rezultate preizkusa Restiva in van de Rijta? Ne. Z randomiziranjem so zagotovili, da bodo vsi unobservables uravnoteženi, v pričakovanjih. Ta zaščita pred neznano je zelo močna in je pomemben način, da se eksperimenti razlikujejo od neeksperimentalnih tehnik, opisanih v 2. poglavju.

Poleg opredelitve učinka zdravljenja za celotno populacijo je mogoče določiti učinek zdravljenja za podskupino ljudi. To običajno imenujemo pogojno povprečno učinek zdravljenja (CATE). Na primer, v študiji Restiva in van de Rijta si predstavljamo, da je \(X_i\) , ali je bil urejevalnik med 90-dnevnimi eksperimenti nad ali pod srednjim številom popravkov. Učinek zdravljenja lahko izračunamo ločeno za te lahke in težke urednike.

Okvir potencialnih izidov je močan način razmišljanja o vzročnih sklepih in poskusih. Vendar pa imate dve dodatni zapletenosti, ki jih morate upoštevati. Te dve zapletenosti so pogosto združene pod izrazom Stabilna enota za predpostavko o zdravljenju (SUTVA). Prvi del SUTVE je predpostavka, da je edina stvar, ki je pomembna za rezultat osebe \(i\) , ali je ta oseba v stanju zdravljenja ali nadzora. Z drugimi besedami, se domneva, da na osebo \(i\) ne vpliva obdelava drugih ljudi. To se včasih imenuje "brez vmešavanja" ali "brez prelivanja", in je lahko napisano kot:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

kjer je \(\mathbf{W_{-i}}\) vektor statusov zdravljenja za vse razen osebe \(i\) . Eden od načinov, kako se lahko to krši, je, če se zdravljenje z ene osebe preliva na drugo osebo, pozitivno ali negativno. Če se vrnemo na preizkus Restiv in van de Rijt, si predstavljamo dva prijatelja \(i\) in \(j\) in ta oseba \(i\) prejme barnstar in \(j\) ne. Če \(i\) sprejema strežnik, povzroči \(j\) da urejate več (iz občutka konkurence) ali manj urejate (iz občutka obupa), potem je bila kršena SUTVA. Lahko se krši tudi, če je učinek zdravljenja odvisen od skupnega števila drugih ljudi, ki prejemajo zdravljenje. Na primer, če sta Restivo in van de Rijt namesto 100 oddali 1.000 ali 10.000 barn, je to lahko vplivalo na učinek prejemanja stražnice.

Drugo vprašanje, združeno v SUTVA, je predpostavka, da je edino ustrezno zdravljenje tisto, ki jo zagotavlja raziskovalec; ta predpostavka se včasih imenuje skrita obravnava ali izključitev . Na primer, v Restivu in van de Rijtu je bilo mogoče, da je z dajanjem Barnstar raziskovalci povzročil, da so uredniki na priljubljeni strani urednikov in da je na priljubljenih straneh urednikov, namesto da bi prejeli barnstar- ki je povzročila spremembo vedenja pri urejanju. Če je to res, se učinek barnstar ne razlikuje od učinka na strani priljubljenih urednikov. Seveda ni jasno, ali bi bilo z znanstvenega vidika to mogoče šteti za privlačne ali neprivlačne. To pomeni, da si lahko predstavljate raziskovalca, ki pravi, da učinek sprejema barnstar vključuje vse nadaljnje postopke, ki jih sproži barnstar. Ali si lahko predstavljate razmere, v katerih bi raziskava želela izolirati učinek barnstars iz vseh teh drugih stvari. Eden od načinov razmišljanja je vprašati, ali obstaja kaj, kar vodi do tega, kar Gerber and Green (2012) (str. 41) imenujejo "razčlenitev simetrije"? Z drugimi besedami, ali obstaja kaj drugega kot zdravljenje, ki povzroča, da se ljudje v pogojih zdravljenja in kontrole obravnavajo različno? Zaskrbljenost zaradi zloma simetrije je tisto, kar privede bolnike v kontrolni skupini v medicinske preiskave, da vzamejo placebo tabletke. Na ta način so lahko raziskovalci prepričani, da je edina razlika med obema pogojema dejansko zdravilo in ne izkušnje z jemanjem tablet.

Za več informacij o SUTVA glej poglavje 2.7 Gerber and Green (2012) , oddelek 2.5 Morgan and Winship (2014) in poglavje 1.6 Imbens and Rubin (2015) .

Natančnost

V prejšnjem poglavju sem opisal, kako oceniti učinek povprečnega zdravljenja. V tem poglavju bom predstavil nekaj zamisli o spremenljivosti teh ocen.

Če razmišljate o oceni povprečnega učinka zdravljenja pri ocenjevanju razlike med dvema vzorčnima sredstvoma, potem je mogoče dokazati, da je standardna napaka povprečnega učinka zdravljenja:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

kjer so osebe \(m\) dodeljene za zdravljenje in \(Nm\) za nadzor (glej Gerber and Green (2012) , uvod 3.4). Tako, ko razmišljate o tem, koliko ljudi dodelite zdravljenju in koliko jih je treba dodeliti za nadzor, lahko vidite, da če \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , potem želite \(m \approx N / 2\) , dokler so stroški zdravljenja in nadzora enaki. Enačba 4.6 pojasnjuje, zakaj je bil oblikovanje eksperimenta Bonda in sodelavcev (2012) o učinkih družbenih informacij na glasovanje (slika 4.18) statistično neučinkovito. Spomnimo se, da je imelo 98% udeležencev v stanju zdravljenja. To pomeni, da povprečno vedenje v kontrolnem stanju ni bilo ocenjeno tako natančno, kot bi lahko bilo, kar je pomenilo, da ocenjena razlika med pogojem zdravljenja in kontrol ni bila ocenjena tako natančno, kot bi lahko bila. Več o optimalni dodelitvi udeležencev pogojem, vključno s stroški, ko se med pogoji razlikujejo, glejte List, Sadoff, and Wagner (2011) .

Nazadnje, v glavnem besedilu sem opisal, kako lahko ocenjevalec razlik med razlikami, ki se običajno uporablja v mešanem načrtu, vodi do manjše variance kot ocenjevalca razlik v sredstvih, ki se navadno uporablja pri medsebojnih predmetih oblikovanje. Če je \(X_i\) vrednost rezultata pred zdravljenjem, potem je količina, ki jo skušamo oceniti s pristopom razlik med različnostmi:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Standardna napaka te količine je (glej Gerber and Green (2012) , enačba 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Primerjava ekv. 4.6 in ekv. 4.8 razkriva, da bo pristop razlike v razlikah imel manjšo standardno napako, če (glej Gerber and Green (2012) , ekv. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Približno, če je \(X_i\) zelo napovedna za \(Y_i(1)\) in \(Y_i(0)\) , potem lahko dobite natančnejše ocene iz pristopa razlike razlik, pomeni enega. Eden od načinov za razmišljanje o tem v okviru preizkusa Restiva in van de Rijta je, da je veliko sprememb v količini, ki jo ljudje urejajo, zato je težko primerjati pogoje zdravljenja in nadzora: težko je zaznati relativno majhen učinek pri hrupnih rezultatih. Ampak, če razlike v tej naravno pojavljajoči se spremenljivosti, potem je veliko manj spremenljivosti, kar olajša odkrivanje majhnega učinka.

Glej Frison and Pocock (1992) za natančno primerjavo razlik v sredstvih, razlik v razlikah in pristopih, ki temeljijo na ANCOVI, v bolj splošnem okolju, kjer je več predmerov in naknadnega zdravljenja. Zlasti priporočajo ANCOVO, ki je tukaj ne pokrivam. Nadalje glej McKenzie (2012) za razpravo o pomenu številnih rezultatov zdravljenja po koncu zdravljenja.