Ma arvan, et parim viis eksperimentide mõistmiseks on potentsiaalsete tulemuste raamistik (mida ma rääkisin 2. peatüki matemaatilistes märkustes). Võimalike tulemuste raamistikul on tihedad suhted disainipõhiste proovide võtmise ideedega, mida ma kirjeldasin 3. peatükis (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . See lisa on kirjutatud selliselt, et rõhutada seda seost. See rõhk on natuke ebatraditsiooniline, kuid arvan, et proovide võtmise ja eksperimentide vaheline seos on abiks: see tähendab, et kui teate proovide võtmise kohta midagi, siis teate midagi katsetest ja vastupidi. Nagu ma nendes märkustes näidatakse, näitab potentsiaalsete tulemuste raamistik juhuslike kontrollitud katsete tugevust põhjuslike mõjude hindamiseks ja see näitab piiranguid, mida saab teha isegi täiuslikult teostatud katsetega.
Käesolevas lisas kirjeldan potentsiaalsete tulemuste raamistikku, dubleerides mõnda materjali 2. peatüki matemaatilistest märkustest, et need märkmed oleksid iseseisvad. Siis kirjeldan mõningaid kasulikke tulemusi keskmise ravitulemuse hinnangute täpsuse kohta, sealhulgas arutelu optimaalse jaotuse ja erinevuse erinevuste hindajate üle. See lisa tugineb suuresti Gerber and Green (2012) .
Võimalike tulemuste raamistik
Potentsiaalsete tulemuste raamistiku illustreerimiseks pöördume tagasi Restivo ja van de Rijti eksperimendi juurde, et hinnata barnstari vastuvõtmise mõju tulevastele panustele Wikipedias. Võimalike tulemuste raamistikus on kolm peamist elementi: üksused , raviviisid ja potentsiaalsed tulemused . Restivo ja van de Rijti puhul olid üksused väärivad toimetajad - neid, kes olid ülekaalukalt 1% -lt toetajatest - kes polnud veel Barnstarit saanud. Saame neid toimetajad indekseerida \(i = 1 \ldots N\) . Ravid oma eksperimendi olid "barnstar" või "ei barnstar," ja ma kirjutada \(W_i = 1\) kui isik \(i\) on ravi tingimus ja \(W_i = 0\) teisiti. Võimalike tulemuste raamistiku kolmas element on kõige olulisem: potentsiaalsed tulemused . Need on natuke kontseptuaalselt rasked, kuna need hõlmavad potentsiaalseid tulemusi - asju, mis võivad juhtuda. Iga Wikipedia redaktori jaoks saab ette kujutada, milliseid parandusi ta teeb \(Y_i(1)\) ( \(Y_i(1)\) ) ja arv, mida ta kontrollisüsteemis teeb ( \(Y_i(0)\) )
Pange tähele, et selline üksuste valik, ravi ja tulemused määratlevad selle eksperimendist saadud õppetunnid. Näiteks ilma täiendavate eeldusteta ei saa Restivo ja van de Rijt midagi öelda barnstarsi mõjude kohta kõigile Wikipedia toimetajale või selliste tulemuste kohta nagu muutmiskvaliteet. Üldiselt peab üksuste valik, ravi ja tulemused põhinema uuringu eesmärkidel.
Nende potentsiaalsete tulemuste põhjal, mis on kokkuvõtlikult esitatud tabelis 4.5, saab määratleda isiku \(i\) ravi põhjusliku mõju
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Minu jaoks on see võrrand kõige selgem viis põhjusliku mõju kindlaksmääramiseks ja kuigi see on väga lihtne, osutub see raamistik üldistatavaks paljudele olulistele ja huvitavatele viisidele (Imbens and Rubin 2015) .
Inimene | Muudatused ravi tingimustes | Muudatused kontrolli tingimustes | Ravi mõju |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
tähenda | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Sel moel määratledes põhjusliku seose, tekib aga probleem. Peaaegu kõikidel juhtudel ei saa me mõlemat potentsiaalset tulemust jälgida. See tähendab, et konkreetne Wikipedia toimetaja sai kas barnstari või mitte. Seepärast jälgime üks potentsiaalseid tulemusi - \(Y_i(1)\) või \(Y_i(0)\) kuid mitte mõlemad. Mõlema võimaliku tulemuse eiramine on selline suur probleem, mida Holland (1986) nimetas põhjusliku seose põhiprobleemiks .
Õnneks, kui teeme uuringuid, ei ole meil ainult üks inimene, meil on palju inimesi ja see pakub teed põhjuste põhjuste põhiprobleemile. Selle asemel, et hinnata individuaalse tasandi raviefekti, saame hinnata keskmist raviefekti:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
See on endiselt väljendatud \(\tau_i\) mida ei saa jälgida, vaid mõne algebraga ( Gerber and Green (2012) Eq 2.8)
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Võrrand 4.3 näitab, et kui me saame hinnata ravitulemuste keskmist tulemust töötlemisel ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ja populatsiooni keskmine tulemus kontrolli all ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), siis võime hinnata keskmist raviefekti, isegi ilma konkreetsele isikule raviefekti hinnata.
Nüüd, kui ma olen oma hinnangut määratlenud - asi, mida me proovime hinnata - pöördun selle poole, kuidas seda tegelikult andmeid hinnata. Mulle meeldib mõelda selle hindamise väljakutsele proovivõtuprobleemina (vaadake 3. peatüki matemaatilisi märkmeid). Kujutage ette, et me valime juhuslikult mõned inimesed, kes jälgivad ravi seisundis ja juhuslikult valime mõningaid inimesi, kes jälgivad kontrolli tingimustes, siis võime hinnata keskmist tulemust igas olukorras:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
kus \(N_t\) ja \(N_c\) on inimeste arv \(N_c\) ja kontrollitingimustes. Võrrand 4.4 on vahendite erinevus. Proovide võtmise kavandi kohaselt teame, et esimene tähtaeg on erapooletu hinnanguline keskmine tulemus, mida ravitakse, ja teine tähtaeg on kontrollimatu erapooletu hindaja.
Teine võimalus mõelda, mida randomiseerimine võimaldab, on see, et see tagab võrdlemise ravi ja kontrollrühmad on õiglane, sest randomiseerimine tagab, et need kaks rühma sarnanevad teineteisele. See sarnasus kehtib asjade kohta, mida oleme mõõdetud (ütleme muudatuste arv 30 päeva enne katse) ja asju, mida me ei ole mõõtnud (nt sugu). See võime tagada nii täheldatud kui ka tähelepanuta jäetud tegurite tasakaal on kriitiline. Nägemata võimsust, mis võimaldab automaatselt tasakaalustada tähelepanuta jäetud tegureid, kujutleme ette, et tulevased uuringud leiavad, et mehed on auhindu rohkem reageerivad kui naised. Kas see kahjustaks Restivo ja van de Rijti eksperimendi tulemusi? Ei. Randomiseerimisel tagavad nad, et ootamatult tasakaalustatakse kõik puuduvad tabelid. See kaitse tundmatute vastu on väga võimas ja see on oluline viis, kuidas eksperimendid erinevad 2. peatükis kirjeldatud mitte-eksperimentaalsetest meetoditest.
Lisaks kogu elanikkonna raviefekti määratlemisele on võimalik defineerida raviefekt inimestele. Tavaliselt nimetatakse seda tinglikult keskmist raviefekti (CATE). Näiteks Restivo ja van de Rijti uuringus, kujutleme ette, et \(X_i\) on see, kas redaktor oli 90 päeva jooksul enne eksperimenti kõrgemal või väiksem muutuste keskmisest arvust. Nende kergete ja raskete toimetuste jaoks võib välja arvutada ravi efekti eraldi.
Võimalike tulemuste raamistik on võimas viis mõelda põhjuslikele järeldustele ja katsetele. Siiski on teil kaks täiendavat keerukust, mida peaksite meeles pidama. Need kaks keerukust jagunevad tihti koos mõistega " stabiilne ühiku raviväärtuse eeldus" (SUTVA). SUTVA esimene osa on eeldus, et ainus asi, mis on seotud isiku \(i\) tulemusega, on see, kas see isik oli ravi või kontrolli tingimustes. Teisisõnu eeldatakse, et inimesele \(i\) ei mõjuta teiste inimeste käitumine. Seda nimetatakse mõnikord nimetuseks "ei ole häireid" ega "ei levitamist" ning neid saab kirjutada järgmiselt:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
kus \(\mathbf{W_{-i}}\) on kõigi seisundite vektor, välja arvatud isik \(i\) . Üks võimalus, kuidas seda saab rikkuda, on see, kas ühe isiku ravi läheb teisele inimesele kas positiivselt või negatiivselt. Võtke tagasi Restivo ja van de Rijti eksperimendi jaoks kaks sõpra \(i\) ja \(j\) ning see inimene \(i\) saab barnstari ja \(j\) ei tee seda. Kui \(i\) barnstari vastuvõtmine põhjustab \(j\) rohkem (vähem konkurentsi mõttes) redigeerimaks või redigeerida vähem (meeleheidetunne), siis on SUTVA-d rikutud. Seda võib samuti rikkuda, kui ravi mõju sõltub teiste ravi saanud isikute koguarvust. Näiteks kui Restivo ja van de Rijt andsid 100 või 10000 barnistari 100-le asemel, oleks see võinud mõjutada barnstari saamist.
Teine küsimus, mis on suunatud SUTVA-le, on eeldus, et ainus asjakohane ravi on see, mida teadlane pakub; seda eeldust nimetatakse mõnikord mitte peidetud raviks ega välistamiseks . Näiteks Restivo ja van de Rijti puhul võis juhtuda, et teadlased andsid barnstari andmisega toimetajad populaarsele toimetaja lehele ja et see oli populaarse toimetaja lehel - selle asemel, et saada barnstar- mis muutis muutmise käitumist. Kui see on tõsi, siis ei ole barnstari efekt eristatav populaarse toimetaja lehe efektist. Loomulikult ei ole selge, kas teaduslikust vaatenurgast tuleks seda pidada atraktiivseks või ebameeldivaks. See tähendab, et võite ette kujutada, et teadlane ütleb, et barnstari vastuvõtmise tagajärjeks on kõik järgmised protsessid, mida barnstar käivitab. Või võite ette kujutada olukorda, kus teadusuuringud sooviksid barnstarsi mõju isoleerida kõigist muudest asjadest. Üks võimalus seda mõelda on küsida, kas on midagi, mis viib Gerber and Green (2012) (lk 41) välja "sümmeetria lagunemiseni"? Teisisõnu, kas on midagi muud kui ravi, mis põhjustab inimestele ravi ja kontrolli tingimustes erinevat kohtlemist? Mure sümmeetriahäirete pärast on see, mis on kontrollgrupi juhtivatel patsientidel meditsiiniliste uuringute käigus platseebot võtta. Nii saavad teadlased olla kindlad, et ainus erinevus kahe tingimuse vahel on tegelik ravim, mitte kogemus pillide võtmisega.
Lisateavet SUTVA kohta leiate Morgan and Winship (2014) punktis Gerber and Green (2012) , jaotisest 2.5 Morgan and Winship (2014) Imbens and Rubin (2015) .
Täpsus
Eelmises osas kirjeldasin ma, kuidas keskmist raviefekti hinnata. Selles osas esitan mõned ideed nende hinnangute varieeruvuse kohta.
Kui mõelge keskmise raviefekti hindamisele, kui hinnatakse kahe valimi vahelist erinevust, siis on võimalik näidata, et keskmine raviefekt on standardviga:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
kus \(m\) inimesed on määratud ravi ja \(Nm\) kontrollida (vt Gerber and Green (2012) , vrd 3.4). Seega, kui mõelda, kui palju inimesi ravile määrata ja kui palju neid kontrollida saab, näete, et kui \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , siis soovid \(m \approx N / 2\) , kui ravi ja kontrolli kulud on samad. Võrrand 4.6 selgitab, miks Bond ja kolleegide (2012) eksperiment sotsiaalse teabe mõju kohta valimistel (joonis 4.18) on statistiliselt ebaefektiivne. Tuletame meelde, et ravikeskkonnas oli 98% osalejatest. See tähendas, et keskmine käitumine kontrolli tingimustes ei olnud hinnanguliselt nii täpselt kui võimalik, mis omakorda tähendas, et hinnanguline erinevus ravi ja kontrollitingimuste vahel ei olnud hinnanguliselt nii täpselt kui võimalik. Lisateavet osalejate optimaalse jaotuse kohta tingimustele, sealhulgas tingimuste erinevusest, vt List, Sadoff, and Wagner (2011) .
Lõpuks kirjeldasin põhiteksti, kuidas segmenteeritud disainis tavaliselt kasutatav erinevus-erinevuste hindaja võib põhjustada väiksemat dispersiooni kui erinevus-in-means hindaja, mida tüüpiliselt kasutatakse vahe-teemadel disain. Kui \(X_i\) on tulemuse väärtus enne ravi, siis kogus, mida püüame hinnata erinevus-erinevustega lähenemisviisis, on:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Selle koguse standardviga on (vaata Gerber and Green (2012) , võrdlus 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Võrdlus ekv. 4.6 ja ekv. 4.8 näitab, et erinevuste erinevuste lähenemisviisil on väiksem standardvea, kui (vt Gerber and Green (2012) , eq 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Peaaegu, kui \(X_i\) on \(Y_i(1)\) ja \(Y_i(0)\) väga ennustatav, saate täpsemaid prognoose erinevusest erinevuste lähenemisviisilt, of-mean üks. Üks võimalus seda mõista Restivo ja van de Rijti eksperimendi kontekstis seisneb selles, et inimestel on palju muutusi looduses, mistõttu võrreldakse ravi ja kontrollitingimusi raskesti: sugulase on raske tuvastada väike mõju müra tulemuste kohta. Aga kui muudate selle looduslikult esineva varieeruvuse, siis on see palju vähem varieeruv ning see muudab väikese efekti tuvastamise lihtsamaks.
Vt Frison and Pocock (1992) vahendite erinevuse, erinevuste erinevuste ja ANCOVA-põhiste lähenemisviiside täpse võrdluse üldisemas situatsioonis, kus eeltöötlust ja järeltöötlust on mitu mõõtmist. Eelkõige soovitavad nad tungivalt ANCOVAt, mida ma siinkohal siin ei käsitle. Lisaks vaadake McKenzie (2012) , et arutleda mitme ravi järgse tulemuse mõõtmise tähtsuse üle.