Ég held að besta leiðin til að skilja tilraunir er hugsanleg niðurstaða ramma (sem ég ræddi í stærðfræðilegum athugasemdum í kafla 2). Möguleiki á árangursramma hefur náið samband við hugmyndirnar úr hönnunarprófunum sem ég lýsti í kafla 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) kafla (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Þessi viðauki hefur verið skrifaður þannig að hann leggi áherslu á tengslin. Þessi áhersla er svolítið óhefðbundin en ég held að tengingin milli sýnatöku og tilrauna sé gagnleg: það þýðir að ef þú veist eitthvað um sýnatöku þá þekkir þú eitthvað um tilraunir og öfugt. Eins og ég mun sýna í þessum skýringum, sýnir hugsanleg útkomutilgangur styrk slembiraðaðra tilrauna til að meta orsakatruflanir og það sýnir takmarkanir á því sem hægt er að gera með jafnvel fullkomlega framkvæmdar tilraunum.
Í þessu viðhengi lýsi ég hugsanlegum árangursramma og afritar nokkuð af efni úr stærðfræðilegum athugasemdum í kafla 2 til þess að gera þessar athugasemdir meira sjálfstætt. Þá lýsi ég nokkrar góðar niðurstöður um nákvæmni mat á meðaltali meðferðaráhrifum, þar með talið umfjöllun um ákjósanlegustu úthlutunaraðferðir og mismununarmunur. Þessi viðauki dregur verulega úr Gerber and Green (2012) .
Möguleg útkoman ramma
Til að sýna fram á hugsanlegan árangur ramma, skulum við fara aftur í tilraun Restivo og van de Rijt til að meta áhrif þess að fá barnstar um framtíðarframlag til Wikipedia. Möguleiki á árangursramma hefur þrjá meginþætti: einingar , meðferðir og hugsanlegar niðurstöður . Þegar um er að ræða Restivo og van de Rijt, voru einingarnar launþegar ritstjórar - þeir sem voru með 1% allra þátttakenda - sem ekki höfðu fengið barnstarf. Við getum vísitölu þessar ritstjórar með \(i = 1 \ldots N\) . Meðferðirnar í tilrauninni voru "barnstar" eða "no barnstar" og ég skrifa \(W_i = 1\) ef maður \(i\) er í meðferðartilvikinu og \(W_i = 0\) annars. Þriðja þátturinn í hugsanlegum árangursramma er mikilvægasti: hugsanleg niðurstaða . Þetta eru aðeins meira huglægir erfitt vegna þess að þeir fela í sér "hugsanlegar" niðurstöður - hlutir sem gætu gerst. Fyrir hverja Wikipedia ritstjóri getur maður ímyndað sér fjölda breytinga sem hún myndi gera í meðferðarástandi ( \(Y_i(1)\) ) og númerið sem hún myndi gera í stjórn ástandinu ( \(Y_i(0)\) ).
Athugaðu að þetta val á einingar, meðferðir og niðurstöður skilgreinir það sem hægt er að læra af þessari tilraun. Til dæmis, án frekari forsendna, getur Restivo og van de Rijt ekki sagt neitt um áhrif barnstars á allar Wikipedia ritstjórar eða á niðurstöðum eins og að breyta gæðum. Almennt verður val á einingum, meðferðum og niðurstöðum byggð á markmiðum rannsóknarinnar.
Í ljósi þessara hugsanlegra niðurstaðna, sem eru teknar saman í töflu 4.5, er hægt að skilgreina orsakatengsl viðhöndlunar fyrir einstaklinga \(i\) sem
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Fyrir mér er þessi jöfnu skýrasta leiðin til að skilgreina orsakasamhengi og þrátt fyrir mjög einföld þessa ramma reynist almennt á mörgum mikilvægum og áhugaverðum leiðum (Imbens and Rubin 2015) .
Manneskja | Breytingar í meðferðarástandi | Breytingar í stjórn ástandi | Meðferð áhrif |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
vondur | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Ef við skilgreinum orsakasamband á þennan hátt, þá hljótum við í vandræðum. Í nánast öllum tilvikum, við fáum ekki að fylgjast með báðum hugsanlegum niðurstöðum. Það er, sérstakur Wikipedia ritstjóri fékk annaðhvort barnstar eða ekki. Þess vegna virðum við eitt af hugsanlegum niðurstöðum - \(Y_i(1)\) eða \(Y_i(0)\) en ekki bæði. Vanhæfni til að fylgjast með báðum hugsanlegum niðurstöðum er svo stórt vandamál að Holland (1986) kallaði það grundvallarvandamálið af orsakasamhengi .
Sem betur fer, þegar við erum að gera rannsóknir, höfum við ekki aðeins einn mann, við höfum marga, og þetta býður upp á leið um grundvallarvandamálið af orsakasamhengi. Frekar en að reyna að meta einstaklingsbundin meðhöndlun áhrif, getum við metið meðaltal meðferðaráhrif:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Þetta er ennþá gefið upp hvað varðar \(\tau_i\) sem er ekki áberandi, en með sumum algebru (Eq 2.8 af Gerber and Green (2012) ) fáum við
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Jafna 4.3 sýna að ef við getum því reiknað með landsmönnum meðaltali útkomu sem er til meðferðar ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) og íbúum meðaltal niðurstaða í skefjum ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), þá getum við metið meðaltalsmeðferð, jafnvel án þess að meta meðferðaráhrif fyrir tiltekna einstakling.
Nú þegar ég hef skilgreint áætlun okkar - það sem við erum að reyna að meta-ég mun snúa við hvernig við getum í raun metið það með gögnum. Mér finnst gaman að hugsa um þessa áskorunarskorun sem sýnatökuvandamál (hugsaðu aftur í stærðfræðiglugganum í kafla 3). Ímyndaðu þér að við völdum handahófi sumum einstaklingum til að fylgjast með meðferðarástandi og við valum af handahófi sumum einstaklingum til að fylgjast með í samanburðarástandi, þá getum við metið meðaltal niðurstöðu í hverju ástandi:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
þar sem \(N_t\) og \(N_c\) eru fjöldi fólks í meðferð og eftirlitsskilyrðum. Jafnvægi 4.4 er munur á áætlun. Vegna sýnatökuhönnunarinnar vitum við að fyrsta hugtakið er óhlutdræg mat á meðaltali niðurstöðu sem er í meðferð og annað hugtakið er óhlutdrægt mat undir stjórn.
Önnur leið til að hugsa um hvað slembiröðun gerir það er að það tryggir að samanburður milli meðferðar og eftirlitshópa sé sanngjörn vegna þess að slembivalun tryggir að tveir hópar líkist hver öðrum. Þessi líkindi gilda um það sem við höfum mælt (segðu fjölda breytinga á 30 dögum fyrir tilraunina) og það sem við höfum ekki mælt (segja kyn). Þessi hæfni til að tryggja jafnvægi á bæði viðhorf og óþekktum þáttum er mikilvægt. Til að sjá kraftinn í sjálfvirkri jafnvægi á óþekktum þáttum, skulum ímynda okkur að framtíðarrannsóknir komi í ljós að karlar eru móttækari fyrir verðlaun en konur. Vildi það ógilda niðurstöður tilrauna Restivo og van de Rijt? Nei. Með því að slembira, tryggðu þeir að allir unobservables yrðu jafnvægir í væntingum. Þessi vörn gegn hið óþekkta er mjög öflug og mikilvægt er að tilraunir séu frábrugðnar aðferðum sem ekki eru tilraunir sem lýst er í kafla 2.
Auk þess að skilgreina meðferðaráhrif fyrir heilan hóp er hægt að skilgreina meðferðaráhrif fyrir undirhóp fólks. Þetta er venjulega kallað skilyrt meðaltal meðferðaráhrif (CATE). Til dæmis, í rannsókninni af Restivo og van de Rijt, skulum ímynda sér að \(X_i\) sé hvort ritstjóri var yfir eða undir miðgildi fjölda breytinga á 90 dögum fyrir tilraunina. Maður gæti reiknað meðferðaráhrifum sérstaklega fyrir þessar léttar og þungar ritstjórar.
Möguleiki á árangursramma er öflug leið til að hugsa um orsakasamhengi og tilraunir. Hins vegar eru tveir viðbótar flókin sem þú ættir að hafa í huga. Þessir tveir flóknir eru oft lumped saman undir hugtakið stöðugt eining meðferðargildi (SUTVA). Fyrsti hluti SUTVA er ráð fyrir að það eina sem skiptir máli fyrir mann \(i\) 's niðurstaða er hvort sem maður var í meðferð eða stjórna ástand. Með öðrum orðum er gert ráð fyrir að einstaklingur \(i\) sé ekki fyrir áhrifum af meðferðinni sem gefið er öðrum. Þetta er stundum kallað "engin truflun" eða "engin spilling" og er hægt að skrifa sem:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
þar sem \(\mathbf{W_{-i}}\) er vigur meðferðarstaðla fyrir alla nema manneskja \(i\) . Ein leið til að brjóta þetta er ef meðferðin frá einum einstaklingi sleppur yfir á annan mann, annaðhvort jákvætt eða neikvætt. Til að fara aftur í tilraun Restivo og van de Rijt, ímyndaðu þér tvær vinir \(i\) og \(j\) og þessi manneskja \(i\) fær barnstar og \(j\) er það ekki. Ef \(i\) fá barnstjörnuna veldur \(j\) að breyta meira (út úr samkeppni) eða breyta minna (úr skilningi örvæntingar) þá hefur SUTVA verið brotið. Einnig má brjóta það ef áhrif meðferðarinnar eru háð heildarfjölda annarra sem fá meðferðina. Til dæmis, ef Restivo og van de Rijt höfðu gefið út 1.000 eða 10.000 barnstars í stað 100, gæti þetta haft áhrif á áhrif þess að fá barnstar.
Annað tölublað í SUTVA er forsendan um að eina viðeigandi meðferðin sé sá sem rannsóknaraðilinn skilar; Þessi forsendun er stundum nefndur ekki falin meðferð eða útilokun . Til dæmis í Restivo og van de Rijt gæti verið að með því að gefa barnstjarnan hafi vísindamenn valdið því að ritstjórar komi fram á vinsælum ritstjórnarsíðu og að það væri á vinsælustu ritstjórar síðunni frekar en að fá barnstar- sem olli breytingunni á breytingum á hegðun. Ef þetta er satt, þá er áhrif barnstjörnunnar ekki aðgreind frá áhrifum þess að vera á vinsælum ritstjóra síðunni. Auðvitað er ekki ljóst hvort þetta ætti að vera talið aðlaðandi eða óaðlaðandi í vísindalegum skilningi. Þannig gætirðu ímyndað þér að rannsóknarmaður hafi sagt að áhrifin af því að fá barnstarfari innihalda allar síðari meðferðir sem barnstjarnan kallar á. Eða þú gætir ímyndað sér aðstæður þar sem rannsóknir myndu vilja einangra áhrif barnstars frá öllum þessum öðrum hlutum. Ein leið til að hugsa um það er að spyrja hvort það sé eitthvað sem leiðir til þess að Gerber and Green (2012) (bls. 41) kalla "sundurliðun í samhverfu"? Með öðrum orðum, er eitthvað annað en meðferðin sem veldur því að fólk meðhöndla meðferð og eftirlit með ástandinu öðruvísi? Áhyggjur af brot á samhverfu eru það sem leiða sjúklinga í samanburðarhópnum í læknisfræðilegum rannsóknum til að taka lyfleysu pilla. Þannig geta vísindamenn verið viss um að eini munurinn á tveimur skilyrðum sé raunverulegt lyf og ekki reynsla þess að taka pilluna.
Fyrir meira um SUTVA, sjá kafla 2.7 af Gerber and Green (2012) , kafla 2.5 af Morgan and Winship (2014) og kafla 1.6 af Imbens and Rubin (2015) .
Nákvæmni
Í fyrri kafla hefur ég lýst hvernig á að meta meðaltal meðferðaráhrif. Í þessum kafla mun ég leggja fram nokkrar hugmyndir um breytileika þessara áætlana.
Ef þú hugsar um að meta meðaltal meðferðaráhrif sem meta muninn á tveimur sýnum, þá er hægt að sýna að staðalfrávik meðaltalsmeðferðaráhrifa er:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
þar sem \(m\) fólk úthlutað meðferð og \(Nm\) til að stjórna (sjá Gerber and Green (2012) , osfrv. 3.4). Þannig að þegar þú hugsar um hversu marga til að úthluta meðferð og hversu margir til að stjórna, þá geturðu séð að ef \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , þá viltu \(m \approx N / 2\) , svo lengi sem kostnaður við meðferð og eftirlit eru þau sömu. Jafnvægi 4.6 skýrir hvers vegna hönnunin í tengslum við áhrifa félagslegra upplýsinga um atkvæðagreiðslu (mynd 4.18) í tengslum við skuldabréf og samstarfsfólk (2012) ) var óhagkvæm tölfræðilega. Muna að það hafi 98% þátttakenda í meðferðarlíkaninu. Þetta þýddi að meðaltal hegðunin í samanburðarástandinu var ekki áætlað nákvæmlega eins og það gæti hafa verið, sem aftur þýddi að áætlaður munur á meðferð og eftirlit með ástandinu var ekki áætlað nákvæmlega eins og það gæti verið. Til að fá nánari úthlutun þátttakenda í skilyrðum, þar á meðal þegar kostnaður er frábrugðinn skilyrðum, sjá List, Sadoff, and Wagner (2011) .
Að lokum lýsti ég í aðaltextanum hvernig mismunur á mismunarmat, sem venjulega er notaður í blönduðum hönnun, getur leitt til minni afbrigðis en mismunur í áætlunarmörkum, sem venjulega er notaður í milli mála hönnun. Ef \(X_i\) er gildi niðurstaðan fyrir meðferð, þá er það magn sem við erum að reyna að meta með mismunaraðferðinni:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Staðalfrávik þess magns er (sjá Gerber and Green (2012) , jafnvægi 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Samanburður á eq. 4.6 og eq. 4.8 sýnir að munur á muninn nálgun mun hafa minni staðal villa þegar (sjá Gerber and Green (2012) , jafngildir 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Gróft, þegar \(X_i\) er mjög fyrirsjáanlegt af \(Y_i(1)\) og og \(Y_i(0)\) , þá er hægt að fá nánari áætlanir frá mismungreiðslumáta en frá mismun- af-þýðir einn. Ein leið til að hugsa um þetta í samhengi við tilraun Restivo og van de Rijt er að það er mikið af náttúrulegum breytingum í þeirri upphæð sem fólk breytir þannig að þetta gerir samanburð á meðferð og stjórnunarskilyrðum erfitt: það er erfitt að greina ættingja lítil áhrif í háværum niðurstöðum. En ef þú breytir þessu náttúrulega breytileika, þá er mun minni breyting, og það auðveldar þér að greina smá áhrif.
Sjá Frison and Pocock (1992) til að fá nákvæma samanburð á munur á aðferðum, munur á munum og ANCOVA-aðferðum í almennari stillingu þar sem margar mælingar eru í formeðferð og eftir meðferð. Einkum mælum þeir eindregið með ANCOVA, sem ég hef ekki fjallað um hér. Frekari, sjá McKenzie (2012) til umfjöllunar um mikilvægi margra aðgerða eftir meðferð.