Nodiadau mathemategol

Rwy'n credu mai'r ffordd orau o ddeall arbrofion yw'r fframwaith canlyniadau posibl (a drafodais yn y nodiadau mathemategol ym mhennod 2). Mae gan y fframwaith canlyniadau posibl berthynas agos â'r syniadau o samplu dylunio a ddisgrifiais ym mhennod 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Mae'r atodiad hwn wedi'i ysgrifennu mewn ffordd sy'n pwysleisio'r cysylltiad hwnnw. Mae'r pwyslais hwn ychydig yn anhraddodiadol, ond credaf fod y cysylltiad rhwng samplu ac arbrofion yn ddefnyddiol: mae'n golygu, os ydych chi'n gwybod rhywbeth am samplu, yna rydych chi'n gwybod rhywbeth am arbrofion ac i'r gwrthwyneb. Fel y byddaf yn dangos yn y nodiadau hyn, mae'r fframwaith canlyniadau posibl yn datgelu cryfder arbrofion rheoledig ar hap i amcangyfrif effeithiau achosol, ac mae'n dangos cyfyngiadau'r hyn y gellir ei wneud gyda arbrofion hyd yn oed yn cael eu cyflawni'n berffaith.

Yn yr atodiad hwn, disgrifiaf y fframwaith canlyniadau posibl, gan ddyblygu peth o'r deunydd o'r nodiadau mathemategol ym mhennod 2 er mwyn gwneud y nodiadau hyn yn fwy hunangynhwysol. Yna, disgrifiaf rai canlyniadau defnyddiol am gywirdeb amcangyfrifon yr effeithiau triniaeth ar gyfartaledd, gan gynnwys trafodaeth am y dyraniad gorau posibl a'r amcangyfrifon gwahaniaeth-mewn-gwahaniaethau. Mae'r atodiad hwn yn tynnu'n drwm ar Gerber and Green (2012) .

Fframwaith canlyniadau posibl

Er mwyn dangos y fframwaith canlyniadau posib, gadewch i ni ddychwelyd i arbrawf Restivo a van de Rijt i amcangyfrif effaith cael stondin barn ar gyfraniadau yn y dyfodol i Wicipedia. Mae gan y fframwaith canlyniadau posibl dri phrif elfen: unedau , triniaethau , a chanlyniadau posibl . Yn achos Restivo a van de Rijt, roedd yr unedau yn olygyddion haeddiannol - y rhai yn y 1% uchaf o gyfranwyr - nad oeddent wedi derbyn stondin gwyllt eto. Gallwn fynegai'r olygyddion hyn gan \(i = 1 \ldots N\) . Y triniaethau yn eu harbrofi oedd "barn" neu "no barnstar", a byddaf yn ysgrifennu \(W_i = 1\) os yw person \(i\) yn yr amod triniaeth a \(W_i = 0\) fel arall. Trydydd elfen y fframwaith canlyniadau posibl yw'r pwysicaf: y canlyniadau posibl . Mae'r rhain ychydig yn fwy cysyniadol yn anodd oherwydd eu bod yn cynnwys canlyniadau "potensial" - pethau a allai ddigwydd. Ar gyfer pob golygydd Wikipedia, gall un ddychmygu nifer yr ymadroddion y byddai'n eu gwneud yn yr amod triniaeth ( \(Y_i(1)\) ) a'r nifer y byddai'n ei wneud yn y cyflwr rheoli ( \(Y_i(0)\) ).

Sylwch fod y dewis hwn o unedau, triniaethau a chanlyniadau yn diffinio'r hyn y gellir ei ddysgu o'r arbrawf hwn. Er enghraifft, heb unrhyw ragdybiaethau ychwanegol, ni all Restivo a van de Rijt ddweud unrhyw beth am effeithiau clystyrau ar holl golygyddion Wicipedia nac ar ganlyniadau megis golygu ansawdd. Yn gyffredinol, rhaid i'r dewis o unedau, triniaethau a chanlyniadau fod yn seiliedig ar nodau'r astudiaeth.

O ystyried y canlyniadau posibl hyn - a grynhoir yn nhabl 4.5-gall un ddiffinio effaith achosol y driniaeth i berson \(i\) fel

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

I mi, mae'r hafaliad hwn yw'r ffordd fwyaf eglur o ddiffinio effaith achosol, ac, er ei fod yn hynod o syml, mae'r fframwaith hwn yn troi allan i gael ei gyffredinoli mewn sawl ffordd bwysig a diddorol (Imbens and Rubin 2015) .

Tabl 4.5: Tabl Canlyniadau Posibl
Person Edits mewn cyflwr triniaeth Edits mewn cyflwr rheoli Effaith triniaeth
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
yn golygu \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Os ydym yn diffinio achosoldeb yn y modd hwn, fodd bynnag, yr ydym yn mynd yn broblem. Ym mron pob achos, nid ydym yn gorfod arsylwi ar y ddau ganlyniadau posibl. Hynny yw, mae golygydd Wikipedia penodol naill ai'n derbyn sêr ysbryd neu beidio. Felly, rydym yn arsylwi un o'r canlyniadau \(Y_i(1)\) neu \(Y_i(0)\) - ond nid y ddau. Mae'r anallu i arsylwi ar y ddau ganlyniadau posibl yn broblem mor fawr y dywedodd yr Holland (1986) iddo fod y Problem Sylfaenol o Ganfyddiad Achos .

Yn ffodus, pan fyddwn yn gwneud gwaith ymchwil, nid oes gennym un person yn unig, mae gennym lawer o bobl, ac mae hyn yn cynnig ffordd o gwmpas y Problem Sylfaenol o Ganfyddiad Achos. Yn hytrach na cheisio amcangyfrif effaith triniaeth lefel unigol, gallwn amcangyfrif effaith driniaeth gyfartalog:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Mae hyn yn dal i gael ei fynegi o ran y \(\tau_i\) nad ydynt yn ddarllenadwy, ond gyda rhywfaint o algebra (Eq 2.8 o Gerber and Green (2012) ) rydym yn cael

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Mae Equation 4.3 yn dangos, os gallwn amcangyfrif canlyniad cyfartalog y boblogaeth dan driniaeth ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) a'r canlyniad cyfartalog poblogaeth o dan reolaeth ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), yna gallwn amcangyfrif effaith driniaeth gyfartalog, hyd yn oed heb amcangyfrif effaith y driniaeth ar gyfer unrhyw berson penodol.

Nawr fy mod wedi diffinio ein hamcangyfrif-y peth yr ydym yn ceisio ei amcangyfrif - byddaf yn troi at y modd y gallwn ei amcangyfrif mewn gwirionedd gyda data. Hoffwn feddwl am yr her amcangyfrif hon fel problem samplu (meddyliwch yn ôl at y nodiadau mathemategol ym mhennod 3). Dychmygwch ein bod yn dewis rhai pobl ar hap i arsylwi yn yr amod triniaeth ac rydym yn dewis rhai pobl ar hap i arsylwi yn y cyflwr rheoli, yna gallwn amcangyfrif y canlyniad cyfartalog ym mhob cyflwr:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

lle mae \(N_t\) a \(N_c\) yn niferoedd y bobl yn yr amodau triniaeth a rheolaeth. Mae hafaliad 4.4 yn amcangyfrif gwahaniaeth-o-modd. Oherwydd y dyluniad samplo, gwyddom fod y term cyntaf yn amcangyfrif diduedd ar gyfer y canlyniad cyfartalog o dan driniaeth ac mae'r ail dymor yn amcangyfrif anhygoel o dan reolaeth.

Ffordd arall o feddwl am yr hyn y mae hapoli'n ei alluogi yw ei fod yn sicrhau bod y gymhariaeth rhwng y grwpiau trin a rheoli yn deg oherwydd bod hapoli'n sicrhau y bydd y ddau grŵp yn debyg i'w gilydd. Mae hyn yn debyg i'r pethau yr ydym wedi eu mesur (dywedwch nifer yr ymadroddion yn y 30 diwrnod cyn yr arbrawf) a'r pethau nad ydym wedi eu mesur (yn dweud rhyw). Mae'r gallu hwn i sicrhau cydbwysedd ar ffactorau a welwyd ac a anwybyddwyd yn hanfodol. Er mwyn gweld pŵer cydbwyso'n awtomatig ar ffactorau heb eu hateb, gadewch i ni ddychmygu bod ymchwil yn y dyfodol yn canfod bod dynion yn fwy ymatebol i ddyfarniadau na menywod. A fyddai hynny'n annilysu canlyniad arbrawf Restivo a van de Rijt? Na. Trwy haposod, gwnaethant sicrhau y byddai pob un annibynadwy yn gytbwys, yn ddisgwyliedig. Mae'r amddiffyniad hwn yn erbyn yr anhysbys yn bwerus iawn, ac mae'n ffordd bwysig bod arbrofion yn wahanol i'r technegau nad ydynt yn arbrofol a ddisgrifir ym mhennod 2.

Yn ogystal â diffinio'r effaith driniaeth ar gyfer poblogaeth gyfan, mae'n bosibl diffinio effaith driniaeth ar gyfer is-set o bobl. Fel rheol, gelwir hyn yn effaith triniaeth gyfartalog amodol (CATE). Er enghraifft, yn yr astudiaeth gan Restivo a van de Rijt, gadewch i ni ddychmygu mai \(X_i\) yw a oedd y golygydd yn uwch neu'n is na'r nifer canolrif o newidiadau yn ystod y 90 diwrnod cyn yr arbrawf. Gallai un gyfrifo'r effaith driniaeth ar wahân ar gyfer y golygyddion ysgafn a thrwm hyn.

Mae'r fframwaith canlyniadau posibl yn ffordd bwerus o feddwl am ddyfyniaeth ac arbrofion achosol. Fodd bynnag, mae dau gymhlethdodau ychwanegol y dylech eu cadw mewn cof. Mae'r ddau gymhlethdodau hyn yn aml yn cael eu llenwi gyda'i gilydd o dan y term Tybiaeth Gwerth Triniaeth Uned Sefydlog (SUTVA). Rhan gyntaf SUTVA yw'r rhagdybiaeth mai'r unig beth sy'n bwysig \(i\) ganlyniad person \(i\) yw a oedd y person hwnnw yn y cyflwr trin neu reoli. Mewn geiriau eraill, tybir nad yw'r driniaeth a roddir i bobl eraill yn effeithio ar y person hwnnw \(i\) . Weithiau, gelwir hyn yn "dim ymyrraeth" na "dim ysbwriel", a gellir ei ysgrifennu fel:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

lle mae \(\mathbf{W_{-i}}\) yn fector o statws triniaeth i bawb ac eithrio person \(i\) . Un ffordd y gall hyn gael ei thorri yw os yw'r driniaeth gan un person yn gollwng i berson arall, naill ai'n bositif neu'n negyddol. Yn dychwelyd i arbrawf Restivo a van de Rijt, dychmygwch ddau ffrind \(i\) a \(j\) ac nid yw'r person hwnnw \(i\) derbyn barnstar a \(j\) . Os yw \(i\) derbyn yr ysgubor yn achosi \(j\) i olygu mwy (heb ymdeimlad o gystadleuaeth) neu olygu llai (heb ymdeimlad o anobaith), mae SUTVA wedi cael ei sarhau. Gall hefyd gael ei groesi os yw effaith y driniaeth yn dibynnu ar gyfanswm nifer y bobl eraill sy'n derbyn y driniaeth. Er enghraifft, pe bai Restivo a van de Rijt wedi rhoi 1,000 o 10,000 neu 10,000 o fraster ysgubor yn lle 100, gallai hyn fod wedi effeithio ar yr effaith o gael sêr ysgafn.

Yr ail fater a roddwyd i SUTVA yw'r rhagdybiaeth mai'r unig driniaeth berthnasol yw'r un y mae'r ymchwilydd yn ei gyflawni; Gelwir y rhagdybiaeth hon weithiau yn ddim triniaethau cudd neu eithriad . Er enghraifft, yn Restivo a van de Rijt, efallai y bu'n wir, trwy roi sêr ysgubor i'r ymchwilwyr achosi bod golygyddion yn cael eu cynnwys ar dudalen olygyddion poblogaidd a'i fod ar y dudalen golygyddion poblogaidd - yn hytrach na chael sêr ysgafn- a achosodd y newid mewn ymddygiad golygu. Os yw hyn yn wir, yna ni ellir gwahaniaethu effaith yr ysgubor o effaith ei fod ar y dudalen golygyddion poblogaidd. Wrth gwrs, nid yw'n glir, o safbwynt gwyddonol, y dylid ystyried hyn yn ddeniadol neu'n anhygoel. Hynny yw, gallech ddychmygu ymchwilydd sy'n dweud bod yr effaith o gael sêr ysgubor yn cynnwys yr holl driniaethau dilynol y mae'r ysgubor yn eu sbarduno. Neu gallech ddychmygu sefyllfa lle byddai ymchwil yn awyddus i wasgu effaith ystlysiau ysgubor o'r holl bethau eraill hyn. Un ffordd i feddwl amdano yw gofyn a oes unrhyw beth sy'n arwain at yr hyn y mae Gerber and Green (2012) (p. 41) yn galw "dadansoddiad mewn cymesuredd"? Mewn geiriau eraill, a oes unrhyw beth heblaw'r driniaeth sy'n achosi triniaeth yn wahanol i bobl yn yr amodau triniaeth a rheolaeth? Pryderon ynghylch torri cymesuredd yw'r hyn sy'n arwain cleifion yn y grŵp rheoli mewn treialon meddygol i gymryd pilsen placebo. Fel hynny, gall ymchwilwyr fod yn siŵr mai'r unig wahaniaeth rhwng y ddau gyflwr yw'r feddyginiaethau gwirioneddol ac nid y profiad o gymryd y bilsen.

I gael rhagor o wybodaeth am SUTVA, gweler adran 2.7 o Gerber and Green (2012) , adran 2.5 o Morgan and Winship (2014) , ac adran 1.6 o Imbens and Rubin (2015) .

Precision

Yn yr adran flaenorol, rwyf wedi disgrifio sut i amcangyfrif effaith driniaeth gyfartalog. Yn yr adran hon, byddaf yn rhoi rhai syniadau am amrywoldeb yr amcangyfrifon hynny.

Os ydych chi'n meddwl am amcangyfrif effaith driniaeth gyfartalog fel amcangyfrif y gwahaniaeth rhwng dau fodd sampl, yna mae'n bosibl dangos mai'r gwall safonol ar yr effaith driniaeth gyfartalog yw:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

lle mae \(m\) bobl a roddir i driniaeth a \(Nm\) i'w rheoli (gweler Gerber and Green (2012) , eq. 3.4). Felly, wrth feddwl am faint o bobl i'w aseinio i driniaeth a faint i'w neilltuo i reoli, gallwch weld os \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , yna rydych chi eisiau \(m \approx N / 2\) , cyhyd â bod costau triniaeth a rheolaeth yr un fath. Mae Hafal 4.6 yn egluro pam mae arbrawf dylunio Bond a chydweithwyr (2012) arbrofi am effeithiau gwybodaeth gymdeithasol ar bleidleisio (ffigwr 4.18) yn aneffeithiol yn ystadegol. Dwyn i gof bod ganddo 98% o'r cyfranogwyr yn yr amod triniaeth. Golygai hyn nad oedd yr ymddygiad cymedrig yn y cyflwr rheoli yn cael ei amcangyfrif mor gywir ag y gallai fod, a oedd yn ei dro yn golygu na amcangyfrifwyd y gwahaniaeth amcangyfrifedig rhwng y cyflwr triniaeth a rheolaeth mor gywir ag y gallai fod. Am ragor o wybodaeth am ddyraniad gorau cyfranogwyr i amodau, gan gynnwys pryd mae costau'n wahanol rhwng yr amodau, gweler y List, Sadoff, and Wagner (2011) .

Yn olaf, yn y prif destun, disgrifiais sut y gall amcangyfrif gwahaniaeth mewn gwahaniaethau, a ddefnyddir fel arfer mewn dyluniad cymysg, arwain at amrywiant llai nag amcangyfrifydd gwahaniaeth-mewn-modd, a ddefnyddir fel arfer mewn pynciau rhyng-bwnc dylunio. Os yw \(X_i\) yn werth y canlyniad cyn y driniaeth, yna mae'r swm yr ydym yn ceisio ei amcangyfrif gyda'r dull gwahaniaeth mewn gwahaniaethau yn:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Gwall safonol y swm hwnnw yw (gweler Gerber and Green (2012) , erthygl 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Cymhariaeth o eq. 4.6 ac eq. 4.8 yn dangos y bydd gan y dull gwahaniaeth-mewn-gwahaniaethau gwall safonol lai pan fydd (gweler Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Yn fras, pan fydd \(X_i\) yn rhagfynegi iawn o \(Y_i(1)\) a \(Y_i(0)\) , yna gallwch gael amcangyfrifon mwy manwl o ddull gwahaniaeth rhwng gwahaniaethau nag o wahaniaeth- o-golygu un. Un ffordd o feddwl am hyn yng nghyd-destun arbrawf Restivo a van de Rijt yw bod llawer o amrywiad naturiol yn y swm y mae pobl yn ei olygu, felly mae hyn yn gwneud cymharu'r amodau triniaeth a rheolaeth yn anodd: mae'n anodd canfod perthynas effaith fach mewn data canlyniad swnllyd. Ond os ydych chi'n gwahaniaethu allan o'r amrywiad hwn sy'n digwydd yn naturiol, yna mae llawer llai o amrywiaeth, ac mae hynny'n ei gwneud yn haws i ganfod effaith fach.

Gweler Frison and Pocock (1992) am gymhariaeth fanwl o ddulliau gwahaniaeth-o-ddull, gwahaniaeth-o-wahaniaethau, ac ymagweddau ANCOVA yn y lleoliad mwy cyffredinol lle mae sawl mesuriad cyn triniaeth ac ôl-driniaeth. Yn arbennig, maent yn argymell yn gryf ANCOVA, nad wyf wedi'i gynnwys yma. Ymhellach, gweler McKenzie (2012) am drafodaeth am bwysigrwydd nifer o fesurau canlyniadau ôl-driniaeth.