Crec que la millor manera d'entendre els experiments és el possible marc de resultats (que he comentat a les notes matemàtiques del capítol 2). El marc de resultats potencials té una estreta relació amb les idees del mostreig basat en el disseny que he descrit al capítol 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Aquest apèndix s'ha escrit de tal manera que emfasitza aquesta connexió. Aquest èmfasi és una mica no tradicional, però crec que la connexió entre el mostreig i els experiments és útil: vol dir que si coneixeu alguna cosa sobre el mostreig, ja sabeu alguna cosa sobre els experiments i viceversa. Com es mostrarà en aquestes notes, el marc de resultats potencials revela la força d'experiments controlats aleatoris per estimar els efectes causals i mostra les limitacions del que es pot fer amb experiments fins i tot perfectament executats.
En aquest apèndix, vaig a descriure el marc de resultats potencials, duplicant alguns dels materials de les notes matemàtiques del capítol 2 per tal que aquestes notes siguin més independents. A continuació, vaig a descriure alguns resultats útils sobre la precisió de les estimacions dels efectes mitjos del tractament, incloent un debat sobre l'assignació òptima i els estimadors de diferències en diferències. Aquest apèndix es basa en gran mesura en Gerber and Green (2012) .
Marc de resultats potencials
Per tal d'il·lustrar el possible marc de resultats, tornem a l'experiment de Restivo i van de Rijt per estimar l'efecte de rebre un barnstar sobre futures contribucions a Wikipedia. El marc de resultats potencials té tres elements principals: unitats , tractaments i resultats potencials . En el cas de Restivo i van de Rijt, les unitats van ser mereixedores d'editors, els que van ser els primers en un 1% dels contribuents, que encara no havien rebut un barnstar. Podem indexar aquests editors amb \(i = 1 \ldots N\) . Els tractaments en el seu experiment eren "barnstar" o "no barnstar", i escriuré \(W_i = 1\) si la persona \(i\) està en la condició de tractament i \(W_i = 0\) una altra manera. El tercer element del marc de resultats potencial és el més important: els resultats potencials . Aquests són una mica més conceptualment difícils perquè impliquen resultats "potencials": coses que podrien passar. Per a cada editor de Wikipedia, es pot imaginar el nombre d'edicions que faria en la condició de tractament ( \(Y_i(1)\) ) i el nombre que farà en la condició de control ( \(Y_i(0)\) ).
Tingueu en compte que aquesta selecció d'unitats, tractaments i resultats defineix el que es pot aprendre a partir d'aquest experiment. Per exemple, sense suposicions addicionals, Restivo i van de Rijt no poden dir res sobre els efectes de les barnstars en tots els editors de Wikipedia o sobre resultats com la qualitat d'edició. En general, l'elecció d'unitats, tractaments i resultats ha de basar-se en els objectius de l'estudi.
Tenint en compte aquests resultats potencials -que es resumeixen a la taula 4.5 -una es pot definir l'efecte causal del tractament per a la persona \(i\) com
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Per a mi, aquesta equació és la manera més clara de definir un efecte causal i, encara que extremadament simple, aquest marc resulta generalizable de moltes maneres importants i interessants (Imbens and Rubin 2015) .
Persona | Edita en la condició de tractament | Edita en condició de control | Efecte del tractament |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
significar | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Si definim la causalitat d'aquesta manera, però, ens trobem amb un problema. En gairebé tots els casos, no arribem a observar els dos resultats potencials. És a dir, un editor específic de Wikipedia ha rebut un barnstar o no. Per tant, observem un dels resultats potencials: \(Y_i(1)\) o \(Y_i(0)\) -però no tots dos. La incapacitat d'observar els dos resultats potencials és un problema tan important que Holland (1986) anomenar el problema fonamental de la inferència causal .
Afortunadament, quan fem investigacions, no només tenim una persona, tenim moltes persones, i això ens ofereix una solució al problema fonamental de la inferència causal. En comptes d'intentar estimar l'efecte del tractament a nivell individual, podem estimar l'efecte mitjà del tractament:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Això encara s'expressa en termes de \(\tau_i\) que no es poden observar, però amb algun àlgebra (Eq 2.8 de Gerber and Green (2012) ) obtenim
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
L'equació 4.3 mostra que si podem estimar el resultat mitjà de la població sota tractament ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) i el resultat mitjà de la població sota control ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), podem estimar l'efecte mitjà del tractament, fins i tot sense estimar l'efecte del tractament per a cap persona en particular.
Ara que he definit la nostra estimació: el que estem tractant d'estimar, ens referirem a com podem estimar-lo amb dades. M'agrada pensar en aquest desafiament d'estimació com a problema de mostreig (pensem de nou en les notes matemàtiques del capítol 3). Imagineu que seleccionem aleatòriament algunes persones per observar-les en la condició de tractament i seleccionem aleatòriament algunes persones per observar-les en la condició de control, llavors podem estimar el resultat mitjà en cada condició:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
on \(N_t\) i \(N_c\) són el nombre de persones en les condicions de tractament i control. L'equació 4.4 és un estimador de diferència de mitjans. Degut al disseny del mostreig, sabem que el primer terme és un estimador imparcial del resultat mitjà sota tractament i el segon terme és un estimador imparcial sota control.
Una altra manera de pensar què permet l'assignació aleatoritzada és que garanteixi que la comparació entre els grups de tractament i control és just, ja que l'aleatorització garanteix que els dos grups s'assemblen entre si. Aquesta semblança es basa en les coses que hem mesurat (diguem el nombre d'edicions en els 30 dies anteriors a l'experiment) i les coses que no hem mesurat (per exemple, el sexe). Aquesta capacitat per garantir l'equilibri tant en factors observats com no observats és fonamental. Per veure el poder d'equilibri automàtic en factors no observats, imaginem que les futures investigacions constaten que els homes són més responsables dels premis que les dones. Invalidaria els resultats de l'experiment de Restivo i van de Rijt? No, mitjançant l'assignació aleatòria, es va assegurar que tots els no observables estiguessin equilibrats, a l'espera. Aquesta protecció contra el desconegut és molt poderosa i és una manera important que els experiments siguin diferents de les tècniques no experimentals descrites al capítol 2.
A més de definir l'efecte del tractament per a tota una població, és possible definir un efecte de tractament per a un subconjunt de persones. Normalment, això es coneix com un efecte de tractament mitjà condicional (CATE). Per exemple, en l'estudi de Restivo i van de Rijt, imaginem que \(X_i\) és si l'editor estava per sobre o per sota del nombre mitjà d'edicions durant els 90 dies anteriors a l'experiment. Es podria calcular l'efecte del tractament per separat per a aquests editors lleugers i forts.
El marc de resultats potencials és una manera poderosa de pensar sobre la inferència causal i els experiments. No obstant això, hi ha dues complexitats addicionals que cal tenir en compte. Aquestes dues complexitats solen agrupar-se juntament amb el terme Assumpció de valor de tractament d'unitats estables (SUTVA). La primera part de SUTVA és la suposició que l'únic que importa per al resultat de la persona \(i\) és si aquesta persona estava en el tractament o la condició de control. En altres paraules, se suposa que la persona \(i\) no es veu afectada pel tractament que es dóna a altres persones. Això de vegades s'anomena "sense interferències" o "sense vessaments", i es pot escriure com:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
on \(\mathbf{W_{-i}}\) és un vector d'estats de tractament per a tots, excepte la persona \(i\) . Una manera de violar això és si el tractament d'una persona s'aboqui a una altra persona, ja sigui de forma positiva o negativa. Tornant a l'experiment de Restivo i van de Rijt, imaginem dos amics \(i\) i \(j\) i aquesta persona \(i\) rep una barra de barres i \(j\) no ho fa. Si \(i\) rebre la barnstar causa que \(j\) editeu més (fora d'un sentit de la competència) o modifiqueu menys (fora d'una sensació de desesperació), s'ha infringit SUTVA. També es pot violar si l'impacte del tractament depèn del nombre total d'altres persones que reben el tractament. Per exemple, si Restivo i van de Rijt havien donat 1.000 o 10.000 barnstars en comptes de 100, això podria haver impactat l'efecte de rebre un barnstar.
El segon assumpte a SUTVA és la suposició que l'únic tractament rellevant és el que proporciona l'investigador; aquesta suposició de vegades no s'anomena tractaments o excludibles ocults . Per exemple, a Restivo i van de Rijt, podria haver estat el cas que donant una barra interna els investigadors van fer que els editors es mostressin en una pàgina d'editors populars i que estigués a la pàgina d'editors populars, en lloc de rebre un barnstar- que va provocar el canvi en el comportament d'edició. Si això és cert, l'efecte del barnstar no es distingeix de l'efecte d'estar a la pàgina d'editors populars. Per descomptat, no està clar si, des d'una perspectiva científica, això es consideri atractiu o poc atractiu. És a dir, es podria imaginar un investigador que diu que l'efecte de rebre un barnstar inclou tots els tractaments posteriors que desencadena el barnstar. O es podria imaginar una situació en què una investigació volgués aïllar l'efecte de les empreses de totes aquestes altres coses. Una manera de pensar-ho és preguntar-se si hi ha alguna cosa que condueixi a allò que Gerber and Green (2012) (pàgina 41) anomenen "descomposició en simetria"? En altres paraules, hi ha alguna cosa diferent del tractament que provoca que les persones en el tractament i les condicions de control es tractin de manera diferent? Les preocupacions sobre la ruptura de la simetria són el que va conduir els pacients en el grup control a assajos mèdics a prendre una píndola amb placebo. D'aquesta manera, els investigadors poden estar segurs que l'única diferència entre les dues condicions és la medicina real i no l'experiència de prendre la píndola.
Per obtenir més informació sobre SUTVA, consulteu la secció 2.7 de Gerber and Green (2012) , secció 2.5 de Morgan and Winship (2014) , i la secció 1.6 d' Imbens and Rubin (2015) .
Precisió
A la secció anterior, he descrit com estimar l'efecte mitjà del tractament. En aquesta secció, vaig a proporcionar algunes idees sobre la variabilitat d'aquestes estimacions.
Si pensa en estimar l'efecte mitjà del tractament com a estimació de la diferència entre dos mitjans de mostreig, és possible demostrar que l'error estàndard de l'efecte mitjà del tractament és:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
on \(m\) persones assignades al tractament i \(Nm\) per controlar (vegeu Gerber and Green (2012) , equació 3.4). Per tant, quan es pensa en quantes persones es poden assignar al tractament i quants s'assignen al control, es pot veure que si \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , llavors voleu \(m \approx N / 2\) , sempre que els costos de tractament i control siguin els mateixos. L'equació 4.6 aclareix per què el disseny de l'experiència de Bond i col·legues (2012) sobre els efectes de la informació social sobre la votació (figura 4.18) era estadísticament ineficient. Recordem que tenia el 98% dels participants en la condició de tractament. Això va significar que el comportament mig en la condició de control no es va estimar tan precisament com poguessin haver estat, el que al seu torn significava que la diferència estimada entre el tractament i la condició de control no es va estimar tan precisament com poguessin ser. Per obtenir més informació sobre l'assignació òptima dels participants a les condicions, fins i tot quan els costos difereixen entre les condicions, vegeu List, Sadoff, and Wagner (2011) .
Finalment, en el text principal, he descrit com un estimador de diferència en diferències, que normalment s'utilitza en un disseny mixt, pot generar una menor variància que un estimador de diferència en el mitjà, que normalment s'utilitza en un subjecte entre subjectes disseny Si \(X_i\) és el valor del resultat abans del tractament, la quantitat que estem tractant d'estimar amb l'enfocament de diferència en diferències és:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
L'error estàndard d'aquesta quantitat és (vegeu Gerber and Green (2012) , equació 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Una comparació d'equació 4.6 i eq. 4.8 revela que l'enfocament de diferència en diferències tindrà un error estàndard més petit quan (vegeu Gerber and Green (2012) , eq 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Aproximadament, quan \(X_i\) és molt predictiu de \(Y_i(1)\) i \(Y_i(0)\) , llavors podeu obtenir estimacions més precises d'un enfocament de diferències de diferències que amb una diferència- de-significa una. Una manera de pensar-ho en el context de l'experiment de Restivo i van de Rijt és que hi ha moltes variacions naturals en la quantitat que edita la gent, de manera que fa difícil comparar el tractament i les condicions de control: és difícil detectar un familiar petit efecte en dades de resultat sorolloses. Però si distingeix aquesta variabilitat natural, hi ha molta menys variabilitat i això fa que sigui més fàcil detectar un petit efecte.
Vegeu Frison and Pocock (1992) per a una comparació precisa dels enfocaments basats en diferències de mitjans, diferència de diferències i ANCOVA en un entorn més general on es realitzen múltiples mesures de pre-tractament i post-tractament. En particular, recomano fortament ANCOVA, que no he tractat aquí. A més, vegeu McKenzie (2012) per a una discussió sobre la importància de diverses mesures de resultat post-tractament.