Notas matemáticas

Creo que a mellor forma de entender os experimentos é o cadro de resultados potencial (que discutir nas notas matemáticas do capítulo 2). O marco de resultados potenciais ten unha estreita relación coas ideas da mostraxe baseada no deseño que describín no capítulo 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Este apéndice escribiuse de tal forma que destaque esa conexión. Esta énfase é un pouco non tradicional, pero creo que a conexión entre a mostraxe e os experimentos é útil: isto significa que se sabe algo sobre a mostraxe, entón vostede sabe algo sobre os experimentos e viceversa. Como veremos nestas notas, o marco de resultados potencial revela a forza dos experimentos controlados aleatorizados para estimar os efectos causais e mostra as limitacións do que se pode facer con experimentos perfectamente executados.

Neste apéndice, vou describir o marco de resultados potenciais, duplicando parte do material das notas matemáticas do capítulo 2 para facer estas notas máis autónomas. Entón describiré algúns resultados útiles sobre a precisión das estimacións dos efectos promedio do tratamento, incluíndo unha discusión sobre a asignación óptima e os estimadores de diferenzas en diferenzas. Este apéndice baséase en Gerber and Green (2012) .

Marco de resultados potenciais

Para ilustrar o cadro de resultados potenciais, volvamos ao experimento de Restivo e van de Rijt para estimar o efecto de recibir un barnstar sobre futuras contribucións a Wikipedia. O marco de resultados potenciais ten tres elementos principais: unidades , tratamentos e resultados potenciais . No caso de Restivo e van de Rijt, as unidades eran merecedoras de editores -as que estaban no top 1% dos contribuíntes- que aínda non recibiron un barnstar. Podemos indexar estes editores por \(i = 1 \ldots N\) . Os tratamentos no seu experimento foron "barnstar" ou "non barnstar", e escribirei \(W_i = 1\) se a persoa \(i\) está en estado de tratamento e \(W_i = 0\) doutro xeito. O terceiro elemento do marco de resultados potenciais é o máis importante: os resultados potenciais . Son un pouco máis conceptualmente difíciles porque implican resultados "potenciais": cousas que poderían ocorrer. Para cada editor de Wikipedia, pódese imaxinar o número de edicións que faría na condición de tratamento ( \(Y_i(1)\) ) eo número que faría na condición de control ( \(Y_i(0)\) ).

Nótese que esta selección de unidades, tratamentos e resultados define o que se pode aprender deste experimento. Por exemplo, sen suposicións adicionais, Restivo e van de Rijt non poden dicir nada sobre os efectos dos medios de traballo en todos os editores de Wikipedia ou sobre os resultados como a calidade de edición. En xeral, a elección de unidades, tratamentos e resultados debe estar baseada nos obxectivos do estudo.

Dados estes resultados potenciais -que se resumen na táboa 4.5- un pode definir o efecto causal do tratamento para a persoa \(i\) como

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Para min, esta ecuación é a forma máis clara de definir un efecto causal e, aínda que sexa extremadamente sinxelo, este marco resulta xeneralizable de moitas maneiras importantes e interesantes (Imbens and Rubin 2015) .

Táboa 4.5: Táboa de resultados potenciais
Persoa Edita en estado de tratamento Edita en condición de control Efecto do tratamento
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
significa \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Se definimos a causalidade deste xeito, non obstante, atopamos un problema. En case todos os casos, non chegamos a observar os dous resultados potenciais. É dicir, un editor de Wikipedia específico recibiu un barnstar ou non. Polo tanto, observamos un dos resultados potenciais: \(Y_i(1)\) ou \(Y_i(0)\) -both non os dous. A incapacidade de observar os dous resultados potenciais é un gran problema que Holland (1986) chamou o problema fundamental da inferencia causal .

Afortunadamente, cando facemos investigacións, non temos só unha persoa, temos moitas persoas, e isto ofrécenos un xeito de resolver o problema fundamental da inferencia causal. En vez de tratar de estimar o efecto do tratamento a nivel individual, podemos estimar o efecto medio do tratamento:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Isto aínda se expresa en términos de \(\tau_i\) que non se poden observar, pero con algún álgebra (Eq 2.8 de Gerber and Green (2012) ) obtemos

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

A ecuación 4.3 mostra que se podemos estimar o resultado medio da poboación baixo o tratamento ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) eo resultado medio da poboación baixo control ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), entón podemos estimar o efecto medio do tratamento, mesmo sen estimar o efecto do tratamento para calquera persoa en particular.

Agora que definín a nosa estimación -a cousa que intentamos estimar- vou averificar a forma na que podemos estimalo con datos. Gústame pensar neste desafío de estimación como un problema de mostraxe (pense de novo nas notas matemáticas no capítulo 3). Imaxina que nós seleccionamos aleatoriamente algunhas persoas para observar na condición de tratamento e nós seleccionamos aleatoriamente algunhas persoas para observar na condición de control, entón podemos estimar o resultado medio en cada condición:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

onde \(N_t\) e \(N_c\) son o número de persoas nas condicións de tratamento e control. A ecuación 4.4 é un estimador de diferenzas de medios. Debido ao deseño de mostraxe, sabemos que o primeiro termo é un estimador imparcial para o resultado medio baixo o tratamento eo segundo termo é un estimador imparcial baixo control.

Outra forma de pensar o que permite a aleatorización é que asegure que a comparación entre o tratamento e os grupos de control sexa xusta porque a aleatorización garante que os dous grupos se asemellan. Esta semellanza detémase polas cousas que medimos (digamos o número de edicións nos 30 días anteriores ao experimento) e as cousas que non medimos (por exemplo, o xénero). Esta capacidade para garantir o equilibrio tanto en factores observados como non observados é crítico. Para ver o poder do equilibrio automático en factores non observados, imaxinemos que futuras investigacións descobren que os homes son máis receptivos aos premios que ás mulleres. Invalidaría os resultados do experimento de Restivo e van de Rijt? Non Ao aleitar, eles aseguraron que todos os non observables serían equilibrados, en expectativa. Esta protección contra o descoñecido é moi poderosa e é unha forma importante que os experimentos sexan diferentes das técnicas non experimentais descritas no capítulo 2.

Ademais de definir o efecto do tratamento para unha poboación completa, é posible definir un efecto de tratamento para un subconxunto de persoas. Isto adoita denominarse un efecto de tratamento promedio condicional (CATE). Por exemplo, no estudo de Restivo e van de Rijt, imaxinemos que \(X_i\) é se o editor estaba por riba ou por baixo do número medio de edicións durante os 90 días anteriores ao experimento. Pódese calcular o efecto do tratamento por separado para estes editores liviáns e pesados.

O marco de resultados potenciais é unha forma poderosa de pensar sobre a inferencia causal e os experimentos. Non obstante, hai dúas complexidades adicionais que debes ter en conta. Estas dúas complexidades son a miúdo agrupadas baixo o termo Estable Unit Treatment Value Assumption (SUTVA). A primeira parte de SUTVA é a suposición de que o único que importa para o resultado da persoa \(i\) é se esa persoa estaba na condición de tratamento ou control. Noutras palabras, suponse que a persoa \(i\) non é afectada polo tratamento dado a outras persoas. Isto ás veces se chama "sen interferencia" ou "sen derrames", e pode escribirse como:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

onde \(\mathbf{W_{-i}}\) é un vector de estados de tratamento para todos excepto a persoa \(i\) . Unha forma de violar isto é se o tratamento dunha persoa derrúbase a outra persoa, de forma positiva ou negativa. Volvendo ao experimento de Restivo e van de Rijt, imaxina dous amigos \(i\) e \(j\) e esa persoa \(i\) recibe un barnstar e \(j\) non. Se \(i\) recibe a barra de texto fai que \(j\) edite máis (fóra dunha sensación de competencia) ou edite menos (por desesperación), SUTVA foi violada. Tamén se pode violar se o impacto do tratamento depende do número total de outras persoas que reciben o tratamento. Por exemplo, se Restivo e van de Rijt deron 1.000 ou 10.000 barnstars en vez de 100, isto podería afectar o efecto de recibir un barnstar.

A segunda cuestión relacionada con SUTVA é a suposición de que o único tratamento relevante é o que o investigador entrega; esta suposición ás veces non se denomina tratamento oculto nin excludibilidad . Por exemplo, en Restivo e van de Rijt, podería ser o caso de que, ao dar un barnstar, os investigadores fixeron que os editores estivesen presentados nunha páxina de editores populares e que estivese na páxina de editores populares, en vez de recibir un barnstar- que causou o cambio no comportamento de edición. Se isto é verdadeiro, o efecto do barnstar non se distingue do efecto de estar na páxina de editores populares. Por suposto, non está claro se, desde unha perspectiva científica, isto debería considerarse atractivo ou pouco atractivo. É dicir, pode imaxinar un investigador que di que o efecto de recibir un barnstar inclúe todos os tratamentos posteriores que desencadea o barnstar. Ou podes imaxinar unha situación na que unha investigación quererá illar o efecto dos barnstars de todas estas outras cousas. Unha forma de pensar sobre iso é preguntar se hai algo que leve ao que Gerber and Green (2012) (p. 41) chaman "descomposición en simetría"? Noutras palabras, ¿hai outra cousa que o tratamento que provoca que as persoas no tratamento e as condicións de control sexan tratadas dun xeito diferente? As preocupacións sobre a ruptura da simetría son as que levan os pacientes no grupo de control en ensaios médicos para tomar unha pílula placebo. Deste xeito, os investigadores poden estar seguros de que a única diferenza entre as dúas condicións é a medicina real e non a experiencia de tomar a pílula.

Para máis información sobre SUTVA, consulte a sección 2.7 de Gerber and Green (2012) , sección 2.5 de Morgan and Winship (2014) , e sección 1.6 de Imbens and Rubin (2015) .

Precisión

Na sección anterior, describín como estimar o efecto medio do tratamento. Nesta sección, vou proporcionar algunhas ideas sobre a variabilidade destas estimacións.

Se pensas en estimar o efecto medio do tratamento como estimación da diferenza entre dous medios de mostraxe, é posíbel demostrar que o erro estándar do efecto medio do tratamento é:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

onde \(m\) persoas asignadas ao tratamento e \(Nm\) para controlar (ver Gerber and Green (2012) , e 3.4). Así, cando se pensa en cantas persoas asignar ao tratamento e cantas asignar para controlar, pode ver que se \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , entón quere \(m \approx N / 2\) , sempre que os custos de tratamento e control sexan iguais. A ecuación 4.6 aclara por que o deseño do experimento de Bond e colegas (2012) sobre os efectos da información social sobre a votación (figura 4.18) era estadísticamente ineficiente. Lembre que tiña o 98% dos participantes na condición de tratamento. Isto significou que o comportamento medio na condición de control non se estimaba tan precisamente como podería ser, o que á súa vez significaba que a diferenza estimada entre o tratamento e a condición de control non se estimaba tan precisamente como podería ser. Para obter máis información sobre a asignación óptima dos participantes ás condicións, incluso cando os custos difiren entre as condicións, consulte List, Sadoff, and Wagner (2011) .

Finalmente, no texto principal, describín como un estimador de diferenzas en diferenzas, que normalmente se usa nun deseño mixto, pode provocar unha varianza máis pequena que un estimador de diferenzas en medios, que normalmente se emprega nun asunto intermedio deseño. Se \(X_i\) é o valor do resultado antes do tratamento, entón a cantidade que estamos intentando estimar coa diferenza de diferenzas enfoque é:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

O erro estándar desta cantidade é (vexa Gerber and Green (2012) , eq 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Unha comparación de eq. 4.6 e eq. 4.8 revela que a aproximación de diferenzas en diferenzas terá un erro estándar menor cando (ver Gerber and Green (2012) , a ecuación 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Non \(X_i\) , cando \(X_i\) é moi predictivo de \(Y_i(1)\) e \(Y_i(0)\) , entón pode obter estimacións máis precisas a partir dun enfoque de diferenzas de diferenzas que a dunha diferenza- of-means one. Unha forma de pensar neste contexto no experimento de Restivo e van de Rijt é que hai moita variación natural na cantidade que editan as persoas, polo que fai difícil comparar o tratamento e as condicións de control: é difícil detectar un familiar pequeno efecto en datos de resultado ruidosos. Pero se diferenciar esta variabilidade natural, hai moita menos variabilidade e iso fai que sexa máis fácil detectar un pequeno efecto.

Ver Frison and Pocock (1992) para unha comparación precisa das diferenzas de medios, diferenzas de diferenzas e enfoques baseadas en ANCOVA no escenario máis xeral onde existen múltiples medidas de pre-tratamento e post-tratamento. En particular, recomendan encarecidamente ANCOVA, que non cubrín aquí. Ademais, vexa McKenzie (2012) para unha discusión sobre a importancia de múltiples medidas de resultado post-tratamento.