Note matematiche

Penso che il modo migliore per comprendere gli esperimenti sia il quadro dei risultati potenziali (che ho discusso nelle note matematiche del capitolo 2). Il quadro dei potenziali risultati ha strette relazioni con le idee del campionamento basato sulla progettazione che ho descritto nel capitolo 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Questa appendice è stata scritta in modo tale da sottolineare questa connessione. Questa enfasi è un po 'non tradizionale, ma penso che la connessione tra campionamento ed esperimenti sia utile: significa che se sai qualcosa sul campionamento allora sai qualcosa sugli esperimenti e viceversa. Come mostrerò in queste note, la struttura dei potenziali risultati rivela la forza di esperimenti controllati randomizzati per stimare gli effetti causali, e mostra i limiti di ciò che può essere fatto con esperimenti anche perfettamente eseguiti.

In questa appendice descriverò la struttura dei risultati potenziali, duplicando parte del materiale dalle note matematiche del capitolo 2 per rendere queste note più autonome. Descriverò quindi alcuni risultati utili sulla precisione delle stime degli effetti medi del trattamento, compresa una discussione sull'allocazione ottimale e sugli stimatori delle differenze nelle differenze. Questa appendice si basa molto su Gerber and Green (2012) .

Quadro dei risultati potenziali

Per illustrare il quadro dei risultati potenziali, torniamo all'esperimento di Restivo e van de Rijt per stimare l'effetto di ricevere una barnstar sui futuri contributi a Wikipedia. La struttura dei risultati potenziali ha tre elementi principali: unità , trattamenti e risultati potenziali . Nel caso di Restivo e van de Rijt, le unità erano meritevoli di editori - quelli nel primo 1% dei contributori - che non avevano ancora ricevuto una barnstar. Possiamo indicizzare questi editor per \(i = 1 \ldots N\) . I trattamenti nel loro esperimento erano "barnstar" o "no barnstar", e scriverò \(W_i = 1\) se la persona \(i\) trova nella condizione di trattamento e \(W_i = 0\) contrario. Il terzo elemento del quadro dei risultati potenziali è il più importante: i risultati potenziali . Questi sono un po 'più concettualmente difficili perché implicano risultati "potenziali", cose che potrebbero accadere. Per ogni editor di Wikipedia, si può immaginare il numero di modifiche che avrebbe apportato nella condizione di trattamento ( \(Y_i(1)\) ) e il numero che avrebbe eseguito nella condizione di controllo ( \(Y_i(0)\) ).

Nota che questa scelta di unità, trattamenti e risultati definisce cosa si può imparare da questo esperimento. Ad esempio, senza ulteriori presupposti, Restivo e van de Rijt non possono dire nulla sugli effetti di barnstars su tutti gli editor di Wikipedia o su risultati come la qualità di modifica. In generale, la scelta delle unità, dei trattamenti e dei risultati deve essere basata sugli obiettivi dello studio.

Dati questi risultati potenziali - che sono riassunti nella tabella 4.5 - si può definire l'effetto causale del trattamento per la persona \(i\) come

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Per me, questa equazione è il modo più chiaro per definire un effetto causale e, sebbene estremamente semplice, questa struttura risulta generalizzabile in molti modi importanti e interessanti (Imbens and Rubin 2015) .

Tabella 4.5: Tabella dei potenziali risultati
Persona Modifiche in condizioni di trattamento Modifica in condizioni di controllo Effetto del trattamento
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
significare \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Se definiamo la causalità in questo modo, tuttavia, ci imbattiamo in un problema. In quasi tutti i casi, non siamo in grado di osservare entrambi i potenziali risultati. Cioè, uno specifico editor di Wikipedia ha ricevuto una barnstar o no. Pertanto, osserviamo uno dei possibili esiti- \(Y_i(1)\) o \(Y_i(0)\) -ma non entrambi. L'incapacità di osservare entrambi i potenziali risultati è un problema così grave che Holland (1986) definito il problema fondamentale dell'inferenza causale .

Fortunatamente, quando facciamo ricerca, non abbiamo una sola persona, abbiamo molte persone e questo offre un modo per aggirare il problema fondamentale dell'inferenza causale. Piuttosto che tentare di stimare l'effetto del trattamento a livello individuale, possiamo stimare l'effetto del trattamento medio:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Questo è ancora espresso in termini di \(\tau_i\) che sono inosservabili, ma con qualche algebra (Eq 2.8 di Gerber and Green (2012) ) otteniamo

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

L'equazione 4.3 mostra che se possiamo stimare l'esito medio della popolazione in trattamento ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) e l'esito medio della popolazione sotto controllo ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), quindi possiamo stimare l'effetto del trattamento medio, anche senza stimare l'effetto del trattamento per una particolare persona.

Ora che ho definito la nostra stima e la cosa che stiamo cercando di stimare, mi rivolgerò a come possiamo effettivamente stimarla con i dati. Mi piace pensare a questa sfida di stima come un problema di campionamento (ripensa alle note matematiche nel capitolo 3). Immagina di scegliere casualmente alcune persone da osservare nelle condizioni del trattamento e selezioniamo casualmente alcune persone da osservare nelle condizioni di controllo, quindi possiamo stimare il risultato medio in ogni condizione:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

dove \(N_t\) e \(N_c\) sono il numero di persone nelle condizioni di trattamento e controllo. L'equazione 4.4 è uno stimatore di differenza di mezzi. A causa del disegno di campionamento, sappiamo che il primo termine è uno stimatore imparziale per l'outcome medio in trattamento e il secondo termine è uno stimatore imparziale sotto controllo.

Un altro modo di pensare a ciò che la randomizzazione consente è che assicura che il confronto tra i gruppi di trattamento e di controllo sia equo perché la randomizzazione assicura che i due gruppi si assomiglino a vicenda. Questa somiglianza vale per le cose che abbiamo misurato (ad esempio il numero di modifiche nei 30 giorni precedenti l'esperimento) e le cose che non abbiamo misurato (ad esempio il genere). Questa capacità di garantire l'equilibrio su entrambi i fattori osservati e inosservati è fondamentale. Per vedere il potere del bilanciamento automatico su fattori non osservati, immaginiamo che la ricerca futura scopra che gli uomini sono più sensibili ai premi rispetto alle donne. Questo invaliderebbe i risultati dell'esperimento Restivo e van de Rijt? No. Con la randomizzazione, hanno assicurato che tutti gli non osservabili sarebbero stati bilanciati, in attesa. Questa protezione contro l'ignoto è molto potente ed è un modo importante per cui gli esperimenti sono diversi dalle tecniche non sperimentali descritte nel capitolo 2.

Oltre a definire l'effetto del trattamento per un'intera popolazione, è possibile definire un effetto di trattamento per un sottogruppo di persone. Questo è tipicamente chiamato un effetto di trattamento medio condizionale (CATE). Ad esempio, nello studio di Restivo e van de Rijt, immaginiamo che \(X_i\) sia se l'editor fosse sopra o sotto il numero mediano di modifiche durante i 90 giorni precedenti all'esperimento. Si potrebbe calcolare l'effetto del trattamento separatamente per questi editori leggeri e pesanti.

La struttura dei risultati potenziali è un modo efficace per pensare all'inferenza e agli esperimenti causali. Tuttavia, ci sono due ulteriori complessità che dovresti tenere a mente. Queste due complessità sono spesso raggruppate insieme sotto il termine Stable Unit Treatment Value Assumption (SUTVA). La prima parte del SUTVA è l'ipotesi che l'unica cosa che conta per la persona \(i\) 's risultato è se quella persona fosse nella condizione di trattamento o di controllo. In altre parole, si presume che la persona \(i\) non sia influenzata dal trattamento dato ad altre persone. Questo è talvolta chiamato "nessuna interferenza" o "nessun spillovers", e può essere scritto come:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

dove \(\mathbf{W_{-i}}\) è un vettore di stati di trattamento per tutti tranne la persona \(i\) . Un modo in cui questo può essere violato è se il trattamento da una persona si riversa su un'altra persona, positivamente o negativamente. Ritornando all'esperimento di Restivo e van de Rijt, immagina due amici \(i\) e \(j\) e quella persona \(i\) riceve un barnstar e \(j\) no. Se \(i\) ricevendo il barnstar causa \(j\) di modificare di più (fuori dal senso di competizione) o di modificare di meno (per senso di disperazione), allora SUTVA è stato violato. Può anche essere violato se l'impatto del trattamento dipende dal numero totale di altre persone che ricevono il trattamento. Ad esempio, se Restivo e van de Rijt hanno distribuito 1.000 o 10.000 barnstars invece di 100, ciò potrebbe aver influito sull'effetto di ricevere una barnstar.

Il secondo problema accolto in SUTVA è l'assunto che l'unico trattamento pertinente è quello che il ricercatore consegna; questa ipotesi viene talvolta definita senza trattamenti o esclusioni nascosti . Ad esempio, in Restivo e van de Rijt, potrebbe essere stato il caso che dando una stregoneria i ricercatori facessero apparire gli editori su una pagina di redattori popolari e che si trovasse sulla pagina dei redattori popolari, piuttosto che ricevere una barnstar- questo ha causato il cambiamento nel comportamento di modifica. Se questo è vero, allora l'effetto della barnstar non è distinguibile dall'effetto di essere sulla pagina dei redattori popolari. Naturalmente, non è chiaro se, da un punto di vista scientifico, questo debba essere considerato attraente o poco attraente. Cioè, potresti immaginare un ricercatore che dice che l'effetto di ricevere una barnstar include tutti i trattamenti successivi che la barnstar innesca. Oppure potresti immaginare una situazione in cui una ricerca vorrebbe isolare l'effetto dei barnstars da tutte queste altre cose. Un modo per pensarci è chiedersi se c'è qualcosa che porta a ciò che Gerber and Green (2012) (p. 41) chiamano "rottura della simmetria"? In altre parole, c'è qualcosa di diverso dal trattamento che fa sì che le persone nelle condizioni di trattamento e controllo siano trattate in modo diverso? Le preoccupazioni sulla rottura della simmetria sono ciò che portano i pazienti nel gruppo di controllo in studi clinici a prendere una pillola placebo. In questo modo, i ricercatori possono essere sicuri che l'unica differenza tra le due condizioni è la medicina reale e non l'esperienza di prendere la pillola.

Per ulteriori informazioni su SUTVA, consultare la sezione 2.7 di Gerber and Green (2012) , la sezione 2.5 di Morgan and Winship (2014) e la sezione 1.6 di Imbens and Rubin (2015) .

Precisione

Nella sezione precedente, ho descritto come stimare l'effetto del trattamento medio. In questa sezione fornirò alcune idee sulla variabilità di tali stime.

Se si pensa di stimare l'effetto del trattamento medio come stima della differenza tra due medie campionarie, allora è possibile dimostrare che l'errore standard dell'effetto di trattamento medio è:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

dove \(m\) persone assegnate al trattamento e \(Nm\) da controllare (vedere Gerber and Green (2012) , eq. 3.4). Pertanto, quando si pensa a quante persone assegnare al trattamento ea quanti ne possono assegnare al controllo, si può vedere che se \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , quindi si desidera \(m \approx N / 2\) , a condizione che i costi di trattamento e controllo siano gli stessi. L'equazione 4.6 chiarisce perché la progettazione dell'esperimento di Bond e colleghi (2012) sugli effetti delle informazioni sociali sul voto (figura 4.18) era statisticamente inefficiente. Ricordiamo che aveva il 98% dei partecipanti nella condizione di trattamento. Ciò significava che il comportamento medio nella condizione di controllo non era stimato con la precisione che avrebbe potuto essere, il che a sua volta significava che la differenza stimata tra il trattamento e le condizioni di controllo non era stimata con la precisione che poteva essere. Per ulteriori informazioni sull'assegnazione ottimale dei partecipanti alle condizioni, incluso quando i costi differiscono tra le condizioni, consultare List, Sadoff, and Wagner (2011) .

Infine, nel testo principale, ho descritto come uno stimatore differenza-differenze, che è tipicamente utilizzato in un progetto misto, può portare a una varianza più piccola rispetto a uno stimatore in media, che è tipicamente usato in un soggetto intermedio design. Se \(X_i\) è il valore del risultato prima del trattamento, allora la quantità che stiamo cercando di stimare con l'approccio differenza nelle differenze è:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

L'errore standard di tale quantità è (vedere Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Un confronto di eq. 4.6 ed eq. 4.8 rivela che l'approccio differenza in differenze avrà un errore standard più piccolo quando (vedere Gerber and Green (2012) , eq 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Approssimativamente, quando \(X_i\) è molto predittivo di \(Y_i(1)\) e \(Y_i(0)\) , allora puoi ottenere stime più precise da un approccio differenza di differenze piuttosto che da una differenza- di-significa uno. Un modo per pensare a questo nel contesto dell'esperimento di Restivo e van de Rijt è che ci sono molte variazioni naturali nella quantità che le persone modificano, quindi questo rende difficile confrontare le condizioni di trattamento e controllo: è difficile individuare un parente piccolo effetto nei dati di esito rumorosi. Ma se si fa a meno di questa variabilità presente in natura, allora c'è molta meno variabilità e questo rende più facile rilevare un piccolo effetto.

Vedere Frison and Pocock (1992) per un confronto preciso di differenza di mezzi, differenza di differenze e approcci basati su ANCOVA nel contesto più generale in cui vi sono più misure di pre-trattamento e post-trattamento. In particolare, raccomandano fortemente ANCOVA, che non ho trattato qui. Inoltre, vedi McKenzie (2012) per una discussione sull'importanza di molteplici misure di esito post-trattamento.