In questa appendice, riassumerò alcune idee su come rendere l'inferenza causale da dati non sperimentali in una forma leggermente più matematica. Esistono due approcci principali: il quadro del grafico causale, più associato a Judea Pearl e ai colleghi, e il quadro dei risultati potenziali, la maggior parte associati a Donald Rubin e colleghi. Introdurrò il quadro dei risultati potenziali perché è più strettamente connesso alle idee nelle note matematiche alla fine del capitolo 3 e 4. Per ulteriori informazioni sul framework dei grafici causali, raccomando Pearl, Glymour, and Jewell (2016) (introduttivo ) e Pearl (2009) (avanzato). Per un trattamento di inferenza causale lungo un libro che combini il quadro dei risultati potenziali e il quadro del grafico causale, raccomando Morgan and Winship (2014) .
L'obiettivo di questa appendice è quello di aiutarti a familiarizzare con la notazione e lo stile della tradizione dei potenziali risultati in modo da poter passare a uno dei materiali più tecnici scritti su questo argomento. Innanzitutto, descriverò la struttura dei risultati potenziali. Quindi, lo userò per discutere ulteriormente di esperimenti naturali come quello di Angrist (1990) sull'effetto del servizio militare sui guadagni. Questa appendice si ispira pesantemente a Imbens and Rubin (2015) .
Quadro dei risultati potenziali
La struttura dei risultati potenziali ha tre elementi principali: unità , trattamenti e risultati potenziali . Per illustrare questi elementi, prendiamo in considerazione una versione stilizzata della domanda affrontata in Angrist (1990) : qual è l'effetto del servizio militare sui guadagni? In questo caso, possiamo definire le unità come persone idonee per la bozza del 1970 negli Stati Uniti, e possiamo indicizzare queste persone per \(i = 1, \ldots, N\) . Le cure in questo caso possono essere "servire in campo militare" o "non servire in campo militare". \(W_i = 1\) queste condizioni di trattamento e controllo, e scriverò \(W_i = 1\) se persona \(i\) è nella condizione di trattamento e \(W_i = 0\) se la persona \(i\) trova nella condizione di controllo. Infine, i risultati potenziali sono un po 'più concettualmente difficili perché implicano risultati "potenziali"; cose che potrebbero essere accadute. Per ogni persona che ha diritto alla bozza del 1970, possiamo immaginare l'ammontare che avrebbero guadagnato nel 1978 se fossero stati nell'esercito, che chiamerò \(Y_i(1)\) , e l'ammontare che avrebbero guadagnato in 1978 se non hanno prestato servizio nell'esercito, che chiamerò \(Y_i(0)\) . Nel framework dei potenziali risultati, \(Y_i(1)\) e \(Y_i(0)\) sono considerati quantità fisse, mentre \(W_i\) è una variabile casuale.
La scelta delle unità, dei trattamenti e dei risultati è fondamentale perché definisce ciò che può e non può essere appreso dallo studio. La scelta delle unità - persone eleggibili per la bozza del 1970 - non include le donne, e quindi senza ulteriori presupposti, questo studio non ci dirà nulla circa l'effetto del servizio militare sulle donne. Anche le decisioni su come definire trattamenti e risultati sono importanti. Ad esempio, il trattamento di interesse dovrebbe essere focalizzato sul servizio militare o sul combattimento? I risultati degli interessi dovrebbero essere guadagni o soddisfazione professionale? In definitiva, la scelta delle unità, dei trattamenti e dei risultati dovrebbe essere guidata dagli obiettivi scientifici e politici dello studio.
Date le scelte di unità, trattamenti e potenziali esiti, l'effetto causale del trattamento sulla persona \(i\) , \(\tau_i\) , è
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
In altre parole, confrontiamo quanto persona \(i\) sarebbe guadagnato dopo aver scontato quanto persona \(i\) avrebbe guadagnato senza servire. Per me, eq. 2.1 è il modo più chiaro per definire un effetto causale, e sebbene estremamente semplice, questo quadro risulta generalizzabile in molti modi importanti e interessanti (Imbens and Rubin 2015) .
Quando utilizzo il quadro dei risultati potenziali, trovo spesso utile scrivere una tabella che mostri i risultati potenziali e gli effetti del trattamento per tutte le unità (tabella 2.5). Se non si è in grado di immaginare una tabella come questa per il proprio studio, potrebbe essere necessario essere più precisi nelle definizioni delle proprie unità, trattamenti e risultati potenziali.
Persona | Guadagni in condizioni di trattamento | Guadagni in condizioni di controllo | Effetto del trattamento |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Significare | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Tuttavia, quando definiamo l'effetto causale in questo modo, ci imbattiamo in un problema. In quasi tutti i casi, non siamo in grado di osservare entrambi i potenziali risultati. Cioè, una persona specifica è servita o non ha servito. Pertanto, osserviamo uno dei possibili esiti- \(Y_i(1)\) o \(Y_i(0)\) -ma non entrambi. L'incapacità di osservare entrambi i potenziali risultati è un problema così grave che Holland (1986) definito il problema fondamentale dell'inferenza causale .
Fortunatamente, quando facciamo ricerche, non abbiamo solo una persona; piuttosto, abbiamo molte persone e questo offre un modo per aggirare il problema fondamentale dell'inferenza causale. Invece di tentare di stimare l'effetto del trattamento a livello individuale, possiamo stimare l' effetto del trattamento medio per tutte le unità:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Questa equazione è ancora espressa in termini di \(\tau_i\) , che sono inosservabili, ma con qualche algebra (eq 2.8 di Gerber and Green (2012) ), otteniamo
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Questo dimostra che se possiamo stimare l'esito medio della popolazione in trattamento ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) e l'esito medio della popolazione sotto controllo ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), quindi possiamo stimare l'effetto del trattamento medio, anche senza stimare l'effetto del trattamento per una particolare persona.
Ora che ho definito la nostra stima e la cosa che stiamo cercando di stimare, mi rivolgerò a come possiamo effettivamente stimarla con i dati. E qui affrontiamo direttamente il problema che osserviamo solo uno dei potenziali risultati per ogni persona; vediamo \(Y_i(0)\) o \(Y_i(1)\) (tabella 2.6). Potremmo stimare l'effetto del trattamento medio confrontando i guadagni delle persone che sono servite ai guadagni delle persone che non hanno servito:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
dove \(N_t\) e \(N_c\) sono il numero di persone nelle condizioni di trattamento e controllo. Questo approccio funzionerà bene se l'assegnazione del trattamento è indipendente dai risultati potenziali, una condizione a volte chiamata ignorabilità . Sfortunatamente, in assenza di un esperimento, l'ignorabilità non è spesso soddisfatta, il che significa che lo stimatore nell'eq. 2.4 non è in grado di produrre una buona stima. Un modo per pensarci è che, in assenza dell'assegnazione casuale del trattamento, eq. 2.4 non si confronta come con simili; sta confrontando i guadagni di diversi tipi di persone. O espresso leggermente diverso, senza assegnazione casuale del trattamento, l'allocazione del trattamento è probabilmente correlata a potenziali risultati.
Nel capitolo 4 descriverò in che modo gli esperimenti controllati randomizzati possono aiutare i ricercatori a fare stime causali, e qui descriverò come i ricercatori possono trarre vantaggio da esperimenti naturali, come la bozza della lotteria.
Persona | Guadagni in condizioni di trattamento | Guadagni in condizioni di controllo | Effetto del trattamento |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Significare | ? | ? | ? |
Esperimenti naturali
Un approccio per fare stime causali senza eseguire un esperimento è cercare qualcosa che accade nel mondo che ha assegnato a caso un trattamento per te. Questo approccio è chiamato esperimenti naturali . In molte situazioni, purtroppo, la natura non consegna in modo casuale il trattamento che si desidera alla popolazione di interesse. Ma a volte, la natura fornisce a caso un trattamento correlato. In particolare, prenderò in considerazione il caso in cui vi è un trattamento secondario che incoraggia le persone a ricevere il trattamento primario . Ad esempio, il progetto potrebbe essere considerato un trattamento secondario assegnato in modo casuale che ha incoraggiato alcune persone a prendere il trattamento primario, che stava servendo nell'esercito. Questo design è talvolta chiamato un design di incoraggiamento . E il metodo di analisi che descriverò per gestire questa situazione è talvolta chiamato variabili strumentali . In questo contesto, con alcune ipotesi, i ricercatori possono usare l'incoraggiamento per conoscere l'effetto del trattamento primario per un particolare sottoinsieme di unità.
Per gestire i due diversi trattamenti - l'incoraggiamento e il trattamento principale - abbiamo bisogno di qualche nuova notazione. Supponiamo che alcune persone siano disegnate a caso ( \(Z_i = 1\) ) o non siano state redatte ( \(Z_i = 0\) ); in questa situazione, \(Z_i\) è talvolta chiamato uno strumento .
Tra coloro che sono stati arruolati, alcuni hanno servito ( \(Z_i = 1, W_i = 1\) ) e altri no ( \(Z_i = 1, W_i = 0\) ). Allo stesso modo, tra quelli che non sono stati arruolati, alcuni hanno servito ( \(Z_i = 0, W_i = 1\) ) e altri no ( \(Z_i = 0, W_i = 0\) ). I potenziali risultati per ogni persona possono ora essere espansi per mostrare il loro status sia per l'incoraggiamento che per il trattamento. Ad esempio, sia \(Y(1, W_i(1))\) siano le entrate della persona \(i\) se è stato redatto, dove \(W_i(1)\) è il suo stato di servizio se redatto. Inoltre, possiamo suddividere la popolazione in quattro gruppi: costruttori, mai-catturanti, deterrenti e sempre acquirenti (tabella 2.7).
genere | Servizio se redatto | Servizio se non redatto |
---|---|---|
compliers | Sì, \(W_i(Z_i=1) = 1\) | No, \(W_i(Z_i=0) = 0\) |
Mai-acquirenti | No, \(W_i(Z_i=1) = 0\) | No, \(W_i(Z_i=0) = 0\) |
Defiers | No, \(W_i(Z_i=1) = 0\) | Sì, \(W_i(Z_i=0) = 1\) |
Sempre-acquirenti | Sì, \(W_i(Z_i=1) = 1\) | Sì, \(W_i(Z_i=0) = 1\) |
Prima di discutere la stima dell'effetto del trattamento (ad es. Il servizio militare), possiamo prima definire due effetti dell'incoraggiamento (cioè essere redatti). In primo luogo, possiamo definire l'effetto dell'incoraggiamento sul trattamento primario. Secondo, possiamo definire l'effetto dell'incoraggiamento sul risultato. Risulterà che questi due effetti possono essere combinati per fornire una stima dell'effetto del trattamento su un gruppo specifico di persone.
Primo, l'effetto dell'incoraggiamento sul trattamento può essere definito per la persona \(i\) come
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Inoltre, questa quantità può essere definita sull'intera popolazione come
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Infine, possiamo stimare \(\text{ITT} _{W}\) usando i dati:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
dove \(\bar{W}^{\text{obs}}_1\) è il tasso di trattamento osservato per coloro che sono stati incoraggiati e \(\bar{W}^{\text{obs}}_0\) è il tasso osservato di trattamento per coloro che non sono stati incoraggiati. \(\text{ITT}_W\) è anche a volte chiamato il tasso di assorbimento .
Successivamente, l'effetto dell'incoraggiamento sul risultato può essere definito per persona \(i\) come:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Inoltre, questa quantità può essere definita sull'intera popolazione come
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Infine, possiamo stimare \(\text{ITT}_{Y}\) usando i dati:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
dove \(\bar{Y}^{\text{obs}}_1\) è il risultato osservato (ad es. guadagni) per coloro che sono stati incoraggiati (ad esempio, redatti) e \(\bar{W}^{\text{obs}}_0\) è l'esito osservato per coloro che non sono stati incoraggiati.
Infine, rivolgiamo la nostra attenzione all'effetto dell'interesse: l'effetto del trattamento primario (ad esempio, il servizio militare) sul risultato (ad es. Guadagni). Sfortunatamente, si scopre che non si può, in generale, stimare questo effetto su tutte le unità. Tuttavia, con alcune supposizioni, i ricercatori possono stimare l'effetto del trattamento sui costrittori (cioè, persone che serviranno se redatte e persone che non serviranno se non redatte, tabella 2.7). Chiamerò questa stima e l' effetto causale medio del compilatore (CACE) (che a volte è anche chiamato effetto del trattamento medio locale , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
dove \(G_i\) dona il gruppo di persone \(i\) (vedi tabella 2.7) e \(N_{\text{co}}\) è il numero di compilatori. In altre parole, eq. 2.11 confronta i guadagni dei costruttori che sono abbozzati \(Y_i(1, W_i(1))\) e non \(Y_i(0, W_i(0))\) . Lo stimand in eq. 2.11 sembra difficile stimare dai dati osservati perché non è possibile identificare i costruttori utilizzando solo i dati osservati (per sapere se qualcuno è un compilatore, è necessario osservare se ha prestato servizio quando è stato redatto e se ha prestato servizio quando non è stato redatto).
Risulta, in qualche modo sorprendentemente, che se ci sono dei costrittori, allora se ne danno tre ulteriori presupposti, è possibile stimare CACE dai dati osservati. Primo, si deve supporre che l'assegnazione al trattamento sia casuale. Nel caso della lotteria draft questo è ragionevole. Tuttavia, in alcune situazioni in cui gli esperimenti naturali non si basano sulla randomizzazione fisica, questa ipotesi potrebbe essere più problematica. In secondo luogo, si deve presumere che i loro non siano fattori di deformazione (questa ipotesi è talvolta definita anche monotonicità). Nel contesto della bozza sembra ragionevole presumere che ci siano pochissime persone che non serviranno se redatte e serviranno se non saranno redatte. Terzo, e infine, arriva l'assunto più importante che è chiamato la restrizione di esclusione . Sotto la restrizione di esclusione, si deve assumere che tutti gli effetti dell'assegnazione del trattamento siano passati attraverso il trattamento stesso. In altre parole, si deve supporre che non vi sia alcun effetto diretto di incoraggiamento sui risultati. Nel caso del progetto di lotteria, ad esempio, è necessario assumere che lo stato di bozza non ha alcun effetto sui guadagni diversi dal servizio militare (figura 2.11). La limitazione di esclusione potrebbe essere violata se, per esempio, le persone redatte trascorressero più tempo a scuola per evitare il servizio o se i datori di lavoro avessero meno probabilità di assumere persone che erano state arruolate.
Se queste tre condizioni (assegnazione casuale al trattamento, nessun deferimento e limitazione di esclusione) sono soddisfatte, allora
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
quindi possiamo stimare CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Un modo per pensare a CACE è che è la differenza nei risultati tra coloro che sono stati incoraggiati e quelli non incoraggiati, gonfiati dal tasso di assorbimento.
Ci sono due avvertenze importanti da tenere a mente. In primo luogo, la restrizione di esclusione è un presupposto forte e deve essere giustificata caso per caso, il che spesso richiede esperienza in materia. La restrizione di esclusione non può essere giustificata con la randomizzazione dell'incoraggiamento. Secondo, una sfida pratica comune con l'analisi delle variabili strumentali arriva quando l'incoraggiamento ha scarso effetto sull'assorbimento del trattamento (quando \(\text{ITT}_W\) è piccolo). Questo è definito uno strumento debole e porta a una serie di problemi (Imbens and Rosenbaum 2005; Murray 2006) . Un modo per pensare al problema con strumenti deboli è che \(\widehat{\text{CACE}}\) può essere sensibile ai piccoli pregiudizi in \(\widehat{\text{ITT}_Y}\) -potenzialmente a causa di violazioni della restrizione di esclusione - perché questi pregiudizi vengono amplificati da un piccolo \(\widehat{\text{ITT}_W}\) (vedere eq. 2.13). Approssimativamente, se il trattamento che la natura assegna non ha un grande impatto sul trattamento a cui tieni, allora avrai difficoltà a conoscere il trattamento che ti interessa.
Vedi i capitoli 23 e 24 di Imbens and Rubin (2015) per una versione più formale di questa discussione. L'approccio econometrico tradizionale alle variabili strumentali è tipicamente espresso in termini di stima delle equazioni, non di potenziali risultati. Per un'introduzione da questa altra prospettiva, vedi Angrist and Pischke (2009) , e per un confronto tra i due approcci, vedere la sezione 24.6 di Imbens and Rubin (2015) . Una presentazione alternativa, leggermente meno formale, dell'approccio delle variabili strumentali è fornita nel capitolo 6 di Gerber and Green (2012) . Per ulteriori informazioni sulla restrizione di esclusione, vedi D. Jones (2015) . Aronow and Carnegie (2013) descrivono un'ulteriore serie di ipotesi che possono essere utilizzate per stimare l'ATE piuttosto che CACE. Per ulteriori informazioni su come gli esperimenti naturali possono essere molto difficili da interpretare, vedi Sekhon and Titiunik (2012) . Per un'introduzione più generale agli esperimenti naturali - uno che va oltre l'approccio delle variabili strumentali per includere anche disegni come la discontinuità della regressione - vedi Dunning (2012) .