I dette bilag vil jeg opsummere nogle ideer om at skabe årsagssammenhæng fra ikke-eksperimentelle data i en lidt mere matematisk form. Der er to hovedmetoder: Kausalt diagramrammen, der er mest forbundet med Judea Pearl og kolleger, og den potentielle rammevilkår, der er mest forbundet med Donald Rubin og kolleger. Jeg vil introducere den potentielle rammestruktur, fordi den er tættere forbundet med ideerne i de matematiske noter i slutningen af kapitel 3 og 4. For mere om rammerne for Pearl, Glymour, and Jewell (2016) anbefaler jeg Pearl, Glymour, and Jewell (2016) (indledende ) og Pearl (2009) (avanceret). For en boglængsbehandling af årsagssammenhæng, der kombinerer det potentielle rammemål og rammebetingelsen for årsagsrammer, anbefaler jeg Morgan and Winship (2014) .
Målet med dette bilag er at hjælpe dig med at blive fortrolig med notationen og stilen i den potentielle udfaldstradition, så du kan overgå til nogle af de mere tekniske materiale, der er skrevet om dette emne. For det første vil jeg beskrive den potentielle rammevalg. Derefter vil jeg bruge den til yderligere at diskutere naturlige eksperimenter som den af Angrist (1990) om virkningen af militærtjeneste på indtjeningen. Dette bilag trækker stærkt på Imbens and Rubin (2015) .
Potentielle resultater ramme
Den potentielle ramme for udfald har tre hovedelementer: enheder , behandlinger og potentielle resultater . For at illustrere disse elementer, lad os overveje en stiliseret version af spørgsmålet adresseret i Angrist (1990) : Hvad er virkningen af militærtjeneste på indtjening? I dette tilfælde kan vi definere enhederne for at være personer, der er berettiget til udkastet fra 1970 i USA, og vi kan indeksere disse mennesker ved \(i = 1, \ldots, N\) . Behandlingerne i dette tilfælde kan være "tjene i militæret" eller "ikke tjene i militæret." Jeg kalder disse behandlings- og kontrolbetingelserne, og jeg vil skrive \(W_i = 1\) hvis personen \(i\) er i behandlingsbetingelsen og \(W_i = 0\) hvis personen \(i\) er i kontroltilstanden. Endelig er de potentielle resultater lidt mere konceptuelt vanskelige, fordi de involverer "potentielle" resultater; ting der kunne have været sket. For hver person, der er berettiget til udkastet til 1970, kan vi forestille os det beløb, de ville have tjent i 1978, hvis de tjente i militæret, som jeg vil kalde \(Y_i(1)\) og det beløb, de ville have tjent i 1978, hvis de ikke tjente i militæret, som jeg vil kalde \(Y_i(0)\) . I den potentielle resultatramme \(Y_i(1)\) og \(Y_i(0)\) som faste mængder, mens \(W_i\) er en tilfældig variabel.
Valget af enheder, behandlinger og resultater er kritisk, fordi det definerer, hvad der kan og ikke kan læres af undersøgelsen. Valget af enheder - personer, der er berettiget til udkastet til 1970 - omfatter ikke kvinder, og uden yderligere antagelser vil denne undersøgelse ikke fortælle os noget om virkningen af militærtjeneste på kvinder. Beslutninger om hvordan man definerer behandlinger og resultater er også vigtige. For eksempel bør behandlingen af interesse være fokuseret på at tjene i militæret eller opleve kamp? Skal udfaldet af interesse være indtjening eller jobtilfredshed? I sidste ende bør valget af enheder, behandlinger og resultater styres af undersøgelsens videnskabelige og politiske mål.
I betragtning af valg af enheder, behandlinger og potentielle resultater er årsagssammenhængen af behandlingen på person \(i\) , \(\tau_i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Med andre ord sammenligner vi, hvor meget person \(i\) ville have tjent efter at have tjent til, hvor meget person \(i\) ville have tjent uden at tjene. For mig, eq. 2.1 er den klareste måde at definere en årsagssammenhæng på, og selvom det er ekstremt enkelt, viser denne ramme sig til generaliserbar på mange vigtige og interessante måder (Imbens and Rubin 2015) .
Når jeg bruger den potentielle rammeværdi, finder jeg det ofte nyttigt at skrive et bord, der viser de potentielle resultater og behandlingseffekterne for alle enheder (tabel 2.5). Hvis du ikke kan forestille dig et bord som dette til din undersøgelse, skal du muligvis være mere præcis i dine definitioner af dine enheder, behandlinger og potentielle resultater.
Person | Indtjening i behandlingsbetingelser | Indtjening i kontrol tilstand | Behandlingseffekt |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Betyde | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Når vi definerer årsagseffekten på denne måde, løber vi imidlertid ind i et problem. I næsten alle tilfælde kommer vi ikke til at observere begge potentielle resultater. Det vil sige, at en bestemt person enten tjente eller ikke tjente. Derfor observerer vi et af de mulige resultater - \(Y_i(1)\) eller \(Y_i(0)\) - men ikke begge. Manglende evne til at observere begge potentielle resultater er et så stort problem, at Holland (1986) kaldte det grundlæggende problem med årsagssammenhæng .
Heldigvis, når vi laver forskning, har vi ikke kun én person; Vi har hellere mange mennesker, og det giver en vej rundt om det grundlæggende problem med årsagssammenhæng. I stedet for at forsøge at estimere individuel behandlingseffekt kan vi estimere den gennemsnitlige behandlingseffekt for alle enheder:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Denne ligning udtrykkes stadig i forhold til \(\tau_i\) , som ikke kan observeres, men med noget algebra (eq 2.8 af Gerber and Green (2012) ) får vi
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Dette viser, at hvis vi kan estimere befolkningens gennemsnitlige resultat under behandling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) og befolkningens gennemsnitlige resultat under kontrol ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) , så kan vi estimere den gennemsnitlige behandlingseffekt, selv uden at estimere behandlingseffekten for en bestemt person.
Nu hvor jeg har defineret vores estimat - den ting, vi forsøger at estimere - jeg tænker på, hvordan vi faktisk kan estimere det med data. Og her løber vi direkte ind i problemet, at vi kun observerer et af de mulige resultater for hver person; vi ser enten \(Y_i(0)\) eller \(Y_i(1)\) (tabel 2.6). Vi kunne estimere den gennemsnitlige behandlingseffekt ved at sammenligne indtjeningen hos personer, der tjente til indtjeningen hos personer, der ikke tjente:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
hvor \(N_t\) og \(N_c\) er antallet af mennesker i behandlings- og kontrolforholdene. Denne tilgang vil fungere godt, hvis behandlingsopgaven er uafhængig af mulige resultater, en tilstand, der undertiden kaldes ignorabilitet . Uheldigvis er der i mangel af et eksperiment ofte uundgåelig tilfredshed, hvilket betyder, at estimatoren i eq. 2.4 er ikke sandsynligt at producere et godt skøn. En måde at tænke på er, at i mangel af tilfældig tildeling af behandling, eq. 2,4 sammenligner ikke som med lignende; det sammenligner indtjeningen af forskellige slags mennesker. Eller udtrykt lidt anderledes, uden tilfældig tildeling af behandling, er behandlingsallokeringen sandsynligvis relateret til potentielle resultater.
I kapitel 4 beskriver jeg, hvordan randomiserede, kontrollerede eksperimenter kan hjælpe forskere med at lave årsagssammenligninger, og her beskriver jeg hvordan forskere kan udnytte naturlige eksperimenter, såsom udkastet til lotteri.
Person | Indtjening i behandlingsbetingelser | Indtjening i kontrol tilstand | Behandlingseffekt |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Betyde | ? | ? | ? |
Naturlige forsøg
En tilgang til at fremstille kausal estimater uden at køre et eksperiment er at søge efter noget der sker i verden, der tilfældigt har tildelt en behandling for dig. Denne tilgang kaldes naturlige eksperimenter . I mange situationer lever naturligvis ikke tilfældigt den behandling, som du vil interessere befolkningen. Men nogle gange lever naturen tilfældigt en relateret behandling. Jeg vil især overveje det tilfælde, hvor der er nogen sekundær behandling, der opfordrer folk til at modtage den primære behandling . Udkastet kunne for eksempel betragtes som en tilfældigt tildelt sekundær behandling, der opfordrede nogle mennesker til at tage den primære behandling, som tjente i militæret. Dette design kaldes nogle gange et opmuntringsdesign . Og analysemetoden, som jeg beskriver for at håndtere denne situation, kaldes nogle gange instrumentelle variabler . I denne indstilling kan forskere med nogle antagelser bruge opmuntringen til at lære om virkningen af den primære behandling for en bestemt delmængde af enheder.
For at kunne håndtere de to forskellige behandlinger - opmuntringen og den primære behandling - har vi brug for en ny notation. Antag at nogle mennesker er tilfældigt udarbejdet ( \(Z_i = 1\) ) eller ikke udarbejdet ( \(Z_i = 0\) ); I denne situation kaldes \(Z_i\) nogle gange et instrument .
Blandt dem, der blev udarbejdet, tjente nogle ( \(Z_i = 1, W_i = 1\) ) og nogle ikke ( \(Z_i = 1, W_i = 0\) ). På samme måde var blandt dem, der ikke blev udarbejdet, nogle tjente ( \(Z_i = 0, W_i = 1\) ) og nogle ikke ( \(Z_i = 0, W_i = 0\) ). De potentielle resultater for hver person kan nu udvides for at vise deres status for både opmuntring og behandling. For eksempel, lad \(Y(1, W_i(1))\) være indtjeningen for person \(i\) hvis han blev udarbejdet, hvor \(W_i(1)\) er hans servicestatus, hvis han er udarbejdet. Desuden kan vi opdele befolkningen i fire grupper: komplikatorer, aldrig-takers, defiers og altid-takers (tabel 2.7).
Type | Service hvis udarbejdet | Service, hvis ikke udarbejdet |
---|---|---|
compliers | Ja, \(W_i(Z_i=1) = 1\) | Nej, \(W_i(Z_i=0) = 0\) |
Aldrig-gaverne | Nej, \(W_i(Z_i=1) = 0\) | Nej, \(W_i(Z_i=0) = 0\) |
Defiers | Nej, \(W_i(Z_i=1) = 0\) | Ja, \(W_i(Z_i=0) = 1\) |
Altid-gaverne | Ja, \(W_i(Z_i=1) = 1\) | Ja, \(W_i(Z_i=0) = 1\) |
Før vi diskuterer vurderingen af effekten af behandlingen (dvs. militærtjenesten), kan vi først definere to virkninger af opmuntringen (dvs. at blive udarbejdet). For det første kan vi definere effekten af opmuntringen på den primære behandling. For det andet kan vi definere effekten af opmuntringen på resultatet. Det vil vise sig, at disse to effekter kan kombineres for at give et skøn over effekten af behandlingen på en bestemt gruppe mennesker.
For det første kan effekten af opmuntringen på behandling defineres for person \(i\) som
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Endvidere kan denne mængde defineres over hele befolkningen som
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Endelig kan vi estimere \(\text{ITT} _{W}\) ved hjælp af data:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
hvor \(\bar{W}^{\text{obs}}_1\) er den observerede behandlingshastighed for dem, der blev opmuntret, og \(\bar{W}^{\text{obs}}_0\) er den observerede behandlingshastighed for dem, der ikke blev opmuntret. \(\text{ITT}_W\) kaldes også undertiden optagelsesfrekvensen .
Dernæst kan effekten af opmuntringen på resultatet defineres for person \(i\) som:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Endvidere kan denne mængde defineres over hele befolkningen som
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Endelig kan vi estimere \(\text{ITT}_{Y}\) ved hjælp af data:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
hvor \(\bar{Y}^{\text{obs}}_1\) er det observerede resultat (fx indtjening) for dem, der blev opfordret (f.eks. udarbejdet) og \(\bar{W}^{\text{obs}}_0\) er det observerede resultat for dem, der ikke blev opmuntret.
Endelig gør vi opmærksom på virkningen af interesse: virkningen af den primære behandling (f.eks. Militærtjeneste) på resultatet (fx indtjening). Desværre viser det sig, at man generelt ikke kan estimere denne effekt på alle enheder. Imidlertid kan forskere med nogle antagelser vurdere virkningen af behandlingen på komplikatorer (dvs. personer, der tjener hvis udarbejdet og personer, der ikke vil tjene, hvis de ikke udarbejdes, tabel 2.7). Jeg kalder dette estimat for den gennemsnitlige kausale effekt (CACE) (som også kaldes også den lokale gennemsnitlige behandlingseffekt , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
hvor \(G_i\) donerer gruppen af person \(i\) (se tabel 2.7) og \(N_{\text{co}}\) er antallet af komplikatorer. Med andre ord, eq. 2.11 sammenligner indtjeningen for de komparatorer, der udarbejdes \(Y_i(1, W_i(1))\) og ikke udarbejdet \(Y_i(0, W_i(0))\) . Estimatet i eq. 2.11 synes svært at estimere ud fra observerede data, fordi det ikke er muligt at identificere komplikatorer ved hjælp af kun observerede data (for at vide, om nogen er complier, skal du overveje, om han tjente, da han blev udarbejdet og om han tjente, da han ikke blev udarbejdet).
Det viser sig - noget overraskende - at hvis der er nogen komplikatorer, så er det forudsat at man laver tre yderligere antagelser, er det muligt at estimere CACE fra observerede data. For det første må man antage, at opgaven til behandling er tilfældig. I tilfælde af udkastet til lotteri er dette rimeligt. I nogle indstillinger, hvor naturlige forsøg ikke er afhængige af fysisk randomisering, kan denne antagelse imidlertid være mere problematisk. For det andet må man antage, at de ikke er defiers (denne antagelse kaldes også undertiden monotonicitetsforudsætningen). I forbindelse med udkastet forekommer det rimeligt at antage, at der er meget få mennesker, der ikke vil tjene, hvis de udarbejdes og vil tjene, hvis de ikke udarbejdes. For det tredje kommer den vigtigste antagelse, der kaldes udelukkelsesbegrænsningen . Under udelukkelsesbegrænsningen må man antage, at hele effekten af behandlingsopgaven passerer gennem selve behandlingen. Med andre ord må man antage, at der ikke er nogen direkte effekt af opmuntring på resultater. I tilfælde af udkastet til lotteri skal man for eksempel antage, at udkastet status ikke har nogen indflydelse på indtjening udover militærtjeneste (figur 2.11). Udelukkelsesbegrænsningen kan krænkes, hvis for eksempel personer, der blev udarbejdet, brugte mere tid på skolen for at undgå service, eller hvis arbejdsgiverne ikke var tilbøjelige til at ansætte folk, der blev udarbejdet.
Hvis disse tre betingelser (tilfældig tildeling til behandling, ingen defiers og udelukkelsesbegrænsningen) er opfyldt, så
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
så vi kan estimere CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
En måde at tænke på CACE er, at det er forskellen i resultater mellem dem, der blev opfordret og dem, der ikke blev opmuntret, oppustet af optagelseshastigheden.
Der er to vigtige advarsler at huske på. For det første er udelukkelsesbegrænsningen en stærk antagelse, og det skal være berettiget fra sag til sag, hvilket ofte kræver faglig ekspertise. Undtagelsesbegrænsningen kan ikke begrundes med en randomisering af opmuntringen. For det andet kommer en fælles praktisk udfordring med instrumental variabel analyse, når opmuntringen har ringe effekt på behandlingens optagelse (når \(\text{ITT}_W\) er lille). Dette kaldes et svagt instrument , og det fører til en række problemer (Imbens and Rosenbaum 2005; Murray 2006) . En måde at tænke på problemet med svage instrumenter er at \(\widehat{\text{CACE}}\) kan være følsomt for små forstyrrelser i \(\widehat{\text{ITT}_Y}\) overtrædelser af ekskluderingsbegrænsningen - fordi disse forstyrrelser forstørres af en lille \(\widehat{\text{ITT}_W}\) (se ækv. 2.13). Omhyggeligt, hvis den behandling, som naturen tildeler, ikke har stor indflydelse på den behandling, du bekymrer dig om, så har du svært ved at lære om den behandling, du bekymrer dig om.
Se kapitel 23 og 24 i Imbens and Rubin (2015) for en mere formel version af denne diskussion. Den traditionelle økonometriske tilgang til instrumentelle variabler udtrykkes typisk i form af estimering af ligninger, ikke potentielle resultater. For en introduktion fra dette andet perspektiv, se Angrist and Pischke (2009) , og for en sammenligning mellem de to fremgangsmåder, se afsnit 24.6 i Imbens and Rubin (2015) . En alternativ, lidt mindre formel præsentation af instrumentelle variabler tilgangen findes i kapitel 6 i Gerber and Green (2012) . For mere om udelukkelsesbegrænsningen, se D. Jones (2015) . Aronow and Carnegie (2013) beskriver et yderligere sæt antagelser, der kan bruges til at estimere ATE frem for CACE. For mere om, hvordan naturlige eksperimenter kan være meget vanskelige at fortolke, se Sekhon and Titiunik (2012) . For en mere generel introduktion til naturlige eksperimenter-en der går ud over kun instrumentelle variabler tilgang til også at omfatte design som regression diskontinuitet-se Dunning (2012) .