In deze bijlage zal ik enkele ideeën samenvatten over het maken van causale gevolgtrekkingen uit niet-experimentele gegevens in een iets meer wiskundige vorm. Er zijn twee hoofdbenaderingen: het causale grafiekraamwerk, het meest geassocieerd met Judea Pearl en collega's, en het potentieel outcomesraamwerk, het meest geassocieerd met Donald Rubin en collega's. Ik zal het raamwerk voor mogelijke resultaten introduceren omdat het nauwer verbonden is met de ideeën in de wiskundige notities aan het einde van hoofdstuk 3 en 4. Voor meer informatie over het raamwerk van causale grafieken, raad ik Pearl, Glymour, and Jewell (2016) (inleidend ) en Pearl (2009) (geavanceerd). Voor een boek-lengte behandeling van causale gevolgtrekking die het potentiële uitkomsten-raamwerk en het causale grafiek-raamwerk combineert, raad ik Morgan and Winship (2014) .
Het doel van deze appendix is om je te helpen vertrouwd te raken met de notatie en stijl van de potentiële uitkomstentraditie, zodat je kunt overstappen naar een deel van het meer technische materiaal dat over dit onderwerp is geschreven. Eerst zal ik het framework voor mogelijke resultaten beschrijven. Vervolgens zal ik het gebruiken om natuurlijke experimenten zoals die van Angrist (1990) over het effect van de militaire dienst op de inkomsten verder te bespreken. Deze bijlage is sterk afhankelijk van Imbens and Rubin (2015) .
Potentiële uitkomsten raamwerk
Het raamwerk voor mogelijke resultaten kent drie hoofdelementen: eenheden , behandelingen en mogelijke resultaten . Laten we om deze elementen te illustreren een gestileerde versie van de vraag behandelen die in Angrist (1990) aan de orde is: wat is het effect van militaire dienst op de inkomsten? In dit geval kunnen we de eenheden definiëren als mensen die in aanmerking komen voor het concept uit 1970 in de Verenigde Staten, en we kunnen deze mensen indexeren met \(i = 1, \ldots, N\) . De behandelingen in dit geval kunnen 'dienen in het leger' of 'niet dienen in het leger'. Ik noem dit de behandelings- en controlevoorwaarden en ik schrijf \(W_i = 1\) als persoon \(i\) bevindt zich in de behandelingsconditie en \(W_i = 0\) als persoon \(i\) zich in de controleconditie bevindt. Ten slotte zijn de mogelijke resultaten wat conceptueel moeilijker omdat ze betrekking hebben op "potentiële" resultaten; dingen die kunnen zijn gebeurd. Voor elke persoon die in aanmerking komt voor het ontwerp van 1970, kunnen we ons het bedrag voorstellen dat ze in 1978 zouden hebben verdiend als ze in het leger zouden hebben gediend, wat ik zal noemen \(Y_i(1)\) , en het bedrag dat ze zouden hebben verdiend in 1978 als ze niet in het leger dienden, wat ik zal noemen \(Y_i(0)\) . In het framework voor mogelijke resultaten worden \(Y_i(1)\) en \(Y_i(0)\) als vaste hoeveelheden beschouwd, terwijl \(W_i\) een willekeurige variabele is.
De keuze van eenheden, behandelingen en uitkomsten is van cruciaal belang omdat het bepaalt wat wel en wat niet van het onderzoek kan worden geleerd. De keuze van eenheden - mensen die in aanmerking komen voor het ontwerp van 1970 - omvat geen vrouwen, en dus zonder aanvullende aannames, zal deze studie ons niets vertellen over het effect van militaire dienst op vrouwen. Beslissingen over het definiëren van behandelingen en uitkomsten zijn ook belangrijk. Moet de behandeling van rente bijvoorbeeld gericht zijn op dienen in het leger of het ervaren van gevechten? Moet de uitkomst van rente inkomsten of werkplezier zijn? Uiteindelijk moet de keuze van eenheden, behandelingen en uitkomsten worden gestuurd door de wetenschappelijke en beleidsdoelen van het onderzoek.
Gezien de keuzes van eenheden, behandelingen en mogelijke uitkomsten, is het causale effect van de behandeling op persoon \(i\) , \(\tau_i\) ,
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Met andere woorden, we vergelijken hoeveel persoon \(i\) zou hebben verdiend na het dienen van hoeveel persoon \(i\) zou hebben verdiend zonder te dienen. Voor mij, eq. 2.1 is de duidelijkste manier om een causaal effect te definiëren, en hoewel uiterst eenvoudig, blijkt dit raamwerk op veel belangrijke en interessante manieren te generaliseren (Imbens and Rubin 2015) .
Wanneer ik het raamwerk voor mogelijke resultaten gebruik, vind ik het vaak nuttig om een tabel op te stellen met de mogelijke uitkomsten en de behandelingseffecten voor alle eenheden (tabel 2.5). Als je je een tafel als deze niet kunt voorstellen voor je studie, moet je misschien nauwkeuriger zijn in je definities van je eenheden, behandelingen en mogelijke uitkomsten.
Persoon | Inkomsten in behandelingstoestand | Inkomsten in controleconditie | Behandelingseffect |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Gemiddelde | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Bij het definiëren van het causale effect op deze manier komen we echter een probleem tegen. In bijna alle gevallen kunnen we beide mogelijke uitkomsten niet waarnemen. Dat wil zeggen, een specifieke persoon diende of diende niet. Daarom observeren we een van de mogelijke uitkomsten- \(Y_i(1)\) of \(Y_i(0)\) maar niet allebei. Het onvermogen om beide mogelijke uitkomsten te observeren is zo'n groot probleem dat Holland (1986) het Fundamental Problem of Causal Inference noemde.
Gelukkig hebben we, als we onderzoek doen, niet slechts één persoon; veeleer, we hebben veel mensen, en dit biedt een manier om het Fundamentele Probleem van Causale Inferentie te omzeilen. In plaats van te proberen het behandeleffect op individueel niveau te schatten, kunnen we het gemiddelde behandelingseffect voor alle eenheden schatten:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Deze vergelijking wordt nog steeds uitgedrukt in termen van de \(\tau_i\) , die niet waarneembaar zijn, maar met wat algebra (vergelijk 2.8 van Gerber and Green (2012) ), krijgen we
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Dit toont aan dat als we de populatiegemiddelde uitkomst onder behandeling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) en de populatiegemiddelde uitkomst onder controle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), dan kunnen we het gemiddelde behandelingseffect schatten, zelfs zonder het behandeleffect voor een bepaalde persoon in te schatten.
Nu ik onze schatting heb gedefinieerd - het ding dat we proberen in te schatten - zal ik kijken naar hoe we het met gegevens kunnen schatten. En hier lopen we rechtstreeks in op het probleem dat we alleen een van de mogelijke uitkomsten voor elke persoon waarnemen; we zien ofwel \(Y_i(0)\) of \(Y_i(1)\) (tabel 2.6). We zouden het gemiddelde behandelingseffect kunnen schatten door de inkomsten van mensen die dienden te betalen aan de inkomsten van mensen die niet dienden:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
waarbij \(N_t\) en \(N_c\) de aantallen mensen in de behandelings- en controlevoorwaarden zijn. Deze aanpak zal goed werken als de behandelingstaak onafhankelijk is van mogelijke uitkomsten, een aandoening die soms onwetendheid wordt genoemd . Helaas is bij gebrek aan een experiment vaak niet aan de onwetendheid voldaan, wat betekent dat de schatter in eq. 2.4 zal waarschijnlijk geen goede schatting opleveren. Een manier om erover na te denken is dat bij afwezigheid van willekeurige toewijzing van de behandeling, eq. 2.4 vergelijkt niet zoals met; het is het vergelijken van de inkomsten van verschillende soorten mensen. Of lichtjes anders uitgedrukt, zonder willekeurige toewijzing van de behandeling, hangt de toewijzing van de behandeling waarschijnlijk samen met mogelijke uitkomsten.
In hoofdstuk 4 beschrijf ik hoe gerandomiseerde gecontroleerde experimenten onderzoekers kunnen helpen bij het maken van causale schattingen, en hier zal ik beschrijven hoe onderzoekers kunnen profiteren van natuurlijke experimenten, zoals de loterij.
Persoon | Inkomsten in behandelingstoestand | Inkomsten in controleconditie | Behandelingseffect |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Gemiddelde | ? | ? | ? |
Natuurlijke experimenten
Een manier om oorzakelijke schattingen te maken zonder een experiment uit te voeren, is door te zoeken naar iets dat in de wereld gebeurt en dat willekeurig een behandeling voor u heeft toegewezen. Deze benadering wordt natuurlijke experimenten genoemd . In veel situaties levert de natuur helaas niet willekeurig de gewenste behandeling op voor de populatie van belang. Maar soms levert de natuur willekeurig een gerelateerde behandeling. In het bijzonder zal ik het geval overwegen waarbij er een secundaire behandeling is die mensen aanmoedigt om de primaire behandeling te krijgen . Het concept zou bijvoorbeeld kunnen worden beschouwd als een willekeurig toegewezen secundaire behandeling die sommige mensen aanmoedigde om de primaire behandeling te nemen, die in het leger diende. Dit ontwerp wordt soms een aanmoedigingsontwerp genoemd . En de analysemethode die ik zal beschrijven om met deze situatie om te gaan, wordt soms instrumentele variabelen genoemd . In deze setting, met enkele aannames, kunnen onderzoekers de aanmoediging gebruiken om meer te weten te komen over het effect van de primaire behandeling voor een bepaalde subset van eenheden.
Om de twee verschillende behandelingen - de aanmoediging en de primaire behandeling - aan te kunnen, hebben we een nieuwe notatie nodig. Stel dat sommige mensen willekeurig zijn opgesteld ( \(Z_i = 1\) ) of niet zijn opgesteld ( \(Z_i = 0\) ); in deze situatie wordt \(Z_i\) soms een instrument genoemd .
Van degenen die waren opgesteld, dienden sommigen ( \(Z_i = 1, W_i = 1\) ) en sommige niet ( \(Z_i = 1, W_i = 0\) ). Evenzo, van degenen die niet waren opgesteld, dienden sommigen ( \(Z_i = 0, W_i = 1\) ) en anderen niet ( \(Z_i = 0, W_i = 0\) ). De potentiële resultaten voor elke persoon kunnen nu worden uitgebreid om hun status te tonen voor zowel de aanmoediging als de behandeling. Laat bijvoorbeeld \(Y(1, W_i(1))\) de inkomsten zijn van persoon \(i\) als hij is opgesteld, waarbij \(W_i(1)\) zijn servicestatus is als deze is opgesteld. Verder kunnen we de populatie opdelen in vier groepen: completen, never-takers, defiers en always-takers (tabel 2.7).
Type | Service indien opgesteld | Service indien niet opgesteld |
---|---|---|
compliers | Ja, \(W_i(Z_i=1) = 1\) | Nee, \(W_i(Z_i=0) = 0\) |
Never-takers | Nee, \(W_i(Z_i=1) = 0\) | Nee, \(W_i(Z_i=0) = 0\) |
Defiers | Nee, \(W_i(Z_i=1) = 0\) | Ja, \(W_i(Z_i=0) = 1\) |
Always-takers | Ja, \(W_i(Z_i=1) = 1\) | Ja, \(W_i(Z_i=0) = 1\) |
Voordat we het schatten van het effect van de behandeling bespreken (maw militaire dienst), kunnen we eerst twee effecten van de aanmoediging definiëren (dat wil zeggen, opgesteld worden). Ten eerste kunnen we het effect van de aanmoediging op de primaire behandeling definiëren. Ten tweede kunnen we het effect van de aanmoediging op de uitkomst bepalen. Het zal blijken dat deze twee effecten kunnen worden gecombineerd om een schatting te geven van het effect van de behandeling op een specifieke groep mensen.
Ten eerste kan het effect van de aanmoediging op de behandeling worden gedefinieerd voor persoon \(i\) als
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Verder kan deze hoeveelheid worden gedefinieerd over de gehele populatie als
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Ten slotte kunnen we met behulp van gegevens: \(\text{ITT} _{W}\) schatten:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
waarbij \(\bar{W}^{\text{obs}}_1\) de waargenomen behandelingssnelheid is voor degenen die werden aangemoedigd en \(\bar{W}^{\text{obs}}_0\) is de waargenomen mate van behandeling voor degenen die niet werden aangemoedigd. \(\text{ITT}_W\) wordt ook wel de opnamesnelheid genoemd .
Vervolgens kan het effect van de aanmoediging op de uitkomst worden gedefinieerd voor persoon \(i\) als:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Verder kan deze hoeveelheid worden gedefinieerd over de gehele populatie als
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Ten slotte kunnen we een schatting maken van \(\text{ITT}_{Y}\) met behulp van gegevens:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
waarbij \(\bar{Y}^{\text{obs}}_1\) de waargenomen uitkomst (bijvoorbeeld inkomsten) is voor degenen die werden aangemoedigd (bijv. opgesteld) en \(\bar{W}^{\text{obs}}_0\) is het waargenomen resultaat voor degenen die niet werden aangemoedigd.
Ten slotte richten we onze aandacht op het effect van rente: het effect van de primaire behandeling (bijv. Militaire dienst) op de uitkomst (bijv. Inkomsten). Helaas is gebleken dat over het algemeen dit effect op alle eenheden niet kan worden geschat. Met enkele aannames kunnen onderzoekers echter het effect van de behandeling op hulpverleners inschatten (dwz mensen die dienen als ze worden opgesteld en mensen die niet zullen dienen als ze niet worden opgeroepen, tabel 2.7). Ik noem deze schatting en het gemiddelde causale effect van de comparator (CACE) (dat ook wel het lokale gemiddelde behandeleffect wordt genoemd , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
waarbij \(G_i\) de groep van personen \(i\) \(G_i\) doneert (zie tabel 2.7) en \(N_{\text{co}}\) is het aantal complianten. Met andere woorden, eq. 2.11 vergelijkt de inkomsten van complianten die zijn opgesteld \(Y_i(1, W_i(1))\) en niet opgesteld \(Y_i(0, W_i(0))\) . De schattingen in eq. 2.11 lijkt moeilijk in te schatten uit de geobserveerde gegevens, omdat het niet mogelijk is om compatibele uitlopers te identificeren met alleen geobserveerde gegevens (om te weten of iemand complier heeft, moet u nagaan of hij diende wanneer het werd opgesteld en of hij diende wanneer het niet werd opgesteld).
Het blijkt - enigszins verrassend - dat als er compatibiliteitsmeters zijn, dan mits er drie aanvullende aannames worden gedaan, het mogelijk is om CACE te schatten op basis van waargenomen gegevens. Ten eerste moet men aannemen dat de toewijzing aan de behandeling willekeurig is. In het geval van de loterij is dit redelijk. In sommige omgevingen waarin natuurlijke experimenten niet afhankelijk zijn van fysieke randomisatie, kan deze aanname echter problematischer zijn. Ten tweede moet men aannemen dat het geen defiers zijn (deze aanname wordt ook wel de veronderstelling van monotoniciteit genoemd). In de context van het ontwerp lijkt het redelijk om aan te nemen dat er heel weinig mensen zijn die niet zullen dienen als ze worden opgesteld en zullen dienen als ze niet worden opgesteld. Ten derde, en ten slotte, komt de belangrijkste veronderstelling die de uitsluitingsbeperking wordt genoemd. Onder de uitsluitingsbeperking moet worden aangenomen dat het effect van de behandelingstaak volledig door de behandeling zelf wordt doorgegeven. Met andere woorden, men moet aannemen dat er geen direct effect van aanmoediging op de uitkomsten is. In het geval van de loterij moet bijvoorbeeld worden aangenomen dat de conceptstatus geen effect heeft op de inkomsten anders dan via militaire dienst (figuur 2.11). De uitsluitingsbeperking kan worden geschonden als bijvoorbeeld mensen die zijn opgesteld meer tijd op school doorbrachten om service te vermijden of als werkgevers minder vaak mensen in dienst namen die waren opgeroepen.
Als aan deze drie voorwaarden (willekeurige toewijzing aan behandeling, geen defiers en de uitsluitingsbeperking) is voldaan, dan
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
dus we kunnen CACE schatten:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Een manier om over CACE na te denken, is dat het het verschil is in uitkomsten tussen mensen die werden aangemoedigd en mensen die niet worden aangemoedigd, opgeblazen door het opnamepercentage.
Er zijn twee belangrijke kanttekeningen in gedachten te houden. Ten eerste is de uitsluitingsbeperking een sterke aanname, en het moet van geval tot geval worden gerechtvaardigd, waarvoor vaak deskundigheid op vakgebied vereist is. De uitsluitingsbeperking kan niet worden gerechtvaardigd met randomisatie van de aanmoediging. Ten tweede komt een gemeenschappelijke praktische uitdaging met instrumentele variabele analyse wanneer de aanmoediging weinig effect heeft op de opname van de behandeling (wanneer \(\text{ITT}_W\) klein is). Dit wordt een zwak instrument genoemd en het leidt tot uiteenlopende problemen (Imbens and Rosenbaum 2005; Murray 2006) . Een manier om met zwakke instrumenten over het probleem na te denken, is dat \(\widehat{\text{CACE}}\) gevoelig kan zijn voor kleine vooroordelen in \(\widehat{\text{ITT}_Y}\) mogelijk te wijten aan schendingen van de uitsluitingsbeperking - omdat deze vooroordelen worden vergroot door een kleine \(\widehat{\text{ITT}_W}\) (zie vergelijking 2.13). Ruwweg, als de behandeling die de natuur toekent geen grote impact heeft op de behandeling waar u om geeft, zult u het moeilijk hebben om te leren over de behandeling waar u om geeft.
Zie hoofdstuk 23 en 24 van Imbens and Rubin (2015) voor een meer formele versie van deze discussie. De traditionele econometrische benadering van instrumentele variabelen wordt meestal uitgedrukt in termen van het schatten van vergelijkingen, niet van potentiële uitkomsten. Voor een inleiding vanuit dit andere perspectief, zie Angrist and Pischke (2009) , en voor een vergelijking tussen de twee benaderingen, zie sectie 24.6 van Imbens and Rubin (2015) . Een alternatieve, iets minder formele presentatie van de instrumentele variabelenbenadering wordt gegeven in hoofdstuk 6 van Gerber and Green (2012) . Zie D. Jones (2015) voor meer informatie over de uitsluitingsbeperking. Aronow and Carnegie (2013) beschrijven een extra reeks aannamen die kunnen worden gebruikt om ATE te schatten in plaats van CACE. Meer informatie over hoe natuurlijke experimenten erg lastig te interpreteren kunnen zijn, zie Sekhon and Titiunik (2012) . Voor een meer algemene inleiding tot natuurlijke experimenten - een die verder gaat dan alleen de instrumentele variabelenbenadering om ook ontwerpen zoals regressie discontinuïteit te omvatten - zie Dunning (2012) .