In diesem Anhang werde ich einige Ideen zusammenfassen, um kausale Schlussfolgerungen aus nicht-experimentellen Daten in einer etwas mathematischeren Form zu ziehen. Es gibt zwei Hauptansätze: das kausale Graphen-Framework, das am meisten mit Judäa Pearl und seinen Kollegen in Verbindung gebracht wird, und das potentielle Ergebnis-Framework, das am häufigsten mit Donald Rubin und Kollegen in Verbindung gebracht wird. Ich werde den Rahmen für mögliche Ergebnisse vorstellen, da er enger mit den Ideen in den mathematischen Anmerkungen am Ende von Kapitel 3 und 4 verbunden ist. Für mehr über den Rahmen der kausalen Graphen empfehle ich Pearl, Glymour, and Jewell (2016) (einleitend) ) und Pearl (2009) (fortgeschritten). Für eine buchstäbliche Behandlung der kausalen Inferenz, die den Rahmen der potenziellen Ergebnisse und den kausalen Graphenrahmen kombiniert, empfehle ich Morgan and Winship (2014) .
Das Ziel dieses Anhangs besteht darin, Ihnen zu helfen, sich mit der Notation und dem Stil der potenziellen Ergebnistradition vertraut zu machen, so dass Sie zu etwas mehr technischem Material übergehen können, das zu diesem Thema geschrieben wurde. Zuerst beschreibe ich den Rahmen für mögliche Ergebnisse. Dann werde ich es nutzen, um natürliche Experimente wie die von Angrist (1990) über die Auswirkungen des Militärdienstes auf die Verdienste weiter zu diskutieren. Dieser Anhang stützt sich stark auf Imbens and Rubin (2015) .
Mögliche Ergebnisse Rahmen
Der Rahmen für potenzielle Ergebnisse umfasst drei Hauptelemente: Einheiten , Behandlungen und mögliche Ergebnisse . Betrachten wir zur Veranschaulichung dieser Elemente eine stilisierte Version der in Angrist (1990) behandelten Frage: Wie wirkt sich der Militärdienst auf das Einkommen aus? In diesem Fall können wir die Einheiten als Personen definieren, die für den Entwurf von 1970 in den USA infrage kommen, und wir können diese Personen mit \(i = 1, \ldots, N\) indizieren. Die Behandlungen in diesem Fall können "dienen im Militär" oder "nicht im Militär dienen." Ich werde diese die Behandlung und Kontrolle Bedingungen nennen, und ich schreibe \(W_i = 1\) wenn Person \(i\) befindet sich im Behandlungszustand und \(W_i = 0\) wenn sich die Person \(i\) im Kontrollzustand befindet. Schließlich sind die potenziellen Ergebnisse konzeptuell schwieriger, da sie "potenzielle" Ergebnisse beinhalten. Dinge, die hätten passieren können. Für jede Person, die für den Entwurf von 1970 in Frage kommt, können wir uns den Betrag vorstellen, den sie 1978 verdient hätten, wenn sie im Militär gedient hätten, was ich nennen würde \(Y_i(1)\) und den Betrag, den sie verdient hätten 1978, wenn sie nicht im Militär dienen, was ich anrufen werde \(Y_i(0)\) . Im Rahmen potentieller Ergebnisse werden \(Y_i(1)\) und \(Y_i(0)\) als feste Größen betrachtet, während \(W_i\) eine Zufallsvariable ist.
Die Wahl der Einheiten, Behandlungen und Ergebnisse ist entscheidend, da sie definiert, was aus der Studie gelernt werden kann und was nicht. Die Wahl der Einheiten - Personen, die für den Entwurf von 1970 in Frage kommen - schließt Frauen nicht ein, und so wird diese Studie ohne zusätzliche Annahmen nichts über die Auswirkungen des Militärdienstes auf Frauen sagen. Entscheidungen über die Definition von Behandlungen und Ergebnissen sind ebenfalls wichtig. Zum Beispiel, sollte sich die Behandlung von Interesse darauf konzentrieren, im Militär zu dienen oder einen Kampf zu führen? Sollte das Ergebnis von Interesse Einkommen oder Arbeitszufriedenheit sein? Letztendlich sollte die Wahl der Einheiten, Behandlungen und Ergebnisse von den wissenschaftlichen und politischen Zielen der Studie bestimmt werden.
Angesichts der Wahl der Einheiten, Behandlungen und möglichen Ergebnisse ist der kausale Effekt der Behandlung auf die Person \(i\) , \(\tau_i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Mit anderen Worten, wir vergleichen, wie viel Person \(i\) nach dem Servieren verdient hätte, wie viel Person \(i\) verdient hätte, ohne zu dienen. Für mich ist Gl. 2.1 ist der klarste Weg, einen kausalen Effekt zu definieren, und obwohl er äußerst einfach ist, erweist sich dieser Rahmen auf viele wichtige und interessante Arten als verallgemeinerbar (Imbens and Rubin 2015) .
Bei der Verwendung des potenziellen Ergebnisrahmens finde ich es oft hilfreich, eine Tabelle mit den möglichen Ergebnissen und den Behandlungseffekten für alle Einheiten auszuarbeiten (Tabelle 2.5). Wenn Sie sich eine solche Tabelle für Ihre Studie nicht vorstellen können, müssen Sie Ihre Definitionen Ihrer Einheiten, Behandlungen und möglichen Ergebnisse präzisieren.
Person | Ergebnis im Behandlungszustand | Ergebnis im Kontrollzustand | Behandlungseffekt |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Bedeuten | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Bei der Definition des kausalen Effekts stoßen wir jedoch auf ein Problem. In fast allen Fällen können wir beide möglichen Ergebnisse nicht beobachten. Das heißt, eine bestimmte Person diente oder diente nicht. Daher beobachten wir eines der möglichen Ergebnisse - \(Y_i(1)\) oder \(Y_i(0)\) - aber nicht beides. Die Unfähigkeit, beide möglichen Ergebnisse zu beobachten, ist ein so großes Problem, dass Holland (1986) es als das Grundproblem kausaler Inferenz bezeichnete .
Zum Glück, wenn wir forschen, haben wir nicht nur eine Person; vielmehr haben wir viele Menschen, und dies bietet einen Weg um das grundlegende Problem der kausalen Inferenz. Anstatt zu versuchen, den Behandlungseffekt auf individueller Ebene zu schätzen, können wir den durchschnittlichen Behandlungseffekt für alle Einheiten schätzen:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Diese Gleichung wird immer noch ausgedrückt als \(\tau_i\) , die nicht beobachtbar sind, aber mit etwas Algebra (Gl. 2.8 von Gerber and Green (2012) ), erhalten wir
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Dies zeigt, dass, wenn wir das populationsdurchschnittliche Ergebnis unter Behandlung schätzen können ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) und das durchschnittliche Ergebnis der Bevölkerung unter Kontrolle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), dann können wir den durchschnittlichen Behandlungseffekt abschätzen, auch ohne den Behandlungseffekt für eine bestimmte Person abzuschätzen.
Jetzt, da ich unsere Schätzung definiert habe - die Sache, die wir zu schätzen versuchen -, werde ich mich damit befassen, wie wir sie mit Daten tatsächlich schätzen können. Und hier laufen wir direkt auf das Problem ein, dass wir nur eines der möglichen Ergebnisse für jede Person beobachten; wir sehen entweder \(Y_i(0)\) oder \(Y_i(1)\) (Tabelle 2.6). Wir könnten den durchschnittlichen Behandlungseffekt abschätzen, indem wir die Verdienste von Personen vergleichen, die den Verdiensten von Personen dienen, die nicht gedient haben:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
wobei \(N_t\) und \(N_c\) die Anzahl der Personen in den Behandlungs- und Kontrollbedingungen sind. Dieser Ansatz wird gut funktionieren, wenn die Behandlungsaufgabe unabhängig von möglichen Ergebnissen ist, ein Zustand, der manchmal als Unerkennbarkeit bezeichnet wird . Leider wird in Ermangelung eines Experiments die Nichtkennbarkeit nicht oft erfüllt, was bedeutet, dass der Schätzer in Gl. 2.4 dürfte keine gute Schätzung liefern. Eine Möglichkeit, darüber nachzudenken, ist, dass in Abwesenheit einer zufälligen Zuweisung der Behandlung, Gl. 2.4 vergleicht nicht mit Gleichem; Es vergleicht die Verdienste verschiedener Arten von Menschen. Oder anders ausgedrückt, ohne zufällige Zuordnung der Behandlung, ist die Behandlung Zuteilung wahrscheinlich auf mögliche Ergebnisse bezogen.
In Kapitel 4 beschreibe ich, wie randomisierte kontrollierte Experimente den Forschern helfen können, kausale Schätzungen vorzunehmen, und hier beschreibe ich, wie Forscher natürliche Experimente wie das Lotterieprojekt nutzen können.
Person | Ergebnis im Behandlungszustand | Ergebnis im Kontrollzustand | Behandlungseffekt |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Bedeuten | ? | ? | ? |
Natürliche Experimente
Ein Ansatz, um kausale Schätzungen zu machen, ohne ein Experiment durchzuführen, besteht darin, nach etwas zu suchen, das in der Welt geschieht, die dir zufällig eine Behandlung zugewiesen hat. Dieser Ansatz wird als natürliches Experiment bezeichnet . In vielen Situationen liefert die Natur leider nicht zufällig die gewünschte Behandlung an die interessierende Population. Aber manchmal liefert die Natur zufällig eine verwandte Behandlung. Insbesondere werde ich den Fall in Betracht ziehen, in dem es eine sekundäre Behandlung gibt , die Menschen dazu ermutigt, die primäre Behandlung zu erhalten. Zum Beispiel könnte der Entwurf als eine zufällig zugewiesene sekundäre Behandlung betrachtet werden, die einige Menschen dazu ermutigt, die primäre Behandlung zu nehmen, die im Militär diente. Dieser Entwurf wird manchmal ein Ermutigungsentwurf genannt . Und die Analysemethode, die ich beschreiben werde, um mit dieser Situation umzugehen, wird manchmal als instrumentelle Variable bezeichnet . In dieser Situation können Forscher mit einigen Annahmen die Ermutigung nutzen, um über die Wirkung der primären Behandlung für eine bestimmte Teilmenge von Einheiten zu erfahren.
Um mit den zwei verschiedenen Behandlungen - der Ermutigung und der primären Behandlung - umgehen zu können, benötigen wir eine neue Notation. Angenommen, einige Personen werden willkürlich \(Z_i = 1\) ( \(Z_i = 1\) ) oder nicht entworfen ( \(Z_i = 0\) ); In dieser Situation wird \(Z_i\) manchmal als Instrument bezeichnet .
Unter denen, die eingezogen wurden, dienten einige ( \(Z_i = 1, W_i = 1\) ) und einige nicht ( \(Z_i = 1, W_i = 0\) ). Ebenso dienten einige von denen, die nicht eingezogen wurden, ( \(Z_i = 0, W_i = 1\) ) und einige nicht ( \(Z_i = 0, W_i = 0\) ). Die potenziellen Ergebnisse für jede Person können nun erweitert werden, um ihren Status sowohl für die Ermutigung als auch für die Behandlung zu zeigen. Zum Beispiel sei \(Y(1, W_i(1))\) der Verdienst von Person \(i\) wenn er eingezogen wurde, wobei \(W_i(1)\) sein Dienstleistungsstatus ist, wenn er entworfen wird. Außerdem können wir die Population in vier Gruppen aufteilen: Compliers, Neuntakers, Defenders und Always-Taker (Tabelle 2.7).
Art | Service, wenn er entworfen wird | Service, wenn nicht abgefasst |
---|---|---|
Compliers | Ja, \(W_i(Z_i=1) = 1\) | Nein, \(W_i(Z_i=0) = 0\) |
Nimmersüchtige | Nein, \(W_i(Z_i=1) = 0\) | Nein, \(W_i(Z_i=0) = 0\) |
Definiert | Nein, \(W_i(Z_i=1) = 0\) | Ja, \(W_i(Z_i=0) = 1\) |
Immernutzer | Ja, \(W_i(Z_i=1) = 1\) | Ja, \(W_i(Z_i=0) = 1\) |
Bevor wir die Auswirkungen der Behandlung (dh des Militärdienstes) abschätzen, können wir zunächst zwei Effekte der Ermutigung definieren (dh in Vorbereitung). Erstens können wir die Wirkung der Ermutigung auf die primäre Behandlung definieren. Zweitens können wir die Wirkung der Ermutigung auf das Ergebnis definieren. Es wird sich herausstellen, dass diese beiden Effekte kombiniert werden können, um eine Abschätzung der Wirkung der Behandlung auf eine bestimmte Gruppe von Menschen zu ermöglichen.
Erstens kann die Wirkung der Förderung auf die Behandlung der Person definiert werden \(i\) als
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Ferner kann diese Menge über die gesamte Population als definiert werden
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Schließlich können wir \(\text{ITT} _{W}\) Verwendung von Daten schätzen:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
wo \(\bar{W}^{\text{obs}}_1\) ist die beobachtete Behandlungsrate für diejenigen, die ermutigt wurden und \(\bar{W}^{\text{obs}}_0\) ist die beobachtete Behandlungsrate für diejenigen, die nicht ermutigt wurden. \(\text{ITT}_W\) wird manchmal auch als Aufnahmerate bezeichnet .
Als nächstes kann die Wirkung der Ermutigung auf das Ergebnis für die Person wie \(i\) definiert werden:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Ferner kann diese Menge über die gesamte Population als definiert werden
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Schließlich können wir \(\text{ITT}_{Y}\) anhand von Daten schätzen:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
where \(\bar{Y}^{\text{obs}}_1\) ist das beobachtete Ergebnis (z. B. Verdienst) für diejenigen, die ermutigt wurden (z. B. eingezogen) und \(\bar{W}^{\text{obs}}_0\) ist das beobachtete Ergebnis für diejenigen, die nicht ermutigt wurden.
Abschließend wenden wir uns der Wirkung von Interesse zu: dem Effekt der Primärbehandlung (zB Militärdienst) auf das Ergebnis (zB Verdienst). Leider zeigt sich, dass man diesen Effekt im Allgemeinen nicht auf alle Einheiten abschätzen kann. Mit einigen Annahmen können die Forscher jedoch den Effekt der Behandlung auf Compliers abschätzen (dh Personen, die dienen, wenn sie eingezogen werden, und Personen, die nicht dienen, wenn sie nicht eingezogen werden, Tabelle 2.7). Ich nenne diese Schätzung den durchschnittlichen kausalen Effekt des Compliers (CACE) (der manchmal auch der lokale durchschnittliche Behandlungseffekt , LATE genannt wird):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
\(G_i\) die Personengruppe \(i\) \(G_i\) spendet (siehe Tabelle 2.7) und \(N_{\text{co}}\) die Anzahl der Compliers. Mit anderen Worten, Gl. 2.11 vergleicht die Einnahmen von Compilern, die \(Y_i(1, W_i(1))\) und nicht \(Y_i(0, W_i(0))\) . Die Schätzung in Gl. 2.11 scheint schwer aus beobachteten Daten zu schätzen, da es nicht möglich ist, compliers nur mit beobachteten Daten zu identifizieren (um zu wissen, ob jemand compiler ist, müssten Sie beobachten, ob er bei der Abfassung gedient hat und ob er gedient hat, wenn er nicht verfasst wurde).
Es stellt sich - etwas überraschend - heraus, dass, wenn es irgendwelche Compliers gibt, wenn man drei zusätzliche Annahmen macht, es möglich ist, CACE aus beobachteten Daten zu schätzen. Zunächst muss davon ausgegangen werden, dass die Zuordnung zur Behandlung zufällig ist. Im Falle des Entwurfs der Lotterie ist dies sinnvoll. In einigen Umgebungen, in denen natürliche Experimente nicht auf physikalischer Randomisierung beruhen, ist diese Annahme möglicherweise problematischer. Zweitens muss man davon ausgehen, dass sie keine Deferier sind (diese Annahme wird manchmal auch als Monotonitätsannahme bezeichnet). Im Kontext des Entwurfs scheint es vernünftig anzunehmen, dass es sehr wenige Menschen gibt, die nicht dienen, wenn sie eingezogen werden und dienen, wenn sie nicht verfasst werden. Drittens und schließlich kommt die wichtigste Annahme, die als Ausschlussbeschränkung bezeichnet wird . Unter der Ausschlussbeschränkung muss davon ausgegangen werden, dass die gesamte Wirkung des Behandlungsauftrags durch die Behandlung selbst erfolgt. Mit anderen Worten, man muss annehmen, dass es keinen direkten Effekt der Ermutigung auf die Ergebnisse gibt. Im Falle des Lotterieentwurfs muss beispielsweise davon ausgegangen werden, dass der Entwurfsstatus außer dem Militärdienst keine Auswirkungen auf das Einkommen hat (Abbildung 2.11). Die Ausgrenzungsbeschränkung könnte verletzt werden, wenn beispielsweise Entlassene mehr Zeit in der Schule verbrachten, um einen Dienst zu vermeiden, oder wenn Arbeitgeber seltener Entlassene einstellten.
Wenn diese drei Bedingungen erfüllt sind (zufällige Zuordnung zur Behandlung, keine Trennzeichen und die Ausschlussbeschränkung), dann
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
so können wir CACE schätzen:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Eine Möglichkeit, über CACE nachzudenken, ist, dass es Unterschiede in den Ergebnissen zwischen denen gibt, die ermutigt wurden, und denen, die nicht ermutigt werden, die durch die Aufnahmerate aufgebläht werden.
Es gibt zwei wichtige Vorbehalte, die man beachten sollte. Erstens ist die Ausschlussbeschränkung eine starke Annahme, und sie muss von Fall zu Fall gerechtfertigt sein, was häufig Fachwissen erfordert. Die Ausschlussbeschränkung kann nicht mit einer Randomisierung der Ermutigung begründet werden. Zweitens kommt eine allgemeine praktische Herausforderung bei der instrumentellen Variablenanalyse dann, wenn die Ermutigung wenig Auswirkungen auf die Aufnahme der Behandlung hat (wenn \(\text{ITT}_W\) klein ist). Dies wird als schwaches Instrument bezeichnet und führt zu einer Vielzahl von Problemen (Imbens and Rosenbaum 2005; Murray 2006) . Eine Möglichkeit, über das Problem mit schwachen Instrumenten nachzudenken, ist, dass \(\widehat{\text{CACE}}\) möglicherweise empfindlich auf kleine Verzerrungen in \(\widehat{\text{ITT}_Y}\) zurückzuführen ist Verstöße gegen die Ausschlussbeschränkung - weil diese Verzerrungen durch ein kleines \(\widehat{\text{ITT}_W}\) vergrößert werden (siehe Gl. 2.13). Grob gesagt, wenn die Behandlung, die die Natur zuweist, keinen großen Einfluss auf die Behandlung hat, die Ihnen wichtig ist, dann wird es Ihnen schwerfallen, etwas über die Behandlung zu erfahren, die Ihnen wichtig ist.
Eine formellere Version dieser Diskussion finden Sie in den Kapiteln 23 und 24 von Imbens and Rubin (2015) . Der traditionelle ökonometrische Ansatz für instrumentelle Variablen wird in der Regel in Form von Schätzgleichungen und nicht in potenziellen Ergebnissen ausgedrückt. Für eine Einführung aus dieser anderen Perspektive siehe Angrist and Pischke (2009) , und für einen Vergleich der beiden Ansätze siehe Abschnitt 24.6 von Imbens and Rubin (2015) . Eine alternative, etwas weniger formale Darstellung des instrumentellen Variablenansatzes findet sich in Kapitel 6 von Gerber and Green (2012) . Weitere Informationen zur Ausschlussbeschränkung finden Sie in D. Jones (2015) . Aronow and Carnegie (2013) beschreiben eine zusätzliche Reihe von Annahmen, die verwendet werden können, um ATE und nicht CACE zu schätzen. Für mehr darüber, wie natürliche Experimente sehr schwierig zu interpretieren sind, siehe Sekhon and Titiunik (2012) . Für eine allgemeinere Einführung in natürliche Experimente - eine, die über den Ansatz der instrumentellen Variablen hinausgeht, gehören auch Designs wie die Regressionsdiskontinuität - siehe Dunning (2012) .