Mathematische Notizen

Ich denke, der beste Weg, um Experimente zu verstehen, ist der Rahmen für mögliche Ergebnisse (den ich in den mathematischen Anmerkungen in Kapitel 2 besprochen habe). Der potenzielle Ergebnisrahmen steht in engem Zusammenhang mit den Ideen aus der gestaltungsbasierten Stichprobenerhebung, die ich in Kapitel 3 beschrieben habe (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Dieser Anhang wurde so geschrieben, dass dieser Zusammenhang hervorgehoben wird. Diese Betonung ist ein wenig unkonventionell, aber ich denke, dass die Verbindung zwischen Sampling und Experimenten hilfreich ist: Wenn Sie etwas über Sampling wissen, dann wissen Sie etwas über Experimente und umgekehrt. Wie ich in diesen Anmerkungen zeigen werde, zeigt das Potential-Outcome-Framework die Stärke von randomisierten kontrollierten Experimenten zur Schätzung kausaler Effekte und es zeigt die Grenzen dessen, was mit selbst perfekt ausgeführten Experimenten getan werden kann.

In diesem Anhang beschreibe ich den möglichen Rahmen für die Ergebnisse, indem ich einen Teil des Materials aus den mathematischen Notizen in Kapitel 2 vervielfältige, um diese Notizen eigenständiger zu machen. Dann werde ich einige hilfreiche Ergebnisse über die Genauigkeit von Schätzungen der durchschnittlichen Behandlungseffekte beschreiben, einschließlich einer Diskussion über optimale Allokations- und Differenz-in-Differenzen-Schätzer. Dieser Anhang stützt sich stark auf Gerber and Green (2012) .

Mögliche Ergebnisse Rahmen

Um das Potential der Ergebnisse zu illustrieren, kehren wir zu Restivo und van de Rijts Experiment zurück, um die Wirkung eines Barnstar auf künftige Beiträge zu Wikipedia zu schätzen. Der Rahmen für potenzielle Ergebnisse umfasst drei Hauptelemente: Einheiten , Behandlungen und mögliche Ergebnisse . Im Fall von Restivo und van de Rijt waren die Einheiten Redakteure - diejenigen in den besten 1% der Mitwirkenden -, die noch keinen Barnstar erhalten hatten. Wir können diese Editoren mit \(i = 1 \ldots N\) indizieren. Die Behandlungen in ihrem Experiment waren "barnstar" oder "no barnstar", und ich schreibe \(W_i = 1\) wenn sich Person \(i\) in der Behandlungsbedingung und \(W_i = 0\) sonst befindet. Das dritte Element des potenziellen Ergebnisrahmens ist das wichtigste: die möglichen Ergebnisse . Diese sind konzeptuell schwieriger, weil sie "potentielle" Ergebnisse beinhalten - Dinge, die passieren könnten. Für jeden Wikipedia-Editor kann man sich die Anzahl der Bearbeitungen vorstellen, die sie in der Behandlungsbedingung ( \(Y_i(1)\) ) und die Anzahl, die sie in der Kontrollbedingung machen würde ( \(Y_i(0)\) ).

Beachten Sie, dass diese Auswahl von Einheiten, Behandlungen und Ergebnissen definiert, was aus diesem Experiment gelernt werden kann. Zum Beispiel können Restivo und van de Rijt ohne zusätzliche Annahmen nichts über die Auswirkungen von Barnstars auf alle Wikipedia-Editoren oder auf Ergebnisse wie die Bearbeitungsqualität sagen. Im Allgemeinen muss die Wahl der Einheiten, Behandlungen und Ergebnisse auf den Zielen der Studie basieren.

In Anbetracht dieser möglichen Ergebnisse , die in Tabelle-4,5-one zusammengefasst werden , kann die kausale Wirkung der Behandlung für Person definieren \(i\) als

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Diese Gleichung ist für mich der klarste Weg, einen kausalen Effekt zu definieren, und dieser Rahmen ist, obwohl er äußerst einfach ist, in vielen wichtigen und interessanten (Imbens and Rubin 2015) verallgemeinerbar (Imbens and Rubin 2015) .

Tabelle 4.5: Tabelle der möglichen Ergebnisse
Person Änderungen im Behandlungszustand Änderungen im Kontrollzustand Behandlungseffekt
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
bedeuten \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Wenn wir Kausalität auf diese Weise definieren, stoßen wir jedoch auf ein Problem. In fast allen Fällen können wir beide möglichen Ergebnisse nicht beobachten. Das heißt, ein bestimmter Wikipedia-Editor hat entweder einen Barnstar erhalten oder nicht. Daher beobachten wir eines der möglichen Ergebnisse - \(Y_i(1)\) oder \(Y_i(0)\) - aber nicht beides. Die Unfähigkeit, beide möglichen Ergebnisse zu beobachten, ist ein so großes Problem, dass Holland (1986) es als das Grundproblem kausaler Inferenz bezeichnete .

Glücklicherweise haben wir, wenn wir forschen, nicht nur eine Person, wir haben viele Menschen, und dies bietet einen Weg um das grundlegende Problem der kausalen Inferenz. Anstatt zu versuchen, den Behandlungseffekt auf individueller Ebene abzuschätzen, können wir den durchschnittlichen Behandlungseffekt schätzen:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Dies wird immer noch in Form von \(\tau_i\) ausgedrückt, die nicht beobachtbar sind, aber mit etwas Algebra (Gl. 2.8 von Gerber and Green (2012) ) erhalten wir

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Gleichung 4.3 zeigt, dass, wenn wir das populationsdurchschnittliche Ergebnis unter Behandlung ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) und das durchschnittliche Ergebnis der Population unter Kontrolle ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), dann können wir den durchschnittlichen Behandlungseffekt abschätzen, auch ohne den Behandlungseffekt für eine bestimmte Person abzuschätzen.

Jetzt, da ich unsere Schätzung definiert habe - die Sache, die wir zu schätzen versuchen -, werde ich mich damit befassen, wie wir sie mit Daten tatsächlich schätzen können. Ich denke gerne über diese Schätzungsherausforderung als Stichprobenproblem nach (siehe die mathematischen Anmerkungen in Kapitel 3). Stellen Sie sich vor, dass wir zufällig einige Personen auswählen, die wir im Behandlungszustand beobachten sollen, und wir wählen zufällig einige Personen aus, die wir in der Kontrollbedingung beobachten sollen. Dann können wir das durchschnittliche Ergebnis in jeder Bedingung abschätzen:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

wobei \(N_t\) und \(N_c\) die Anzahl der Personen in den Behandlungs- und Kontrollbedingungen sind. Gleichung 4.4 ist eine Differenz-von-Mittel-Schätzer. Aufgrund des Stichprobendesigns wissen wir, dass der erste Term ein unvoreingenommener Schätzer für das durchschnittliche Ergebnis unter Behandlung ist und der zweite Term ein unverzerrter Schätzer unter Kontrolle ist.

Eine andere Möglichkeit, darüber nachzudenken, welche Randomisierung möglich ist, besteht darin, dass sichergestellt wird, dass der Vergleich zwischen Behandlungs- und Kontrollgruppen fair ist, da die Randomisierung sicherstellt, dass die beiden Gruppen einander ähneln. Diese Ähnlichkeit gilt für Dinge, die wir gemessen haben (sagen wir die Anzahl der Bearbeitungen in den 30 Tagen vor dem Experiment) und die Dinge, die wir nicht gemessen haben (sagen wir Geschlecht). Diese Fähigkeit, das Gleichgewicht sowohl bei beobachteten als auch bei unbeobachteten Faktoren sicherzustellen, ist kritisch. Um die Macht des automatischen Ausgleichs auf unbeobachteten Faktoren zu sehen, stellen wir uns vor, dass zukünftige Forschungsergebnisse ergeben, dass Männer auf Auszeichnungen besser ansprechen als Frauen. Würde das die Ergebnisse von Restivos und van de Rijts Experiment ungültig machen? Durch die Randomisierung stellten sie sicher, dass alle nicht beobachtbaren Objekte in Erwartung ausgeglichen waren. Dieser Schutz gegen das Unbekannte ist sehr stark, und es ist ein wichtiger Weg, dass sich Experimente von den in Kapitel 2 beschriebenen nicht-experimentellen Techniken unterscheiden.

Zusätzlich zum Definieren des Behandlungseffekts für eine gesamte Population ist es möglich, einen Behandlungseffekt für eine Untergruppe von Personen zu definieren. Dies wird typischerweise als bedingter durchschnittlicher Behandlungseffekt (CATE) bezeichnet. In der Studie von Restivo und van de Rijt stellen wir uns zum Beispiel vor, dass \(X_i\) ist, ob der Editor in den 90 Tagen vor dem Experiment über oder unter der mittleren Anzahl von Änderungen lag. Man könnte den Behandlungseffekt für diese leichten und schweren Editoren separat berechnen.

Der Rahmen für mögliche Ergebnisse ist eine wirkungsvolle Möglichkeit, über kausale Schlussfolgerungen und Experimente nachzudenken. Es gibt jedoch zwei zusätzliche Schwierigkeiten, die Sie beachten sollten. Diese beiden Komplexitäten werden oft unter dem Begriff " Stable Unit Treatment Value Assumption" (SUTVA) zusammengefaßt. Der erste Teil der SUTVA ist die Annahme , dass das einzige , was für Mensch zählt \(i\) ‚s Ergebnis ist , ob diese Person bei der Behandlung oder Kontrollbedingung war. Mit anderen Worten, es wird angenommen , dass die Person \(i\) wird durch die Behandlung nicht auf andere Menschen gegeben beeinflusst. Dies wird manchmal als "keine Interferenz" oder "keine Spillovers" bezeichnet und kann wie folgt geschrieben werden:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

Wobei \(\mathbf{W_{-i}}\) ein Vektor von Behandlungsstatus für alle außer Person \(i\) . Eine Möglichkeit, dass dies verletzt werden kann, ist, wenn die Behandlung von einer Person auf eine andere Person übergeht, entweder positiv oder negativ. Kehren wir zu Restivo und van de Rijts Experiment zurück, stellen wir uns zwei Freunde vor: \(i\) und \(j\) und diese Person \(i\) erhält einen Barnstar und \(j\) nicht. Wenn \(i\) Empfangen des Barnstars bewirkt, dass \(j\) mehr (aus einem Gefühl der Konkurrenz) heraus bearbeitet oder weniger (aus einem Gefühl der Verzweiflung) bearbeitet, dann wurde SUTVA verletzt. Es kann auch verletzt werden, wenn die Wirkung der Behandlung von der Gesamtzahl der anderen Personen abhängt, die die Behandlung erhalten. Zum Beispiel, wenn Restivo und van de Rijt 1.000 oder 10.000 Barnstars anstelle von 100 ausgegeben hätten, könnte dies den Effekt des Erhaltens eines Barnstars beeinflusst haben.

Das zweite Problem, das mit SUTVA in Verbindung gebracht wird, ist die Annahme, dass die einzige relevante Behandlung diejenige ist, die der Forscher liefert; Diese Annahme wird manchmal als keine versteckte Behandlung oder Ausschlussmöglichkeit bezeichnet . In Restivo und van de Rijt zum Beispiel könnte es so gewesen sein, dass die Forscher durch einen Barnstar dazu geführt haben, dass Redakteure auf einer populären Redakteurseite erscheinen und dass sie auf der beliebten Redakteurseite sind - anstatt einen Barnstar zu erhalten. Das hat die Änderung im Bearbeitungsverhalten verursacht. Wenn dies zutrifft, ist der Effekt des Barnstar nicht von dem Effekt zu unterscheiden, der sich auf der populären Editorenseite ergibt. Es ist natürlich nicht klar, ob dies aus wissenschaftlicher Sicht als attraktiv oder unattraktiv angesehen werden sollte. Das heißt, Sie könnten sich vorstellen, dass ein Forscher sagt, dass die Wirkung des Erhaltens eines Barnstar alle nachfolgenden Behandlungen einschließt, die der Barnstar auslöst. Oder Sie könnten sich eine Situation vorstellen, in der eine Forschung den Effekt von Barnstern von all diesen anderen Dingen isolieren möchte. Eine Möglichkeit, darüber nachzudenken, ist zu fragen, ob etwas dazu führt, was Gerber and Green (2012) (S. 41) als "Zusammenbruch der Symmetrie" bezeichnen. Mit anderen Worten, gibt es etwas anderes als die Behandlung, die dazu führt, dass Menschen in den Behandlungs- und Kontrollbedingungen anders behandelt werden? Bedenken hinsichtlich der Symmetriebrechung führen dazu, dass Patienten in der Kontrollgruppe in medizinischen Studien eine Placebopille einnehmen. Auf diese Weise können Forscher sicher sein, dass der einzige Unterschied zwischen den beiden Bedingungen die tatsächliche Medizin und nicht die Erfahrung der Einnahme der Pille ist.

Weitere Informationen zu SUTVA finden Sie in Abschnitt 2.7 von Gerber and Green (2012) , Abschnitt 2.5 von Morgan and Winship (2014) und Abschnitt 1.6 von Imbens and Rubin (2015) .

Präzision

Im vorherigen Abschnitt habe ich beschrieben, wie der durchschnittliche Behandlungseffekt geschätzt werden kann. In diesem Abschnitt werde ich einige Ideen zur Variabilität dieser Schätzungen geben.

Wenn Sie daran denken, den durchschnittlichen Behandlungseffekt als Schätzung der Differenz zwischen zwei Stichproben zu schätzen, dann ist es möglich zu zeigen, dass der Standardfehler des durchschnittlichen Behandlungseffekts ist:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

wobei \(m\) Personen der Behandlung und \(Nm\) der Kontrolle zugewiesen werden (siehe Gerber and Green (2012) , Gl. 3.4). Wenn Sie also darüber nachdenken, wie viele Personen der Behandlung zugewiesen werden und wie viele der Kontrolle zugewiesen werden sollen, können Sie sehen, dass \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , dann wollen Sie \(m \approx N / 2\) , solange die Kosten für Behandlung und Kontrolle gleich sind. Gleichung 4.6 verdeutlicht, warum das Design von Bond und Kollegen (2012) -Experiment über die Auswirkungen von sozialen Informationen auf die Stimmabgabe (Abbildung 4.18) statistisch ineffizient war. Daran erinnern, dass es 98% der Teilnehmer in der Behandlungsbedingung hatte. Dies bedeutete, dass das mittlere Verhalten in der Kontrollbedingung nicht so genau geschätzt wurde, wie es hätte sein können, was wiederum bedeutete, dass der geschätzte Unterschied zwischen der Behandlungs- und Kontrollbedingung nicht so genau geschätzt wurde, wie er sein könnte. Weitere Informationen zur optimalen Zuordnung von Teilnehmern zu Bedingungen, auch wenn die Kosten zwischen den Bedingungen unterschiedlich sind, finden Sie in List, Sadoff, and Wagner (2011) .

Schließlich habe ich im Haupttext beschrieben, wie ein Differenz-in-Differenzen-Schätzer, der typischerweise in einem gemischten Design verwendet wird, zu einer geringeren Varianz führen kann als ein Differenz-in-Mittel-Schätzer, der typischerweise in einem Zwischensubjekt verwendet wird Design. Wenn \(X_i\) der Wert des Ergebnisses vor der Behandlung ist, dann ist die Menge, die wir mit dem Differenz-in-Differenzen-Ansatz zu schätzen versuchen:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Der Standardfehler dieser Menge ist (siehe Gerber and Green (2012) , Gl. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Ein Vergleich von Gl. 4,6 und Gl. 4.8 zeigt, dass der Differenz-in-Differenzen-Ansatz einen kleineren Standardfehler haben wird (vgl. Gerber and Green (2012) , Gl. 4.6).

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Grob \(Y_i(1)\) , wenn \(X_i\) sehr prädiktiv für \(Y_i(1)\) und \(Y_i(0)\) , können Sie genauere Schätzungen aus einer Differenz-von-Differenzen-Methode erhalten als aus einer Differenz- von-bedeutet eins. Eine Möglichkeit, dies im Zusammenhang mit Restivo und van de Rijts Experiment zu bedenken, ist, dass die Menge der von Menschen bearbeiteten Mengen sehr unterschiedlich ist, was den Vergleich der Behandlungs- und Kontrollbedingungen erschwert: Es ist schwierig, einen Verwandten zu erkennen kleiner Effekt in verrauschten Ergebnisdaten. Aber wenn Sie diese natürlich vorkommende Variabilität unterscheiden, dann gibt es viel weniger Variabilität, und das macht es leichter, einen kleinen Effekt zu erkennen.

Vgl. Frison and Pocock (1992) für einen präzisen Vergleich von Differenz-Differenz-Unterschieden und ANCOVA-basierten Ansätzen in der allgemeineren Einstellung, wo es mehrere Messungen vor und nach der Behandlung gibt. Insbesondere empfehlen sie dringend ANCOVA, die ich hier nicht behandelt habe. Siehe auch McKenzie (2012) für eine Diskussion über die Bedeutung von multiplen Nachbehandlungsergebnissen.