Ech denken, datt de beschten Wee fir Experimente ze verstoen ass den potenziellen Resultatkader (deen ech an den mathemateschen Noten am Kapitel 2 diskutéiert huet). De potentielle Resultatkader huet eng enk Relatioun mat den Ideeën aus der Entworfsgestaltung, déi ech am Kapitel 3 beschriwwen hunn (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Dësen Appendix ass esou opgeschriwwe ginn datt dës Verbindung ënnerstëtzt. Dëst Betrib ass e bësschen net traditionell, mä ech denken datt d'Verbindung tëscht Prouf an Experimentéiere hëllefsbereet ass: et heescht datt wann Dir eppes iwwer d'Probebunn kennt, da wësse wat iwwer Experimenter a vice -verse. Wéi ech an dësen Notizen ukucken, weist de potentiel Resultater Frame d'Stär vu randomiséierter kontrolléiert Experiment fir Schätzung vu kausalen Effekter, an et weist d'Limiten vu wat et mat perfekt ausgezeechente Experimenten gemaach ginn kann.
An dësem Appendix beschreiwt ech den potenziellen Resultatkader, duplizéiert e puer vun de Mathematiker am Kapitel 2, fir dës Noten méi selbsthalteg ze maachen. Duerno wäert ech e puer nëtzlech Resultater beschreiwen iwwer d'Präzisioun vun Schätzungen vun den Duerchschnëttsvirgangseffekter, dorënner eng Diskussioun iwwer Optimale Allocatioun an Differenz-In-Differenzen Schätzere. Dësen Appendix schéisst schwéier op Gerber and Green (2012) .
Potential Resultater Frame
Fir den potentielle Resultatkader ze illustréieren, lass et an d'Experiment vum Restivo an van de Rijt zréckschécken fir de Effet vun engem Barnstar op zukünfteg Beiträg zu Wikipedia ze schätzen. De potentielle Resultatkader huet dräi Haaptelementer: Eenheeten , Behandlungen a potenziellen Resultater . Am Fall vun Restivo an van de Rijt goufen d' Eenheeten Redaktoren verdéngt - déi an der Spëtzt 1% vun de Leit, déi nach net e Barnstar kritt hunn. Mir kënnen dës Editoren indirekt mat \(i = 1 \ldots N\) indizéieren. D' Behandlungen an hirem Experiment waren "Barnstar" oder "Neen Barnstar", an ech schreiwen \(W_i = 1\) wann Persoun \(i\) an der Behandlungsbedingung an \(W_i = 0\) ass. Den drëtt Element vum potenziellen Resultatkader ass déi wichtegst: d' potentiel Resultater . Dëst si méi konzeptuell schwiereg, well se "potenziell" Resultater bedeelegt-Saachen déi kéint geschéien. Fir all Wikipedia Redaktor kann ee sech d'Zuel vun den Ännerungen virstellen déi se an der Behandlungsbedingung ( \(Y_i(1)\) ) an d'Zuel hunn, déi si géif an der Kontrollbedingung maachen ( \(Y_i(0)\) ).
Bedenkt datt dës Auswiel un Eenheiten, Behandlungen a Resultater definéiert wat aus dësem Experiment geléiert gëtt. Zum Beispill, ouni all weider Erklärungen, Restivo a van de Rijt kënnen näischt soen iwwer d'Effekter vun Barnstars op all Wikipedia Editoren oder op Resultater wéi Qualitéit änneren. Am Allgemengen muss d'Wiel vun den Unitéiten, Behandlungen a Resultater baséiert op d'Ziler vun der Studie.
Wann dës potenziell Resultater - déi an der Tab. 4.5 summéiert sinn, kann een de kausalen Effekt vun der Behandlung fir Persoun \(i\) als
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Fir mech ass dës Gläichung de klarescht Wee fir e kausalen Effekt ze definéieren, an obwuel extrem einfach dës Konstitutioun erlaabt datt et vill a wichteg an interessant Manéier ubelaangt (Imbens and Rubin 2015) .
Persoun | Edits an der Behandlung | Edits a Kontrollbedingung | Behandlungseffekt |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
bedeit | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Wa mir dës Kausalitéit op dës Manéier definéieren, hu mir awer e Problem. An bal all Fäll wëlle mir keng potenziell Resultater beobachten. Dëst ass eng spezifesch Wikipedia Redaktioun kritt entweder e Barnstar oder net. Dofir beobachten mir ee vun den potenziellen Resultater - \(Y_i(1)\) oder \(Y_i(0)\) - awer net zwee. D'Onméiglechkeet, souwuel potenziell Resultater ze beobachten, ass e grousst Problem, datt Holland (1986) et d' Grondproblematik vun der Ursachs-Inferenz nennt .
Glécklech, wann mir Recherchen maachen, hu mir net nëmmen eng Persoun, mir hunn vill Leit, an dëst bitt e Wee iwwer de Grondproblem vun der Causal Inference. Nëmme wéi et versprécht d'Effekter vum Behandlungsofstand individuell ze schätzen, kënne mir den Duerchschnëttsvirgang effektiv schätzen:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Dëst ass ëmmer ausgedréckt wéi d' \(\tau_i\) déi net beobachtbar sinn, mee mat e puer Algebra (Gl. 2,8 vun Gerber and Green (2012) )
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Gläichzäiteg sinn 4%, datt wann mir de Bevëlkerungsduerchgang ënner Behandlung maachen ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) an de Bevëlkerungsduerchgang ënner Kontroll ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), da kënne mir de Duerchschnëtt behandele Effekt schätzen, och ouni Schafe vun der Behandlungseffect fir eng aner Persoun.
Elo, datt ech eis Schätz doriwwer definéiert huet - dat wat mir versicht schätzen - ech sinn erëm wéi mir et mat Daten schätzen. Ech probéieren iwwer dës Schätz Erausfuerderung als Probéiren probéieren (kuckt Iech un d'mathematesch Noten am Kapitel 3). Stellt Iech vir, datt mir e puer Leit ziele kënnt fir an der Behandlungsbedéngung ze observéieren an hu mir eis e puer Leit an d'Kontrollzouf kucken ze kucken, da kënne mir de Duerchschnëttsausgang an all Konditioun maachen:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
wou \(N_t\) a \(N_c\) d'Zuel vu Leit an de Behandlungs- a Kontrollbedingunge sinn. D'Gläichberechtegung ass e Differenz-of-means Schätzung. Wéinst dem Proufentpräzipatioun wësse mir datt den éischte Begrëff ee onbestëmmte Schätzungspotenzial ass fir déi duerchschnëttlech Resultater ënner der Behandlung a vum zweeten Begrëff ass en onbestëmmte Schätzungspakt ënner Kontroll.
Eng aner Manéier fir ze iwwerzeegen wat d'Zirkulatioun méiglech ass datt se garantéiert datt de Verglach tëschent Behandlungs- a Kontrollgruppe gerecht ass, well d'Zoufällegung garantéiert datt déi zwee Gruppen esou eng ginn. Dës Ahnung hält fir Saachen déi mir gemooss hunn (sou d'Zuel vun den Ännerungen an de 30 Deeg virum Experiment) an d'Saachen déi mir net gemooss hunn (soen Geschlecht). Dëst Kapazitéit fir d'Balance fir beobachtete an onerwaart Faktore ze garantéieren ass kritesch. Fir d'Muecht vun der automatescher Auswanderung op onerwaarte Faktoren ze gesinn, lass Iech virstellen datt déi zukünfteg Fuerschung feststellt datt Männer méi Responsabilitéit ginn wéi Fraen. Wärt dat, datt d'Resultater vum Restivo a van de Rijt Experiment invalidéieren? Neen. Fir d'Ziler ze garantéieren, hunn si séchergestallt, datt all Objéen déi unobservabel sinn, an der Erwaardung. Dëse Schutz géint déi onbekannter ass ganz mächteg, an et ass eng wichteg Manéier datt d'Experimenter ënnerschiddlech sinn vun den net-experimentellen Techniken, déi am Kapitel 2 beschriwwe ginn.
Zousätzlech fir d'Behandlungsaktivitéit fir eng ganz Bevëlkerung ze definéieren, ass et méiglech e Behandlungsakt fir e Ënnergrupp vu Persounen ze definéieren. Dëst gëtt typesch als onbedingte Duerchschnëttbehandlung (CATE) genannt. Zum Beispill, an der Studie vu Restivo a van de Rijt lasst Iech virstellen datt den \(X_i\) ob de Editor virun oder an der Median Nummer vun den Ännerungen war an den 90 Deeg virun dem Experiment. Et kéint d'Behandlungsaktivitéit getrennt sinn fir dës liicht a schwéiere Redaktoren.
De potenziellen Resultatkader ass eng kinneglech Manéier, iwwer Kausal Inference a Experimenten ze denken. Et ginn awer zwou zusätzlech Komplexitéit déi Dir am Geescht bleift. Déi zwou Komplexitéiten ginn oft ënnert dem Begrëff Stabiler Eenheet Treatment Value Assumption (SUTVA) gebremst. Den éischten Deel vun SUTVA ass d'Hoffnung, datt déi eenzeg Saach, déi fir d'Aarbecht vun der Persoun \(i\) zielt, ob dat dës Persoun an der Behandlungs- oder Kontrollbedéngung war. An anere Wierder, ass ugeholl datt dës Persoun \(i\) net vun der Behandlung behandelt gëtt, déi aner Leit gegeben huet. Dëst gëtt heiansdo "No Interferenz" genannt oder "keng Spillpiller" genannt a kann geschriwwe ginn wéi:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
Wou \(\mathbf{W_{-i}}\) ass e Vecteur vun Behandlungsstatue fir jiddereen ausser d'Person \(i\) . Eng Manéier déi dëst kann verletzt ginn, ass d'Behandlung vun enger Persoun iwwer eng aner Persoun, entweder positiv oder negativ. Zréck op den Experiment an de Restivo an van de Rijt, stellen Iech zwee Frënn \(i\) a \(j\) an déi Persoun \(i\) kritt en barnstar an \(j\) net. Wann \(i\) kritt de barnstar d'Ursaach \(j\) fir méi ze änneren (net vu engem Konkurrenzsinn) oder manner editéieren (aus engem Verzweiflung), gouf SUTVA verletzt. Et kann och verletzt ginn, wann d'Auswierkunge vun der Behandlung hänkt vun der totaler Zuel vu Leit, déi d'Behandlung krut. Zum Beispill, wann Restivo an van de Rijt 1.000 oder 10.000 Stéck Barneus anstatt 100 hunn, hätt dat beaflosse gelooss.
Déi zweet Ausgab zu SUTVA ass an der Hoffnung datt d'eenzeg Relevanz ass déi, déi de Fuerscher liewt; Dës Iwwernahmung gëtt heiansdo näischt versteet Behandlungen oder Exklusivitéit genannt . Zum Beispill, an Restivo an van de Rijt ass et méiglech datt de Barnstar d'Forscher d'Editateuren hunn op enger populärer Redaktiounsepage gekuckt an datt se op der Säit vun de populäre Editoren waren - anstatt datt e Barnstar- déi d'Ännerung am Editéierungsverhalen verursaacht hunn. Wann dat wierklech ass, dann ass den Effekt vum Barnstar net ënnerscheet vun dem Effekt op der Säit vun de populäre Editoren. Natierlech ass et net kloer, ob et vun enger wëssenschaftlecher Perspektiv et attraktiv wier oder netattraktiv ass. Dat ass, kéint Dir e Fuerscher virstellen datt de Effet vun engem Barnstar all déi nächst Behandlungen déi den Barnstar ausléist. Oder Dir kéint Iech eng Situatioun virstellen, wou d'Fuerschung d'Effekt vu Barstarneren aus all dës aner Saachen isoléieren wëlle. Ee Wee fir ze denken ze sinn ass fir ze froen ob et alles ass, wat zu wéi wat Gerber and Green (2012) (S. 41) eng "Ofsenkung vun der Symmetrie" nennt? An anere Wierder, ass et soss näischt wéi d'Behandlung, déi d'Leit an de Behandlungs- an Kontrollbedéngunge verwiesselen? Besonnesch Bedenken iwwert Symmetrie Bremsen sinn wat Patienten an der Kontrollgruppe an de medizinesche Prozesser leeën fir e Placebo Pill ze huelen. Sou kënnen d'Fuerscher sécher sinn, datt déi eenzeg Differenz tëscht den zwou Konditioune ass déi aktuell Medizin an net d'Erfahrung vun der Pille.
Fir méi op SUTVA kuckt Rubrik 2.7 vun Gerber and Green (2012) , Ofschnëtt 2,5 vun Morgan and Winship (2014) , an Rubrik 1.6 vun Imbens and Rubin (2015) .
Präzisioun
Am fréieren Abschnëtt hunn ech beschriwwen, wéi Dir de duerchschnëttleche Behandlungseffekt schätzen. An dësem Abschnitt ginn ech e puer Ideen iwwert d'Variabilitéit vun deene Schätzungen.
Wann Dir iwwer d'Schätzung vum Duerchschnëtt Behandlungseffekt als Schätzung vum Ënnerscheed tëschent zwee Probemëttelen denkt, dann ass et méiglech ze weisen datt de Standardfehler vum Duerchschnëtt behandelen Effekt ass:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
wou \(m\) Leit u Behandlung an \(Nm\) fir ze kontrolléieren (vgl. Gerber and Green (2012) , ÄhK 3,4). Wann Dir u wéi Dir denkt wéi vill Leit fir d'Behandlung a wéivill fir ze kontrolléieren ze kontrolléieren, kënnt Dir gesinn datt wann \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , da wënschen \(m \approx N / 2\) , soulaang wéi d'Käschte fir Behandlung a Kontroll d'selwecht sinn. D'Gläichstellung 4.6 kloer kloer datt d'Design vu Bond an Kollegen (2012) experimentéiert iwwert d'Auswierkunge vun der sozialer Informatioun iwwer Vote (Bild 4.18) war oneffizient statistesch. Ech mengen, datt et 98% vun de Participanten an der Behandlungskonditioun waren. Dëst bedeit, datt d'mëttelméisseg Verhalensbedingung an der Kontrollzoustand net genau esou geschätzt war wéi et kéint gewiesselt hunn, wat d'Verännerung bedeit, datt de geschätzten Ënnerscheed tëscht Behandlungs- a Kontrollbedingung net genau esou geschätzt wéi et kéint sinn. Fir méi iwwer d'optimal Allocatioun vun de Participanten op d'Konditiounen, och wann d'Käschten tëschent d'Konditiounen ënnerscheeden, kuckt List, Sadoff, and Wagner (2011) .
Endlech am Text haat ech beschriwwen, wéi e Differenz-In-Differenze Schätz, dee normalerweis a gemëschtent Konstruktioun benotzt gëtt, zu enger klenger Varianz wéi zu enger Differenz-in-means Schätzler gëtt, wat normalerweis an engem tëschent Themen geschitt ass Design. Wann \(X_i\) de Wäert vum Resultat virun der Behandlung ass, da sinn d'Quantitéit déi mir probéieren mat der Differenz-In-Differenzen Approach ze schätzen, ass:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
De Standardfehler vun där Quantitéit ass (kuck Gerber and Green (2012) , Äscher 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
E Verglach vun eq. 4,6 an eq. 4,8 weist, datt d'Differenz-In-Differenzen-Approis méi e klengt Standardfehler hunn wann ( Gerber and Green (2012) , Äscher 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Awer grouss, wann \(X_i\) ganz prädiktiv vun \(Y_i(1)\) an \(Y_i(0)\) , da kënnt Dir méi präzis Schätz vun enger Differenz vun Ënnerscheed Approche wéi vun enger Differenz- heescht "een". Eng Manéier fir dëst am Kontext vun Restivo an van de Rijt ze experden ze denken ass datt et vill natierlech Variatioun vum Betrag ass datt d'Leit änneren, also vergläicht d'Behandlungs- an Kontrollskonditioune schwéier z'erklären: et ass schwéier ze maachen eng relativ e klenge Effekt vun de laange Resultater. Awer wann Dir Ënnerscheeder vun dëser natierlecher Variabilitéit ënnerscheet, da gëtt et vill manner Variabilitéit, an dat maacht et méi einfach, e klengen Effekt ze entdecken.
Kuckt d' Frison and Pocock (1992) fir e präzist Verglach ënnerscheed vun Ënnerscheed tëscht Mëttelen, Ënnerscheed an Ënnerscheed, an ANCOVA-baséiert Approchen an der méi allgemenger Kader, wou et méi verschidde Mesüre Pre-Behandlungen a post-Behandlung gëtt. Besonnesch empfehlen si ANCOVA, déi ech net hei iwwerdeems hunn. Ausserdeem, kuckt McKenzie (2012) fir eng Diskussioun iwwer d'Wichtegkeet vun méi Moossnamen fir Mesure vum Behandler.