Jag tycker att det bästa sättet att förstå experiment är det potentiella ramverket för utfall (som jag diskuterade i de matematiska noterna i kapitel 2). Den potentiella resultatramen har nära relationer till de idéer från designbaserad provtagning som jag beskrivit i kapitel 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Denna bilaga har skrivits på ett sådant sätt att man betonar den kopplingen. Denna betoning är lite otraditionell, men jag tror att kopplingen mellan provtagning och experiment är till hjälp: det betyder att om du vet något om provtagning vet du något om experiment och vice versa. Som jag kommer att visa i dessa noter avslöjar den potentiella resultatramen styrkan hos randomiserade, kontrollerade försök för att uppskatta orsakseffekter, och det visar begränsningarna av vad som kan göras med även perfekt genomförda experiment.
I den här bilagan ska jag beskriva det potentiella ramverket för utfallet, duplicera något av materialet från de matematiska noterna i kapitel 2 för att göra dessa anteckningar mer självständiga. Då ska jag beskriva några användbara resultat om precisionen av uppskattningar av de genomsnittliga behandlingseffekterna, inklusive en diskussion av optimala fördelnings- och skillnadsskillnader. Denna bilaga drabbar kraftigt på Gerber and Green (2012) .
Potentiella resultatramar
För att illustrera den potentiella resultatramen, låt oss återvända till Restivo och van de Rijts experiment för att uppskatta effekten av att ta emot en barnstjärna på framtida bidrag till Wikipedia. Den potentiella ramen för resultat har tre huvudelement: enheter , behandlingar och potentiella resultat . I fråga om Restivo och van de Rijt var enheterna förtjänta redaktörer-de i de högsta 1% av bidragsgivare-som ännu inte fått en barnstjärna. Vi kan indexera dessa redigerare med \(i = 1 \ldots N\) . Behandlingarna i deras experiment var "barnstjärna" eller "ingen barnstjärna" och jag skriver \(W_i = 1\) om personen \(i\) befinner sig i behandlingsförhållandet och \(W_i = 0\) annars. Det tredje elementet i det potentiella ramverket för utfall är det viktigaste: de potentiella resultaten . Dessa är lite mer konceptuellt svåra eftersom de involverar "potentiella" resultat - saker som kan hända. För varje Wikipedia-redigerare kan man föreställa sig antalet redigeringar som hon skulle göra i behandlingsförhållandet ( \(Y_i(1)\) ) och numret som hon skulle göra i kontrollläget ( \(Y_i(0)\) ).
Observera att detta val av enheter, behandlingar och resultat definierar vad som kan läras av detta experiment. Till exempel, utan några ytterligare antaganden, kan Restivo och van de Rijt inte säga något om effekterna av barnstars på alla Wikipedia-redaktörer eller på resultat som redigeringskvalitet. Generellt måste valet av enheter, behandlingar och resultat baseras på studiernas mål.
Med tanke på dessa potentiella resultat som sammanfattas i tabell 4.5 kan man definiera orsakseffekten av behandlingen för person \(i\) som
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
För mig är denna ekvation det tydligaste sättet att definiera en orsakssammanfattning, och även om det är extremt enkelt, visar den här ramen att generaliseras på många viktiga och intressanta sätt (Imbens and Rubin 2015) .
Person | Ändringar i behandlingsförhållanden | Redigeringar i kontrollläge | Behandlingseffekt |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
betyda | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Om vi definierar orsakssambandet på detta sätt kommer vi dock in i ett problem. I nästan alla fall får vi inte observera båda potentiella resultaten. Det vill säga, en specifik Wikipedia-redaktör fick antingen en barnstar eller inte. Därför observerar vi ett av de potentiella resultaten- \(Y_i(1)\) eller \(Y_i(0)\) - men inte båda. Oförmågan att observera båda potentiella resultaten är ett så stort problem att Holland (1986) kallade det Grundläggande Problemet med Kausal Inferens .
Lyckligtvis, när vi forskar, har vi inte bara en person, vi har många människor, och det här erbjuder en väg kring det grundläggande problemet med orsakssamband. I stället för att försöka uppskatta individbehandlingseffekten kan vi beräkna den genomsnittliga behandlingseffekten:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Detta uttrycks fortfarande i termer av \(\tau_i\) som inte kan observeras, men med någon algebra (Eq 2.8 av Gerber and Green (2012) ) får vi
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Ekvation 4.3 visar att om vi kan uppskatta det genomsnittliga utfallet av befolkningen under behandling ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) och populationsgenomsnittet utfall under kontrollen ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) , då kan vi uppskatta den genomsnittliga behandlingseffekten, även utan att uppskatta behandlingseffekten för en viss person.
Nu när jag har definierat vårt estimat-det vi försöker uppskatta-jag kommer att vända mig till hur vi faktiskt kan uppskatta det med data. Jag tycker om att tänka på denna uppskattningsutmaning som ett provtagningsproblem (tänk tillbaka till matematiska anteckningar i kapitel 3). Tänk dig att vi slumpmässigt väljer några personer att observera i behandlingsförhållandet och vi slumpmässigt väljer några personer att observera i kontrollförhållandet, då kan vi uppskatta det genomsnittliga resultatet i varje tillstånd:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
där \(N_t\) och \(N_c\) är antalet personer i behandlings- och kontrollförhållandena. Ekvation 4,4 är en skillnad-av-medel estimator. På grund av provtagningsdesignen vet vi att den första termen är en objektiv bedömare för det genomsnittliga resultatet under behandling och den andra termen är en obestämd bedömare under kontroll.
Ett annat sätt att tänka på vad randomisering möjliggör är att det säkerställer att jämförelsen mellan behandlings- och kontrollgrupper är rättvis eftersom randomisering säkerställer att de två grupperna kommer att likna varandra. Denna likhet håller för saker vi har mätt (säg antalet redigeringar under 30 dagar före experimentet) och de saker vi inte har mätt (säg genus). Denna förmåga att säkerställa balans på både observerade och obemärkta faktorer är kritisk. För att se kraften i automatisk balansering på obemannade faktorer, låt oss föreställa oss att framtida forskning finner att män är mer mottagliga för utmärkelser än kvinnor. Skulle det leda till att resultaten från Restivo och van de Rijts experiment försämras? Nej. Genom att randomisera säkerställde de att alla obemannade skulle vara balanserade, i förväntan. Detta skydd mot det okända är mycket kraftfullt, och det är ett viktigt sätt att experimenten skiljer sig från de icke-experimentella teknikerna som beskrivs i kapitel 2.
Förutom att definiera behandlingseffekten för en hel population är det möjligt att definiera en behandlingseffekt för en delmängd av människor. Detta kallas vanligen en villkorlig genomsnittlig behandlingseffekt (CATE). Till exempel, i studien av Restivo och van de Rijt, låt oss föreställa oss att \(X_i\) är om redigeraren var över eller under medianantalet redigeringar under 90 dagar före experimentet. Man kan beräkna behandlingseffekten separat för dessa lätta och tunga redaktörer.
Den potentiella resultatramen är ett kraftfullt sätt att tänka på orsakssamband och experiment. Det finns dock ytterligare två komplexiteter som du bör tänka på. Dessa två komplexiteter klumpas ofta samman under termen Stabil Enhetsbehandlingsvärdesförmåga (SUTVA). Den första delen av SUTVA är antagandet att det enda som betyder något för personen \(i\) 's resultat är om personen var i behandling eller kontroll tillstånd. Med andra ord antas det att personen \(i\) inte påverkas av behandlingen som ges till andra människor. Detta kallas ibland "ingen störning" eller "ingen spillover", och kan skrivas som:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
där \(\mathbf{W_{-i}}\) är en vektor av behandlingsstatus för alla utom person \(i\) . Ett sätt att detta kan brytas är om behandlingen från en person spolas över på en annan person, antingen positivt eller negativt. Återgå till Restivo och van de Rijts experiment, föreställ dig två vänner \(i\) och \(j\) och den personen \(i\) tar emot en barnstar och \(j\) gör det inte. Om \(i\) emot barnstjärnan orsakar \(j\) att redigera mer (ur konkurrens) eller redigera mindre (ur en känsla av förtvivlan), har SUTVA brutits. Det kan också brytas om effekten av behandlingen beror på det totala antalet andra som behandlas. Om till exempel om Restivo och van de Rijt hade gett ut 1000 eller 10 000 barnstjärnor istället för 100, kan detta ha påverkat effekten av att få en barnstjärna.
Den andra frågan klumpade i SUTVA är antagandet att den enda relevanta behandlingen är den som forskaren levererar. detta antagande kallas ibland inga dolda behandlingar eller uteslutande . Till exempel i Restivo och van de Rijt kan det ha varit så att genom att ge en barnstjärna forskarna fick redaktörer att presenteras på en populär redaktörssida och att den var på den populära redaktörssidan, snarare än att få en barnstar- som orsakade förändringen i redigeringsbeteendet. Om detta är sant, är effekten av barnstjärnan inte särskiljbar från effekten av att vara på den populära redaktörssidan. Det är självklart inte klart om detta vetenskapligt bör anses vara attraktivt eller oattraktivt. Dvs. du kan föreställa dig en forskare som säger att effekten av att få en barnstjärna inkluderar alla efterföljande behandlingar som barnstammen triggar. Eller du kan tänka dig en situation där en forskning skulle vilja isolera effekten av barnstars från alla dessa andra saker. Ett sätt att tänka på är att fråga om det finns något som leder till vad Gerber and Green (2012) (s. 41) kallar en "symmetrifördelning"? Med andra ord finns det något annat än behandlingen som gör att människor i behandlings- och kontrollförhållandena behandlas annorlunda? Bekymmer om symmetribrott är vad som leder patienter i kontrollgruppen i medicinska prövningar för att ta ett placebo-piller. På så sätt kan forskare vara säkra på att den enda skillnaden mellan de två förutsättningarna är det faktiska läkemedlet och inte erfarenheten av att ta p-piller.
För mer om SUTVA, se avsnitt 2.7 i Gerber and Green (2012) , avsnitt 2.5 i Morgan and Winship (2014) och avsnitt 1.6 i Imbens and Rubin (2015) .
Precision
I det föregående avsnittet har jag beskrivit hur man uppskattar den genomsnittliga behandlingseffekten. I det här avsnittet kommer jag att ge några idéer om variabiliteten av dessa uppskattningar.
Om du tänker på att uppskatta den genomsnittliga behandlingseffekten som uppskattning av skillnaden mellan två provmedel, så är det möjligt att visa att standardfelet för den genomsnittliga behandlingseffekten är:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
där \(m\) personer som tilldelats behandling och \(Nm\) kontrollerar (se Gerber and Green (2012) , jämförelse 3.4). När man funderar på hur många människor som ska tilldelas behandling och hur många som ska tilldela kontrollen kan man se att om \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , då vill du ha \(m \approx N / 2\) , så länge som kostnaderna för behandling och kontroll är desamma. Ekvation 4.6 klargör varför utformningen av Bond och kollegas (2012) experiment om effekterna av social information om röstning (figur 4.18) var ineffektivt statistiskt. Minns att det hade 98% av deltagarna i behandlingsförhållandet. Detta innebar att medelbeteendet i kontrollförhållandet inte uppskattades så exakt som det kunde ha varit, vilket i sin tur innebar att den uppskattade skillnaden mellan behandlings- och kontrollförhållandet inte uppskattades så exakt som det kunde vara. För mer om optimal fördelning av deltagare i förhållanden, inklusive när kostnaderna skiljer sig från förhållanden, se List, Sadoff, and Wagner (2011) .
Slutligen beskrev jag i huvudtexten hur en skillnad i skillnader estimator, som vanligtvis används i en blandad design, kan leda till mindre varians än en differentierad estimator, som vanligtvis används i ett mellanliggande ämne design. Om \(X_i\) är värdet av resultatet före behandlingen, så är den kvantitet som vi försöker uppskatta med skillnaden i skillnaderna:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Standardfelet för den kvantiteten är (se Gerber and Green (2012) , jämförelse 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
En jämförelse av ekv. 4,6 och ekv. 4.8 visar att skillnaden i skillnaderna kommer att ha ett mindre standardfel när (se Gerber and Green (2012) , jämförelse 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Grovt, då \(X_i\) är väldigt förutsägande för \(Y_i(1)\) och \(Y_i(0)\) kan du få mer exakta uppskattningar från en skillnad av skillnad än en skillnad av-betyder en. Ett sätt att tänka på detta i samband med Restivo och van de Rijts experiment är att det finns mycket naturlig variation i den mängd som människor redigerar, så det gör det svårt att jämföra behandlings- och kontrollförhållandena: det är svårt att upptäcka en släkting liten effekt i bullriga resultatdata. Men om du skiljer ut denna naturligt förekommande variabilitet, så är det mycket mindre variabilitet, och det gör det lättare att upptäcka en liten effekt.
Se Frison and Pocock (1992) för en exakt jämförelse av skillnader i medel, skillnader i skillnader och ANCOVA-baserade tillvägagångssätt i den mer allmänna inställningen där det finns flera mätningar förbehandling och efterbehandling. I synnerhet rekommenderar de starkt ANCOVA, som jag inte har täckt här. Vidare, se McKenzie (2012) för en diskussion om vikten av flera åtgärder efter avslutad behandling.