Úgy vélem, hogy a kísérletek legmegfelelőbb módja a potenciális kimeneti keret (amelyet a 2. fejezet matematikai megjegyzéseiben tárgyaltam). A potenciális eredmények keretrendszer szoros kapcsolatban áll a tervezési mintavételezéssel kapcsolatos ötletekkel, amelyeket a 3. fejezetben ismertetem (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ez a függelék úgy lett megírva, hogy hangsúlyozza ezt a kapcsolatot. Ez a hangsúly egy kicsit nem hagyományos, de úgy gondolom, hogy a mintavétel és a kísérletek közötti kapcsolat hasznos: ez azt jelenti, hogy ha tudsz valamit a mintavételről, akkor tudsz valamit a kísérletekről és fordítva. Ahogyan ezekben a feljegyzésekben megmutatom, a potenciális kimeneti keretek feltárják az oksági hatások becsléséhez szükséges randomizált, ellenőrzött kísérletek erejét, és megmutatja a még tökéletesen végrehajtott kísérletek korlátait.
Ebben a függelékben ismertetem a potenciális kimeneti kereteket, amelyek a 2. fejezet matematikai megjegyzéseiből néhány anyagot duplikálnak annak érdekében, hogy ezeket a jegyzeteket önállóbbá tegyék. Ezután ismertetem néhány hasznos eredményt az átlagos kezelési hatások becsléseinek pontosságáról, beleértve az optimális kiosztás és a különbség-különbségek becsléseinek megbeszélését. Ez a függelék nagymértékben a Gerber and Green (2012) -re támaszkodik.
Potenciális kimeneteli keret
Annak érdekében, hogy bemutassuk a lehetséges kimenetel kereteket, térjünk vissza a Restivo és a van de Rijt kísérletéhez, hogy megbecsüljük, milyen hatással van egy barnstar befogadása a jövőbeli Wikipedia-beadványokra. A potenciális kimeneteli keretnek három fő eleme van: egységek , kezelések és potenciális kimenetek . Restivo és van de Rijt esetében az egységek megérdemelték a szerkesztőket - azoknak a hozzászólásoknak az első 1% -ában, akik még nem kaptak barnstárt. Ezeket a szerkesztőket \(i = 1 \ldots N\) indexelhetjük. A kísérletben szereplő kezelések "barnstar" vagy "nem barnstar", és írok \(W_i = 1\) ha a személy \(i\) a kezelési állapotban van, és \(W_i = 0\) egyébként. A potenciális kimeneti keretek harmadik eleme a legfontosabb: a lehetséges eredmények . Ezek kevésbé fogalmi szempontból nehézkessé válnak, mert magukban foglalják a "potenciális" kimeneteleket - olyan dolgokat, amelyek megtörténhetnek. Minden egyes Wikipédia szerkesztő számára elképzelhető, hogy milyen számú szerkesztést végezne a kezelési állapotban ( \(Y_i(1)\) ) és a számot, amelyet az ellenőrzési állapotban ( \(Y_i(0)\) ).
Ne feledje, hogy az egységek, kezelések és eredmények kiválasztása meghatározza, hogy mit lehet tanulni ebből a kísérletből. Például további feltételezések nélkül Restivo és van de Rijt nem mondhat semmit a barnstars hatásairól az összes Wikipédia szerkesztőn vagy olyan eredményekről, mint a szerkesztés minősége. Általánosságban az egységek, kezelések és kimenetek kiválasztásának a tanulmány céljain kell alapulnia.
Tekintettel ezekre a potenciális kimenetelekre - amelyeket a 4.5. Táblázatban foglalunk össze - meg lehet határozni a kezelés személyre gyakorolt kauzális hatását \(i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Számomra ez az egyenlet az ok-okozati hatás meghatározásának legegyszerűbb módja, és bár nagyon egyszerű, ez a keret számos fontos és érdekes módon (Imbens and Rubin 2015) .
Személy | Módosul a kezelés állapotában | Szabályozási állapot szerkesztése | Kezelési hatás |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
átlagos | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Ha ily módon definiáljuk az okságot, akkor probléma merül fel. Szinte minden esetben nem tudjuk megfigyelni mindkét lehetséges kimenetelt. Vagyis egy konkrét Wikipédia szerkesztő vagy kapott egy barnstar-t vagy sem. Ezért megfigyeljük az egyik potenciális kimenetet - \(Y_i(1)\) vagy \(Y_i(0)\) - de nem mindkettőt. A két lehetséges kimenetelre való képtelenség olyan súlyos probléma, amelyet Holland (1986) az ok-okozati következtetés alapkérdésének nevezte.
Szerencsére, amikor kutatásokat végezünk, nem csak egy személyünk van, sok emberünk van, és ez utat kínál az ok-okozati következtetés alapjául. Ahelyett, hogy megpróbálnánk megbecsülni az egyéni kezelési hatást, meg tudjuk becsülni az átlagos kezelési hatást:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Ez még mindig kifejezéstelen, \(\tau_i\) kifejezésekkel, de bizonyos algebrákkal ( Gerber and Green (2012) egyenértékű 2.8)
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Egyenlet 4.3 azt mutatja, hogy ha meg tudjuk becsülni a népesség átlagos eredményét kezelés alatt ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), és a népesség átlagos eredményét kontroll alatt ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), akkor becsüljük az átlagos kezelés hatását anélkül, hogy megbecsülnénk az adott személy kezelésére gyakorolt hatást.
Most, hogy meghatároztuk becsléseinket - az a dolog, amit megpróbálunk megbecsülni - fordulok majd ahhoz, hogy ténylegesen becsüljük az adatokat. Szeretem ezt a becslési kihívást mint mintavételi problémát gondolni (gondoljon vissza a 3. fejezet matematikai feljegyzéseire). Képzeljük el, hogy véletlenszerűen kiválasztunk néhány embert, akik megfigyelik a kezelés állapotát, és véletlenszerűen kiválasztunk néhány embert, akik megfigyelik az ellenőrzési állapotot, majd becsüljük az átlageredményt minden állapotban:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
ahol \(N_t\) és \(N_c\) az emberek számát a kezelés és az ellenőrzési körülmények között. A 4.4 egyenlet egy differenciált becslés. A mintavételi terv miatt tudjuk, hogy az első kifejezés egy elfogadhatatlan becslést jelent a kezelés alatt lévő átlagos kimenetelre vonatkozóan, és a második kifejezés egy ellenszenvtelen becslés.
Egy másik mód arra, hogy elgondolkodjunk arról, hogy a randomizáció lehetővé teszi-e, hogy biztosítja, hogy a kezelés és a kontroll csoportok közötti összehasonlítás méltányos, mert a randomizálás biztosítja, hogy a két csoport hasonlítson egymásra. Ez a hasonlat hasonlít a mért dolgokra (mondjuk a szerkesztések számát a kísérlet előtt 30 nappal) és azokat a dolgokat, amelyeket még nem mértünk (mondjuk nem). Ez a képesség egyensúly biztosítását megfigyelt és a nem megfigyelt tényezők kritikus. Ha látni szeretné az automatikus kiegyenlítés erejét a megfigyelt tényezőkön, képzeljük el, hogy a jövőbeli kutatások szerint a férfiak jobban reagálnak a díjakra, mint a nők. Ez érvénytelenítené Restivo és van de Rijt kísérletének eredményeit? Nem. Véletlenszerűen, gondoskodtak arról, hogy minden meg nem figyelhető elem kiegyensúlyozott legyen. Ez a védelem az ismeretlen ellen nagyon erős, és fontos módja annak, hogy a kísérletek eltérjenek a 2. fejezetben leírt nem kísérleti technikáktól.
A teljes populáció kezelési hatásának meghatározása mellett lehetséges meghatározni az emberek egy részhalmazának kezelési hatását is. Ezt tipikusan feltételes átlagos kezelési hatásnak (CATE) nevezik. Például, a Restivo és a van de Rijt tanulmányában, képzeljük el, hogy \(X_i\) az, hogy a szerkesztő a kísérlet előtt 90 nappal a szerkesztések medián számánál volt-e vagy meghaladta-e. Az ilyen könnyű és nehéz szerkesztők külön számíthatják ki a kezelés hatását.
A potenciális kimeneteli keret az erőszakos következtetés és kísérletek gondolata. Van azonban két további bonyolultság, amelyeket szem előtt kell tartanunk. Ezeket a két összetettséget gyakran a Stabil egység kezelési érték elnyomás (SUTVA) kifejezés alatt csoportosítják. A SUTVA első része azon a feltételezésen alapul, hogy az egyetlen olyan dolog, ami a személy \(i\) Más szóval, feltételezzük, hogy a \(i\) Ez néha úgynevezett "nem interferencia" vagy "nem spillovers", és írható:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
ahol \(\mathbf{W_{-i}}\) a kezelés állapotának vektora mindenki számára, kivéve a \(i\) személyt. Ennek egyik módja, ha megsértjük azt, ha az egyik személy kezelése egy másik személyre átterjed, akár pozitívan, akár negatívan. Ha visszatér Restivo és van de Rijt kísérletéhez, képzelj el két barátot \(i\) és \(j\) és az a személy \(i\) kap egy barnstar-t és \(j\) nem. Ha a \(i\) fogadás megkapja a \(j\) szerkesztést (versenyérzetből), vagy kevésbé szerkeszt (kétségbeesés nélkül), akkor megsértették a SUTVA-t. Sérülhet akkor is, ha a kezelés hatása a kezelésben részesülő többi személy teljes számától függ. Például, ha a Restivo és a van de Rijt 100 helyett 1000 vagy 10 000 barnstárt adott ki, akkor ez hatással lehetett egy barnstar fogadására.
A második kérdés a SUTVA-ra támaszkodik, az a feltételezés, hogy az egyetlen releváns kezelés az, amelyet a kutató nyújt; ezt a feltevést néha nem nevezik rejtett kezeléseknek vagy kizárhatóságnak . Például a Restivo és a van de Rijt esetében előfordulhatott volna, hogy a barnstar segítségével a szerkesztők egy népszerű szerkesztői oldalon szerepeltek, és a népszerű szerkesztők oldalán szerepeltek, nem pedig egy barnstar- ami a szerkesztési viselkedés megváltozását okozta. Ha ez igaz, akkor a barnstar hatása nem különbözik a népszerű szerkesztők oldalától. Természetesen nem világos, hogy tudományos szempontból vonzónak vagy vonzónak kell-e tekinteni. Vagyis el tudod képzelni egy kutatót, aki azt állítja, hogy a barnstar fogadásának hatása magában foglalja az összes későbbi kezelést, amelyet a barnstar indít. Vagy el tudnál képzelni egy olyan helyzetet, ahol a kutatás el akarja választani a barnstars hatását mindezektől a más dolgoktól. Az egyik mód arra gondolni, hogy van-e valami, ami azt eredményezi, hogy Gerber and Green (2012) (41. o.) "Szimmetria-bomlásnak" nevezik? Más szavakkal, van-e valami más, mint a kezelés, amely az embereket a kezelési és ellenőrzési feltételek eltérő kezelésére kényszeríti? A szimmetriasérüléssel kapcsolatos aggodalmak az orvosi vizsgálatok során a kontroll csoportban lévő betegek bevétele a placebocsoportra. Így a kutatók biztosak lehetnek benne, hogy az egyetlen különbség a két feltétel között a tényleges gyógyszer, és nem a pirulátus tapasztalata.
A SUTVA-ról további információkat a Gerber and Green (2012) 2.7. Szakasza, a Morgan and Winship (2014) 2.5. Imbens and Rubin (2015) az Imbens and Rubin (2015) 1.6.
Pontosság
Az előző fejezetben leírtuk, hogyan becsüljük meg az átlagos kezelés hatását. Ebben a részben bemutatom a becslések változékonyságát.
Ha úgy gondolod, hogy becsüljük az átlagos kezelési hatást a két mintaeszköz közötti különbség becslésénél, akkor meg lehet mutatni, hogy az átlagos kezelési hatás standard hibája:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
ahol \(m\) a kezeléshez hozzárendelt személyek és a \(Nm\) ellenőrzése (lásd Gerber and Green (2012) , 3.4. Így, ha gondolkodunk arról, hogy hány ember hozzárendelhet a kezeléshez és hányan rendelhet az ellenőrzéshez, akkor láthatjuk, hogy ha \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , akkor \(m \approx N / 2\) , mindaddig, amíg a kezelési és ellenőrzési költségek megegyeznek. A 4.6 egyenlet tisztázza, hogy a Bond és munkatársai (2012) kísérlete a társadalmi adatoknak a szavazásra gyakorolt hatásáról (4.18. Ábra) statisztikailag nem hatékony. Emlékezzünk arra, hogy a résztvevők 98% -a volt a kezelési állapotban. Ez azt jelentette, hogy az ellenőrzési állapotban tapasztalt átlagos viselkedést nem pontosan becsülték meg, mint amilyen lett volna, ami viszont azt jelentette, hogy a kezelés és a kontroll állapot közötti becsült különbséget nem becsülték meg pontosan, amennyire lehetett. Ha többet szeretne a résztvevők optimális elosztására a feltételekhez, beleértve, ha a költségek a feltételek között eltérőek, nézze meg a List, Sadoff, and Wagner (2011) .
Végül a fő szövegben azt írtam le, hogy a különbség-különbségek becslése, melyet tipikusan vegyes konstrukcióban használnak, kisebb eltérést eredményezhet, mint a különbség-az-eszköz becslõnél, amelyet általában egy-egy alany tervezés. Ha \(X_i\) a kezelés előtti eredmény értéke, akkor az a mennyiség, amelyet a differenciál-különbségek megközelítésben próbálunk becsülni:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Ennek a mennyiségnek a standard hibája (lásd: Gerber and Green (2012) , 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Az eq. 4.6 és eq. A 4.8 ábra szerint a differenciál-különbségek megközelítése kisebb standard hibával jár (lásd Gerber and Green (2012) , 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Nagyjából, ha \(X_i\) nagyon prediktív a \(Y_i(1)\) és \(Y_i(0)\) , akkor pontosabb becsléseket kaphat a differenciál-különbségek megközelítésétől, az egyik. Ennek egyik módja Restivo és van de Rijt kísérletének kontextusában az, hogy sok természetes változás van az emberek által szerkesztett mennyiségben, így nehézzé teszi a kezelést és az ellenőrzési feltételeket: nehezen észlelhető egy rokon kicsi hatás a zajos eredményadatokban. De ha különbséget tesz a természetben előforduló változékonysággal, akkor sokkal kisebb a változékonyság, és ez megkönnyíti a kis hatás észlelését.
Lásd Frison and Pocock (1992) a különbség-of-means, differenciál-különbségek és ANCOVA-alapú megközelítések pontos összehasonlítására az általánosabb környezetben, ahol többféle mérés előkezelés és utókezelés van. Különösen ajánlják az ANCOVA-t, amelyet itt nem említettem. Továbbá, lásd McKenzie (2012) , hogy megvitassák a kezelés utáni többszörös kezelés eredményeinek fontosságát.