Ebben a függelékben összefoglalok néhány elképzelést arra vonatkozóan, hogy a nem kísérleti adatok okozati következtetése kissé matematikusabb formában történjen. Két fő megközelítés létezik: az ok-okozati grafikon, leginkább a Judea Pearl és munkatársai, valamint a potenciális kimenetel keretrendszer, amely leginkább Donald Rubinnal és kollégáival van kapcsolatban. Bemutatom a potenciális kimeneti keretet, mert szorosabban kapcsolódik a 3. és 4. fejezet végén található matematikai feljegyzésekben található ötletekkel. Az ok-okozati grafikonokról többet ajánlok Pearl, Glymour, and Jewell (2016) (bevezető ) és Pearl (2009) (haladó). Az ok-okozati következtetés hosszú távú kezelésére, amely ötvözi a potenciális kimenetel keretrendszert és az oksági grafikon keretrendszerét, ajánlom a Morgan and Winship (2014) .
Ennek a függeléknek az a célja, hogy megkönnyítse a potenciális kimenetelméletek jelölését és stílusát, hogy átválthasson a témában írt több technikai anyagra. Először is leírom a lehetséges kimeneti keretet. Aztán használni fogom, hogy részletesebben tárgyalja a természetes kísérleteket, mint például Angrist (1990) a katonai szolgálat eredményére gyakorolt hatásáról. Ez a függelék nagymértékben az Imbens and Rubin (2015) támaszkodik.
Potenciális kimeneteli keret
A potenciális kimeneteli keretnek három fő eleme van: egységek , kezelések és potenciális kimenetek . Annak érdekében, hogy illusztráljuk ezeket az elemeket, fontoljuk meg az Angrist (1990) kérdés stilizált változatát: Mi a katonai szolgálat hatása a keresetekre? Ebben az esetben tudjuk meghatározni az egységek, hogy az emberek jogosultak a 1970-tervezet az Egyesült Államokban, és tudjuk index ezek a személyek a \(i = 1, \ldots, N\) . A kezelések ebben az esetben "szolgálhatnak a hadseregben" vagy "nem szolgálhatnak a hadseregben." Ezt a kezelési és ellenőrzési feltételeket hívom, és írok \(W_i = 1\) ha személy \(i\) a kezelési állapotban van és \(W_i = 0\) ha a \(i\) személy ellenőrzési állapotban van. Végezetül, a potenciális eredmények sokkal inkább koncepcionálisan nehézek, mert "potenciális" kimeneteleket tartalmaznak; dolog, ami történt volna. Az 1970-es tervezetre jogosult valamennyi személy számára el tudjuk képzelni azt az összeget, amelyet 1978-ban szerzett volna volna, ha katonaságukban szolgáltak volna, és amelyet a \(Y_i(1)\) 1978-ban, ha nem szolgáltak a hadseregben, amit hívni fogok \(Y_i(0)\) . A lehetséges kimeneti keretekben \(Y_i(1)\) és \(Y_i(0)\) fix értékek, míg \(W_i\) egy véletlen változó.
Az egységek, kezelések és kimenetek megválasztása kritikus, mert meghatározza, hogy mit lehet és nem lehet tanulni a tanulmányból. Az 1970-es tervezetre jogosult egységek kiválasztása nem tartalmazza a nőket, és így további feltevések nélkül ez a tanulmány nem mond semmit a katonai szolgálat nőkre gyakorolt hatásáról. A kezelések és eredmények meghatározására vonatkozó döntések is fontosak. Például, ha az érdeklődés kezelése összpontosítana a katonai szolgálatra vagy a küzdelemre? Ha a kamatok eredményei jövedelem vagy munkahelyi elégedettség? Végül az egységek, kezelések és eredmények kiválasztását a tanulmány tudományos és politikai céljainak kell vezérelnie.
Az egységek, kezelések és lehetséges kimenetek választása miatt a kezelésnek a \(i\) \(\tau_i\)
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Más szavakkal, összehasonlítjuk, hogy mennyi személy \(i\) volna keresett, miután kiszolgálta, mennyi személy \(i\) volna kiszolgálása nélkül. Nekem, eq. 2.1 az ok-okozati hatás meghatározásának legegyszerűbb módja, és bár nagyon egyszerű, ez a keret számos fontos és érdekes módon (Imbens and Rubin 2015) .
A potenciális kimeneti keretek felhasználása során gyakran hasznosnak találom a táblázatot, amely bemutatja a lehetséges kimeneteleket és a kezelés hatásait az összes egység számára (2.5. Táblázat). Ha nem tudsz elképzelni egy ilyen táblázatot a tanulmányodhoz, akkor lehet, hogy pontosan meg kell határoznod az egységek, a kezelések és a lehetséges kimenetek meghatározásait.
Személy | Jövedelem kezelési állapotban | A bevétel ellenőrzési állapotban van | Kezelési hatás |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Átlagos | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Az ok-okozati hatás meghatározásakor azonban probléma merül fel. Szinte minden esetben nem tudjuk megfigyelni mindkét lehetséges kimenetelt. Vagyis egy adott személy szolgált vagy nem szolgált. Ezért megfigyeljük az egyik potenciális kimenetet - \(Y_i(1)\) vagy \(Y_i(0)\) - de nem mindkettőt. A két lehetséges kimenetelre való képtelenség olyan súlyos probléma, amelyet Holland (1986) az ok-okozati következtetés alapkérdésének nevezte.
Szerencsére, amikor kutatásokat végzünk, nem csak egy személyünk van; inkább sok ember van, és ez utat kínál az ok-okozati következtetés alapjául. Ahelyett, hogy megpróbálnánk megbecsülni az egyéni kezelési hatást, az összes egység átlagos kezelési hatását becsülhetjük meg:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Ez az egyenlet még mindig a \(\tau_i\) , amelyek nem lehetnek megfigyelhetők, de néhány algebrával ( Gerber and Green (2012) ekv 2,8)
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Ez azt mutatja, hogy ha meg tudjuk becsülni a népesség átlagos eredményét kezelés alatt ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), és a népesség átlagos eredményét kontroll alatt ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), akkor az átlagos kezelési hatást becsülhetjük anélkül, hogy megbecsülnénk az adott személy kezelésére gyakorolt hatást.
Most, hogy meghatároztuk becsléseinket - az a dolog, amit megpróbálunk megbecsülni - fordulok majd ahhoz, hogy ténylegesen becsüljük az adatokat. És itt közvetlenül a probléma, hogy csak megfigyeljük az egyik lehetséges kimenetelét minden egyes ember; vagy \(Y_i(0)\) vagy \(Y_i(1)\) (2.6. táblázat). Az átlagos kezelési hatásokat úgy becsülhettük, hogy összehasonlítottuk azokat az embereket, akik a kiszolgáltatottak jövedelmének szolgáltak:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
ahol \(N_t\) és \(N_c\) az emberek számát a kezelés és az ellenőrzési körülmények között. Ez a megközelítés akkor is jól fog működni, ha a kezelés megbízhatósága független a lehetséges kimenetelektől, ami néha elnevezhetőségnek minősül . Sajnálatos módon, kísérlet hiányában a tudatlanság nem gyakran elégedett, ami azt jelenti, hogy az eq. 2.4 nem valószínű, hogy jó becslést ad. Az egyik mód arra gondolni, hogy a kezelés véletlenszerű hozzárendelésének hiányában eq. 2.4 nem hasonlít a hasonlóhoz; összehasonlítja a különböző emberek jövedelmét. Vagy kissé eltérően, a kezelés véletlenszerű hozzárendelése nélkül, a kezelés elosztása valószínűleg a potenciális kimenetelhez kapcsolódik.
A 4. fejezetben leírom, hogy a véletlen besorolásos, ellenőrzött kísérletek hogyan segíthetnek a kutatóknak okozati becslésekben, és itt leírom, hogy a kutatók kihasználhassák a természetes kísérleteket, például a lottó tervezetét.
Személy | Jövedelem kezelési állapotban | A bevétel ellenőrzési állapotban van | Kezelési hatás |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Átlagos | ? | ? | ? |
Természetes kísérletek
Az egyik megközelítés az oksági becslések kísérlet nélküli futtatásához keresni kell valami olyat, ami a világon véletlenszerűen rendelt benneteket. Ezt a megközelítést természetes kísérleteknek nevezik. Sok helyzetben sajnos a természet nem véletlenszerűen nyújtja a kívánt érdeklődésre számot tartó kezelést. De néha a természet véletlenszerűen kezeli a kapcsolódó kezelést. Különösen azt fogom vizsgálni, hogy van-e olyan másodlagos kezelés, amely arra ösztönzi az embereket, hogy megkapják az elsődleges kezelést . Például a tervezet véletlenszerűen kijelölt másodlagos kezelésnek tekinthető, amely arra ösztönözte az embereket, hogy vegyék igénybe a katonaság elsődleges kezelését. Ezt a designot néha ösztönző tervezésnek nevezik. És az elemzési módszert, amelyet leírni fogok a helyzet kezelésére, néha instrumentális változóknak nevezik. Ebben a helyzetben bizonyos feltevésekkel a kutatók felhasználhatják a bátorítást arra, hogy megismerjék az elsődleges kezelés hatását egy adott részhalmazra.
A két különböző kezelési eljárás - a bátorítás és az elsődleges kezelés - kezeléséhez új jelzésre van szükségünk. Tegyük fel, hogy egyesek véletlenszerűen \(Z_i = 1\) ( \(Z_i = 1\) ), vagy nem szerkesztettek ( \(Z_i = 0\) ); ebben a helyzetben a \(Z_i\) néha eszköz .
A megszerkesztettek közül néhány szolgáltatott ( \(Z_i = 1, W_i = 1\) ), és néhány nem ( \(Z_i = 1, W_i = 0\) ). Hasonlóképpen azok is, akiket nem szerkesztettek, néhányan szolgáltak ( \(Z_i = 0, W_i = 1\) ), és néhány nem ( \(Z_i = 0, W_i = 0\) ). Az egyes személyek potenciális kimenetelei most kibővíthetők, hogy megmutassák státuszukat mind a bátorítást, mind a kezelést illetően. Például legyen \(Y(1, W_i(1))\) a személy jövedelme \(i\) \(W_i(1)\) . Ezenkívül a népességet négy csoportba lehet csoportosítani: a kompilátorok, a soha nem vevők, a deflátorok és az örökösök (2.7. Táblázat).
típus | Szerviz ha megszerkesztett | Szerviz, ha nincs megfogalmazva |
---|---|---|
teljesítőkkel | Igen, \(W_i(Z_i=1) = 1\) | Nem, \(W_i(Z_i=0) = 0\) |
Soha vállalók | Nem, \(W_i(Z_i=1) = 0\) | Nem, \(W_i(Z_i=0) = 0\) |
Defiers | Nem, \(W_i(Z_i=1) = 0\) | Igen, \(W_i(Z_i=0) = 1\) |
Mindig vállalók | Igen, \(W_i(Z_i=1) = 1\) | Igen, \(W_i(Z_i=0) = 1\) |
Mielőtt megbeszéljük a kezelés hatását (pl. Katonai szolgálat), először meghatározhatjuk a bátorítás két hatását (pl. Megfogalmazás). Először is meg tudjuk határozni, milyen hatást gyakorol a bánásmód az elsődleges kezelésre. Másodszor, meghatározhatjuk a bátorítás hatását az eredményre. Kiderül, hogy ez a két hatás együttesen becsülhető meg a kezelésnek egy adott csoportra gyakorolt hatásáról.
Először is, a bánásmódnak a kezelésre gyakorolt hatása meghatározható a \(i\) as személyre
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Ezenkívül ezt a mennyiséget az egész népesség körében lehet meghatározni
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Végül becslésünk \(\text{ITT} _{W}\) az adatok felhasználásával:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
ahol a \(\bar{W}^{\text{obs}}_1\) a megfigyelt megbetegedési arány a meghívottak számára és \(\bar{W}^{\text{obs}}_0\) a megfigyelt betegek aránya azoknak, akiket nem bátorított. \(\text{ITT}_W\) néha úgy is nevezik a felvétel sebességét .
Ezután az ösztönzésnek az eredményre gyakorolt hatása meghatározható a \(i\) személy számára:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Ezenkívül ezt a mennyiséget az egész népesség körében lehet meghatározni
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Végül becslést készítünk \(\text{ITT}_{Y}\) az adatok felhasználásával:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
ahol a \(\bar{Y}^{\text{obs}}_1\) \(\bar{W}^{\text{obs}}_0\) \(\bar{Y}^{\text{obs}}_1\) a megfigyelt eredmény (pl. kereset) azok számára, akiket bátorított (pl. szerkesztett) és \(\bar{W}^{\text{obs}}_0\) azoknak a megfigyelt eredményeknek, akiket nem bátorítottak.
Végezetül figyelmet fordítunk az érdeklődésre gyakorolt hatásra: az elsődleges kezelés hatására (pl. Katonai szolgálat) az eredményre (pl. Jövedelemre). Sajnos kiderül, hogy általában nem becsülhetjük meg ezt a hatást minden egységre. Bizonyos feltételezésekkel azonban a kutatók becslést tehetnek a kezelésnek a betolakodókra (pl. Az emberek, akik akkor fognak szolgálni, ha megfogalmazzák, és akik nem fognak szolgálni, ha nincsenek megfogalmazva, 2.7. Táblázat). Ezt a becslést nevezem az átlagos okozó hatásnak (CACE) (amelyet néha a helyi átlagos kezelési hatásnak is neveznek, LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
ahol \(G_i\) adományozza a \(G_i\) \(i\) (lásd a 2.7. táblázatot) és \(N_{\text{co}}\) a kompliensek száma. Más szavakkal, eq. 2.11 összehasonlítja a \(Y_i(1, W_i(1))\) megfogalmazott eredményeket, és nem készítette \(Y_i(0, W_i(0))\) . A becslés eq. 2.11 nehéz észrevenni a megfigyelt adatokból, mert a megfigyelt adatok felhasználásával nem lehet azonosítót azonosítani (ha tudni szeretné, hogy valaki más legyen, akkor meg kell figyelnie, hogy a szerkesztéskor szolgálatban van-e, és ha nem szerkesztett).
Kicsit meglepő módon kiderül - hogy ha van valamilyen kompilátor, akkor feltéve, ha három további feltételezést teszünk lehetővé, meg lehet becsülni a CACE-t a megfigyelt adatokból. Először is azt kell feltételeznünk, hogy a kezeléshez való hozzárendelés véletlenszerű. A lottótervezés esetében ez ésszerű. Azonban bizonyos helyeken, ahol a természetes kísérletek nem támaszkodnak a fizikai randomizációra, ez a feltételezés problémásabb lehet. Másodszor, azt kell feltételeznünk, hogy ezek nem defierek (ezt a feltevést néha monotonikus feltételezésnek is nevezik). A tervezet összefüggésében ésszerűnek tűnik azt feltételezni, hogy nagyon kevesen vannak, akik nem fognak szolgálni, ha megszövegezik és szolgálnak, ha nincsenek megfogalmazva. Harmadszor, és végül, a legfontosabb feltételezés, amely a kirekesztés korlátozásának nevezik. A kirekesztési korlátozás alatt azt kell feltételeznünk, hogy a kezelési feladat teljes hatása a kezelésen keresztül történik. Más szóval azt kell feltételeznünk, hogy nincs közvetlen hatása a bátorításnak az eredményekre. Például a lottótervezés esetében azt kell feltételezni, hogy a tervezet státusza nem befolyásolja a katonai szolgálaton kívüli bevételeket (2.11. Ábra). A kirekesztési korlátozás megsérthetõ, ha például a megszerkesztett emberek több időt töltöttek az iskolában, hogy elkerüljék a szolgáltatást, vagy ha a munkáltatók kevésbé hajlandóak felvenni a megfogalmazott embereket.
Ha ezek a három feltétel (véletlenszerű kezelés, nem defier, és kizárási korlátozás) teljesülnek, akkor
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
így becsüljük a CACE-t:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Az egyik módja annak, hogy a CACE-re gondolkodjunk, az az, hogy az eredmények között különbség van azok között, akiket bátorítottak, és azokat, akiket nem ösztönzött, a felvétel aránya felfújt.
Két fontos figyelmeztetés van szem előtt tartva. Először is, a kirekesztés korlátozása egy erős feltevés, és azt eseti alapon meg kell indokolni, ami gyakran igényel szakterületet. A kirekesztési korlátozás nem igazolható a bátorítás véletlenszerűsítésével. Másodszor, egy közös gyakorlati kihívás az instrumentális változó elemzéssel akkor jön, amikor a bátorításnak kevés hatása van a kezelés felvételére (amikor a \(\text{ITT}_W\) kicsi). Ezt gyenge eszköznek nevezik, és számos problémához vezet (Imbens and Rosenbaum 2005; Murray 2006) . A gyenge eszközökkel való \(\widehat{\text{CACE}}\) egyik módja, hogy \(\widehat{\text{CACE}}\) érzékeny lehet a \(\widehat{\text{ITT}_Y}\) kis előítéletekre a kirekesztési korlátozás megsértése - mivel ezek az előítéletek egy kis \(\widehat{\text{ITT}_W}\) (lásd 2.13. Nagyjából, ha a természethez rendelt kezelés nem nagy hatással van a kezelésre, akkor nagyon nehéz lesz megismerkedni a kezeléssel.
Lásd 23. és 24. fejezet Imbens and Rubin (2015) egy hivatalos formában a vita. Az instrumentális változók hagyományos ökonometriai megközelítését tipikusan az egyenletek becslése, nem pedig a lehetséges kimenetelei fejezték ki. Ebből a másik szempontból lásd Angrist and Pischke (2009) , valamint a két megközelítés összehasonlítását lásd az Imbens and Rubin (2015) 24.6 Imbens and Rubin (2015) . Az instrumentális változók megközelítésének egy kicsit kevésbé formális bemutatása a Gerber and Green (2012) 6. fejezetében található. A kizárási korlátozásról bővebben lásd D. Jones (2015) . Aronow and Carnegie (2013) további feltételeket Aronow and Carnegie (2013) fel, amelyeket az ATE helyett a CACE-re lehet becsülni. További információ arról, hogy a természetes kísérletek hogyan értelmezhetők nagyon bonyolultak, lásd Sekhon and Titiunik (2012) . A természetes kísérletek általánosabb bevezetéséhez - az egyik, amely túlmutat az instrumentális változók megközelítésén, olyan tervekre is kiterjed, mint a regressziós megszakítás - lásd Dunning (2012) .