Šiame priede apibendrinsiu keletą idėjų, kaip padaryti priežastinį išvadą iš neeksperimentinių duomenų šiek tiek daugiau matematinės formos. Yra du pagrindiniai metodai: priežastinių diagramų sistema, daugiausia susijusi su "Judhe Pearl" ir kolegomis, ir galimų rezultatų sistema, daugiausia susijusi su Donaldu Rubinu ir kolegomis. Aš pristatysiu galimų rezultatų sistemą, nes ji yra glaudžiau susijusi su 3 ir 4 skyrių matematinių pastabų idėjomis. Daugiau apie priežastinių grafų struktūrą rekomenduoju Pearl, Glymour, and Jewell (2016) (įvadinis ) ir " Pearl (2009) (pažangios). Norėdamas išnagrinėti priežastinį išvadą, apimantį galimą rezultatų sistemą ir priežastinių diagramų struktūrą, aš rekomenduoju " Morgan and Winship (2014) .
Šio priedėlio tikslas yra padėti jums susipažinti su potencialių rezultatų tradicijos žymomis ir stiliumi, kad galėtumėte pereiti prie tam tikros techninės medžiagos, parašytos šia tema. Pirma, apibūdinsiu galimų rezultatų sistemą. Tada aš naudoju jį toliau aptarti gamtos eksperimentus, tokius kaip Angrist (1990) apie karinės tarnybos poveikį uždarbiui. Šis priedas labai priklauso nuo " Imbens and Rubin (2015) .
Galimų rezultatų sistema
Galimų rezultatų sistema turi tris pagrindinius elementus: vienetus , gydymo būdus ir galimus rezultatus . Norėdami iliustruoti šiuos elementus, pagalvokime apie stilizuotą Angrist (1990) klausimo klausimą: kokia yra karinės tarnybos įtaka darbo užmokesčiui? Tokiu atveju mes galime nustatyti, kad vienetai yra tie, kurie atitinka 1970 m. Projektą Jungtinėse Amerikos Valstijose, ir mes galime juos indeksuoti \(i = 1, \ldots, N\) . Tokiu atveju gydymas gali būti "tarnaujantis kariuomenėje" arba "ne tarnaujantis kariuomenėje". Aš vadinu šias gydymo ir kontrolės sąlygas, ir aš parašysiu \(W_i = 1\) jei asmuo \(i\) yra gydymo būklė ir \(W_i = 0\) jei asmuo \(i\) yra kontrolės sąlyga. Galiausiai, galimi rezultatai yra šiek tiek konceptualiai sunkūs, nes juose yra "potencialių" rezultatų; ką galėjo nutikti. Kiekvienam asmeniui, turinčiam teisę į 1970 m. Projektą, galime įsivaizduoti sumą, kurią jie būtų uždirbę 1978 m., Jei jie tarnavo kariuomenėje, kurią aš vadinu \(Y_i(1)\) ir suma, kurią jie būtų uždirbę 1978 m., Jei jie ne tarnavo kariuomenėje, kurį aš vadinu \(Y_i(0)\) . Galimų rezultatų sistemoje \(Y_i(1)\) ir \(Y_i(0)\) laikomi fiksuotais dydžiais, o \(W_i\) yra atsitiktinis kintamasis.
Vienetų pasirinkimas, gydymas ir rezultatai yra labai svarbūs, nes jame apibrėžiama, ką galima ir negalima išmokti iš tyrimo. Galimybė rinktis vienetus - žmones, kuriems gali būti taikomas 1970 m. Projektas, neapima moterų, taigi be papildomų prielaidų šis tyrimas mums nieko nepaaiškins apie karo tarnybos poveikį moterims. Taip pat svarbūs sprendimai, kaip apibrėžti gydymo būdus ir rezultatus. Pavyzdžiui, ar interesų gydymas turėtų būti orientuotas į tarnybą kariuomenėje ar kovą? Ar palūkanų rezultatas turėtų būti darbo užmokestis ar pasitenkinimas darbu? Galų gale, vienetų pasirinkimas, gydymas ir rezultatai turėtų būti grindžiami mokslo ir politikos tikslais.
Atsižvelgiant į vienetų pasirinkimą, gydymo būdus ir galimus rezultatus, priežastinis gydymo poveikis asmeniui \(i\) , \(\tau_i\) yra
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Kitaip tariant, mes palyginame, kiek asmeniui \(i\) uždirbo po tarnavimo, kiek asmeniui \(i\) būtų uždirbęs be tarnybos. Man eq. 2.1 yra aiškiausias būdas apibrėžti priežastinį poveikį ir, nors ir yra labai paprastas, ši sistema pasirodė apibendrinama daugeliu svarbių ir įdomių būdų (Imbens and Rubin 2015) .
Naudodamas galimų rezultatų sistemą dažnai manau, kad būtų naudinga išrašyti lentelę, kurioje būtų nurodyti galimi rezultatai ir gydymo poveikis visiems vienetams (2.5 lentelė). Jei negalite įsivaizduoti tokios lentelės savo studijoje, tuomet gali tekti tiksliau apibrėžti savo padalinius, gydymo būdus ir galimus rezultatus.
Asmuo | Pajamos iš gydymo būklės | Pajamos kontrolės sąlygomis | Gydymo efektas |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Vidurkis | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Tačiau tokiu būdu apibrėžiant priežastinį poveikį, mes susiduriame su problema. Beveik visais atvejais negalime stebėti abiejų galimų rezultatų. Tai yra konkretus asmuo, kuris tarnavo ar neteikė. Todėl pastebime vieną iš galimų rezultatų: \(Y_i(1)\) arba \(Y_i(0)\) -bet ne abu. Nesugebėjimas stebėti abu potencialius rezultatus yra tokia didelė problema, kurią Holland (1986) Pavadino pagrindine priežasties priežastimi .
Laimei, kai atliekame mokslinius tyrimus, mes turime ne tik vieną asmenį; o mes turime daug žmonių, ir tai suteikia pagrindą pagrindinei priežasties priežasties problemai spręsti. Vietoj bandymo įvertinti individualaus gydymo efektą, mes galime įvertinti vidutinį gydymo poveikį visiems vienetams:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Ši lygtis vis dar išreiškiama \(\tau_i\) , kurios yra nepastebimos, bet su tam tikra algebra (eq 2.8 Gerber and Green (2012) ), gauname
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Tai rodo, kad, jei galime įvertinti bendrą populiacijos vidurkį rezultatus pagal gydymo ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ir populiacijos dalies vidurkis rezultatas pagal kontrolės ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), tuomet mes galime įvertinti vidutinį gydymo efektą, net nenaudojant jokio konkretaus asmens gydymo efekto.
Dabar, kai aš nustatėme savo vertinimą - tai, ką mes stengiamės įvertinti - aš atsiversiu, kaip mes iš tiesų galime jį įvertinti su duomenimis. Ir čia mes tiesiogiai nukreipiame į problemą, kad mes stebime tik vieną iš galimų rezultatų kiekvienam žmogui; mes matome arba \(Y_i(0)\) arba \(Y_i(1)\) (2.6 lentelė). Mes galime įvertinti vidutinį gydymo efektą, palygindami žmonių, kurie tarnavo į neapmokėtų žmonių uždarbį, uždarbį:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
kur \(N_t\) ir \(N_c\) yra žmonių skaičius gydymo ir kontrolės sąlygomis. Šis metodas veiks gerai, jei gydymo priskyrimas nepriklausys nuo galimų rezultatų, o būklė kartais vadinama ignoruojamumu . Deja, nesant eksperimento, ignoravimas dažnai nėra patenkintas, o tai reiškia, kad įvertintojas eq. 2.4 greičiausiai nepateks gero įvertinimo. Vienas iš būdų galvoti apie tai yra tai, kad tuo atveju, jei nėra atsitiktinio gydymo priskyrimo, eq. 2.4 nėra lyginamas su panašiomis; lygina skirtingų žmonių pajamas. Arba šiek tiek skiriasi, be atsitiktinio gydymo priskyrimo, gydymo paskirstymas greičiausiai yra susijęs su galimais rezultatais.
4 skyriuje aprašysiu, kaip atsitiktinių imčių kontroliuojami eksperimentai gali padėti mokslininkams atlikti priežastinius įvertinimus, ir čia apibūdinsiu, kaip mokslininkai gali pasinaudoti natūraliais eksperimentais, pvz., Loterijos projektu.
Asmuo | Pajamos iš gydymo būklės | Pajamos kontrolės sąlygomis | Gydymo efektas |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Vidurkis | ? | ? | ? |
Natūralūs eksperimentai
Vienas iš būdų apskaičiuoti priežastinius įvertinimus be eksperimento yra ieškoti kažko, kas vyksta pasaulyje, kuris atsitiktinai priskyrė jums gydymą. Šis metodas vadinamas gamtiniais eksperimentais . Deja, gamtoje daugeliu atvejų atsitiktinai nepasiekiamas gydymas, kurio norėtumėte susidomėjusiam gyventojui. Bet kartais gamta atsitiktinai suteikia atitinkamą gydymą. Visų pirma nagrinėsiu atvejį, kai yra antrinis gydymas, kuris skatina žmones gauti pirminį gydymą . Pavyzdžiui, projektą galima laikyti atsitiktine tvarka paskirtu antriniu gydymu, kuris paskatino kai kuriuos žmones imtis pirminio gydymo, kuris tarnavo kariuomenėje. Ši konstrukcija kartais vadinama skatinimo projektu . Ir analizės metodas, kurį aš apibūdinsiu, kad susidorotų su šia situacija, kartais vadinamas instrumentiniais kintamaisiais . Tokiomis aplinkybėmis, kai kuriose prielaidose, mokslininkai gali paskatinti sužinoti apie pirminio gydymo poveikį konkrečiam vienetų pogrupiui.
Norint elgtis su dviem skirtingais gydymo būdais - skatinimu ir pirminiu gydymu, mums reikia šiek tiek naujos žymos. Tarkime, kad kai kurie žmonės yra atsitiktinai \(Z_i = 1\) ( \(Z_i = 1\) ) arba \(Z_i = 0\) ( \(Z_i = 0\) ); Tokioje situacijoje \(Z_i\) kartais vadinama priemone .
Tarp tų, kurie buvo parengti, kai kurie tarnavo ( \(Z_i = 1, W_i = 1\) ), o kai kurie nebuvo ( \(Z_i = 1, W_i = 0\) ). Panašiai tarp tų, kurie nebuvo parengti, kai kurie tarnavo ( \(Z_i = 0, W_i = 1\) ), o kai kurie nebuvo ( \(Z_i = 0, W_i = 0\) ). Kiekvieno asmens potencialūs rezultatai gali būti išplėsti, kad būtų rodomas jų statusas tiek skatinimui, tiek gydymui. Pavyzdžiui, leiskite \(Y(1, W_i(1))\) būti asmens \(i\) pajamos, jei jis buvo parengtas, kur \(W_i(1)\) yra jo tarnybos statusas, jei jis yra parengtas. Be to, mes galime suskaidyti populiacijas į keturias grupes: komplimentus, niekad nebuvaujančius, nutekėjusius ir visada priimančius (lentelė 2.7).
Įveskite | Paslauga, jei parengta | Paslaugos, jei jos nėra parengtos |
---|---|---|
Komplektai | Taip, \(W_i(Z_i=1) = 1\) | Ne, \(W_i(Z_i=0) = 0\) |
Niekada nepatinka | Ne, \(W_i(Z_i=1) = 0\) | Ne, \(W_i(Z_i=0) = 0\) |
Gynėjai | Ne, \(W_i(Z_i=1) = 0\) | Taip, \(W_i(Z_i=0) = 1\) |
Visada-takers | Taip, \(W_i(Z_i=1) = 1\) | Taip, \(W_i(Z_i=0) = 1\) |
Prieš aptariant gydymo poveikį (ty karinę tarnybą), galime pirmiausia nustatyti du skatinimo veiksnius (ty rengti). Pirma, mes galime apibrėžti pirminio gydymo skatinimo poveikį. Antra, mes galime apibrėžti paskatinimo poveikį rezultatams. Pasirodo, kad šiuos du padarinius galima sujungti, kad būtų galima įvertinti gydymo poveikį konkrečiai žmonių grupei.
Pirma, skatinimo poveikis gydymui gali būti apibrėžtas asmeniui \(i\) as
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Be to, šį kiekį galima apibrėžti visoje populiacijoje kaip
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Pagaliau mes galime įvertinti \(\text{ITT} _{W}\) duomenis:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
kur \(\bar{W}^{\text{obs}}_1\) yra stebimas gydymo greitis tiems, kurie buvo skatinami ir \(\bar{W}^{\text{obs}}_0\) pastebėtas gydymo kursas tiems, kurie nebuvo skatinami. \(\text{ITT}_W\) kartais taip pat vadinamas įsisavinimo lygiu .
Be to, skatinimo poveikis rezultatui gali būti apibrėžtas asmeniui \(i\) kaip:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Be to, šį kiekį galima apibrėžti visoje populiacijoje kaip
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Pagaliau galime įvertinti \(\text{ITT}_{Y}\) duomenis:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
kur \(\bar{Y}^{\text{obs}}_1\) yra stebimas rezultatas (pvz., uždarbis) tiems, kurie buvo skatinami (pvz., parengti) ir \(\bar{W}^{\text{obs}}_0\) yra stebimas rezultatas tiems, kurie nebuvo skatinami.
Galiausiai atkreipiame dėmesį į susidomėjimo poveikį: pirminio gydymo (pvz., Karinės tarnybos) poveikis rezultatams (pvz., Uždarbis). Deja, paaiškėja, kad apskritai negalima įvertinti šio poveikio visiems vienetams. Tačiau kai kuriose prielaidose tyrėjai gali įvertinti gydymo poveikį komplikuotojams (ty žmonėms, kurie tarnaus, jei jie bus parengti, ir žmonėms, kurie nebus naudingi, jei jie nebus parengti, lentelė 2.7). Aš vadinsiu šį įvertinimą ir naudingą vidutinį priežastinį poveikį (CACE) (kuris taip pat kartais vadinamas vietiniu vidutiniu gydymo efektu , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
kur \(G_i\) paaukojo asmens grupę \(i\) (žr. 2.7 lentelę) ir \(N_{\text{co}}\) yra komplikatorių skaičius. Kitaip tariant, ekv. 2.11 lygina sudarytų kompanijų uždarbį \(Y_i(1, W_i(1))\) o ne rengia \(Y_i(0, W_i(0))\) . Įvertinimas ekv. 2.11 atrodo sunku vertinti pagal pastebėtus duomenis, nes neįmanoma identifikuoti kompanijų, naudojančių tik stebimus duomenis (norint žinoti, ar asmuo yra kompetentingas, turėtumėte stebėti, ar jis tarnavo, kai jis buvo parengtas, ir ar jis tarnavo, kai jis nebuvo parengtas).
Pasirodo, šiek tiek nenuostabu, kad jei yra kokių nors komplikatorių, tada, jei viena daro tris papildomas prielaidas, galima įvertinti CACE iš stebimų duomenų. Pirma, reikia manyti, kad gydymo priskyrimas yra atsitiktinis. Loterijos projekto atveju tai yra pagrįsta. Tačiau tam tikruose nustatymuose, kuriuose natūralūs eksperimentai nėra pagrįsti fiziniu atsitiktinumu, ši prielaida gali būti problemiškesnė. Antra, turime daryti prielaidą, kad jų nėra šturmanų (šią prielaidą taip pat kartais vadina monotoniškumo prielaida). Projekto kontekste atrodo pagrįsta manyti, kad yra labai mažai žmonių, kurie nebus naudingi, jei parengs ir tarnaus, jei nebus parengtas. Trečia, galiausiai, yra svarbiausia prielaida, kuri vadinama išskyrimo apribojimu . Pagal išskyrimo apribojimą, turime daryti prielaidą, kad visas gydymo priskyrimo poveikis perduodamas pats gydymas. Kitaip tariant, reikia daryti prielaidą, kad tiesioginis rezultatų skatinimo poveikis nėra. Pavyzdžiui, loterijos projekto atveju turime daryti prielaidą, kad statuso projektas neturi įtakos kitam nei karo tarnybos uždarbiui (2.11 pav.). Išimties apribojimas galėtų būti pažeistas, jei, pavyzdžiui, žmonės, kurie buvo rengiami, praleido daugiau laiko mokykloje, kad išvengtų paslaugos, arba jei darbdaviai mažiau tikėtų samdyti parengtus žmones.
Jei tenkinamos šios trys sąlygos (atsitiktinės priskyrimo gydymui, neišnešėjų ir pašalinimo apribojimai), tada
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
todėl galime įvertinti CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Vienas iš būdų pamąstyti apie CACE yra tai, kad skirtingų rezultatų siekia tie, kurie buvo skatinami ir kurie nerekomenduojami, o tai lemia įsisavinimo lygį.
Turėkite omenyje du svarbius įspėjimus. Pirma, pašalinimo apribojimas yra tvirta prielaida, ir tai turi būti pateisinama kiekvienu konkrečiu atveju, o tai dažnai reikalauja dalyko srities ekspertizės. Išimties apribojimas negali būti pateisinamas atsitiktinių atrankos būdu. Antra, bendras praktinis iššūkis, susijęs su instrumentinės kintamos analizės rezultatais, yra tada, kai skatinimas mažai įtakoja gydymą (kai \(\text{ITT}_W\) yra mažas). Tai vadinama silpna priemone ir sukelia įvairias problemas (Imbens and Rosenbaum 2005; Murray 2006) . Vienas iš būdų pamąstyti apie silpnų įrankių problemą yra tai, kad \(\widehat{\text{CACE}}\) gali būti jautrus mažoms \(\widehat{\text{ITT}_Y}\) potencialiai dėl pažeidimo apribojimo apribojimai, nes šie prielinksniai padidėja mažu \(\widehat{\text{ITT}_W}\) (žr. 2.13. Apytiksliai, jei gydymas, kurį priskiria gamta, neturi didelio poveikio gydymui, kurį jums rūpi, tada jūs turėsite sunkiai susipažinti su gydymu, kurio jums rūpi.
Žr. " Imbens and Rubin (2015) 23 ir 24 skyrius, Imbens and Rubin (2015) pateikiama oficiali šios diskusijos versija. Tradicinis ekonometrinis požiūris į instrumentinius kintamuosius paprastai yra išreiškiamas vertinant lygtis, o ne potencialius rezultatus. Angrist and Pischke (2009) iš šios kitos perspektyvos žr. " Angrist and Pischke (2009) , O šių dviejų metodų palyginimą žr. Imbens and Rubin (2015) 24.6 skyriuje. Alternatyvus, šiek tiek mažiau formalus instrumentinių kintamųjų metodo pristatymas pateiktas Gerber and Green (2012) 6 skyriuje. Daugiau apie išskyrimo apribojimą žr. D. Jones (2015) . Aronow and Carnegie (2013) apibūdina papildomą prielaidų rinkinį, kuris gali būti naudojamas vertinant ATE, o ne CACE. Daugiau apie tai, kaip natūralūs eksperimentai gali būti labai sudėtingi interpretuoti, žr. Sekhon and Titiunik (2012) . Norint plačiau apžvelgti natūralius eksperimentus - tai apima ne tik instrumentinių kintamųjų metodą, bet ir tokius dizainus kaip regresijos nutraukimas (žr. Dunning (2012) .