Tässä liitteessä esitän yhteen joitain ideoita kausittaisen päättelyn tekemisestä ei-kokeellisista tiedoista hiukan matemaattisemmassa muodossa. Lähestymistapoja on kaksi: kausaalikuvauskehys, joka liittyy eniten Judea Pearlin ja kollegoiden kanssa, ja potentiaalisten tulosten kehys, johon eniten liittyy Donald Rubin ja kollegat. Esittelen potentiaalisten tulosten kehyksen, koska se liittyy läheisemmin matemaattisten muistiinpanojen ideoihin luvun 3 ja 4 lopussa. Lisää kausaalikuvauskehyksestä suosittelen Pearl, Glymour, and Jewell (2016) (Johdanto ) ja Pearl (2009) (edistynyt). Kauppaan liittyvän kirjoituspituuden käsittelyyn, jossa yhdistyvät potentiaalisten tulosten kehys ja syy-kaavion kehys, suosittelen Morgan and Winship (2014) .
Tämän liitteen tarkoituksena on auttaa sinua mukauttamaan potentiaalisten tulosten perinteen merkintä ja tyyli, jotta voit siirtyä johonkin tämän aiheen kirjoittamaan tekniseen materiaaliin. Ensin kuvaan potentiaalisten tulosten kehystä. Sitten aion käyttää sitä keskustelemaan vielä luonnollisista kokeista, kuten Angrist (1990) , jonka mukaan asepalveluksen vaikutus ansioihin on saatu. Tämä lisäys Imbens and Rubin (2015) voimakkaasti Imbens and Rubin (2015) .
Mahdolliset tulostavoitteet
Mahdollisten tulosten puitteissa on kolme pääosaa: yksiköt , hoidot ja mahdolliset tulokset . Näitä elementtejä havainnollistamisessa kannattaa tarkastella tyyliteltyä versiota Angrist (1990) käsitellystä kysymyksestä: Mikä on asepalveluksen vaikutus ansioihin? Tässä tapauksessa voimme määritellä yksiköt, jotka ovat oikeutettuja 1970-luvun luonnokseen Yhdysvalloissa, ja voimme indeksoida nämä ihmiset \(i = 1, \ldots, N\) . Tässä tapauksessa hoito voi olla "sotilaallisessa palveluksessa" tai "ei palvele armeijassa". Minä kutsun nämä hoito- ja valvontatilanteet ja kirjoitan \(W_i = 1\) jos henkilö \(i\) on käsitelty kunnossa ja \(W_i = 0\) jos henkilö \(i\) on valvontatilassa. Lopuksi potentiaaliset tulokset ovat hieman käsitteellisempää vaikeampaa, koska niissä on "mahdollisia" tuloksia; asioita, jotka olisivat voineet tapahtua. Jokaiselle vuoden 1970 ehdotukselle oikeutetulle henkilölle voidaan kuvitella, kuinka paljon he olisivat voineet ansaita vuonna 1978, jos he palvelivat sotilasoperaatiota, jota kutsun \(Y_i(1)\) ja summa, jonka he olisivat ansainneet 1978, jos he eivät palvelleet sotilasoperaatiota, jota kutsun \(Y_i(0)\) . Potentiaalisten tulosten puitteissa \(Y_i(1)\) ja \(Y_i(0)\) pidetään kiinteinä määrinä, kun taas \(W_i\) on satunnaismuuttuja.
Yksiköiden, hoitojen ja tulosten valinta on kriittinen, koska siinä määritellään, mitä voidaan ja jota ei voida oppia tutkimuksesta. Yksiköiden valinta - ihmiset, jotka ovat oikeutettuja vuoden 1970 ehdotukseen - eivät sisällä naisia, joten ilman lisäedusteluja tässä tutkimuksessa ei kerro mitään siitä, miten asepalvelus vaikuttaa naisiin. Päätökset hoidon ja tulosten määrittämisestä ovat myös tärkeitä. Esimerkiksi, jos kiinnostuksen kohteena olisi keskityttävä palvelemaan sotilaita tai taistelussa? Olisiko korkotuloksen tulos ansio tai työtyytyväisyys? Viime kädessä yksiköiden, hoitojen ja tulosten valinnan tulisi perustua tutkimuksen tieteellisiin ja poliittisiin tavoitteisiin.
Kun otetaan huomioon yksiköiden, hoitojen ja potentiaalisten tulosten valinnat, hoidon kausaalinen vaikutus henkilöön \(i\) , \(\tau_i\) on
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Toisin sanoen vertailla, kuinka paljon henkilöä \(i\) olisi ansainnut sen jälkeen, kuinka paljon henkilöä \(i\) olisi ansainnut ilman palvelua. Minulle, eq. 2.1 on selkein tapa määritellä kausaalivaikutus, ja vaikka äärimmäisen yksinkertainen, tämä kehys osoittautuu yleistyväksi monilla tärkeillä ja mielenkiintoisilla tavoilla (Imbens and Rubin 2015) .
Käytettäessä potentiaalisia tuloksia koskevaa kehystä, on usein hyödyllistä kirjoittaa taulukko, joka esittää potentiaaliset tulokset ja hoitovaikutukset kaikille yksiköille (taulukko 2.5). Jos et voi kuvitella tällaista taulukkoa tutkimuksestasi, saatat joutua tarkentamaan yksiköidesi määritelmiä, hoitoja ja mahdollisia tuloksia.
Henkilö | Tulot hoidossa | Tulot hallitsevassa kunnossa | Hoidon vaikutus |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Tarkoittaa | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Kausaalivaikutuksen määritteleminen tällä tavoin kuitenkin aiheuttaa ongelman. Lähes kaikissa tapauksissa emme saa tarkkailla molempia potentiaalisia tuloksia. Toisin sanoen tietty henkilö palveli tai ei palvellut. Siksi havaitsemme yhden mahdollisista tuloksista - \(Y_i(1)\) tai \(Y_i(0)\) mutta ei molempia. Epäonnistuminen molempien potentiaalisten tulosten havaitsemiseen on niin suuri ongelma, että Holland (1986) kutsui sitä syy- seurausten perusongelmaksi.
Onneksi, kun teemme tutkimusta, meillä ei ole vain yhtä henkilöä; pikemminkin meillä on monia ihmisiä, ja tämä tarjoaa keinon syy-seurausten perusongelman ympärille. Yksittäisen tason hoidon vaikutuksen arvioimisen sijaan voimme arvioida kaikkien yksiköiden keskimääräisen hoidon vaikutuksen :
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Tämä yhtälö ilmaistaan edelleen \(\tau_i\) , jotka eivät ole havaittavissa, mutta jonkin verran algebraa (eq 2,8 Gerber and Green (2012) ) saamme
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Tämä osoittaa, että jos voimme arvioida hoidossa olevan väestön keskimääräisen tuloksen ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) ja väestön keskimääräinen tulos hallinnassa ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), voimme arvioida keskimääräisen hoidon vaikutuksen jopa arvioimatta jonkun tietyn henkilön hoitovaikutusta.
Nyt kun olen määritellyt arviointimme - mitä yritämme arvioida - käsittelen sitä, miten voimme itse arvioida sen tietoja. Ja täällä pääsemme suoraan ongelmaan, että havaitsemme vain yhden potentiaalisen tuloksen jokaiselle henkilölle. näemme joko \(Y_i(0)\) tai \(Y_i(1)\) (taulukko 2.6). Voimme arvioida keskimääräisen hoidon vaikutuksen vertailemalla henkilöiden tuloja, jotka palvelivat sellaisten ihmisten tuloja, jotka eivät palvelleet:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
missä \(N_t\) ja \(N_c\) ovat ihmisten lukumäärät hoidon ja valvonnan olosuhteissa. Tämä lähestymistapa toimii hyvin, jos hoitotoimeksianto on riippumaton mahdollisista tuloksista, joskus joskus kutsutaan " ohitettavuudeksi" . Valitettavasti, jos kokeita ei ole, ohitettavuus ei useinkaan ole tyydyttävä, mikä tarkoittaa, että estimaattori eq. 2.4 ei todennäköisesti ole hyvä arvio. Yksi tapa ajatella sitä on, että ilman satunnaista hoidon antamista, eq. 2.4 ei vertaile vastaavanlaista kuin; se vertailee erilaisten ihmisten tuloja. Tai ilmaistuna hieman erilainen, ilman satunnaista hoitosuunnitelmaa, hoidon jakautuminen luultavasti liittyy potentiaalisiin tuloksiin.
Luvussa 4 kuvataan, kuinka satunnaistetut kontrolloidut kokeet voivat auttaa tutkijoita tekemään kausaalisia arvioita, ja tässä kuvataan, miten tutkijat voivat hyödyntää luonnollisia kokeita, kuten arpajaisluonnoksen.
Henkilö | Tulot hoidossa | Tulot hallitsevassa kunnossa | Hoidon vaikutus |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Tarkoittaa | ? | ? | ? |
Luonnolliset kokeet
Yksi lähestymistapa kausaalisten arvioiden tekemiseen kokeilematta on etsiä jotain tapahtumassa maailmassa, joka on satunnaisesti antanut hoidon sinulle. Tätä lähestymistapaa kutsutaan luonnolliseksi kokeeksi . Valitettavasti monissa tilanteissa luonto ei satunnaisesti anna haluamaasi hoitoa kiinnostuneelle väestölle. Mutta joskus luonto toimittaa satunnaisesti asiaan liittyvän hoidon. Tarkastelen erityisesti tapausta, jossa on jonkinlaista toissijaista hoitoa, joka kannustaa ihmisiä saamaan ensisijaisen hoidon . Esimerkiksi ehdotusta voitaisiin pitää satunnaisesti osoitettuna toissijaisena hoitona, joka kannusti joidenkin ihmisten käyttämään armeijan palveluksessa olevaa ensisijaista hoitoa. Tätä mallia kutsutaan joskus rohkaisuksi . Ja analyysimenetelmää, jota kuvaan tämän tilanteen hallitsemiseksi kutsutaan joskus instrumentaaliseksi muuttujaksi . Tässä tilanteessa tutkijat voivat käyttää joitain olettamuksia rohkaisevan oppia ensisijaisen hoidon vaikutuksesta tietyn osajoukon yksiköihin.
Jotta käsittelemme kahta erilaista hoitoa - rohkaisua ja ensisijaista hoitoa - tarvitsemme uutta merkintää. Oletetaan, että jotkut ihmiset ovat satunnaisesti muotoiltuja ( \(Z_i = 1\) ) tai niitä ei ole laadittu ( \(Z_i = 0\) ); Tässä tilanteessa \(Z_i\) kutsutaan joskus instrumentiksi .
Niistä, jotka luotiin, jotkut palvelivat ( \(Z_i = 1, W_i = 1\) ) ja jotkut eivät ( \(Z_i = 1, W_i = 0\) ). Jotkut palvelivat myös ( \(Z_i = 0, W_i = 1\) ) ja jotkut eivät ( \(Z_i = 0, W_i = 0\) ). Kunkin henkilön mahdollisia tuloksia voidaan nyt laajentaa osoittamalla niiden asema sekä rohkaisulle että hoidolle. Esimerkiksi \(Y(1, W_i(1))\) on henkilön tulot \(i\) jos hänet laadittiin, missä \(W_i(1)\) on palvelun tila, jos se on muotoiltu. Lisäksi voimme jakaa väestön neljään ryhmään: täyttäjät, ei-takaajat, defierit ja ainaot (taulukko 2.7).
Tyyppi | Palvelu, jos se on laadittu | Palvelu, jos sitä ei ole kirjoitettu |
---|---|---|
compliers | Kyllä, \(W_i(Z_i=1) = 1\) | Ei, \(W_i(Z_i=0) = 0\) |
Koskaan ottajia | Ei, \(W_i(Z_i=1) = 0\) | Ei, \(W_i(Z_i=0) = 0\) |
Defiers | Ei, \(W_i(Z_i=1) = 0\) | Kyllä, \(W_i(Z_i=0) = 1\) |
Aina ottajia | Kyllä, \(W_i(Z_i=1) = 1\) | Kyllä, \(W_i(Z_i=0) = 1\) |
Ennen kuin keskustelemme hoidon vaikutuksen arvioinnista (eli asepalveluksesta), voimme ensin määritellä kaksi kannustuksen vaikutusta (ts. Sitä, mitä on laadittu). Ensinnäkin voimme määritellä rohkaisun vaikutuksen primaariseen hoitoon. Toiseksi voimme määrittää rohkaisun vaikutuksen tulokseen. On selvää, että nämä kaksi vaikutusta voidaan yhdistää arvioimaan hoidon vaikutusta tiettyyn ihmisryhmään.
Ensinnäkin rohkaisun vaikutus hoitoon voidaan määritellä henkilöä varten \(i\) as
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Lisäksi tämä määrä voidaan määritellä koko väestölle
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Lopuksi voimme arvioida \(\text{ITT} _{W}\) datan avulla:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
jossa \(\bar{W}^{\text{obs}}_1\) on havaitut hoitokertoja niille, joita kannustettiin, ja \(\bar{W}^{\text{obs}}_0\) havaitun hoidon aste niille, joita ei kannustettu. \(\text{ITT}_W\) on myös joskus kutsutaan sisäänoton nopeus.
Seuraavaksi rohkaisun vaikutus tulokseen voidaan määritellä henkilöille \(i\) seuraavasti:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Lisäksi tämä määrä voidaan määritellä koko väestölle
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Lopuksi voimme arvioida \(\text{ITT}_{Y}\) dataa käyttäen:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
(esim. muotoiltu) ja \(\bar{W}^{\text{obs}}_0\) ) \(\bar{Y}^{\text{obs}}_1\) \(\bar{W}^{\text{obs}}_0\) on havaittu tulos niille, joita ei kannustettu.
Lopuksi kiinnitämme huomiomme kiinnostuksen kohteena olevaan vaikutukseen: primaarihoidon (esim. Asepalveluksen) vaikutukseen tulokseen (esim. Ansiot). Valitettavasti käy ilmi, että yleisesti ei voida arvioida tätä vaikutusta kaikkiin yksiköihin. Kuitenkin joidenkin oletusten mukaan tutkijat voivat arvioida hoidon vaikutuksen täyttäjiin (toisin sanoen ihmiset, jotka palvelevat jos luodaan, ja ihmiset, jotka eivät toimi, jos ei ole laadittu, taulukko 2.7). Minä kutsun tämän estimaatin keskimääräisen syy-seurauksen (CACE) (jota kutsutaan myös paikalliseksi keskimääräiseksi hoitovaikutukseksi , LATE):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
jossa \(G_i\) lahjoittaa ihmisryhmän \(i\) (katso taulukko 2.7) ja \(N_{\text{co}}\) on vaatimusten lukumäärä. Toisin sanoen eq. 2.11 vertaa \(Y_i(1, W_i(1))\) jotka on laadittu \(Y_i(1, W_i(1))\) eikä muotoiltu \(Y_i(0, W_i(0))\) . Arvio eq. 2.11 on vaikea arvioida havainnoiduista tiedoista, koska ei ole mahdollista tunnistaa täyttäjiä käyttämällä vain havaittuja tietoja (tietää, onko joku kääntäjä, sinun on tarkkailtava, onko hän palveltu laaditessaan ja onko hän palveltu, kun sitä ei ole laadittu).
Se osoittautuu - yllättävää - että jos on olemassa jotain vaatimuksia, niin jos yksi tekee kolme muuta olettamusta, on mahdollista arvioida CACE havaituista tiedoista. Ensinnäkin on oletettava, että luovutus hoitoon on satunnaista. Arpajaisluonnoksen tapauksessa tämä on järkevää. Joissakin tilanteissa, joissa luonnolliset kokeet eivät tue fyysistä satunnaistamista, tämä oletus saattaa olla ongelmallisempi. Toiseksi, on oletettava, että ne eivät ole pahoja (tämä oletus on myös joskus kutsuttu monotonicity olettamus). Luonnoksen yhteydessä vaikuttaa järkevältä olettaa, että on hyvin vähän ihmisiä, jotka eivät toimi, jos ne on laadittu ja jotka toimivat, ellei niitä ole laadittu. Kolmanneksi, ja lopulta, tulee tärkein oletus, jota kutsutaan syrjäytymisrajoitukseksi . Poissulkemisrajoituksen puitteissa on oletettava, että hoito-tehtävän kaikki vaikutukset kulkeutuvat itse hoidon kautta. Toisin sanoen on oletettava, että ei ole suoraa vaikutusta rohkaisun tuloksiin. Esimerkiksi arpajaisluonnoksessa on oletettava, että luonnosluonnoksella ei ole vaikutusta tuloihin muuhun kuin asepalvelukseen (kuva 2.11). Poissulkemisrajoitusta voitaisiin loukata, jos esimerkiksi vakiintuneet henkilöt viettävät enemmän aikaa kouluun, jotta vältettäisiin palvelu tai jos työnantajat olisivat vähemmän todennäköisesti palkannut ihmisiä, jotka olivat luetut.
Jos nämä kolme ehtoa (sattumanvaraisesti hoidettavaksi, ei häiriöitä ja syrjäytymisrajoituksia) täyttyvät, niin
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
joten voimme arvioida CACE:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
Yksi tapa miettiä CACEa on se, että se on ero niiden tulosten välillä, joita kannustettiin ja joita ei kannustettu, ja jotka olivat täyttyneet otosasteella.
On pidettävä mielessä kaksi tärkeää huomiota. Ensinnäkin syrjäytymisen rajoittaminen on vahva oletus, ja sen on oltava oikeutettua tapauskohtaisesti, mikä usein edellyttää aihealueiden asiantuntemusta. Poissulkemisrajoitusta ei voida perustella rohkaisun satunnaistamisella. Toiseksi, tavallinen käytännön haaste instrumentaalisen muuttujan analyysin kanssa tulee, kun rohkaisulla on vähäinen vaikutus hoidon käyttöön (kun \(\text{ITT}_W\) on pieni). Tätä kutsutaan heikoksi välineeksi , ja se johtaa monenlaisiin ongelmiin (Imbens and Rosenbaum 2005; Murray 2006) . Yksi keino miettiä heikoista välineistä \(\widehat{\text{CACE}}\) ongelmia on se, että \(\widehat{\text{CACE}}\) voi olla herkkä pienille biasille \(\widehat{\text{ITT}_Y}\) poissulkemisrajoituksen rikkomukset - koska nämä esijännitteet suurentuvat pienellä \(\widehat{\text{ITT}_W}\) (katso \(\widehat{\text{ITT}_W}\) 2.13). Jos luonteeltaan hoito, jolla ei ole suurta vaikutusta hoitoon, jota tarvitset, on vaikea oppia hoitoon, jota välität.
Katso Imbens and Rubin (2015) luku 23 ja 24 muodollisempaa versiota tästä keskustelusta. Instrumentaalisten muuttujien perinteinen ekonometrinen lähestymistapa ilmaistaan tyypillisesti yhtälöiden, ei mahdollisten tulosten, arvioimiseksi. Johdanto tästä näkökulmasta katso Angrist and Pischke (2009) ja näiden kahden lähestymistavan vertailusta, ks. Imbens and Rubin (2015) 24.6. Vaihtoehtoinen, hieman vähemmän muodollinen esitys instrumentaalisten muuttujien lähestymistavasta on Gerber and Green (2012) luvussa 6. Jos haluat lisätietoja syrjäytymisrajoituksista, katso D. Jones (2015) . Aronow and Carnegie (2013) kuvaavat ylimääräisiä olettamuksia, joita voidaan käyttää ATE: n arvioimiseen CACE: n sijaan. Lisätietoja siitä, miten luonnolliset kokeet voivat olla hankalia tulkita, katso Sekhon and Titiunik (2012) . Luonnollisten kokeiden yleisempää käyttöönottoa varten, joka ylittää vain instrumentaalisten muuttujien lähestymistavan, sisältää myös malleja, kuten regressiota epäjatkuvuuden, katso Dunning (2012) .