Aplikazio honetan, ideia batzuk laburbilduko ditut datu ez-esperimentalen kausazio-inferentziari buruzko apur bat gehiago matematikoan. Bi ikuspegi nagusiak daude: grafiko kausaren esparrua, gehienak Judea Pearlekin eta lankideekin eta emaitza potentzialen esparruarekin, Donald Rubin eta lankideekin loturik. Emaitza potentzialen esparrua aurkeztuko dut, 3. eta 4. kapituluko 3. kapituluan amaitzen diren ohar matematikoen ideiekin lotura estua baitute. Grafiko kausatiboen esparruan gehiago gomendatzen dut Pearl, Glymour, and Jewell (2016) (sarrera ) eta Pearl (2009) (aurreratua). Emaitza potentzialaren esparrua eta kausazko grafikoaren esparrua konbinatzen duen inferentzia kausalaren liburuen luzapenaren tratamendurako, Morgan and Winship (2014) gomendatzen dut.
Aplikazio honen helburua hauxe da: emaitzen tradizioaren notazioa eta estiloa eroso jartzea, gai honetan idatzitako material tekniko gehiena trantsiz. Lehenik eta behin, emaitza-esparru potentziala deskribatuko dut. Ondoren, erabili egingo dut esperimentazio naturalak eztabaidatzeko, Angrist (1990) zerbitzu militarrak eragina izan dezan. Apendize honek Imbens and Rubin (2015) marrazten ditu.
Baliabideen emaitzen esparrua
Baliabideen emaitzen esparruak hiru elementu nagusi ditu: unitateak , tratamenduak eta emaitza potentzialak . Elementu horiek ilustratzeko, Angrist (1990) zuzendutako galdera baten bertsio estilizatua Angrist (1990) : Zein da irabazien zerbitzu militarraren eragina? Kasu honetan, unitateak 1970eko zirriborroa jasotzeko eskubidea izan dezakete Estatu Batuetan, eta pertsona hauek \(i = 1, \ldots, N\) ditzakegu. Kasu honetan tratamenduak "militarrak zerbitzatzea" edo "militarrak ez zerbitzatzea" izan daitezke. Tratamendu eta kontrolatzeko baldintzak deitu ditut eta \(W_i = 1\) idazten \(i\) tratamendu baldintza da eta \(W_i = 0\) baldin eta \(i\) bada kontrol-egoeran. Azkenean, emaitza potentzialak kontzeptualki zailagoak dira pixka bat "emaitza" potentzialak direlako; gauzak gertatu zitezkeen. 1970eko zirriborroa lortzeko pertsona bakoitzarentzat, 1978an irabazi zuten zenbatekoa imajinatu dezakegu militarrek zerbitzatzen badituzte, \(Y_i(1)\) deituko diot eta zenbat irabazi zuten 1978an ez badute militarrean zerbitzatzen, zein izango naiz deitzen diot \(Y_i(0)\) . Emaitza potentzialen esparruan, \(Y_i(1)\) eta \(Y_i(0)\) kantitate finko gisa kontsideratzen dira, \(W_i\) ausazko aldagaia den bitartean.
Unitateak, tratamenduak eta emaitzak aukeratzea funtsezkoa da ikerketaren bidez ikasitakoa zein den jakiteko. Aukeraketa unitateak: 1970eko zirriborroa jasotzeko eskubidea duten pertsonak ez dira emakumeak, eta, beraz, hipotesi osagarririk gabe, ikerketa honek ez du esan nahi emakumeek emakumezkoen zerbitzurako eragina dutenik. Tratamenduak eta emaitzak nola definitzen diren erabakiak garrantzitsuak dira. Esate baterako, interesaren tratamendua militarrak edo bizirik irauteko borroka zerbitzatu behar luke? Interesaren emaitza irabaziak edo lanaren gogobetetzea? Azken finean, unitateak, tratamenduak eta emaitzak aukeratu behar dira azterketaren helburu zientifiko eta politikoak.
Unitateen, tratamenduen eta emaitza potentzialen aukeren arabera, \(i\) , \(\tau_i\) tratamenduaren eragin kausalak
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(2.1)\]
Bestela esanda, zenbat pertsona alderatzen \(i\) zenbat pertsona zerbitzatu ondoren irabazi zukeen \(i\) zerbitzatu gabe irabazi zukeen. Niretzat, eq. 2.1. Kausazko efektua zehazteko bide argiena da, eta oso sinplea bada ere, esparru hau oso modu garrantzitsu eta interesagarri bihurtzen da (Imbens and Rubin 2015) .
Emaitza potentzialaren esparrua erabiltzean, sarritan lagungarria da mahai bat idaztea, unitate guztien emaitza potentzialak eta tratamendua erakutsiz (2.5. Taulan). Ez baduzu zure ikasketarako mahai bat imajinatu nahi, baliteke zure unitateen, tratamenduen eta emaitza posibleen definizioen arabera zehatzagoa izatea.
Pertsona | Tratamenduaren baldintza irabaziak | Etengabeko kontrola | Tratamendu efektua |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
Esan nahi | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Modu horretan kausazko efektua zehazten denean, ordea, arazoa dugu. Ia kasu guztietan, ez dugu lortuko bi emaitza potentzialak. Hau da, pertsona jakin bat zerbitzatu edo ez zen zerbitzatzen. Beraz, emaitza potentzialetako bat ikusten dugu: \(Y_i(1)\) edo \(Y_i(0)\) -besteak ez bai. Baliabide potentzialak behatzeko ezintasuna Holland (1986) arazo nagusietako bat da, kausaren inferentzia oinarrizko arazoa deitzen duena.
Zorionez, ikerketa egiten ari garenean, ez dugu pertsona bakarra; baizik eta jende askok badugu, eta honek kausalen inferentzia oinarrizko arazoren bat eskaintzen du. Banakako tratamenduaren efektua kalkulatzeko ahalegina egin beharrean, unitate guztietako batez besteko tratamendu-efektua kalkulatu ahal izango dugu:
\[ \text{ATE} = \bar{\tau} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(2.2)\]
Ekuazio hau \(\tau_i\) terminoetan adierazita dago oraindik, baina algebra batzuekin ( Gerber and Green (2012) 2.8 eq 2.8), lortzen dugu
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(2.3)\]
Horrek erakusten du populazioaren batez besteko emaitza tratamenduaren arabera ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) eta biztanleriaren batez besteko emaitza kontrolpean ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), orduan batez besteko tratamenduaren efektua kalkulatu ahal izango dugu, nahiz eta pertsona jakin baten tratamendu-efektua estimatu gabe.
Orain, estimazioa definitu dudanez, estimatzen saiatzen ari garen zerbait, datuen kalkulua nola egin dezakegu? Eta hona hemen pertsona bakoitzaren emaitza potentzialen bat bakarrik ikusten dugun arazoa zuzenean abiarazten dugula; Bai \(Y_i(0)\) edo \(Y_i(1)\) (taulan 2.6) ikusten dugu. Batez besteko tratamenduaren efektua kalkulatu genezake, zerbitzatzen ez zuten pertsonen irabaziak zerbitzatzen dituzten pertsonen irabaziak alderatuz:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average earnings, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average earnings, control}} \qquad(2.4)\]
non \(N_t\) eta \(N_c\) dira tratamenduaren eta kontrolaren baldintzen artean. Hurbilketa hau ondo funtzionatuko du tratamenduen esleipena emaitza potentzialekin independentea bada, kasu batzuetan ezjakintasuna deritzona. Zoritxarrez, esperimentu bat falta denean, ezjakintasuna ez da askotan pozik, horrek esan nahi du eq estimatzailea. 2.4 ez da seguruenik aurrekontu ona egitea. Modu bat pentsatzeko, tratamendu ausazko esleitu ezean, eq. 2.4 ez da horrelakoekin alderatzea; jende mota desberdinen irabaziak alderatzen ditu. Edo adierazi zertxobait desberdina, tratamendu ausazko esleitu gabe, tratamenduaren esleipena seguruenik emaitza potentzialekin lotuta dago.
4. kapituluan, azaltzen dut nola ausazko kontrolatutako esperimentuak ikertzaileek estimazio kausalak sor ditzaketela, eta hemen azaltzen dut nola ikertzaileek esperimentazio naturalak aprobetxatzen dituztela, adibidez, zirriborroa loteria.
Pertsona | Tratamenduaren baldintza irabaziak | Etengabeko kontrola | Tratamendu efektua |
---|---|---|---|
1 | ? | \(Y_1(0)\) | ? |
2 | \(Y_2(1)\) | ? | ? |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
\(N\) | \(Y_N(1)\) | ? | ? |
Esan nahi | ? | ? | ? |
Natur esperimentuak
Esperimentua exekutatzen ez duten kausazko estimazioak hurbiltzeko modu bat da zuretzako ausaz tratamendua esleitu dion munduan gertatzen den zerbait bilatzeko. Esperimentazio naturalak deritzo. Egoera askotan, zoritxarrez, naturak ez du interes publikorik nahi ez duzun tratamendua ausaz ematen. Baina batzuetan, natura ausaz tratamendu bat ematen du ausaz. Bereziki, lehen tratamendua jasotzen duten pertsonei bigarren tratamendua ematen dieten kasua aztertuko dut. Esate baterako, zirriborroa ausazko esleitutako bigarren mailako tratamendua dela esan daiteke, pertsona batzuek lehen ministroa bultzatu zutela, militarren zerbitzura. Diseinu hau batzuetan animaziozko diseinua da . Eta egoera hori kudeatzeko deskribatuko dudan analisi-metodoa batzuetan instrumental aldagai deritzo. Ezarpen honetan, hipotesi batzuekin, ikertzaileek unitate azpisektore partikularren lehen tratamenduaren efektuari buruz ikas dezaten sustatzea ahalbidetzen du.
Bi tratamendu desberdinen tratamendua lortzeko: sustatzea eta tratamendu primarioa: notazio berri bat behar dugu. Demagun pertsona batzuk ausaz idatzitakoa ( \(Z_i = 1\) ) edo ez idatzia ( \(Z_i = 0\) ); Egoera honetan, \(Z_i\) batzuetan instrumentu bat deitzen da.
Ziren idatzi artean, batzuk zerbitzatzen ( \(Z_i = 1, W_i = 1\) ) eta batzuk ez ( \(Z_i = 1, W_i = 0\) ). Era berean, ez ziren \(Z_i = 0, W_i = 1\) zerbitzatzen ( \(Z_i = 0, W_i = 1\) ) eta batzuk ez ( \(Z_i = 0, W_i = 0\) ). Pertsona bakoitzeko emaitza potentzialak orain zabaldu ahal izango dira beren egoera erakusteko bai sustatzeko eta tratatzeko. Adibidez, utzi \(Y(1, W_i(1))\) \(i\) pertsonaren irabaziak izango balitz, \(W_i(1)\) bere zerbitzu-egoera bada. Gainera, biztanleria zatitu ahal izango dugu lau taldeetan: osagarri, inoiz-hartzaile, defiers, eta beti-takers (2.7 taulan).
Mota | Zerbitzua idatzi bada | Zerbitzua ez bada idatzita |
---|---|---|
komenientzietara | Bai, \(W_i(Z_i=1) = 1\) | Ez, \(W_i(Z_i=0) = 0\) |
Never-takers | Ez, \(W_i(Z_i=1) = 0\) | Ez, \(W_i(Z_i=0) = 0\) |
Defiers | Ez, \(W_i(Z_i=1) = 0\) | Bai, \(W_i(Z_i=0) = 1\) |
Beti-takers | Bai, \(W_i(Z_i=1) = 1\) | Bai, \(W_i(Z_i=0) = 1\) |
Tratamenduaren (hau da, zerbitzu militarra) eragina kalkulatzeko eztabaidatu baino lehen, lehenengo bultzadaren bi efektuak definitu ditzakegu (hau da, proiektuan). Lehenik eta behin, lehen mailako tratamenduaren bultzadaren eragina definitu dezakegu. Bigarrenik, emaitzaren eraginaren eragina zehaztu dezakegu. Bi efektu horiek konbinatu ahal izango lirateke, tratamenduaren eragina pertsonen talde zehatz batean kalkulatzeko.
Lehenik eta behin, tratamendua sustatzeko eragina pertsonaren \(i\) gisa definitu daiteke
\[ \text{ITT}_{W,i} = W_i(1) - W_i(0) \qquad(2.5)\]
Gainera, kopuru hori biztanleria osoa bezala definitu daiteke
\[ \text{ITT}_{W} = \frac{1}{N} \sum_{i=1}^N [W_i(1) - W_i(0)] \qquad(2.6)\]
Azkenean, \(\text{ITT} _{W}\) datuak kalkulatzeko balio dezakegu:
\[ \widehat{\text{ITT}_{W}} = \bar{W}^{\text{obs}}_1 - \bar{W}^{\text{obs}}_0 \qquad(2.7)\]
non \(\bar{W}^{\text{obs}}_1\) tratamendu tasa ikustea animatu zutenentzat eta \(\bar{W}^{\text{obs}}_0\) da. Trazatuaren tratamendu-tasa ez zitzaien bultzatu. \(\text{ITT}_W\) ere batzuetan deitzen zaio uptake tasa .
Ondoren, emaitzaren sustapenaren eragina \(i\) pertsonari definitu daiteke:
\[ \text{ITT}_{Y,i} = Y_i(1, W_i(1)) - Y_i(0, W_i(0)) \qquad(2.8)\]
Gainera, kopuru hori biztanleria osoa bezala definitu daiteke
\[ \text{ITT}_{Y} = \frac{1}{N} \sum_{i=1}^N [Y_i(1, W_i(1)) - Y_i(0, W_i(0))] \qquad(2.9)\]
Azkenean, \(\text{ITT}_{Y}\) kalkulatu ahal izango ditugu datuak erabiliz:
\[ \widehat{\text{ITT}_{Y}} = \bar{Y}^{\text{obs}}_1 - \bar{Y}^{\text{obs}}_0 \qquad(2.10)\]
non \(\bar{Y}^{\text{obs}}_1\) emaitza nabarmentzen da (adibidez, irabaziak) animatu dituztenentzat (adibidez, zirriborroa) eta \(\bar{W}^{\text{obs}}_0\) ez zitzaien animatu emaitzen emaitza.
Azkenean, arreta erakartzen dugu interesaren eragina: lehen mailako tratamenduaren eragina (adibidez, zerbitzu militarra) emaitza (adibidez, irabaziak). Zoritxarrez, orokorrean, ezin da efektu hori kalkulatu unitate guztietan. Hala eta guztiz ere, hipotesi batzuekin, ikertzaileek tratamenduaren efektuak zenbateraino bete ditzakete (hau da, ebaluatu eta ebaluatu ez diren pertsonak, 2. taulan ezartzen direnak). Batez besteko kausal-efektu efektiboa (CACE) estandar hau deitzen diot (normalean TATE-ren tokiko batez besteko tratamendu-efektua deitzen zaio):
\[ \text{CACE} = \frac{1}{N_{\text{co}}} \sum_{i:G_i=\text{co}} [Y(1, W_i(1)) - Y(0, W_i(0))] \qquad(2.11)\]
non \(G_i\) ematen du \(i\) pertsona taldea (ikus 2.7 taulan) eta \(N_{\text{co}}\) duen kopurua. Beste era batera esanda, eq. 2.11 konpainiarekin konpultsatutako irabazleak alderatzen ditu \(Y_i(1, W_i(1))\) eta ez da \(Y_i(0, W_i(0))\) . Eq estimand 2.11 irudiak behatutako datuen estimazioa oso zaila dirudi, ezinezkoa delako identifikadoreak identifikatzea datuek soilik erabiliz (norbaitek bere osotasunean jakitea, noiz idatzi zuenean zerbitzatzen zen eta noiz prestatu ez zuen zerbitzatzen jakin behar zenuke).
Bihurtzen da: zertxobait harrigarriro, baldin eta betetzen badira, ondoren, hiru hipotesi osagarri egiten badira, CACE datuak kalkulatzeko aukera dago. Lehenik eta behin, tratamendua ausazkoa dela suposatzen du. Loteria proiektuaren kasuan arrazoizkoa da. Hala ere, esperimentu naturalek ausazko ezarpenean oinarritzen ez diren zenbait tokitan, hipotesi hori arazo larriagoa izan liteke. Bigarrenik, bat-batekoak ez direla suposatu behar dira (suposizio hori, batzuetan, monotoniaren hipotesia deitzen zaio). Zirriborroaren testuinguruan, badirudi arrazoiak direla eta, ez badira zerbitzatzen eta ez badira idatzita egongo ez bada. Hirugarrenik, azkenik, bazterkeriaren murrizketa deritzoen hipotesi garrantzitsuena da. Bazterkeriaren murriztapenaren arabera, tratamenduaren esleipenaren eragina tratamenduaren bidez igarotzen dela suposatuko da. Beste era batera esanda, ez da emaitzekiko susperraldiaren eragin zuzena izan behar. Loteria proiektuaren kasuan, esate baterako, zirriborro zirriborroak ez du funtzionamendu militarraren gaineko beste diru-sarrerarik (2.11 irudia). Baztertze-murriztapena urratu egin daiteke, adibidez, idatzitako pertsonak eskolan denbora gehiago igarotzean, zerbitzua saihesteko edo enpresaburuenek ziurtagiririk gabeko pertsonak kontratatzeko.
Hiru baldintza hauek (ausazko tratamendua esleitzea, defiers ez, eta bazterketa murrizketa) betetzen badira, orduan
\[ \text{CACE} = \frac{\text{ITT}_Y}{\text{ITT}_W} \qquad(2.12)\]
beraz, CACE kalkulatu ahal izango dugu:
\[ \widehat{\text{CACE}} = \frac{\widehat{\text{ITT}_Y}}{\widehat{\text{ITT}_W}} \qquad(2.13)\]
CACE-ri buruz pentsatzeko modu bat da animatu eta animatu ez direnen arteko desberdintasuna dela, gehikuntza tasa puztuta dagoela.
Badira bi ohar garrantzitsu gogoan. Lehenik eta behin, bazterkeriaren murriztapena hipotesi handia da, eta kasu-kasuetan justifikatuta egon behar da, eta horrek maiz eskatzen du gaiaren inguruko espezializazioa. Bazterketaren murriztapena ezin da justifikatu ausazko ausentziarekin. Bigarrenik, aldagai \(\text{ITT}_W\) instrumentalen erronka praktiko arruntak eragiten du tratamendua jasotzen denean \(\text{ITT}_W\) txikia denean. Horrek tresna ahula deritzo eta arazo ugari sortzen ditu (Imbens and Rosenbaum 2005; Murray 2006) . Tresna ahulen arazoa pentsatzeko modu bat da: \(\widehat{\text{CACE}}\) \(\widehat{\text{ITT}_Y}\) \(\widehat{\text{CACE}}\) aldaera txikiak sentikorrak izan daitezke. bazterketa murrizketa-urratzeak, aldaerak horiek \(\widehat{\text{ITT}_W}\) txiki baten bidez handitu egiten \(\widehat{\text{ITT}_W}\) (ikus 2.13 \(\widehat{\text{ITT}_W}\) ). Gutxi gorabehera, izaera esleitzen duen tratamenduak ez du eragin handirik tratamenduarekiko tratuan, orduan tratamenduari buruz arduratzen zaren zailtasuna izango duzu.
Ikusi Imbens and Rubin (2015) kapituluko 23 eta 24. kapituluak eztabaida honen bertsio formalago baterako. Aldagai instrumentalen hurbilketa ekonometriko tradizionala normalean ekuazioak estimatzea da, ez emaitza potentzialetan. Ikuspegi horretatik beste sarrera baterako, ikus Angrist and Pischke (2009) , eta bi ikuspegi horien arteko konparaketa egiteko, ikus Imbens and Rubin (2015) atala. Gerber and Green (2012) 6) kapituluko 6 atalean ematen den aldagai instrumentalaren alternatiba apur bat gutxiago aurkezten da. Bazterkeriaren murrizketa gehiago lortzeko, ikus D. Jones (2015) . Aronow and Carnegie (2013) deskribatzen dute aurrekontu multzo gehigarri bat CTEk baino ATE kalkulatzeko erabil daitekeen. Esperimentazio naturalak oso zaila izan daiteke interpretatzeko, ikusi Sekhon and Titiunik (2012) . Esperimentazio naturaletara sarrera orokorragoa lortzeko, hau da, ikuspuntu aldakorreko instrumentuetatik haratago joatea, besteak beste, erregresioaren etenaldia bezalako diseinuak barne, ikus Dunning (2012) .