Maelezo ya hisabati

Nadhani njia bora ya kuelewa majaribio ni mfumo wa matokeo ya matokeo (ambayo nilijadiliana katika maelezo ya hisabati katika sura ya 2). Mfumo wa matokeo ya uwezo una uhusiano wa karibu na mawazo kutoka kwa sampuli ya makao ya kubuni ambayo (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) katika sura ya 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Kiambatisho hiki kimeandikwa kwa namna ya kusisitiza uhusiano huo. Mkazo huu ni kidogo usio wa jadi, lakini nadhani kuwa uhusiano kati ya sampuli na majaribio ni muhimu: inamaanisha kwamba ikiwa unajua kitu kuhusu sampuli basi unajua jambo kuhusu majaribio na kinyume chake. Kama nitakavyoonyesha katika maelezo haya, mfumo wa matokeo ya uwezo unaonyesha nguvu za majaribio yaliyodhibitiwa na randomzed kwa kukadiria madhara ya causal, na inaonyesha mapungufu ya kile kinachoweza kufanywa na majaribio hata ya kutekelezwa kikamilifu.

Katika kiambatisho hiki, nitaelezea mfumo wa matokeo ya matokeo, kuandika baadhi ya nyenzo kutoka kwa maelezo ya hisabati katika sura ya 2 ili kufanya maelezo haya yamejitokeza zaidi. Kisha nitaelezea matokeo ya manufaa kuhusu usahihi wa makadirio ya madhara ya matibabu ya wastani, ikiwa ni pamoja na majadiliano ya mgao bora na wasimamizi wa tofauti-tofauti-tofauti. Kiambatisho hiki kinajenga sana kwenye Gerber and Green (2012) .

Mfumo wa matokeo ya uwezekano

Ili kuonyesha mfano wa matokeo ya matokeo, hebu turudie Restivo na jaribio la van de Rijt ili kukadiria athari za kupokea barnstar kwenye michango ya baadaye ya Wikipedia. Mpango wa matokeo ya matokeo una vipengele vitatu kuu: vitengo , tiba , na matokeo mazuri . Katika kesi ya Restivo na van de Rijt, vitengo vilikuwa vizuri kwa wahariri-wale walio juu 1% ya wachangiaji-ambao hawakuwa wamepokea barnstar. Tunaweza kuhariri wahariri hawa kwa \(i = 1 \ldots N\) . Matibabu katika majaribio yao yalikuwa "barnstar" au "hakuna barnstar," nami nitaandika \(W_i = 1\) ikiwa mtu \(i\) ni katika hali ya matibabu na \(W_i = 0\) vinginevyo. Kipengele cha tatu cha mfumo wa matokeo ya matokeo ni muhimu zaidi: matokeo ya matokeo . Hizi ni kidogo zaidi ya kufikiri ngumu kwa sababu zinahusisha matokeo ya "uwezo" - mambo ambayo yanaweza kutokea. Kwa kila mhariri wa Wikipedia, mtu anaweza kufikiria idadi ya mabadiliko ambayo angeweza kufanya katika hali ya matibabu ( \(Y_i(1)\) ) na namba ambayo angeweza kufanya katika hali ya kudhibiti ( \(Y_i(0)\) ).

Kumbuka kwamba uchaguzi huu wa vitengo, tiba, na matokeo hufafanua kile ambacho kinaweza kujifunza kutokana na jaribio hili. Kwa mfano, bila mawazo yoyote ya ziada, Restivo na van de Rijt hawawezi kusema chochote juu ya madhara ya mabarnstars kwa wahariri wote wa Wikipedia au matokeo kama vile ubora wa hariri. Kwa ujumla, uchaguzi wa vitengo, matibabu, na matokeo lazima iwe kulingana na malengo ya utafiti.

Kutokana na matokeo haya mazuri-yaliyofupishwa katika meza ya 4.5-moja inaweza kufafanua athari ya causal ya matibabu kwa mtu \(i\) kama

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Kwa mimi, usawa huu ni njia ya wazi ya kufafanua athari ya causal, na, ingawa ni rahisi sana, mfumo huu (Imbens and Rubin 2015) njia nyingi muhimu na za kuvutia (Imbens and Rubin 2015) .

Jedwali 4.5: Jedwali la Matokeo Mazuri
Mtu Inabadilisha hali ya matibabu Inageuka katika hali ya udhibiti Matibabu ya athari
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
maana \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Ikiwa tunafafanua causality kwa njia hii, hata hivyo, sisi kukimbia katika tatizo. Katika karibu kila kesi, hatuwezi kuchunguza matokeo mawili. Hiyo ni, mhariri maalum wa Wikipedia au alipokea barnstar au la. Kwa hiyo, tunaona mojawapo ya matokeo ya matokeo- \(Y_i(1)\) au \(Y_i(0)\) - lakini si wawili. Kutokuwa na uwezo wa kuchunguza matokeo mawili ni tatizo kubwa sana kwamba Holland (1986) uliiita Tatizo la Msingi la Ufafanuzi wa Causal .

Kwa bahati nzuri, tunapofanya utafiti, hatuwezi kuwa na mtu mmoja tu, tuna watu wengi, na hii inatoa njia ya kuzunguka Tatizo la Msingi la Ufafanuzi wa Causal. Badala ya kujaribu kukadiria athari ya matibabu ya kiwango cha mtu binafsi, tunaweza kukadiria athari ya matibabu ya wastani:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Hii bado imeelezewa kwa masharti ya \(\tau_i\) ambayo \(\tau_i\) kutumiwa, lakini kwa algebra fulani (Eq 2.8 ya Gerber and Green (2012) ) tunapata

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Equation 4.3 inaonyesha kwamba kama tunaweza kukadiria wastani wa matokeo ya watu chini ya matibabu ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) na matokeo ya wastani ya idadi ya watu chini ya udhibiti ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), basi tunaweza kukadiria athari ya wastani ya tiba, hata bila kulinganisha athari ya matibabu kwa mtu fulani.

Sasa kwa kuwa nimeelezea makadirio yetu-kitu tunachojaribu kulinganisha-nitageuza jinsi tunavyoweza kuihesabu kwa data. Napenda kufikiri juu ya changamoto hii ya makadirio kama tatizo la sampuli (fikiria nyuma kwenye maelezo ya hisabati katika sura ya 3). Fikiria kwamba sisi kwa nasibu huchukua watu wengine kuchunguza katika hali ya matibabu na sisi nasibu kuchukua baadhi ya watu kuchunguza katika hali ya udhibiti, basi tunaweza kukadiria matokeo wastani katika kila hali:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

ambapo \(N_t\) na \(N_c\) ni idadi ya watu katika hali ya matibabu na udhibiti. Equation 4.4 ni mchezaji wa tofauti-wa-maana. Kwa sababu ya sampuli ya kubuni, tunajua kwamba muda wa kwanza ni mchezajiji asiye na ubaguzi kwa matokeo ya wastani chini ya matibabu na muda wa pili ni mchezajiji asiye na ubaguzi chini ya udhibiti.

Njia nyingine ya kufikiri juu ya nini randomization itawezesha ni kwamba kuhakikisha kuwa kulinganisha kati ya matibabu na makundi ya udhibiti ni haki kwa sababu randomization kuhakikisha kuwa makundi mawili yatafanana. Hali hii inashikilia mambo ambayo tumeipima (sema idadi ya mabadiliko katika siku 30 kabla ya jaribio) na vitu ambavyo hatujapima (sema jinsia). Uwezo huu wa kuhakikisha uwiano kwa sababu zote zilizozingatiwa na zisizohitajika ni muhimu. Ili kuona uwezo wa kusawazisha moja kwa moja juu ya sababu zisizohifadhiwa, hebu fikiria kwamba utafiti wa siku zijazo unaona kuwa wanaume wanajibika zaidi kwa tuzo kuliko wanawake. Je! Hiyo inaweza kuathiri matokeo ya Restivo na jaribio la van de Rijt? Hapana. Kwa randomizing, wao walitambua kwamba wote unobservables itakuwa usawa, katika matarajio. Ulinzi huu dhidi ya haijulikani ni nguvu sana, na ni njia muhimu ambayo majaribio ni tofauti na mbinu zisizo za majaribio zilizoelezwa katika sura ya 2.

Mbali na kufafanua athari ya matibabu kwa wakazi wote, inawezekana kufafanua athari ya matibabu kwa subset ya watu. Hii inajulikana kama athari ya wastani ya matibabu ya athari (CATE). Kwa mfano, katika utafiti wa Restivo na van de Rijt, hebu fikiria kuwa \(X_i\) ni kama mhariri \(X_i\) juu au chini ya idadi ya mabadiliko ya wastani wakati wa siku 90 kabla ya jaribio. Mtu anaweza kuhesabu athari za matibabu tofauti kwa wahariri hawa wa mwanga na wazima.

Mfumo wa matokeo ya uwezo ni njia yenye nguvu ya kufikiri juu ya inference causal na majaribio. Hata hivyo, kuna matatizo mawili zaidi ambayo unapaswa kukumbuka. Matatizo mawili haya mara nyingi hupigwa pamoja chini ya kipindi cha Sura ya Thamani ya Thamani ya Matibabu (SUTVA). Sehemu ya kwanza ya SUTVA ni dhana kwamba kitu tu kwamba mambo kwa ajili ya mtu \(i\) 's matokeo ni kama mtu huyo alikuwa katika matibabu au kudhibiti hali hiyo. Kwa maneno mengine, ni kudhani kuwa mtu \(i\) hauathiriwa na tiba inayotolewa kwa watu wengine. Hii mara nyingine huitwa "hakuna kuingiliwa" au "hakuna spillovers", na inaweza kuandikwa kama:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

ambapo \(\mathbf{W_{-i}}\) ni vector ya statuses ya matibabu kwa kila mtu isipokuwa mtu \(i\) . Njia moja ambayo hii inaweza kukiukwa ni kama matibabu kutoka kwa mtu mmoja yatafafanua kwenye mtu mwingine, ama vyema au vibaya. Kurudi kwa Restivo na jaribio la van de Rijt, fikiria marafiki wawili \(i\) na \(j\) na mtu huyo \(i\) anapata barnstar na \(j\) haifai. Ikiwa \(i\) kupokea sababu za barnstar \(j\) kuhariri zaidi (bila ya maana ya ushindani) au hariri kidogo (bila ya kukata tamaa), basi SUTVA imekwisha kukiuka. Inaweza pia kukiukwa ikiwa athari ya matibabu inategemea idadi ya watu wengine wanaopata matibabu. Kwa mfano, ikiwa Restivo na van de Rijt wamewapa mabarnstars 1,000 au 10,000 badala ya 100, hii inaweza kuwa na athari za kupokea barnstar.

Suala la pili limefungwa katika SUTVA ni dhana kwamba matibabu tu ni muhimu ambayo mtafiti hutoa; dhana hii wakati mwingine huitwa matibabu yasiyofichwa au kutengwa . Kwa mfano, katika Restivo na van de Rijt, huenda ikawa ni kwamba kwa kutoa barnstar wachunguzi waliosababisha wahariri kuwa na sifa kwenye ukurasa wa wahariri maarufu na kwamba ulikuwa kwenye ukurasa wa wahariri maarufu-badala ya kupokea barnstar- ambayo imesababisha mabadiliko katika tabia ya uhariri. Ikiwa hii ni kweli, basi athari za barnstar hazitenganishwa na matokeo ya kuwa kwenye ukurasa wa wahariri maarufu. Bila shaka, haijulikani ikiwa, kutokana na mtazamo wa kisayansi, hii inapaswa kuchukuliwa kuvutia au isiyovutia. Hiyo ni, unaweza kufikiria mtafiti akisema kuwa athari ya kupokea barnstar inajumuisha matibabu yote inayofuata ambayo hufanya kazi. Au unaweza kufikiri hali ambayo utafiti unataka kutenganisha athari za barnstars kutoka kwa mambo mengine yote. Njia moja ya kufikiri juu yake ni kuuliza ikiwa kuna kitu ambacho kinaongoza kwa nini Gerber and Green (2012) (ukurasa wa 41) huita "kuvunjika kwa ulinganifu"? Kwa maneno mengine, kuna kitu chochote isipokuwa matibabu ambayo husababisha watu katika matibabu na hali ya kudhibiti kushughulikiwa tofauti? Mateso kuhusu kuvunja ulinganifu ni nini huwaongoza wagonjwa katika kundi la udhibiti katika majaribio ya matibabu kuchukua kidonge cha placebo. Kwa njia hiyo, watafiti wanaweza kuhakikisha kwamba tofauti pekee kati ya hali mbili ni dawa halisi na sio uzoefu wa kuchukua kidonge.

Kwa zaidi juu ya SUTVA, angalia kifungu cha 2.7 cha Gerber and Green (2012) , kifungu cha 2.5 cha Morgan and Winship (2014) , na sehemu ya 1.6 ya Imbens and Rubin (2015) .

Sahihi

Katika sehemu iliyopita, nimeelezea jinsi ya kukadiria athari ya wastani ya matibabu. Katika sehemu hii, nitawapa baadhi ya mawazo kuhusu kutofautiana kwa makadirio hayo.

Ikiwa unafikiri juu ya kukadiria athari ya wastani ya matibabu kama kukadiria tofauti kati ya njia mbili za sampuli, basi inawezekana kuonyesha kwamba makosa ya kiwango cha athari ya wastani ya matibabu ni:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

ambapo \(m\) watu walitoa matibabu na \(Nm\) kudhibiti (tazama Gerber and Green (2012) , q. 3.4). Kwa hivyo, unapofikiri juu ya watu wangapi wanaowapa matibabu na wangapi wanaowapa kudhibiti, unaweza kuona kwamba kama \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , basi unataka \(m \approx N / 2\) , kwa muda mrefu kama gharama za matibabu na udhibiti zimefanana. Upimaji 4.6 unafafanua kwa nini jaribio la Bond na wenzake ' (2012) jaribio juu ya madhara ya habari za kijamii juu ya kupiga kura (takwimu 4.18) hakuwa na ufanisi wa takwimu. Kumbuka kwamba ilikuwa na asilimia 98 ya washiriki katika hali ya matibabu. Hii inamaanisha kwamba tabia ya maana katika hali ya udhibiti haikuhesabiwa kwa usahihi kama ingekuwa, ambayo kwa hiyo ilimaanisha tofauti kati ya matibabu na hali ya kudhibiti haikuhesabiwa kwa usahihi kama ilivyoweza. Kwa zaidi juu ya mgao bora wa washiriki kwa masharti, ikiwa ni pamoja na wakati gharama zinatofautiana kati ya hali, angalia List, Sadoff, and Wagner (2011) .

Hatimaye, katika maandishi kuu, nilielezea jinsi makadirio ya tofauti-tofauti-tofauti, ambayo hutumika kwa kawaida katika kubuni mchanganyiko, inaweza kusababisha tofauti ndogo kuliko mkaguzi wa makadirio ya tofauti, ambayo hutumiwa katika masomo-kati kubuni. Ikiwa \(X_i\) ni thamani ya matokeo kabla ya matibabu, basi kiasi ambacho tunachojaribu kulinganisha na mbinu tofauti-tofauti ni:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Hitilafu ya kawaida ya wingi ni (angalia Gerber and Green (2012) , aya 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Ulinganisho wa eq. 4.6 na eq. 4.8 inaonyesha kuwa njia tofauti-tofauti-tofauti itakuwa na kosa ndogo ndogo wakati (angalia Gerber and Green (2012) , aya 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Karibu, wakati \(X_i\) utabiri sana wa \(Y_i(1)\) na \(Y_i(0)\) , basi unaweza kupata makadirio sahihi zaidi kutoka mbinu tofauti-tofauti kuliko kutoka tofauti- ya-ina maana moja. Njia moja ya kufikiri juu ya hili katika mazingira ya Restivo na majaribio ya van de Rijt ni kwamba kuna tofauti nyingi za asili kwa kiasi ambacho watu huhariri, hivyo hii inafanya kulinganisha matibabu na hali ya kudhibiti ngumu: ni vigumu kuchunguza jamaa athari ndogo katika data ya matokeo ya pigo. Lakini ikiwa unatofautiana-kutofautiana kwa kawaida hutokea, basi kuna tofauti ndogo sana, na hiyo inafanya iwe rahisi kutambua athari ndogo.

Angalia Frison and Pocock (1992) kwa kulinganisha sahihi ya tofauti-ya-njia, tofauti-tofauti-tofauti, na mbinu za ANCOVA kwa mazingira ya jumla ambapo kuna kipimo nyingi kabla ya matibabu na baada ya matibabu. Hasa, wanashauri sana ANCOVA, ambayo sijaifunika hapa. Zaidi ya hayo, angalia McKenzie (2012) kwa majadiliano ya umuhimu wa hatua nyingi za matokeo ya matibabu baada ya matibabu.