Մաթեմատիկական նշումներ

Կարծում եմ փորձերի հասնելու լավագույն տարբերակն այն հնարավոր արդյունքների շրջանակն է (որը ես քննարկել եմ մաթեմատիկական նշումներում, 2-րդ գլխում): Պոտենցիալ արդյունքի շրջանակները սերտորեն կապված են նախագծման վրա հիմնված նմուշառման գաղափարների հետ, որոնք ես նկարագրեցի 3-րդ գլուխում (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) : Այս հավելվածը գրված է այնպես, ինչպես շեշտել այդ կապը: Այս շեշտը մի փոքր ոչ ավանդական է, բայց ես կարծում եմ, որ նմուշառման եւ փորձերի միջեւ կապը օգտակար է. Դա նշանակում է, որ եթե նմուշառման մասին ինչ-որ բան իմանաք, ապա դուք գիտեք ինչ-որ բան փորձերի մասին եւ հակառակը: Ինչպես նշեմ այդ գրառումների մեջ, պոտենցիալ արդյունքների շրջանակը բացահայտում է ռադոնալիզացված վերահսկվող փորձերի ուժը, պատճառահետեւանքային հետեւանքների գնահատման համար, եւ դա ցույց է տալիս, թե ինչ կարող է անել կատարյալ կատարված փորձերը:

Այս հավելվածում ես նկարագրում եմ հնարավոր արդյունքների շրջանակ, կրկնօրինակելով որոշ նյութեր մաթեմատիկական նշումներից 2-րդ գլխում, որպեսզի դրանք ավելի ինքնատիպ լինեն: Այնուհետեւ ես կներկայացնեմ որոշ օգտակար արդյունքներ միջին բուժման հետեւանքների գնահատման ճշգրտության մասին, ներառյալ օպտիմալ հատկացման եւ տարբերությունների միջեւ տարբերությունների գնահատման քննարկում: Այս հավելվածը մեծապես ներառում է Gerber and Green (2012) :

Հնարավոր արդյունքների շրջանակ

Պոտենցիալ արդյունքների նկարագրությունը ցույց տալու համար, եկեք վերադառնանք Restivo եւ van de Rijt- ի փորձը `գնահատելու համար, թե ինչպես կարելի է բարեգործություն ստանալ Վիքիպեդիայի հետագա ներդրումների վրա: Պոտենցիալ արդյունքների շրջանակն ունի երեք հիմնական տարր ` միավորներ , բուժում եւ հնարավոր արդյունքներ : Restivo- ի եւ վան դը Ռիջտի դեպքում միավորները եղել են արժանի խմբագիրներ, ովքեր առաջին տեղերի 1 տոկոսի մեջ են, ովքեր դեռ չեն ստացել բարերար: Կարող ենք այս խմբագիրները նշել \(i = 1 \ldots N\) : Բուժում իրենց գիտափորձի էին «barnstar» կամ «ոչ barnstar», եւ ես պետք է գրեմ \(W_i = 1\) , եթե անձը \(i\) գտնվում է բուժման վիճակում եւ \(W_i = 0\) այլ կերպ. Պոտենցիալ արդյունքների ծրագրի երրորդ տարրը ամենակարեւորն է ` հնարավոր ելքերը : Դրանք շատ ավելի բարդ են, քանի որ դրանք ներառում են «պոտենցիալ» արդյունքներ, որոնք կարող են տեղի ունենալ: Յուրաքանչյուր Վիքիպեդիայի խմբագրության համար կարելի է պատկերացնել այն փոփոխությունների քանակը, որոնք նա կկատարի բուժման վիճակում ( \(Y_i(1)\) ) եւ այն թիվը, որը նա կկատարի վերահսկողության վիճակում ( \(Y_i(0)\) ):

Նշենք, որ միավորների, բուժումների եւ արդյունքների այս ընտրությունը սահմանում է, թե ինչ կարող է սովորել այս փորձից: Օրինակ, առանց որեւէ լրացուցիչ ենթադրությունների, Restivo- ն եւ վան դը Ռիժտը չեն կարող որեւէ բան ասել բարբարոսների ազդեցության մասին, վիքիպեդիայի բոլոր խմբագրատերերի վրա կամ արդյունքներ, ինչպիսիք են խմբագրման որակը: Ընդհանուր առմամբ, միավորների ընտրությունը, բուժումը եւ արդյունքները պետք է հիմնված լինեն ուսումնասիրության նպատակներին:

Հաշվի առնելով այդ պոտենցիալ արդյունքները, որոնք ամփոփված են աղյուսակ 4.5-ում, կարելի է սահմանել բուժման պատճառային ազդեցությունը անձի \(i\)

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Ինձ համար այս հավասարակշռությունը ամենաազդեցիկ միջոցն է, որը նշանակում է պատճառահետեւանքային ազդեցություն, եւ, թեեւ չափազանց պարզ է, այս շրջանակը շատ ընդգծված է շատ կարեւոր եւ հետաքրքիր ձեւերով (Imbens and Rubin 2015) :

Աղյուսակ 4.5. Պոտենցիալ արդյունքների աղյուսակ
Անձ Փոփոխությունները բուժման պայմաններում Վերակազմակերպումները կարգավորիչ վիճակում են Բուժման ազդեցությունը
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
Ն \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
նկատի ունեմ \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Եթե ​​մենք այս ձեւով պատճառաբանվածություն սահմանենք, ապա մենք խնդիր ենք դնում: Գրեթե բոլոր դեպքերում մենք չենք կարող դիտարկել ինչպես պոտենցիալ արդյունքները: Այսինքն, կոնկրետ Վիքիպեդիայի խմբագիրն ստացել է բարերար, թե ոչ: Հետեւաբար, մենք դիտում ենք հնարավոր արդյունքներից մեկը ` \(Y_i(1)\) կամ \(Y_i(0)\) բայց ոչ թե երկուսն էլ: Պոտենցիալի արդյունքների դիտարկման անկարողությունն այնպիսի մեծ խնդիր է, որ Holland (1986) այն անվանեց «Պատճառային ելույթների հիմնարար խնդիր» :

Բարեբախտաբար, երբ մենք հետազոտություններ ենք անում, մենք ոչ միայն ունենք մեկ մարդ, մենք ունենք շատ մարդիկ, եւ սա առաջարկում է ճանապարհ դեպի պատճառային ելակետի հիմնարար խնդիրը: Անհատական ​​մակարդակի բուժման ազդեցությունը գնահատելու փոխարեն, մենք կարող ենք գնահատել միջին բուժման ազդեցությունը.

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Սա դեռ արտահայտված է \(\tau_i\) որոնք գտնվում են նկատել, բայց ինչ - որ հանրահաշվի (EQ 2.8 Gerber and Green (2012) ) Մենք ստանալու

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Հավասարեցում 4.3-ը ցույց է տալիս, որ եթե մենք կարող ենք գնահատել բուժման ընթացքում բնակչության միջին ցուցանիշը ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) եւ բնակչության միջին արդյունքը վերահսկողության տակ ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), ապա մենք կարող ենք գնահատել միջին բուժման ազդեցությունը, նույնիսկ առանց որեւէ կոնկրետ անձի բուժման ազդեցության գնահատման:

Հիմա, որ ես սահմանել եմ մեր նախագիծը `այն, ինչ մենք փորձում ենք գնահատել, ես դիմում եմ, թե ինչպես կարող ենք իրական արժեքով գնահատել այն: Ես սիրում եմ մտածել այս գնահատման մարտահրավերի մասին որպես նմուշառման խնդիր (կարծում եմ, վերադառնալու համար մաթեմատիկական նշումների 3-րդ գլխում): Պատկերացրեք, որ մենք պատահականորեն ընտրում ենք որոշ մարդկանց, որպեսզի դիտարկվեն բուժման պայմաններում, եւ մենք պատահականորեն ընտրում ենք որոշ մարդկանց `վերահսկելու պայմաններում, ապա մենք կարող ենք գնահատել յուրաքանչյուր պայմանի միջին արդյունքը.

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

որտեղ \(N_t\) եւ \(N_c\) հանդիսանում են բուժման եւ հսկողության պայմաններում մարդկանց թիվը: Հավասարեցում 4.4 տարբերություն է նշանակում գնահատող: Ընտրանքային դիզայնի շնորհիվ մենք գիտենք, որ առաջին տերմինը անկողմնակալ գնահատական ​​է բուժման ընթացքում միջին արդյունքի համար, իսկ երկրորդ տերմինը `վերահսկողության տակ գտնվող անաչառ գնահատող:

Մեկ այլ միջոց է մտածել, թե ինչպիսի ռադանալիզացիայի հնարավորություն է ընձեռում այն, որ այն ապահովում է, որ բուժման եւ վերահսկման խմբերի համեմատությունը արդար լինի, քանի որ ռադնդիզացիան ապահովում է, որ երկու խմբերը նմանվեն միմյանց: Այս նմանությունը պահում է այն բաների համար, որոնք մենք չափեցինք (ասենք, փորձարկումից 30 օր առաջ կատարված փոփոխությունների քանակը) եւ այն բաները, որոնց մենք չենք գնահատել (գենդերներ ասում են): Կարեւոր է դիտարկել ինչպես հաշվարկված, այնպես էլ անտեսանելի գործոնների հավասարակշռությունը ապահովելու ունակությունը: Ճանաչված գործոնների ավտոմատ հավասարակշռման ուժը տեսնելու համար եկեք պատկերացնենք, որ ապագա հետազոտությունները ցույց են տալիս, որ տղամարդիկ ավելի շատ պատասխանատու են պարգեւների համար, քան կանայք: Ցանկանում եք անվավերացնել Restivo- ի եւ վան դի Ռիթի փորձերի արդյունքները: Ոչ. Պատահականորեն, նրանք հավաստիացնում էին, որ բոլոր անհավասարակշռվածները հավասարակշռված կլիներ, ակնկալելով: Անհայտի դեմ այս պաշտպանությունը շատ հզոր է, եւ դա կարեւոր ուղի է, որը փորձարկումները տարբերվում են 2-րդ գլխում նկարագրված ոչ փորձարարական մեթոդներից:

Բացի ամբողջ բնակչության բուժման ազդեցության որոշման հետ մեկտեղ, հնարավոր է որոշել բուժման ազդեցությունը մարդկանց ենթաբազմության համար: Սա սովորաբար կոչվում է պայմանական միջին բուժման ազդեցություն (CATE): Օրինակ, Restivo- ի եւ վան դե Ռիթի ուսումնասիրության մեջ եկեք պատկերացնենք, որ \(X_i\) այն է, թե արդյոք խմբագիրն \(X_i\) վերեւից կամ ներքեւից փորձարկումից 90 օր առաջ: Մեկը կարող է հաշվարկել բուժման ազդեցությունը առանձին այդ լույսի եւ ծանր խմբագիրների համար:

Պոտենցիալ արդյունքների շրջանակը հզոր միջոց է մտածել պատճառահետեւանքային ելույթների եւ փորձերի մասին: Այնուամենայնիվ, կան երկու լրացուցիչ բարդություններ, որոնք պետք է հիշել: Այս երկու բարդությունները հաճախ միավորվում են միմյանց միջեւ, կայուն միավորի բուժման արժեքի ենթադրություն (SUTVA) տերմինով: Առաջին մասը SUTVA է այն ենթադրությունը, որ միակ բանը, որ կարեւոր է անձի \(i\) - ի արդյունքը այն է, արդյոք, որ մարդը եղել է բուժման կամ վերահսկողության վիճակում: Այլ կերպ ասած, ենթադրվում է, որ անձը \(i\) չի ազդում այլ մարդկանց տրված բուժման վրա: Սա երբեմն կոչվում է «ոչ մի միջամտություն» կամ «ոչ spillovers», եւ կարելի է գրել հետեւյալը.

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

որտեղ \(\mathbf{W_{-i}}\) բոլորի համար բուժման կարգավիճակի վեկտոր է, բացառությամբ անձի \(i\) : Մեկը դա կարող է խախտվել, եթե մեկ անձից բուժումը մեկ այլ անձի վրա թափվի, կամ դրական կամ բացասական: Վերադառնալով Restivo- ի եւ վան դի Ռիթի փորձառությունը, պատկերացրեք երկու ընկերների \(i\) եւ \(j\) եւ այդ անձը \(i\) ստանում է բարբառ եւ \(j\) չի: Եթե \(i\) , ստանալով barnstar առաջացնում \(j\) է խմբագրել ավելի (դուրս զգացումից մրցակցության) կամ խմբագրել պակաս (դուրս զգացումից հուսահատության), ապա SUTVA խախտվել: Այն կարող է նաեւ խախտվել, եթե բուժման ազդեցությունը կախված է բուժման ստացող այլ անձանց ընդհանուր քանակից: Օրինակ, եթե Restivo- ը եւ van de Rijt- ը տվել են 100-ի փոխարեն 1000 կամ 10,000 բարեր, ապա դա կարող էր ազդել ամբիոնի ստացման վրա:

Երկրորդ հարցը, որը ստացվել է SUTVA- ին, այն ենթադրությունն է, որ միակ համապատասխան բուժումը այն է, որ հետազոտողը մատուցում է. այս ենթադրությունը երբեմն կոչվում է ոչ թաքնված բուժում կամ բացառություն : Օրինակ, Ռեստիվոյում եւ վան դի Ռիտտում, գուցե, այն դեպքն է, որ բարերար տալով, հետազոտողները ստիպեցին խմբագիրներին ներկայացնել հեղինակային խմբագիրների էջում, եւ դա եղել է համաժողովրդական խմբագիրների էջում, այլ ոչ թե բարերար- ինչը հանգեցրեց խմբագրման վարքագծի փոփոխությանը: Եթե ​​դա ճիշտ է, ապա barnstar- ի ազդեցությունը տարբերվում է հայտնի խմբագիրների էջում լինելու ազդեցությունից: Իհարկե, հստակ չէ, որ գիտական ​​տեսանկյունից դա պետք է համարել գրավիչ կամ անտարբեր: Այսինքն, դուք կարող եք պատկերացնել մի հետազոտողի, ասելով, որ բարեր ստանալու ազդեցությունը ներառում է բոլոր հետագա բուժումները, որոնք բարերարն առաջացնում է: Կամ դուք կարող եք պատկերացնել այնպիսի իրավիճակ, որտեղ հետազոտությունը կցանկանար մեկուսացնել ազդեցությունը բոլոր մյուս բաներից: Այս մասին մտածելու ձեւերից մեկն այն է, հարցնել, արդյոք կա ինչ-որ բան, որը հանգեցնում է այն բանի, թե ինչ է իրականացնում « Gerber and Green (2012) (էջ 41): Այլ կերպ ասած, կա այլ բան, քան այն բուժումը, որը մարդկանց բուժման եւ վերահսկման պայմաններում առաջացնում է այլ կերպ վարվելու: Սիմետրիայի խախտման վերաբերյալ մտահոգությունները այնպիսին են, թե բժշկական զննումներում վերահսկիչ խմբում գտնվող հիվանդները պլաստիկ բորբոքում են: Այսպիսով, հետազոտողները կարող են համոզված լինել, որ երկու պայմանների միակ տարբերությունն իրական բժշկությունն է եւ ոչ թե հաբը վերցնելը:

SUTVA- ի մասին ավելի մանրամասն կարելի է գտնել Gerber and Green (2012) 2.7 բաժինը, Morgan and Winship (2014) ի 2.5 բաժինը Morgan and Winship (2014) եւ Imbens and Rubin (2015) ի 1.6 բաժինը Imbens and Rubin (2015) :

Ճշգրտություն

Նախորդ բաժնում ես նկարագրեցի, թե ինչպես գնահատել միջին բուժման ազդեցությունը: Այս բաժնում ես կներկայացնեմ որոշակի գաղափարներ այդ գնահատումների փոփոխականության մասին:

Եթե ​​մտածում եք միջին բուժման ազդեցության գնահատման մասին `որպես երկու նմուշային միջոցի տարբերությունը գնահատելու համար, ապա հնարավոր է ցույց տալ, որ միջին բուժման ազդեցության ստանդարտ սխալը հետեւյալն է.

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

որտեղ \(m\) մարդիկ բուժում են նշանակում եւ \(Nm\) վերահսկելու համար (տես Gerber and Green (2012) , առդիր 3.4): Այսպիսով, երբ մտածում եք, թե քանի մարդ պետք է բուժման հանձնարարություն \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) եւ թե քանի հոգի հանձնարարել վերահսկել, կարող եք տեսնել, եթե \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , ապա ցանկանում եք \(m \approx N / 2\) , քանի որ բուժման եւ վերահսկման ծախսերը նույնն են: Հավասարեցում 4.6 հստակեցրեց, թե ինչու Bond- ի եւ գործընկերների (2012) Փորձարկումը քվեարկության մասին սոցիալական տեղեկատվության ազդեցության վերաբերյալ (4.18-րդ) վիճակագրականորեն անարդյունավետ է: Հիշեցնենք, որ մասնակիցների 98% -ը բուժման պայմաններում էր: Սա նշանակում է, որ վերահսկողության պայմաններում միջին վարքագիծը չի գնահատվել որպես ճշգրիտ, ինչպես դա կարող էր լինել, ինչը, իր հերթին, նշանակում էր, որ բուժման եւ հսկողության պայմանների գնահատված տարբերությունը չի գնահատվել ճշգրիտ, ինչպես դա կարող է լինել: Մասնակիցների օպտիմալ հատկացման պայմանների համար, այդ թվում, երբ ծախսերը տարբեր են պայմանների միջեւ, տես List, Sadoff, and Wagner (2011) :

Վերջապես, հիմնական տեքստում ես նկարագրեցի, թե ինչպես է տարբերության տարբերությունները գնահատողը, որը սովորաբար օգտագործվում է խառը դիզայնի մեջ, կարող է հանգեցնել փոքր տարբերության, քան տարբերության միջոցների գնահատողը, որը սովորաբար օգտագործվում է առարկաների միջեւ դիզայն: Եթե \(X_i\)

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Այդ քանակի ստանդարտ սխալը (տես Gerber and Green (2012) , առդիր 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Համեմատություն eq. 4.6 եւ այլն: 4.8-ը ցույց է տալիս, որ տարբերության տարբերությունների մոտեցումը կունենա ավելի փոքր ստանդարտ սխալ, երբ (տես Gerber and Green (2012) , առդիր 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

\(X_i\) , եթե \(X_i\) ը շատ կանխատեսելի է \(Y_i(1)\) եւ \(Y_i(0)\) , ապա դուք կարող եք ավելի ճշգրիտ գնահատականներ ստանալ տարբերությունների տարբերությունների մոտեցումից, - նշանակում է մեկը: Ռեդիվոյի եւ վան դի Ռիթի փորձի համատեքստում դրա մասին մտածելու ձեւերից մեկն այն է, որ կան մարդիկ, որոնք խմբագրում են շատ բնական տատանումներ, ուստի դա ստիպում է համեմատել բուժման եւ հսկողության պայմանները դժվար է. Դժվար է հայտնաբերել հարաբերական փոքր ազդեցություն աղմկոտ արդյունքների տվյալների վրա: Բայց եթե դուք տարբերվում եք այս բնական փոփոխականությունից, ապա ավելի քիչ փոփոխականություն կա, եւ դա ավելի հեշտ է որոշել փոքր ազդեցություն:

Տես Frison and Pocock (1992) , տարբերությունների եւ տարբերությունների տարբերությունների ճշգրիտ համեմատության եւ ANCOVA- ի վրա հիմնված մոտեցումների առավել ընդհանուր ընդլայնման մեջ, որտեղ կան բազմաթիվ չափումներ նախնական բուժում եւ հետբուհական բուժում: Մասնավորապես նրանք հստակորեն խորհուրդ են տալիս ANCOVA- ին, որը ես այստեղ չեմ գրել: Հետագայում, տեսեք McKenzie (2012) , հետագա բուժման մի քանի միջոցների կարեւորության քննարկման համար: