Matematik qaydlar

Eksperimentlarni tushunishning eng yaxshi usuli - mumkin natijalar doirasi (men 2-bobdagi matematik izohlarda muhokama qilingan). Potentsial natijalar doirasi, men 3-bobda tasvirlangan dizaynga asoslangan namuna olish g'oyalari bilan yaqin munosabatlarga ega (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Ushbu ilova ushbu aloqani ta'kidlash uchun yozilgan. Bu diqqat bir oz noan'anaviydir, ammo tanlov va eksperimentlar orasidagi aloqalar foydali bo'ladi deb o'ylayman: ya'ni agar siz namuna olish haqida biror narsa bilsangiz, siz tajribalar haqida biror narsa bilasiz yoki aksincha. Men bu eslatmalarni ko'rsatib beradigan bo'lsak, potentsial natijalar doirasi sababli ta'sirlarni baholash uchun randomizatsiyalangan nazoratli tajribalarning kuchini ochib beradi va hatto mukammal bajarilgan tajribalar bilan nima qilish mumkinligi chegaralarini ko'rsatadi.

Ushbu ilovada, ushbu yozuvlarni yanada mustaqilroq qilish uchun 2-bobdagi matematik yozuvlardan ba'zi materiallarni takrorlash mumkin bo'lgan natijalar doirasini tasvirlayman. So'ngra men o'rtacha davolanish natijalarining aniqligi, jumladan, maqbul taqsimlash va farqlar farqlari bo'yicha taxminlar haqida ba'zi foydali natijalar bayon qilaman. Ushbu qo'shimcha Gerber and Green (2012) .

Portlash natijalari

Mumkin natijalarni bayon qilish uchun, Restivo va van de Rijtning Vikipediyaga kelajakdagi hissasi haqida barnstar olish samarasini baholash uchun eksperimentga qaytaylik. Olingan natijalar doirasi uchta asosiy elementga ega: birliklar , muolajalar va potentsial natijalar . Restivo va van de Rijt masalalari bo'yicha, birliklar tahrirlovchilarga, ya'ni 1% ulushga ega bo'lishgan - ular barnstar olmagan. Biz bu tahrirlovchilarni indeksatsiyalashimiz mumkin \(i = 1 \ldots N\) . Eksperimentdagi muolajalar "barnstar" yoki " \(W_i = 1\) " edi va men \(i\) davolanish holatida va \(W_i = 0\) aks holda \(W_i = 0\) . Potentsial natijalar doirasining uchinchi elementi eng muhim: mumkin bo'lgan natijalar . Ular "kontseptual jihatdan qiyin", chunki ular "potentsial" natijalarni - sodir bo'lishi mumkin bo'lgan narsalarni o'z ichiga oladi. Har bir Vikipediya muharriri uchun u davolanish holatida ( \(Y_i(1)\) ) va uning nazorat holatida ( \(Y_i(0)\) ).

Shuni esda tutingki, ushbu tanlovlar, muolajalar va natijalar ushbu tajribadan nimani o'rganish mumkinligini belgilaydi. Misol uchun, hech qanday qo'shimcha taxminlarsiz, Restivo va van de Rijt barnstarslarning barcha Vikipediya tahrirlovchilariga ta'siri yoki sifatni o'zgartirish kabi natijalar haqida hech narsa aytolmaydi. Umuman, birliklarni tanlash, muolajalar va natijalarni o'rganish maqsadlariga asoslanishi kerak.

Jadval 4,5da umumlashtirilgan ushbu potentsial natijalarni hisobga olgan holda, davolanishni shaxs \(i\) uchun

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Men uchun bu tenglama sababli ta'sirni aniqlashning eng aniq usuli va juda oddiy bo'lsa-da, bu ramka ko'plab muhim va qiziqarli yo'llar bilan umumlashtiriladi (Imbens and Rubin 2015) .

Jadval 4.5: Portlash natijalari jadvali
Shaxs Davolanish holatida o'zgarishlar Boshqarish holatida tahrirlar Davolash ta'siri
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
anglatadi \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Agar biz bu yo'l bilan neytrallikni aniqlasak, biz muammoga duch kelyapmiz. Deyarli barcha holatlarda biz ikkala potentsial natijaga ham e'tibor bermaymiz. Ya'ni, ma'lum bir Vikipediya muharriri yoki barnstar oldi. Shuning uchun biz potentsial natijalarimizdan birini kuzatishimiz mumkin: \(Y_i(1)\) yoki \(Y_i(0)\) - ikkovi ham emas. Ham mumkin bo'lgan natijalarni kuzatish qobiliyatlari, Holland (1986) uni Natsional in'iktsiyaning asosiy muammo deb atagan eng katta muammo.

Yaxshiyamki, biz tadqiqotlar olib borayotganimizda, bizda faqat bir kishi yo'q, bizda ko'p odam bor, va buning sababi sababi tushunchasining asosiy muammosi. O'z-o'zini davolash darajasini baholashga urinish o'rniga, o'rtacha davolanish effektini baholashimiz mumkin:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Bu hali kuzatib bo'lmaydigan \(\tau_i\) ko'rinishida ifodalanadi, ammo ayrim algebra ( \(\tau_i\) Gerber and Green (2012) \(\tau_i\) dan 2.8)

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Tenglama 4,3 ko'rsatadi, deb, biz (davolash ostida aholi o'rtacha natija taxmin mumkin, agar \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) va nazorati ostida aholi o'rtacha natija ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), keyin har qanday muayyan shaxs uchun davolash effektini hisobga olmasdan turib, o'rtacha davolanishni baholashimiz mumkin.

Endi biz hisob-kitobimizni aniqlab bergandik - biz taxmin qilmoqchi bo'lgan narsa - ma'lumotni qanday qilib biz uni qanday qilib baholashimiz mumkinligini bilib olamiz. Men bu taxminiy muammo haqida namuna olish muammosi sifatida o'ylashni yaxshi ko'raman (3-bobdagi matematik izohlarga qarang). Tasavvur qilaylik, biz ba'zi odamlarni davolanish holatida kuzatish uchun tasodifiy tanlaymiz va biz tasodifiy ravishda nazorat ahvolini kuzatish uchun ba'zi odamlarni tanlaymiz, so'ng har bir holat bo'yicha o'rtacha natijani taxmin qilishimiz mumkin:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

qaerda \(N_t\) va \(N_c\) davolash va nazorat qilish sharoitida odamlarning soni. Tenglama 4.4 - farqni baholash vositasi. Namuna olish uchun dastlabki terim davolanishning o'rtacha natijasi uchun xolis tahmin va ikkinchi muddat nazorat ostida bo'lgan xolis tahminchidir.

Randomizatsiyadan qanday foydalanish haqida o'ylashning yana bir yo'li, davolanish va nazorat guruhlari o'rtasidagi taqqoslashning adolatli bo'lishini ta'minlaydi, chunki tasodifiylashtirish ikki guruh bir-biriga o'xshash bo'lishini ta'minlaydi. Bu o'xshashlik biz o'lchagan narsalar (eksperimentdan oldin 30 kun ichida tahrirlar soni) va o'lchamagan narsalar (gender deb ataladi) uchun qo'llanadi. Kuzatilgan va nazorat qilinmagan omillarning balansini ta'minlash qobiliyati juda muhim. Kuzatilmagan omillarga avtomatik muvozanatning kuchini ko'rish uchun kelajakda olib borilgan tadqiqotlar erkaklar ayollarga nisbatan mukofotlarga nisbatan ko'proq javob berishini tasavvur qilaylik. Bu Restivo va van de Rijt eksperimentlarining natijalarini bekor qiladimi? Yo'q. Randomizatsiya qilib, ular kutilganidek, barcha nazorat qilinadigan narsalarni muvozanatlashtiradi. Noma'lumga qarshi bunday himoya juda kuchli va bu tajribalar 2-bobda tavsiflangan bo'lmagan tajribaviy metodlardan farq qiladi.

Butun aholi uchun davolash samaradorligini aniqlashdan tashqari, odamlarning bir qismi uchun davolash effektini aniqlash mumkin. Bu odatda shartli o'rtacha davolash effekti (CATE) deb ataladi. Misol uchun, Restivo va van de Rijt tomonidan olib borilgan tadqiqotda, \(X_i\) - tahrirlovchining 90 kun oldin muharririning tahrirdagi o'rtacha sonidan yuqori yoki pastligidan iboratligini tasavvur qiling. Ushbu engil va og'ir muharrirlar uchun davolash samarasini alohida hisoblash mumkin.

Imkoniyatdan kelib chiqadigan natijalar doirasi - natija chiqish va eksperimentlar haqida o'ylashning kuchli usuli. Shu bilan birga, ikkita qo'shimcha murakkablik mavjud: yodda tuting. Ushbu ikki murakkabliklar tez-tez Stabil Birligi davolash qiymatining assotsiatsiyasi (SUTVA) atamasi ostida birlashtiriladi. SUTVA ning birinchi qismi, odamning \(i\) natijasi uchun muhim bo'lgan yagona narsa, bu shaxs davolanish yoki nazorat holatida bo'ladimi deganidir. Boshqacha qilib aytganda, inson \(i\) ning boshqa kishilarga berilgan davolanishga ta'siri yo'qligi taxmin qilinadi. Bunga ba'zan «aralashuv yo'q» yoki «to'kilmasin» deyiladi va quyidagi kabi yozilishi mumkin:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

qaerda \(\mathbf{W_{-i}}\) har bir kishi uchun \(i\) dan tashqari davolanish holatining vektori. Buni buzishning bir usuli - agar bir odamdan davolanish boshqa shaxsga ham ijobiy yoki salbiy ta'sir qilsa. Restivo va van de Rijt eksperimentiga qaytib, ikki do'stni tasavvur qiling \(i\) va \(j\) va u kishi \(i\) barnstar oladi va \(j\) yo'q. Barnstarni qabul qilsangiz \(i\) \(j\) ko'proq (raqobat tuyg'usidan tashqari) tahrir qilish yoki kamroq tahrir qilish (umidsizlik hissi) sababli, SUTVA buzilgan. Agar davolanishning ta'siri davolayotgan boshqa odamlarning umumiy soniga bog'liq bo'lsa, bu ham buzilishi mumkin. Misol uchun, Restivo va van de Rijt 100 dan ziyod o'rniga 1000 yoki 10,000 barstarsni bergan bo'lsa, bu barnstar olishning ta'siriga ta'sir ko'rsatishi mumkin.

Ikkinchi masala SUTVAga kiritilib, tadqiqotchining faqatgina tegishli muomalasi ekanligini tasdiqlaydi; bu taxmin ba'zida hech qanday yashirin muolajalar yoki xulosa chiqarish deb ataladi. Misol uchun, Restivo va van de Rijtda, tadqiqotchilar tahririyatlarga ommaviy tahririyat sahifasida va mashhur tahririyat sahifasida - barnstar- bu tartibga solish xatti-harakatlarining o'zgarishiga sabab bo'ldi. Agar bu to'g'ri bo'lsa, barnstar ta'siri mashhur tahrirlovchilar sahifasida bo'lishidan farq qilmaydi. Albatta, ilmiy nuqtai nazardan, bu jozibali yoki yoqimsiz deb hisoblash kerakmi, aniq emas. Ya'ni, tadqiqotchining fikricha, barnstarni qabul qilishning ta'siri, barnstarning boshlagan barcha keyingi muolajalarini o'z ichiga oladi. Yoki tadqiqotlar, barnstarsning boshqa barcha narsalardan ta'sirini izhor qilmoqchi bo'lgan vaziyatni tasavvur qila olasiz. Bu haqda o'ylashning usullaridan biri, Gerber and Green (2012) (41-bet) "simmetriyaning buzilishi" deb nomlangan narsaga olib keladigan biror narsa borligini so'rash kerakmi? Boshqacha qilib aytganda, davolanish va nazorat qilish sharoitida odamlarni turli xil davolashga olib keladigan davolanishdan boshqa narsa bormi? Simmetriya buzilishi haqidagi xavotirlar tibbiy tekshiruvlardagi nazorat guruhidagi bemorlar platsebo tabletkasini olib borishlariga olib keladi. Shu tariqa, tadqiqotchilar ikki shartning orasidagi farq faqat tabletkalarni olish tajribasi emas, balki haqiqiy tibbiyot ekanligiga ishonch hosil qilishlari mumkin.

Sutva haqida ko'proq ma'lumot olish uchun Gerber and Green (2012) 2.7 qismi, Morgan and Winship (2014) 2.5 Morgan and Winship (2014) Imbens and Rubin (2015) 1.6 qismi.

Nozik

Avvalgi bobda men o'rtacha davolanish effektini qanday baholashni tasvirlab berdim. Ushbu bo'limda men ushbu taxminlarning o'zgaruvchanligi to'g'risida ba'zi fikrlarni taqdim etaman.

Agar ikkita namuna vositasi orasidagi farqni hisoblash uchun o'rtacha davolash effektini baholash haqida o'ylayotgan bo'lsangiz, unda o'rtacha davolash effektining standart xato ekanligini ko'rsatish mumkin:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

qaerda \(m\) davolash va tayinlangan kishi \(Nm\) nazorat qilish (qarang Gerber and Green (2012) , eq. 3,4). Shunday qilib, qancha odam davolanishga va qancha odamni nazorat qilishga tayinlashini o'ylab ko'rsangiz, agar \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , keyin siz davolanish va nazorat qilish uchun sarflanadigan xarajatlar bir xil bo'lsa, siz \(m \approx N / 2\) istaysiz. Tenglama 4.6 Bond va uning hamkasblarining (2012) ijtimoiy axborotlarning ovoz berishga ta'siri haqidagi eksperimenti (4.18-rasm) statistika nuqtai nazaridan samarasiz bo'lganligi sababini aniqlab beradi. Esingizdami, davolanishning 98% ishtirokchilari bo'lgan. Bu esa, nazorat holatidagi o'rtacha xatti-harakatlar, xuddi shunday bo'lishi mumkin bo'lganidek, aniq emas edi, bu esa, davolash va nazorat qilish holati o'rtasidagi taxminiy farqning aniq bo'lishi mumkin emas deb hisoblanardi. Ishtirokchilarni shartlarga optimal taqsimlash bo'yicha ko'proq ma'lumot olish uchun, jumladan narx harajatlardan farq qilganda, List, Sadoff, and Wagner (2011) .

Va nihoyat, asosiy matnda men odatda aralashgan dizaynda ishlatiladigan farqning differentsial koeffitsienti odatda subvensiyalarda ishlatiladigan farqning in'ikosini baholashga qaraganda kichikroq farqga olib kelishi mumkinligini tasvirlab berdim dizayni. Agar \(X_i\) davolashdan oldin natija qiymati bo'lsa, unda farqni farqlash usuli bilan baholashga harakat qilayotgan miqdor:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Ushbu miqdorning standart xatosi (Qarang: Gerber and Green (2012) , 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Eq. 4.6 va teng. 4.8 farqni aniqlashning yondashuvi kichikroq standart xatoga ega bo'lishini ko'rsatadi (Qarang: Gerber and Green (2012) , 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

\(X_i\) \(Y_i(1)\) va \(Y_i(0)\) \(X_i\) uchun juda yaqqol \(Y_i(1)\) , unda siz farqni farqlardan farqlashdan ko'ra aniqroq taxminlarni olishingiz mumkin. bir narsani anglatadi. Restivo va van de Rijt eksperimenti nuqtai nazaridan bu haqda o'ylashning bir usuli shundaki, odamlar tahrirlangan miqdorda tabiiy o'zgarish mavjud bo'lib, bu muolajani va nazorat qilish shartlarini taqqoslashni qiyinlashtiradi: qarindoshni aniqlash oson emas shovqinli natijalardagi kichik ta'sir. Ammo agar bu tabiiy o'zgaruvchanlik farq qiladigan bo'lsa, unda juda kam o'zgaruvchanlik mavjud va bu kichik ta'sirni aniqlashni osonlashtiradi.

Frison and Pocock (1992) , turli-xil vositalar, differentsial farqlar va ANCOVA-ga asoslangan yondashuvlarni aniqroq taqqoslash uchun qarang. Xususan, ular bu erda yoritilmagan ANCOVA-ni qattiq tavsiya qiladilar. Bundan tashqari, McKenzie (2012) ga qarang. Ko'p sonli davolanish natijalarini baholash.