Математикалық жазбалар

Менің ойымша эксперименттерді түсінудің ең жақсы жолы - бұл ықтимал нәтиже негізі (2-тараудағы математикалық жазбаларда талқылаған). Потенциалды нәтиже негіздері 3-тарауда сипатталған дизайн негізінде іріктеу идеясымен тығыз қарым-қатынаста болады (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Бұл қосымша осымен байланысты деп жазылған. Бұл назар аздап дәстүрлі емес, бірақ сынамалық іріктеу мен эксперименттер арасындағы байланыстың пайдалы екендігін білдіреді: егер сіз сынама туралы бір нәрсе білсеңіз, тәжірибе туралы бір нәрсе білесіз және керісінше. Осы ескертулерде көрсететінімдей, ықтимал нәтиже құрылымы себеп-салдардың әсерін бағалау үшін рандомизацияланған бақыланатын эксперименттердің күшін анықтайды және бұл тіпті керемет орындалатын эксперименттермен қатар жасалуы мүмкін шектеулерді көрсетеді.

Осы қосымшада, осы ескертулерді өздігінен жасау үшін, 2-тараудағы математикалық жазбалардағы материалдардың кейбірін қайталайтын ықтимал нәтиже шеңберін сипаттаймын. Содан кейін оңтайлы бөлуді және айырмашылықты айырмашылықты бағалауды талқылауды қоса алғанда, орташа емдеу әсерлерін бағалаудың дәлдігі туралы кейбір пайдалы нәтижелерді сипаттаймын. Бұл қосымша Gerber and Green (2012) .

Әлеуетті нәтижелер негіздері

Ықтимал нәтиже құрылымын көрсету үшін, Restivo және van de Rijt экспериментіне қайтып келейік, ол Уикипедияға болашақ жарналар бойынша барнстар алудың әсерін бағалайды. Потенциалды нәтижелердің негіздері үш негізгі элементтерден тұрады: бірлік , емдеу және ықтимал нәтиже . Restivo және van de Rijt жағдайда, бірліктер лайықты редакторлар - салымшылардың 1% -ында, олар әлі күнге дейін барнстарға ие болмады. Біз бұл редакторларды индекстеп, \(i = 1 \ldots N\) . Олардың экспериментке емдеу «, ешқандай barnstar» «barnstar» немесе болған, мен жазамын \(W_i = 1\) адам, егер \(i\) емдеу жағдайы болып табылады және \(W_i = 0\) , әйтпесе. Ықтимал нәтижелердің үшінші элементі - ең маңызды: әлеуетті нәтижелер . Олар әлдеқайда тұжырымдамалық қиын, өйткені олар «әлеуетті» нәтижелерді - орын алатын нәрселерді қамтиды. Әрбір Уикипедия редакторы емделу жағдайында жасайтын түзетулердің санын ( \(Y_i(1)\) ) және басқару күйінде ( \(Y_i(0)\) ).

Бірліктерді, емдеуді және нәтижелерді таңдау осы эксперименттен не білуге ​​болатындығын анықтаңыз. Мысалы, Restivo және van de Rijt ешқандай қосымша жорамалсыз, барлық Уикипедия редакторларына немесе редакциялау сапасы сияқты нәтижелерге қатысты барнсарлардың әсері туралы ештеңе айта алмайды. Жалпы, бөлімдерді таңдау, емдеу және нәтижелер зерттеудің мақсаттарына негізделуі керек.

4.5-кестеде келтірілген осы ықтимал нәтижелерді ескере отырып, емдеудің адамға \(i\)

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

Мен үшін бұл теңдеу (Imbens and Rubin 2015) әсерді анықтаудың ең айқын жолы және өте қарапайым болса да, бұл жүйе көптеген маңызды және қызықты жолдарда жалпылама көрінеді (Imbens and Rubin 2015) .

4.5-кесте: Әлеуетті нәтижелер кестесі
Адам Емдеу жағдайындағы өзгерістер Басқару жағдайындағы өзгертулер Емдеу әсері
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
білдіреді \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Осындай жолмен анықталатын болсақ, біз проблемаға кезігеміз. Барлық дерлік жағдайларда біз әлеуетті нәтижелерге де назар аудармаймыз. Яғни, белгілі бір Уикипедия редакторы немесе barnstar алды. Сондықтан, ықтимал нәтижелердің біреуін байқаймыз: \(Y_i(1)\) немесе \(Y_i(0)\) екеуінің екеуі де емес. Әлеуетті нәтижелерді сақтау мүмкін еместігі де Holland (1986) оны себепкерден шығарудың іргелі мәселесі деп атаған маңызды мәселе.

Бақытымызға орай, біз зерттеу жүргізіп жатқан кезде, бізде тек бір ғана адам жоқ, бізде көптеген адамдар бар, және бұл жағдайдың шығуынан іргелі мәселені шешу жолын ұсынады. Жеке дара емдеу тиімділігін бағалауға тырысқаннан гөрі, орташа емдеу әсерін бағалауға болады:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Бұл бұрынғыдай \(\tau_i\) тұрғысынан көрсетіледі, бірақ кейбір алгебра ( Gerber and Green (2012) 2.8 экв. Gerber and Green (2012) ) Біз аламыз

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

4.3 теңдеуі көрсеткендей, емделу кезінде халықтың орташа нәтижесін бағалауға болады ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) және халықтың орташа бақылауының нәтижесі ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), онда кез-келген адамға емдеу әсерін бағалаусыз, тіпті орташа емдеу әсерін бағалауға болады.

Енді біз өзіміздің бағалауымызды - бағалауға тырысатын нәрсені анықтадық - мен оны нақты деректермен қалай бағалай аламыз деген сөзге кезігемін. Маған бағалау мәселесіне қатысты мәселені таңдау мәселесі (3-тараудағы математикалық ноталар туралы ойлану) туралы ойлау ұнайды. Біз емделу жағдайында байқау үшін кейбір адамдарды кездейсоқ таңдаймыз және біз кездейсоқ бақылау жағдайында бақылау үшін кейбір адамдарды таңдаймыз, содан кейін әр жағдайдағы орташа нәтижені бағалай аламыз:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

мұнда \(N_t\) және \(N_c\) емдеу және бақылау жағдайындағы адамдардың саны болып табылады. 4.4 теңдеуі - бағалаудың айырмашылығы. Сынамаларды іріктеу бойынша жобаның арқасында бірінші термин емдеудің орташа нәтижесіне объективті бағалау болып табылады, ал екінші кезең - бақылаудағы объективті баға.

Рандомизацияның мүмкіндіктері туралы ойланудың тағы бір жолы - емдеу және бақылау топтары арасындағы салыстырудың әділетті болуын қамтамасыз ету, себебі бұл кездейсоқтық екі топтың бір-біріне ұқсайтынына кепілдік береді. Бұл ұқсастық біз өлшеген нәрселерге (эксперимент алдында 30 күн бұрынғы түзетулерді айтуға болады) және өлшеген нәрселерге (жыныс дейді) қатысты. Бұл бақыланатын да , бақыланбаған факторлардағы теңгерімді қамтамасыз ету мүмкіндігі де өте маңызды. Көзделмеген факторларға автоматты теңдестірудің күшін көру үшін болашақ зерттеулер ер адамдарға қарағанда ерлерге қарағанда көбірек жауап беретінін байқап көрейік. Бұл Restivo және van de Rijt экспериментінің нәтижелерін жарамсыз ба? Жоқ. Рандомизация бойынша, барлық бақыланбайтындар күтуде теңдестірілетін болады. Белгісіздіктен қорғану өте күшті және эксперименттердің 2-тарауда сипатталған эксперименталды емес әдістерден айырмашылығы маңызды.

Халықтың емделу әсерін анықтаудан басқа, халықтың жиынтығы үшін емдеу тиімділігін анықтауға болады. Бұл әдетте шартты орта емдеу әсері деп аталады (CATE). Мысалы, Restivo және van de Rijt зерттеуінде, \(X_i\) - бұл редактор экспериментке дейін 90 күн ішінде өңдеулердің медианалық санынан жоғары немесе төмен екенін елестетіп көрейік. Бұл жеңіл және ауыр редакторлар үшін емдеу әсерін жеке есептеуге болады.

Потенциалды нәтижелердің негізі - бұл себеп-тердің шығу және эксперименттер туралы ойлаудың күшті тәсілі. Дегенмен, сіз екі қосымша қиындықты есте ұстауыңыз керек. Бұл екі күрделілік « Stability Unit Treatment Value Assumption» (SUTVA) тұрақтылығы бойынша жиі біріктіріледі. SUTVA бірінші бөлігі адам үшін тек маңызды деген болжам болып табылады \(i\) оның нәтижесі осы тұлға емдеу немесе бақылау жағдайында болды ма. Басқаша айтқанда, адамға \(i\) басқа адамдарға берілген емдеу әсер етпейді деп есептеледі. Бұл кейде «кедергі болмайды» немесе «төгілмеуі жоқ» деп аталады және келесідей жазылуы мүмкін:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

онда \(\mathbf{W_{-i}}\) әр адам үшін емдеу күйінің векторы болып табылады \(i\) . Бұны бұзудың бір жолы - егер бір адамнан емдеу басқа адамға оң немесе теріс әсер етсе. Restivo және van de Rijt экспериментіне қайтып оралсақ, екі достарды \(i\) және \(j\) елестетіп, сол адам \(i\) барнстар алады және \(j\) жоқ. Егер \(i\) барнстар алса, \(j\) тағы біреуін \(j\) бәсекелестікті сезінуден) өзгертуге немесе азайтуға (үмітсіздік сезімінен) себеп болса, онда SUTVA бұзылған. Егер емдеудің әсері ем қабылдаған басқа адамдардың жалпы санына байланысты болса, ол бұзылуы мүмкін. Мысалы, егер Restivo және van de Rijt 100-нің орнына 1000 немесе 10 000 барстсты берсе, бұл, мүмкін, барстсты қабылдаудың әсеріне әсер етті.

Екінші мәселе SUTVA-ға қосылды - зерттеуші жеткізетін жалғыз ғана емдеу; бұл болжам кейде ешқандай жасырын емдеу немесе сусыздандыру деп аталады. Мәселен, Restivo және van de Rijt-да, мысалы, Барнстарды беру арқылы зерттеушілер редакторларға танымал редакторлар бетінде көрсетілуіне және танымал редакторлар бетінде болуына себеп болды, мысалы, barnstar- бұл редакторлық әрекеттің өзгеруіне әкелді. Егер бұл дұрыс болса, онда барстардың әсері танымал редакторлар бетінде болу әсерінен ерекшеленбейді. Әрине, ғылыми тұрғыдан бұл тартымды немесе тартымды болып саналмағаны анық емес. Яғни, зерттеуші Барнстарды қабылдаудың әсері барнстардың пайда болған барлық келесі емделімдерді қамтиды дегенді елестете аласыз. Немесе зерттеудің барлық басқа нәрселерден барнсарлардың әсерін оқшаулағысы келетін жағдайды елестете аласыз. Бұл туралы ойланудың бір жолы - Gerber and Green (2012) (41-бет) «симметрияның бұзылуы» деп аталатын нәрсе бар екенін сұрастыру. Басқаша айтқанда, емдеу мен бақылау жағдайында адамдарға әр түрлі көзқарас тудыратын емдеуден өзгеше нәрсе бар ма? Симметрияның бұзылуы туралы алаңдаушылық медициналық бақылаудағы бақылау тобындағы пациенттерді плацебо таблетка қабылдауға әкеледі. Осылайша, зерттеушілер екі жағдай арасындағы жалғыз айырмашылық таблетка қабылдау тәжірибесі емес, нақты медицина екеніне сенімді болуы мүмкін.

SUTVA туралы көбірек білу үшін Gerber and Green (2012) 2.7 бөлімін, Morgan and Winship (2014) бөлімін және Imbens and Rubin (2015) бөлімін Imbens and Rubin (2015) .

Дәлдік

Алдыңғы бөлімде орташа емдеу әсерін қалай бағалай аламын деп сипаттадым. Бұл бөлімде мен осы бағалардың өзгермелілігі туралы кейбір пікірлерді ұсынамын.

Егер сіз емдеудің екі әдісі арасындағы айырмашылықты бағалау ретінде орташа емдеу әсерін бағалау туралы ойласаңыз, орташа емдеу әсерінің стандартты қателігі:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

онда емдеуге тағайындалған \(m\) адамдар және \(Nm\) бақылауға болады ( Gerber and Green (2012) , eq 3.4 қараңыз). Осылайша, емдеуге қанша адамның денсаулығына және қанша басқаруға тапсыруға болатыны туралы ойланғанда, егер сіз \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , онда сіз емдеу мен бақылауға жұмсалатын шығындар бірдей болса, онда сіз \(m \approx N / 2\) алғыңыз келеді. 4.6 теңдеуінде әлеуметтік ақпараттың дауыс беру туралы әсері туралы (4.18-сурет) Облигация және әріптестердің (2012) экспериментінің статистикалық тұрғыдан неліктен тиімді еместігіне түсіндіреді. Емдеу жағдайында қатысушылардың 98% болғанын еске саламыз. Бұл бақылау жағдайындағы орташа мінез-құлық, ол мүмкін болғандай дәл бағаланбады, бұл, өз кезегінде, емдеу-бақылау шарты арасындағы болжанатын айырмашылықты мүмкін болатындай дәл бағалауға болмайтынын білдіреді. Қатысушыларды жағдайға оңтайлы бөлу туралы, соның ішінде шығындар шарттардан өзгеше болған жағдайда, List, Sadoff, and Wagner (2011) бөлімін қараңыз.

Ақыр соңында, негізгі мәтінде, әдетте аралас дизайнда пайдаланылатын айырмашылық айырмашылықтары бағалауларының, әдетте арасындағы ара-қатынастарда пайдаланылатын айырмашылықтағы бағалау айырмашылығынан гөрі шағын дисперсияға әкелуі мүмкін екенін сипаттадым дизайн. Егер \(X_i\) емдеуден бұрынғы нәтиже болып табылса, айырмашылықтағы айырмашылықты бағалауға тырысатын мөлшер:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Осы санның стандартты қателігі ( Gerber and Green (2012) , сс.44)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Салыстыру экв. 4.6 және экв. 4.8 айырмашылықтағы айырмашылықтың қалыпты қателігі бар екенін көрсетті ( Gerber and Green (2012) , ссылка 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

\(X_i\) \(Y_i(1)\) және \(Y_i(0)\) өте болжамды болған кезде, айырмашылықтар айырмашылығынан гөрі, біреуін білдіреді. Бұл туралы Restivo және van de Rijt экспериментінің контекстінде ойланудың бір жолы - адамдар редакциялау мөлшерінде көптеген табиғи өзгерістер болғандықтан, бұл емдеу мен бақылау шарттарын салыстыруды қиындатады: салыстырмалы түрде анықтау қиын Шуыл нәтиже деректеріне кішкене әсер. Бірақ, егер сіз бұл табиғи ауытқудың айырмашылығын байқасаңыз, онда әлдеқайда аз өзгермелілігі байқалады және бұл шағын әсерді оңайырақ анықтауға мүмкіндік береді.

Frison and Pocock (1992) әдіс-тәсілдерін, айырмашылықтарды айырмашылығын және ANCOVA негізделген әдістерін салыстыру үшін, көп өлшемді алдын-ала емдеу және емдеуден кейінгі жалпы жағдайдағы әдістерді қараңыз. Атап айтқанда, олар Анконы қатты ұсынамын, мен мұнда емес. Сонымен қатар, McKenzie (2012) емдеуден кейінгі бірнеше іс-шаралардың маңыздылығын талқылау үшін қараңыз.