Математически бележки

Мисля, че най-добрият начин за разбиране на експериментите е рамката на потенциалните резултати (която аз обсъждах в математическите бележки в глава 2). Рамката за потенциалните резултати има тясна връзка с идеите от извадките, основани на дизайн, които описах в глава 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Това приложение е написано по такъв начин, че да подчертае тази връзка. Този акцент е малко нетрадиционен, но мисля, че връзката между вземането на проби и експериментите е полезна: това означава, че ако знаете нещо за вземането на проби тогава знаете нещо за експериментите и обратно. Както ще покажа в тези бележки, рамката за потенциалните резултати разкрива силата на рандомизираните контролирани експерименти за оценка на причинно-следствените ефекти и показва ограниченията на това, което може да се направи с дори напълно изпълнените експерименти.

В това допълнение ще опиша рамката на потенциалните резултати, дублирайки част от материала от математическите бележки в глава 2, за да направя тези бележки по-самостоятелни. След това ще опиша някои полезни резултати за точността на оценките за средните ефекти на лечението, включително дискусия за оптималните разпределения и оценките за разликите в разликите. Това допълнение привлича много на Gerber and Green (2012) .

Рамка на потенциалните резултати

За да илюстрираме рамката за потенциалните резултати, нека да се върнем в експеримента на Резиво и ван де Рид, за да оценим ефекта от получаването на барна звезда за бъдещите приноси към Уикипедия. Рамката за потенциалните резултати има три основни елемента: единици , лечение и потенциални резултати . В случая на Резиво и ван де Рид, звената заслужаваха редактори - тези в топ 1% от сътрудниците, които все още не бяха получили старши треньор. Можем да индексираме тези редактори с \(i = 1 \ldots N\) . Обработките в техния експеримент са "barnstar" или "не barnstar", а аз ще пиша \(W_i = 1\) , ако човек \(i\) е в състояние на обработка и \(W_i = 0\) по друг начин. Третият елемент на рамката на потенциалните резултати е най-важният: потенциалните резултати . Те са малко по-концептуално трудни, защото включват "потенциални" резултати - неща, които могат да се случат. За всеки редактор на Wikipedia можем да си представим броя на редакциите, които би направила при лечението ( \(Y_i(1)\) ) и номера, който тя ще направи при контролно състояние ( \(Y_i(0)\) ).

Обърнете внимание, че този избор на единици, обработки и резултати определя какво може да се научи от този експеримент. Например, без никакви допълнителни предположения, Restivo и van de Rijt не могат да кажат нищо за въздействието на barnstars върху всички редактори на Wikipedia или върху резултати като редактиране на качеството. По принцип изборът на единици, лечения и резултати трябва да се основава на целите на изследването.

Като се имат предвид тези потенциални резултати - които са обобщени в таблица 4.5 - може да се определи причинно-следствения ефект от лечението за лице \(i\) като

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

За мен това уравнение е най-ясният начин да се определи причинно-следствения ефект и макар и изключително просто, тази рамка се оказва обобщаваща по много важни и интересни начини (Imbens and Rubin 2015) .

Таблица 4.5: Таблица на потенциалните резултати
човек Редакции в състояние на лечение Редакции в контролно състояние Лечебен ефект
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
N \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
означава \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

Ако определим причинно-следствената връзка по този начин, обаче, се сблъскваме с проблем. В почти всички случаи не можем да наблюдаваме и двата потенциални резултата. Това означава, че конкретен редактор на Уикипедия или получил или не. Затова наблюдаваме един от потенциалните резултати - \(Y_i(1)\) или \(Y_i(0)\) - но не и двете. Неспособността да се наблюдават и двата потенциални резултата е такъв важен проблем, който Holland (1986) нарече " Основен проблем на причинно-следствената връзка" .

За щастие, когато правим изследвания, ние не разполагаме само с един човек, имаме много хора и това предлага начин около основния проблем на причинно-следствената връзка. Вместо да се опитваме да оценим индивидуалния ефект на лечението, можем да оценим средния ефект на лечението:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

Това все още се изразява в \(\tau_i\) които не се наблюдават, но с някаква алгебра (Eq 2.8 на Gerber and Green (2012) ) получаваме

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

Уравнение 4.3 показва, че ако може да оцени населението среден резултат при лечение ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) и среден резултат на населението под контрол ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), тогава можем да оценим средния ефект от лечението, дори без да изчисляваме ефекта от лечението за конкретно лице.

Сега, след като определих оценката си - това, което се опитваме да изчислим - ще се обърна към това как всъщност можем да я оценим с данни. Обичам да мисля за това предизвикателство за оценка като пробен проблем (помислете за математическите бележки в глава 3). Представете си, че случайно избираме някои хора, които да наблюдават при лечебното състояние и случайно избираме някои хора, които да наблюдават при контролно състояние, тогава можем да оценим средния резултат във всяко условие:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

където \(N_t\) и \(N_c\) са числата на хората в условията на лечение и контрол. Уравнение 4.4 е оценка на разликата в средствата. Поради дизайна на извадката, ние знаем, че първият термин е безпристрастен оценител за средния резултат под лечение и вторият мандат е безпристрастен оценител под контрол.

Друг начин да се мисли за това, което позволява рандомизирането, е да гарантира, че сравнението между лечението и контролните групи е справедливо, защото рандомизирането гарантира, че двете групи ще наподобяват една на друга. Това прилика се отнася за нещата, които сме измервали (например броят на редакциите в 30-те дни преди експеримента) и нещата, които не сме измерили (да речем пол). Тази способност да се гарантира баланс както на наблюдаваните, така и на незабелязаните фактори е от решаващо значение. За да видим силата на автоматичното балансиране на незабелязани фактори, нека си представим, че бъдещите изследвания установяват, че мъжете реагират по-добре на награди от жените. Дали това ще обезсили резултатите от експеримента на Резиво и ван де Рид? Не. Чрез рандомизиране те се увериха, че всички неразбираеми ще бъдат балансирани, в очакване. Тази защита срещу непознатото е много мощна и е важен начин експериментите да са различни от не-експерименталните техники, описани в глава 2.

В допълнение към определянето на ефекта на лечение за цялото население, е възможно да се определи ефект на лечение за подгрупа от хора. Това обикновено се нарича ефект на условно средно лечение (CATE). Например, в изследването на Restivo и van de Rijt, нека си представим, че \(X_i\) е дали редакторът е над или под средния брой на редакциите през 90-те дни преди експеримента. Човек може да изчисли ефекта на лечение отделно за тези леки и тежки редактори.

Рамката на потенциалните резултати е мощен начин да се мисли за причинно-следствени изводи и експерименти. Има обаче две допълнителни усложнения, които трябва да имате предвид. Тези две сложности често се сглобяват заедно под термина Устойчивост на преобразуване на единици (SUTVA). В първата част на SUTVA е предположението, че единственото нещо, което има значение за човек \(i\) е резултат е дали този човек е бил в състояние на лечение или контрол. С други думи, се приема, че човекът \(i\) не е повлиян от лечението, дадено на други хора. Това понякога се нарича "без намеса" или "не се разпространява" и може да бъде написано като:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

където \(\mathbf{W_{-i}}\) е вектор на състоянията на лечение за всеки, с изключение на човека \(i\) . Един от начините, по които това може да бъде нарушено, е, ако лечението от едно лице се прехвърли върху друго лице, положително или отрицателно. Връщайки се към експеримента на Рестиво и ван де Рид, представете си двама приятели \(i\) и \(j\) и този човек \(i\) получава barnstar и \(j\) не. Ако \(i\) получаването на barnstar причинява \(j\) да редактира повече (от чувство за конкуренция) или да редактира по-малко (от чувство на отчаяние), тогава SUTVA е нарушена. Тя може да бъде нарушена и ако въздействието на лечението зависи от общия брой други хора, получаващи лечението. Например, ако Рестиво и ван де Рид даде 1,000 или 10,000 barnstars вместо 100, това би могло да повлияе на ефекта от получаването на barnstar.

Вторият проблем, с който е събран SUTVA, е предположението, че единственото съответстващо отношение е това, което изследователят доставя; това предположение понякога не се нарича скрито лечение или изключване . Например, в Restivo и van de Rijt, може да се окаже, че като дадете barnstar, изследователите са причинили редакторите да се появяват на популярна страница на редакторите и че е на страницата на популярните редактори - вместо да получават "barnstar" , които причиниха промяна в поведението при редактиране. Ако това е вярно, тогава ефектът на barnstar не се отличава от ефекта на това, че е на страницата на популярните редактори. Разбира се, не е ясно дали от научна гледна точка това трябва да се счита за привлекателно или непривлекателно. Това означава, че бихте могли да си представите един изследовател, който казва, че ефектът от приемането на barnstar включва всички последващи лечения, които стартира barnstar. Или можете да си представите ситуация, при която изследване би искало да изолира ефекта на barnstars от всички тези други неща. Един от начините да помислите за това е да попитате дали има нещо, което да доведе до това, което Gerber and Green (2012) (стр. 41) наричат ​​"разпадане в симетрията"? С други думи, има ли нещо различно от лечението, което кара хората да се третират по различен начин в условията на лечение и контрол? Тревогите по отношение на счупването на симетрия са това, което води пациентите в контролната група в медицинските проучвания да приемат плацебо хапче. По този начин изследователите могат да бъдат сигурни, че единствената разлика между двете условия е действителното лекарство, а не опитът от приемането на хапчето.

За повече информация относно SUTVA вж. Раздел 2.7 от Gerber and Green (2012) , раздел 2.5 от Morgan and Winship (2014) и раздел 1.6 от Imbens and Rubin (2015) .

Прецизност

В предишния раздел описах как да оценя средния ефект на лечението. В този раздел ще дам някои идеи за променливостта на тези оценки.

Ако мислите за оценката на средния ефект от лечението, тъй като оценявате разликата между две средства за проба, тогава е възможно да покажете, че стандартната грешка на средния ефект на лечението е:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

където \(m\) хората, назначени за лечение и \(Nm\) за контрол (виж Gerber and Green (2012) , ур. 3.4). По този начин, когато мислите колко хора да назначат на лечение и колко да назначат за контрол, може да видите, че ако \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , тогава искате \(m \approx N / 2\) , докато разходите за лечение и контрол са еднакви. Уравнение 4.6 уточнява защо проектът на експеримента на Бонд и колегите (2012) относно ефектите от социалната информация върху гласуването (фигура 4.18) е статистически неефективен. Спомнете си, че има 98% от участниците в лечението. Това означава, че средното поведение при контролните състояния не се оценява точно толкова, колкото би могло да бъде, което на свой ред означаваше, че прогнозната разлика между състоянието на лечение и контрола не е оценена толкова точно, колкото би могло да бъде. За повече информация относно оптималното разпределение на участниците в условията, включително когато разходите се различават в зависимост от условията, вижте List, Sadoff, and Wagner (2011) .

И накрая, в основния текст описах как оценката на разликите в разликите, която обикновено се използва при смесен дизайн, може да доведе до по-малка вариация от оценката на разликата в средството, която обикновено се използва в междусекторни дизайн. Ако \(X_i\) е стойността на резултата преди лечението, тогава количеството, което се опитваме да оценим с подхода на разликата в разликите, е:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

Стандартната грешка на това количество е (вж. Gerber and Green (2012) , ур. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

Сравнението на урав. 4.6 и екв. 4.8 разкрива, че подходът с разлика в разликите ще има по-малка стандартна грешка, когато (вж. Gerber and Green (2012) , ур. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

Приблизително когато \(X_i\) е много предсказващо за \(Y_i(1)\) и \(Y_i(0)\) , тогава можете да получите по-прецизни оценки от подход на разликата в разликите, от-означава един. Един от начините да се мисли за това в контекста на експеримента на Резиво и ван де Рид е, че има много естествени вариации в количеството, което хората правят, така че това прави сравняването на условията за лечение и контрол трудно: трудно е да се открие роднина малък ефект в данните за шумни резултати. Но ако различавате тази естествено срещана променливост, тогава има много по-малко вариабилност и това улеснява откриването на малък ефект.

Вж. Frison and Pocock (1992) за точно сравнение на подходите, основаващи се на разликата в средството, разликата в разликите и ANCOVA в по-общата обстановка, при която има множество измервания преди лечението и последващото лечение. По-специално, те силно препоръчват ANCOVA, която не съм обхванала тук. Освен това, вижте McKenzie (2012) за обсъждане на значението на многократните мерки за последващите действия след лечението.