Я думаю, что лучший способ понять эксперименты - это основа потенциальных результатов (что я обсуждал в математических заметках в главе 2). (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) потенциальных результатов тесно связана с идеями, полученными на основе проектирования, которые я описал в главе 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . Это приложение написано таким образом, чтобы подчеркнуть эту связь. Этот акцент является немного нетрадиционным, но я думаю, что связь между выборкой и экспериментами полезна: это означает, что, если вы знаете что-то о выборке, вы знаете что-то о экспериментах и наоборот. Как я покажу в этих заметках, структура потенциальных результатов раскрывает силу рандомизированных контролируемых экспериментов для оценки причинно-следственных эффектов, и это показывает ограничения того, что можно сделать даже с прекрасно выполненными экспериментами.
В этом приложении я опишу структуру потенциальных результатов, дублируя часть материала из математических заметок в главе 2, чтобы сделать эти заметки более самостоятельными. Затем я опишу некоторые полезные результаты о точности оценок средних эффектов лечения, включая обсуждение оптимальных оценок распределения и разницы в различиях. Это приложение в значительной степени опирается на Gerber and Green (2012) .
Потенциальные рамки результатов
Чтобы проиллюстрировать структуру потенциальных результатов, вернемся к эксперименту Рестиво и ван де Рейта, чтобы оценить эффект получения barnstar на будущие вклады в Википедию. Структура потенциальных результатов состоит из трех основных элементов: единиц , методов лечения и потенциальных результатов . В случае с Restivo и van de Rijt подразделения были заслуживающими внимания редакторами - теми, кто занял первое место среди участников, которые еще не получили барнстар. Мы можем индексировать эти редакторы через \(i = 1 \ldots N\) . Обработки в их эксперименте были «barnstar» или «no barnstar», и я напишу \(W_i = 1\) если человек \(i\) находится в состоянии лечения и \(W_i = 0\) противном случае. Третий элемент структуры потенциальных результатов является самым важным: потенциальные результаты . Это немного более концептуально сложно, потому что они связаны с «потенциальными» результатами - вещами, которые могут произойти. Для каждого редактора Википедии можно представить количество исправлений, которые она произведет в состоянии лечения ( \(Y_i(1)\) ), и число, которое она произведет в контрольном условии ( \(Y_i(0)\) ).
Обратите внимание, что этот выбор единиц, методов лечения и результатов определяет, что можно извлечь из этого эксперимента. Например, без каких-либо дополнительных предположений, Restivo и van de Rijt не могут ничего сказать о влиянии барнстаров на всех редакторов Wikipedia или на такие результаты, как качество редактирования. В целом выбор единиц, лечения и результатов должен основываться на целях исследования.
Учитывая эти потенциальные исходы, которые суммированы в таблице 4.5, можно определить причинный эффект лечения для человека \(i\) как
\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]
Для меня это уравнение является самым ясным способом определения причинного эффекта и, хотя и чрезвычайно простым, эта структура оказывается обобщаемой многими важными и интересными способами (Imbens and Rubin 2015) .
Человек | Редактирование в режиме лечения | Редактирование в режиме управления | Эффект лечения |
---|---|---|---|
1 | \(Y_1(1)\) | \(Y_1(0)\) | \(\tau_1\) |
2 | \(Y_2(1)\) | \(Y_2(0)\) | \(\tau_2\) |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\vdots\) |
N | \(Y_N(1)\) | \(Y_N(0)\) | \(\tau_N\) |
имею в виду | \(\bar{Y}(1)\) | \(\bar{Y}(0)\) | \(\bar{\tau}\) |
Однако, если мы определяем причинность таким образом, мы сталкиваемся с проблемой. Почти во всех случаях мы не можем наблюдать как потенциальные результаты. То есть, конкретный редактор Википедии получил либо barnstar, либо нет. Поэтому мы наблюдаем один из потенциальных результатов - \(Y_i(1)\) или \(Y_i(0)\) но не оба. Неспособность наблюдать как потенциальные исходы является такой большой проблемой, что Holland (1986) назвала ее фундаментальной проблемой причинного вывода .
К счастью, когда мы проводим исследования, у нас не просто один человек, у нас много людей, и это предлагает путь вокруг фундаментальной проблемы причинного вывода. Вместо того, чтобы пытаться оценить эффект лечения на индивидуальном уровне, мы можем оценить средний эффект лечения:
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]
Это все еще выражается в терминах \(\tau_i\) которые ненаблюдаемы, но с некоторой алгеброй (Eq 2.8 Gerber and Green (2012) ) получаем
\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]
Уравнение 4.3 показывает, что если мы сможем оценить средний результат по \(N^{-1} \sum_{i=1}^N Y_i(1)\) под воздействием ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) и средний результат совокупности под контролем ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ), то мы можем оценить средний лечебный эффект, даже не оценивая эффект лечения для любого конкретного человека.
Теперь, когда я определил нашу оценку и то, что мы пытаемся оценить, я перейду к тому, как мы можем оценить ее с помощью данных. Мне нравится думать об этой задаче оценки как проблеме выборки (вспомните математические примечания в главе 3). Представьте себе, что мы случайно выбираем некоторых людей для наблюдения в состоянии лечения, и мы произвольно выбираем некоторых людей для наблюдения в контрольном состоянии, тогда мы можем оценить средний результат в каждом условии:
\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]
где \(N_t\) и \(N_c\) - количество людей в условиях лечения и контроля. Уравнение 4.4 является оценкой разности средних значений. Из-за конструкции выборки мы знаем, что первый термин является несмещенной оценкой для среднего результата лечения, а второй термин является несмещенной оценкой под контролем.
Еще один способ подумать о том, что такое рандомизация, заключается в том, что он гарантирует, что сравнение между группами лечения и контроля справедливо, поскольку рандомизация гарантирует, что эти две группы будут похожи друг на друга. Это сходство справедливо для вещей, которые мы измерили (скажем, количество исправлений за 30 дней до эксперимента) и то, что мы не измерили (скажем, пол). Эта способность обеспечить баланс как наблюдаемых, так и ненаблюдаемых факторов имеет решающее значение. Чтобы увидеть силу автоматического балансирования на ненаблюдаемых факторах, давайте представим, что в будущих исследованиях выясняется, что мужчины более отзывчивы к наградам, чем женщины. Будет ли это отменять результаты экспериментов Restivo и van de Rijt? Нет. Из-за рандомизации они гарантировали, что все ненаблюдаемые будут сбалансированы в ожидании. Эта защита от неизвестного очень сильная, и это важный способ, когда эксперименты отличаются от неэкспериментальных методов, описанных в главе 2.
В дополнение к определению эффекта лечения для всего населения, можно определить лечебный эффект для подмножества людей. Обычно это называется условным средним лечебным эффектом (CATE). Например, в исследовании Restivo и van de Rijt, давайте представим, что \(X_i\) заключается в том, был ли редактор выше или ниже среднего числа исправлений за 90 дней до эксперимента. Можно было рассчитать эффект лечения отдельно для этих легких и тяжелых редакторов.
Структура потенциальных результатов - это мощный способ думать о причинных выводах и экспериментах. Однако есть две дополнительные сложности, которые вы должны иметь в виду. Эти две сложности часто объединяются вместе под термином « Устойчивое отношение к устойчивой единице» (SUTVA). Первая часть SUTVA - это предположение, что единственное, что важно для результата person \(i\) , заключается в том, был ли этот человек в состоянии лечения или контроля. Другими словами, предполагается, что на человека \(i\) не влияет обращение, данное другим людям. Иногда это называется «без помех» или «без побочных эффектов» и может быть написано как:
\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]
где \(\mathbf{W_{-i}}\) - вектор состояний лечения для всех, кроме человека \(i\) . Один из способов, которым это может быть нарушен, - это то, что лечение одного человека перетекает на другого человека, как положительно, так и отрицательно. Вернувшись к эксперименту Рестиво и ван де Рейта, представьте двух друзей \(i\) и \(j\) и этот человек \(i\) получает barnstar, а \(j\) этого не делает. Если \(i\) получающий barnstar, вызывает \(j\) чтобы редактировать больше (из чувства конкуренции) или редактировать меньше (из чувства отчаяния), то SUTVA нарушается. Это также может быть нарушено, если воздействие лечения зависит от общего числа других людей, получающих лечение. Например, если Restivo и van de Rijt выдали 1000 или 10000 барнстаров вместо 100, это могло повлиять на эффект получения барнстара.
Вторая проблема, сосредоточенная в SUTVA, - это предположение, что единственное релевантное лечение - это то, которое обеспечивает исследователь; это предположение иногда называют не скрытыми обработками или исключаемостью . Например, в Restivo и van de Rijt, возможно, это было так, что, предоставив barnstar, исследователи заставили редакторов размещаться на популярной странице редакторов и что они находятся на странице популярных редакторов, вместо того, чтобы получать barnstar- что вызвало изменение в редактировании поведения. Если это так, то эффект barnstar не отличается от эффекта нахождения на странице популярных редакторов. Конечно, неясно, следует ли считать это с научной точки зрения привлекательным или непривлекательным. То есть, вы могли бы представить себе, что исследователь говорит, что эффект получения barnstar включает все последующие обработки, которые запускает барнстар. Или вы могли бы представить себе ситуацию, когда исследование хотело бы изолировать эффект барнстаров от всех этих других вещей. Один из способов подумать об этом - спросить, есть ли что-нибудь, что приводит к тому, что Gerber and Green (2012) (стр. 41) называют «пробой симметрии»? Другими словами, есть ли что-то иное, кроме лечения, которое заставляет людей в условиях лечения и контроля лечиться по-разному? Обеспокоенность по поводу нарушения симметрии заключается в том, что ведущие пациенты в контрольной группе в медицинских исследованиях принимают таблетку плацебо. Таким образом, исследователи могут быть уверены, что единственное различие между двумя условиями - это фактическое лекарство, а не опыт приема таблетки.
Подробнее о SUTVA см. Раздел 2.7 Gerber and Green (2012) , раздел 2.5 Morgan and Winship (2014) и раздел 1.6 Imbens and Rubin (2015) .
точность
В предыдущем разделе я описал, как оценить средний лечебный эффект. В этом разделе я приведу несколько идей об изменчивости этих оценок.
Если вы думаете об оценке среднего лечебного эффекта при оценке разницы между двумя средствами выборки, то можно показать, что стандартная ошибка среднего лечебного эффекта:
\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]
где \(m\) люди, назначенные на лечение, и \(Nm\) для контроля (см. Gerber and Green (2012) , уравнение 3.4). Таким образом, когда вы думаете о том, сколько людей назначают на лечение и сколько для назначения на управление, вы можете видеть, что если \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) , то вы хотите \(m \approx N / 2\) , если затраты на лечение и контроль одинаковы. Уравнение 4.6 разъясняет, почему дизайн эксперимента Бонда и коллег (2012) о влиянии социальной информации на голосование (рисунок 4.18) был статистически неэффективен. Напомним, что у него было 98% участников лечения. Это означало, что среднее поведение в контрольном состоянии не оценивалось так точно, как могло бы быть, что, в свою очередь, означало, что расчетная разница между условием лечения и контроля не оценивалась так точно, как это могло бы быть. Более подробно об оптимальном распределении участников к условиям, в том числе, когда затраты различаются между условиями, см. В List, Sadoff, and Wagner (2011) .
Наконец, в основном тексте я описал, как оценщик различий в различиях, который обычно используется в смешанном дизайне, может привести к меньшей дисперсии, чем средство оценки разницы в значениях, которое обычно используется в разных субъектах дизайн. Если \(X_i\) - значение результата перед обработкой, то величина, которую мы пытаемся оценить с помощью метода разницы в различиях, равна:
\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]
Стандартная ошибка этого количества (см. Gerber and Green (2012) , уравнение 4.4)
\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]
Сравнение уравнения 4.6 и экв. 4.8 показывает, что подход с разницей в различиях будет иметь меньшую стандартную ошибку, когда (см. Gerber and Green (2012) , уравнение 4.6)
\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]
Грубо говоря, когда \(X_i\) очень предсказуемо \(Y_i(1)\) и \(Y_i(0)\) , то вы можете получить более точные оценки из подхода с разностью различий, означает одно. Один из способов подумать об этом в контексте экспериментов Restivo и van de Rijt состоит в том, что существует много естественных изменений в количестве, которое люди редактируют, поэтому это затрудняет сравнение условий лечения и контроля: трудно обнаружить относительную небольшой эффект в данных о шуме. Но если вы отличаетесь этой естественной изменчивостью, то существует гораздо меньшая изменчивость, и это облегчает обнаружение небольшого эффекта.
См. Frison and Pocock (1992) для точного сопоставления различий в различиях, различиях различий и подходах, основанных на ANCOVA, в более общей обстановке, где есть предварительная обработка нескольких измерений и последующая обработка. В частности, они настоятельно рекомендуют ANCOVA, которые я здесь не рассматривал. Далее, см. McKenzie (2012) для обсуждения важности множественных результатов лечения после лечения.