Вопросы о причинности в социальных исследованиях часто сложны и сложны. Для основополагающего подхода к причинности, основанного на причинных графах, см. Pearl (2009) , а также основополагающий подход, основанный на потенциальных результатах, см. Imbens and Rubin (2015) . Сравнение этих двух подходов см. Morgan and Winship (2014) . Для формального подхода к определению VanderWeele and Shpitser (2013) см. VanderWeele and Shpitser (2013) .
В этой главе я создал то, что казалось яркой линией между нашей способностью делать каузальные оценки из экспериментальных и не экспериментальных данных. Однако я считаю, что на самом деле различие более размыто. Например, каждый признает, что курение вызывает рак, хотя ни один рандомизированный контролируемый эксперимент, который заставляет людей курить, никогда не делался. Для отличных методов обработки книг по созданию каузальных оценок из Shadish, Cook, and Campbell (2001) данных см. Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) и Dunning (2012) .
Главы 1 и 2 Freedman, Pisani, and Purves (2007) предлагают четкое введение в различия между экспериментами, контролируемыми экспериментами и рандомизированными контролируемыми экспериментами.
Manzi (2012) обеспечивает увлекательное и читаемое введение в философские и статистические основы рандомизированных контролируемых экспериментов. Он также предоставляет интересные примеры реальных экспериментов в бизнесе. Issenberg (2012) обеспечивает увлекательное введение в эксперименты в политических кампаниях.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 и Athey and Imbens (2016b) обеспечивают хорошее представление о статистических аспектах экспериментального проектирования и анализа. Кроме того, существуют отличные методы использования экспериментов во многих областях: экономика (Bardsley et al. 2009) , социология (Willer and Walker 2007; Jackson and Cox 2013) , психология (Aronson et al. 1989) , политология (Morton and Williams 2010) и социальной политики (Glennerster and Takavarasha 2013) .
Важность набора участников (например, выборка) часто недооценивается в экспериментальных исследованиях. Однако, если эффект лечения гетерогенен в популяции, выборка имеет решающее значение. Longford (1999) ясно говорит об этом, когда защищает исследователей за эксперименты как опрос населения с случайным отбором проб.
Я предположил, что между лабораторными и полевыми экспериментами существует континуум, а другие исследователи предложили более подробные типологии, в частности те, которые разделяют различные формы полевых экспериментов (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
В ряде работ сравнивались лабораторные и полевые эксперименты в абстрактном (Falk and Heckman 2009; Cialdini 2009) и в терминах результатов конкретных экспериментов в политической науке (Coppock and Green 2015) , экономики (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психологии (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) предлагают хороший исследовательский проект для сравнения результатов лабораторных и полевых экспериментов. Parigi, Santana, and Cook (2017) описывают, как онлайн-полевые эксперименты могут сочетать некоторые характеристики лабораторных и полевых экспериментов.
Озабоченность участников, изменяющих свое поведение, потому что они знают, что их внимательно следят, иногда называют эффектами спроса , и они изучаются в психологии (Orne 1962) и экономике (Zizzo 2010) . Хотя в основном это связано с лабораторными экспериментами, эти же проблемы могут вызвать проблемы и для полевых экспериментов. Фактически, эффекты спроса также иногда называют эффектами Хоторна , термин, который дает знаменитые эксперименты по освещению, которые начались в 1924 году на заводах Hawthorne Western Electric Company (Adair 1984; Levitt and List 2011) . Эффекты спроса и эффекты Хоторна тесно связаны с идеей реактивного измерения, обсуждаемой в главе 2 (см. Также Webb et al. (1966) ).
Полевые эксперименты имеют долгую историю в экономике (Levitt and List 2009) , политология (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психология (Shadish 2002) и государственная политика (Shadish and Cook 2009) , Одной из областей социальных наук, где полевые эксперименты быстро стали заметными, является международное развитие. Для положительного обзора этой работы в рамках экономики см. Banerjee and Duflo (2009) , а для критической оценки см. Deaton (2010) . Для обзора этой работы в политической науке см. Humphreys and Weinstein (2009) . Наконец, этические проблемы, возникающие в результате полевых экспериментов, были изучены в контексте политической науки (Humphreys 2015; Desposato 2016b) и экономики развития (Baele 2013) .
В этом разделе я предложил, чтобы информация предварительной обработки могла использоваться для повышения точности оценочных эффектов лечения, но есть некоторые споры об этом подходе; см. Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , и Bloniarz et al. (2016) для получения дополнительной информации.
Наконец, существуют два других типа экспериментов, выполняемых социологами, которые не соответствуют аккуратно по размеру лабораторного поля: обзорные эксперименты и социальные эксперименты. Эксперименты по обследованию - это эксперименты с использованием инфраструктуры существующих обследований и сопоставление ответов на альтернативные варианты тех же вопросов (некоторые обзорные эксперименты представлены в главе 3); Более подробно об экспериментах по исследованию см. Mutz (2011) . Социальные эксперименты - это эксперименты, в которых лечение представляет собой некоторую социальную политику, которая может быть реализована только правительством. Социальные эксперименты тесно связаны с оценкой программ. Более подробно о политических экспериментах см. Heckman and Smith (1995) , Orr (1998) и @ glennerster_running_2013.
Я решил сосредоточиться на трех концепциях: достоверности, гетерогенности эффектов лечения и механизмов. Эти понятия имеют разные названия в разных областях. Например, психологи стремятся выйти за рамки простых экспериментов, сосредоточившись на посредниках и модераторах (Baron and Kenny 1986) . Идея медиаторов захватывается тем, что я называю механизмами, и идея модераторов захватывается тем, что я называю внешней достоверностью (например, будут ли результаты эксперимента отличаться, если они будут выполняться в разных ситуациях) и гетерогенность эффектов лечения ( например, являются более значимыми для некоторых людей эффекты, чем для других).
Эксперимент Schultz et al. (2007) показывает, как социальные теории могут использоваться для разработки эффективных вмешательств. Более общий аргумент о роли теории в разработке эффективных вмешательств см. Walton (2014) .
Концепции внутренней и внешней достоверности были впервые введены Campbell (1957) . См. Shadish, Cook, and Campbell (2001) для более подробной истории и тщательной проработки достоверности статистических выводов, внутренней валидности, построения обоснованности и внешней действительности.
Обзор вопросов, связанных с достоверностью статистических заключений в экспериментах, см. Gerber and Green (2012) (с точки зрения социальной науки) и Imbens and Rubin (2015) (со статистической точки зрения). Некоторые вопросы достоверности статистического заключения, которые возникают конкретно в онлайновых полевых экспериментах, включают такие вопросы, как эффективные с использованием вычислительных методов методы создания доверительных интервалов с зависимыми данными (Bakshy and Eckles 2013) .
В сложных полевых экспериментах трудно обеспечить внутреннюю достоверность. См., Например, Gerber and Green (2000) , Imai (2005) и Gerber and Green (2005) для обсуждения вопроса о проведении сложного полевого эксперимента по голосованию. Kohavi et al. (2012) и Kohavi et al. (2013) обеспечивают введение в задачи интервальной валидности в онлайновых полевых экспериментах.
Одной из основных угроз внутренней действительности является возможность неудачной рандомизации. Одним из возможных способов выявления проблем с рандомизацией является сравнение групп лечения и контроля по наблюдаемым признакам. Такое сравнение называется проверкой баланса . См. Hansen and Bowers (2008) для статистического подхода к балансовым проверкам Mutz and Pemantle (2015) для беспокойства относительно проверок баланса. Например, используя проверку баланса, Allcott (2011) обнаружил некоторые доказательства того, что рандомизация не была выполнена правильно в трех экспериментах Opower (см. Таблицу 2, сайты 2, 6 и 8). Для других подходов см. Главу 21 « Imbens and Rubin (2015) .
Другими серьезными проблемами, связанными с внутренней валидностью, являются: (1) одностороннее несоблюдение, когда не все в группе лечения фактически получали лечение, (2) двухстороннее несоответствие, когда не все в группе лечения получают лечение, а некоторые люди контрольная группа получает лечение, (3) истощение, когда результаты не измеряются для некоторых участников, и (4) помехи, когда лечение перетекает из людей в состоянии лечения людям, находящимся в контрольном состоянии. См. Главы 5, 6, 7 и 8 Gerber and Green (2012) для получения дополнительной информации по каждому из этих вопросов.
Более подробную информацию о конструкции можно найти в Westen and Rosenthal (2003) и более подробно о построении обоснованности в больших источниках данных, Lazer (2015) и главе 2 этой книги.
Одним из аспектов внешней действительности является настройка, в которой тестируется вмешательство. Allcott (2015) обеспечивает тщательную теоретическую и эмпирическую обработку смещения выбора сайта. Этот вопрос также обсуждается Deaton (2010) . Еще один аспект внешней действительности заключается в том, что альтернативные операционализации одного и того же вмешательства будут иметь схожие эффекты. В этом случае сравнение Schultz et al. (2007) и Allcott (2011) показывают, что эксперименты Оповера имели меньший оценочный эффект, чем исходные эксперименты Шульца и его коллег (1,7% против 5%). Allcott (2011) предположил, что последующие эксперименты имели меньший эффект из-за того, как различалось лечение: рукописный смайлик в рамках исследования, спонсируемого университетом, по сравнению с напечатанным смайликом в составе массового производства отчет от энергетической компании.
Для превосходного обзора гетерогенности эффектов лечения в полевых экспериментах см. Главу 12 Gerber and Green (2012) . Для введения гетерогенности эффектов лечения в медицинских испытаниях см. Kent and Hayward (2007) , Longford (1999) и Kravitz, Duan, and Braslow (2004) . Соображения гетерогенности лечебных эффектов в основном фокусируются на различиях, основанных на характеристиках предварительной обработки. Если вас интересует гетерогенность, основанная на результатах после лечения, тогда необходимы более сложные подходы, такие как основная стратификация (Frangakis and Rubin 2002) ; см. Page et al. (2015) для обзора.
Многие исследователи оценивают гетерогенность эффектов лечения с использованием линейной регрессии, но более новые методы основаны на машинном обучении; см., например, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , и Athey and Imbens (2016a) .
Существует некоторый скептицизм в отношении результатов гетерогенности эффектов из-за многочисленных проблем с сопоставлением и «промысла». Существует множество статистических подходов, которые могут помочь решить проблемы множественного сравнения (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Одним из подходов к проблеме «промысла» является предварительная регистрация, которая становится все более распространенной в психологии (Nosek and Lakens 2014) , политологии (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и экономики (Olken 2015) .
В исследовании Costa and Kahn (2013) только около половины домашних хозяйств в эксперименте могли быть связаны с демографической информацией. Читатели, заинтересованные в этих деталях, должны ссылаться на оригинал.
Механизмы невероятно важны, но они оказываются очень трудными для изучения. Исследование механизмов тесно связано с изучением медиаторов в психологии (но см. Также VanderWeele (2009) для точного сравнения двух идей). Статистические подходы к поисковым механизмам, такие как подход, разработанный Baron and Kenny (1986) , довольно распространены. К сожалению, оказывается, что эти процедуры зависят от некоторых сильных предположений (Bullock, Green, and Ha 2010) и страдают, когда существует множество механизмов, как можно было бы ожидать во многих ситуациях (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) а Imai and Yamamoto (2013) предлагают некоторые улучшенные статистические методы. Кроме того, VanderWeele (2015) предлагает длительное лечение с рядом важных результатов, включая комплексный подход к анализу чувствительности.
Отдельный подход фокусируется на экспериментах, которые пытаются напрямую манипулировать механизмом (например, давать матросов витамин С). К сожалению, во многих социальных науках часто существует множество механизмов, и трудно разработать методы лечения, которые меняют один, не меняя других. Некоторые подходы к экспериментально изменяющимся механизмам описаны Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) и Pirlott and MacKinnon (2016) .
Исследователям, выполняющим полностью факториальные эксперименты, нужно будет беспокоиться о множественном тестировании гипотез; см. Fink, McConnell, and Vollmer (2014) и List, Shaikh, and Xu (2016) для получения дополнительной информации.
Наконец, механизмы также имеют долгую историю в философии науки, как описано Hedström and Ylikoski (2010) .
Подробнее об использовании заочных исследований и аудиторских исследований для измерения дискриминации см. В статье Pager (2007) .
Самый распространенный способ привлечения участников к экспериментам, которые вы строите, - Amazon Mechanical Turk (MTurk). Поскольку MTurk подражает аспектам традиционных лабораторных экспериментов, которые платят людям за выполнение задач, которые они не будут делать бесплатно, многие исследователи уже начали использовать тюркеров (рабочих на MTurk) в качестве участников эксперимента, что привело к более быстрому и более дешевому сбору данных, чем это может быть достигнуто в традиционных лабораторных экспериментах на кампусе (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Как правило, наибольшие преимущества использования участников, набранных из MTurk, являются материально-техническими. В то время как лабораторные эксперименты могут занять несколько недель, и полевые эксперименты могут занять несколько месяцев, а эксперименты с участниками, набираемыми из MTurk, могут выполняться через несколько дней. Например, Berinsky, Huber, and Lenz (2012) смогли набрать 400 предметов за один день, чтобы принять участие в 8-минутном эксперименте. Кроме того, эти участники могут быть набраны практически для любых целей (включая опросы и массовое сотрудничество, как описано в главах 3 и 5). Эта легкость набора персонала означает, что исследователи могут быстро запускать последовательности связанных экспериментов.
Прежде чем привлекать участников из MTurk для собственных экспериментов, вам нужно знать четыре важных вещи. Во-первых, у многих исследователей есть неспецифический скептицизм экспериментов с тюркерами. Поскольку этот скептицизм не является специфическим, трудно противостоять доказательствам. Однако после нескольких лет исследований с использованием тюркеров мы можем теперь заключить, что этот скептицизм не особенно оправдан. Было проведено много исследований, сравнивающих демографию тюркеров с данными других популяций и многие исследования, сравнивающие результаты экспериментов с туркерами с представителями других популяций. Учитывая всю эту работу, я думаю, что лучший способ подумать об этом - это то, что тюрмеры - разумный образец удобства, как и студенты, но немного более разнообразные (Berinsky, Huber, and Lenz 2012) . Таким образом, так же, как студенты являются разумным населением для некоторых, но не для всех, исследований, турки являются разумным населением для некоторых, но не для всех, исследований. Если вы собираетесь работать с тюркерами, то имеет смысл читать многие из этих сравнительных исследований и понимать их нюансы.
Во-вторых, исследователи разработали лучшие практики для повышения внутренней достоверности экспериментов MTurk, и вам следует узнать и следовать этим лучшим практикам (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Например, исследователям, использующим тюркеров, предлагается использовать скрининг для удаления невнимательных участников (Berinsky, Margolis, and Sances 2014, 2016) (но см. Также DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Если вы не удалите невнимательных участников, то любой эффект лечения может быть вымыт шумом, который они вводят, и на практике количество невнимательных участников может быть существенным. В эксперименте Хубера и коллег (2012) около 30% участников провалили основные наблюдатели внимания. Другие проблемы, которые обычно возникают при использовании тюркеров, - это не наивные участники (Chandler et al. 2015) и истощение (Zhou and Fishbach 2016) .
В-третьих, по сравнению с некоторыми другими формами цифровых экспериментов эксперименты MTurk не могут масштабироваться; Stewart et al. (2015) считают, что в любой момент времени на MTurk всего около 7 000 человек.
Наконец, вы должны знать, что MTurk - это сообщество со своими собственными правилами и нормами (Mason and Suri 2012) . Точно так же, как вы попытаетесь узнать о культуре страны, в которой вы собираетесь проводить эксперименты, вы должны попытаться узнать больше о культуре и нормах тюркеров (Salehi et al. 2015) Salehi (Salehi et al. 2015) . И вы должны знать, что турки расскажут о вашем эксперименте, если вы сделаете что-то неуместное или неэтичное (Gray et al. 2016) .
MTurk - невероятно удобный способ набирать участников в ваши эксперименты, будь то лабораторные, такие как Huber, Hill, and Lenz (2012) , или более полевые, такие как Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) и Mao et al. (2016) .
Если вы пытаетесь создать свой собственный продукт, я рекомендую вам ознакомиться с рекомендациями группы MovieLens в Harper and Konstan (2015) . Ключевое понимание их опыта заключается в том, что для каждого успешного проекта существует множество неудач. Например, группа MovieLens запустила другие продукты, такие как GopherAnswers, которые были полными неудачами (Harper and Konstan 2015) . Другим примером неудачи исследователя, пытающегося построить продукт, является попытка Эдварда Кастроновой построить онлайн-игру под названием Arden. Несмотря на финансирование в размере 250 000 долларов, проект был на флопе (Baker 2008) . Проекты, такие как GopherAnswers и Arden, к сожалению, гораздо более распространены, чем проекты, такие как MovieLens.
Я слышал, что идея Квадрата Пастера часто обсуждалась в технических компаниях, и это помогает организовывать исследовательские работы в Google (Spector, Norvig, and Petrov 2012) .
Исследование Бонда и коллег (2012) также пытается обнаружить влияние этих методов лечения на друзей тех, кто их получил. Из-за конструкции эксперимента эти побочные эффекты трудно обнаружить чисто; заинтересованные читатели должны видеть Bond et al. (2012) для более тщательного обсуждения. Джонс и его коллеги (2017) также провели очень похожий эксперимент во время выборов 2012 года. Эти эксперименты являются частью давней традиции экспериментов в политической науке об усилиях по поощрению голосования (Green and Gerber 2015) . Эти эксперименты по выходу из голосования являются обычными, отчасти потому, что они входят в Квадрат Пастера. То есть, есть много людей, которые мотивированы увеличить голосование, а голосование может быть интересным поведением, чтобы проверить более общие теории о поведении и социальном влиянии.
Для получения информации о проведении полевых экспериментов с такими партнерскими организациями, как политические партии, НПО и предприятия, см. Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) и Gueron (2002) . Для размышлений о том, как партнерские отношения с организациями могут повлиять на проекты исследований, см. King et al. (2007) и Green, Calfano, and Aronow (2014) . Партнерство также может привести к этическим вопросам, о чем говорит Humphreys (2015) и Nickerson and Hyde (2016) .
Если вы собираетесь создать план анализа, прежде чем запускать эксперимент, я предлагаю вам начать читать рекомендации по отчетности. Руководящие принципы CONSORT (Consolidated Standard Reporting of Trials) были разработаны в медицине (Schulz et al. 2010) и модифицированы для социальных исследований (Mayo-Wilson et al. 2013) . Соответствующий набор руководящих принципов был разработан редакторами Journal of Experimental Political Science (Gerber et al. 2014) (см. Также Mutz and Pemantle (2015) и Gerber et al. (2015) ). Наконец, в психологии были разработаны руководящие принципы отчетности (APA Working Group 2008) , а также Simmons, Nelson, and Simonsohn (2011) .
Если вы создаете план анализа, вам следует подумать о предварительной регистрации, потому что предварительная регистрация повысит уверенность других в ваших результатах. Кроме того, если вы работаете с партнером, это ограничит способность вашего партнера изменять анализ после просмотра результатов. Предварительная регистрация становится все более распространенной в психологии (Nosek and Lakens 2014) , политологии (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и экономике (Olken 2015) .
Консультации по дизайну, специально предназначенные для онлайн-полевых экспериментов, также представлены в Konstan and Chen (2007) Chen and Konstan (2015) .
То, что я назвал стратегией армады, иногда называют программными исследованиями ; см. Wilson, Aronson, and Carlsmith (2010) .
Более подробно о экспериментах MusicLab см. Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) и Salganik (2007) . Подробнее о рынках победителей - см. Frank and Cook (1996) . Более подробно о распутывании удачи и навыках в более общем плане см. Mauboussin (2012) , Watts (2012) и Frank (2016) .
Существует еще один подход к устранению платежей участников, которые исследователи должны использовать с осторожностью: призыв. Во многих онлайн-полевых экспериментах участники в основном разрабатываются в экспериментах и никогда не компенсируются. Примеры такого подхода включают эксперимент «Рестиво» и «Ван де Рейт» (2012) о наградах в эксперименте Википедии и Бонда и коллеги (2012) о поощрении людей к голосованию. Эти эксперименты действительно не имеют нулевой переменной стоимости - скорее, у них есть нулевая переменная стоимость для исследователей . В таких экспериментах, даже если стоимость для каждого участника чрезвычайно мала, совокупная стоимость может быть довольно большой. Исследователи, проводящие массовые онлайн-эксперименты, часто оправдывают важность небольших оценочных эффектов лечения, говоря, что эти небольшие эффекты могут стать важными, когда они применяются ко многим людям. Точно такое же мышление относится к расходам, которые исследователи налагают на участников. Если ваш эксперимент заставляет миллион людей тратить одну минуту, эксперимент не очень вреден для какого-либо конкретного человека, но в совокупности он потратил впустую почти два года.
Другим подходом к созданию оплаты нулевой переменной стоимости участникам является использование лотереи, подход, который также использовался в исследовательских исследованиях (Halpern et al. 2011) . Подробнее о проектировании приятных пользовательских впечатлений см. Toomim et al. (2011) . Подробнее об использовании ботов для создания экспериментов с нулевой переменной стоимостью см. ( ??? ) .
Три R, как первоначально было предложено Russell and Burch (1959) , следующие:
"Замена означает замещение сознательных живых высших животных неодушевленные материала. Сокращение означает уменьшение количества животных, используемых для получения информации о заданном количестве и точности. Доработка означает любое снижение частоты или тяжести нечеловеческих процедур, применяемых к тем животным, которые еще должны быть использованы ".
Три предложения R, которые я предлагаю, не переоценивают этические принципы, описанные в главе 6. Скорее, они являются более продуманной версией одного из этих принципов - благодеяния - в частности, в установлении человеческих экспериментов.
В терминах первой R («замены»), сравнивая эксперимент эмоциональной заразы (Kramer, Guillory, and Hancock 2014) и естественный эксперимент эмоциональной заразы (Lorenzo Coviello et al. 2014) предлагаются некоторые общие уроки о связанных с этим компромиссах при переходе от экспериментов к естественным экспериментам (и других подходов, таких как сопоставление, которое пытается приблизить эксперименты в неэкспериментальных данных, см. главу 2). В дополнение к этическим преимуществам переход от экспериментальных к неэкспериментальным исследованиям также позволяет исследователям изучать методы лечения, которые они логически не могут развернуть. Однако эти этические и материально-технические преимущества приносят себестоимость. С естественными экспериментами исследователи имеют меньше контроля над такими вещами, как набор участников, рандомизация и характер лечения. Например, одно ограничение количества осадков в качестве лечения заключается в том, что оно увеличивает положительность и уменьшает негативность. Однако в экспериментальном исследовании Крамер и его коллеги смогли самостоятельно настроить положительность и негативность. Конкретный подход, используемый Lorenzo Coviello et al. (2014) был дополнительно разработан L. Coviello, Fowler, and Franceschetti (2014) . Для введения в инструментальные переменные, который является подходом, используемым Lorenzo Coviello et al. (2014) , см. « Angrist and Pischke (2009) (менее формальный) или « Angrist, Imbens, and Rubin (1996) (более формальный). Для скептической оценки инструментальных переменных см. Deaton (2010) , а также введение в инструментальные переменные со слабыми инструментами (дождь - слабый инструмент), см. Murray (2006) . В более общем плане хорошее введение в естественные эксперименты дано Dunning (2012) , в то время как Rosenbaum (2002) , ( ??? ) и Shadish, Cook, and Campbell (2001) предлагают хорошие представления об оценке причинных эффектов без экспериментов.
Что касается второго R («уточнения»), существуют научные и логистические компромиссы при рассмотрении вопроса о том, как изменить дизайн «Эмоциональной инфекции» от блокирования постов до повышения должности. Например, может случиться так, что техническая реализация News Feed делает значительно проще провести эксперимент, в котором блокируются сообщения, а не в том, в каком они были усилены (обратите внимание, что может быть реализован эксперимент с блокировкой сообщений как слой поверх системы новостей, без каких-либо изменений в базовой системе). Однако, с научной точки зрения, теория, рассмотренная в эксперименте, явно не предлагала одну конструкцию над другой. К сожалению, мне не известны существенные предварительные исследования относительно относительных достоинств блокировки и повышения содержания в ленте новостей. Кроме того, я не видел много исследований по очистке процедур, чтобы сделать их менее вредными; одним из исключений является B. Jones and Feamster (2015) , в котором рассматривается случай измерения цензуры в Интернете (тема, которую я обсуждаю в главе 6 в связи с исследованием Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
С точки зрения третьего R («сокращение») хорошие представления о традиционном анализе мощности даны Cohen (1988) (книга) и Cohen (1992) (статья), а Gelman and Carlin (2014) предлагают несколько другую перспективу. Ковариаты предварительной обработки могут быть включены в стадию проектирования и анализа экспериментов; глава 4 Gerber and Green (2012) обеспечивает хорошее введение в оба подхода, а Casella (2008) обеспечивает более глубокое лечение. Методы, которые используют эту информацию перед обработкой в рандомизации, обычно называются либо заблокированными экспериментальными проектами, либо стратифицированными экспериментальными проектами (терминология не используется последовательно в сообществах); эти методы тесно связаны со стратифицированными методами выборки, рассмотренными в главе 3. См. Higgins, Sävje, and Sekhon (2016) для более подробного использования этих конструкций в массовых экспериментах. Ковариаты предварительной обработки также могут быть включены в стадию анализа. McKenzie (2012) исследует подход, основанный на различиях в различиях, для более подробного анализа полевых экспериментов. См. Carneiro, Lee, and Wilhelm (2016) чтобы узнать больше о компромиссах между различными подходами, чтобы повысить точность оценок эффектов лечения. Наконец, при принятии решения о том, следует ли включать ковариации до лечения на этапе проектирования или анализа (или в обоих случаях), необходимо учитывать несколько факторов. В обстановке, когда исследователи хотят показать, что они не «ловят рыбу» (Humphreys, Sierra, and Windt 2013) , использование ковариаций с предварительной обработкой на этапе проектирования может быть полезным (Higgins, Sävje, and Sekhon 2016) . В ситуациях, когда участники прибывают последовательно, особенно онлайн-полевые эксперименты, использование информации предварительной обработки на стадии проектирования может быть сложным логически; см., например, Xie and Aurisset (2016) .
Стоит добавить немного интуиции о том, почему подход с разницей в различиях может быть гораздо более эффективным, чем различие в значении. Многие результаты в Интернете имеют очень высокую дисперсию (см., Например, RA Lewis and Rao (2015) и Lamb et al. (2015) ) и относительно стабильны с течением времени. В этом случае оценка изменения будет иметь значительно меньшую дисперсию, увеличивая мощность статистического теста. Одна из причин, по которой этот подход не используется чаще всего, заключается в том, что до достижения цифрового возраста нередко имели место результаты лечения. Более конкретный способ подумать об этом заключается в том, чтобы представить себе эксперимент, чтобы определить, приводит ли конкретная рутина к потере веса. Если вы примете подход разницы в средствах, ваша оценка будет иметь изменчивость, возникающую из-за изменчивости в массе населения. Однако, если вы используете подход с разницей в различиях, то естественная вариация в весах удаляется, и вы можете более легко обнаружить разницу, вызванную обработкой.
Наконец, я решил добавить четвертый R: «repurpose». То есть, если исследователи получат больше экспериментальных данных, чем они должны решить свой первоначальный вопрос исследования, они должны перепрофилировать данные, чтобы задавать новые вопросы. Например, представьте себе, что Крамер и его коллеги использовали оценку различий в различиях и оказались с большим количеством данных, чем они требовали для решения своего исследовательского вопроса. Вместо того, чтобы не использовать данные в полной мере, они могли бы изучить размер эффекта как функцию эмоционального выражения до лечения. Так же, как Schultz et al. (2007) обнаружили, что эффект от лечения был другим для легких и тяжелых пользователей, возможно, эффекты News Feed были разными для людей, которые уже склонны публиковать счастливые (или грустные) сообщения. Возвращение может привести к «рыбалке» (Humphreys, Sierra, and Windt 2013) и «p-hacking» (Simmons, Nelson, and Simonsohn 2011) , но они в значительной степени адресуются сочетанием честных отчетов (Simmons, Nelson, and Simonsohn 2011) , предварительная регистрация (Humphreys, Sierra, and Windt 2013) и методы машинного обучения, которые пытаются избежать чрезмерной установки.