Далее комментарии

Этот раздел предназначен для использования в качестве эталона, вместо того , чтобы быть прочитан как рассказ.

  • Введение (раздел 4.1)

Вопросы о причинности в социальных исследованиях часто являются сложными и запутанными. Для основополагающего подхода к причинности на основе причинно - следственных графиков, см Pearl (2009) , а также для основополагающего подхода , основанного на потенциальных результатов, см Imbens and Rubin (2015) (и техническое приложение в этой главе). Для сравнения между этими двумя подходами см Morgan and Winship (2014) . Для формального подхода к определению confounder см VanderWeele and Shpitser (2013) .

В этой главе, я создал то, что, казалось, как яркая линия между нашей способностью сделать причинные оценки из экспериментальных и не экспериментальных данных. На самом деле, я думаю, что это различие размыта. Например, каждый признает, что курение вызывает рак, даже если мы никогда не делали рандомизированное контролируемое эксперимент, который заставляет людей курить. Для получения превосходных обработок длины книги по подготовке оценок причинные из неэкспериментальных данных см Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) и Dunning (2012) .

Главы 1 и 2 Freedman, Pisani, and Purves (2007) предлагают четкое введение в различиях между экспериментами, контролируемых экспериментов, и рандомизированных контролируемых экспериментов.

Manzi (2012) обеспечивает захватывающее и читаемый введение в философских и статистических основ рандомизированных контролируемых экспериментов. Он также предоставляет интересные примеры силы экспериментов в бизнесе в реальном мире.

  • Какие эксперименты? (Раздел 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) обеспечивают хорошие введений к статистическим аспектам экспериментального проектирования и анализа. Кроме того, есть отличные методы лечения с использованием экспериментов во многих различных областях: экономика (Bardsley et al. 2009) и (Willer and Walker 2007; Jackson and Cox 2013) (Aronson et al. 1989) (Morton and Williams 2010) (Bardsley et al. 2009) , Социология (Willer and Walker 2007; Jackson and Cox 2013) , психологии (Aronson et al. 1989) и (Aronson et al. 1989) , (Aronson et al. 1989) , политология (Morton and Williams 2010) , и социальная политика (Glennerster and Takavarasha 2013) .

Важность набора участников (например, выборки) часто недооценивают в экспериментальных исследованиях. Однако, если эффект лечения неоднороден в популяции, то выборка имеет решающее значение. Longford (1999) делает эту точку ясно , когда он выступает для исследователей , думающих экспериментов как обследования населения с бессистемной выборки.

  • Два измерения экспериментов: лабораторного поля и аналого-цифровые (раздел 4.3)

Дихотомии, что я представил между лабораторных и полевых экспериментов немного упрощается. На самом деле, другие исследователи предложили более детальные типологий, в частности те , которые отделяют различные формы полевых экспериментов (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) г. (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Кроме того, существуют два других типа экспериментов , проведенных социологами , которые не вписываются в лаборатории и полевых дихотомии:. Эксперименты и исследования социальных экспериментов Эксперименты на опрос эксперименты с использованием инфраструктуры существующих обследований и сравнить ответы на альтернативные версиях Те же вопросы (некоторые эксперименты опроса представлены в главе 3); Более подробную информацию о экспериментах опроса см Mutz (2011) . Социальные эксперименты эксперименты , где лечение является некоторая социальная политика , которая может быть реализована только с помощью правительства. Социальные эксперименты тесно связаны с оценкой программ. Более подробную информацию о экспериментах политики см Orr (1998) , Glennerster and Takavarasha (2013) и Heckman and Smith (1995) .

Ряд работ сравнили лабораторные и полевые эксперименты в абстрактном (Falk and Heckman 2009; Cialdini 2009) и с точки зрения результатов конкретных экспериментов в области политологии (Coppock and Green 2015) , экономики (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психологии (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) предлагает хороший дизайн исследования для сравнения результатов лабораторных и полевых экспериментов.

Опасения по поводу участников изменить свое поведение , потому что они знают , что они пристально наблюдают иногда называют эффекты спроса, и они были изучены в психологии (Orne 1962) и экономика (Zizzo 2009) . Хотя в основном связаны с лабораторными экспериментами, эти же вопросы могут вызвать проблемы для полевых экспериментов, а также. На самом деле, эффекты спроса также иногда называют Hawthorne эффекты, термин, производный от полевого эксперимента, в частности , знаменитые эксперименты освещения , которые начались в 1924 году в Hawthorne Works Западной Electric Company (Adair 1984; Levitt and List 2011) , (Adair 1984; Levitt and List 2011) . Оба эффекта спроса и эффекты Боярышник тесно связаны с идеей измерения реактивной обсуждаемой в главе 2 (см также Webb et al. (1966) и Webb et al. (1966) ).

История полевых экспериментов была описана в экономике (Levitt and List 2009) , политологии (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) и (Shadish 2002) (Shadish and Cook 2009) (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологии (Shadish 2002) , и государственная политика (Shadish and Cook 2009) . Одной из областей социальных наук, где полевые эксперименты быстро стала известной из них является международное развитие. Для положительного рассмотрения этой работы в экономике см Banerjee and Duflo (2009) , а также для критической оценки см Deaton (2010) . Для обзора этой работы в политической науке см Humphreys and Weinstein (2009) . И, наконец, этические проблемы , связанные с экспериментами на местах, были исследованы в политической науке (Humphreys 2015; Desposato 2016b) и экономики развития (Baele 2013) .

В этой главе, я предположил , что информация для предварительной обработки могут быть использованы для повышения точности оцененных эффектов лечения, но есть некоторые дебаты по поводу такого подхода: Freedman (2008) , Lin (2013) , и Berk et al. (2013) и Berk et al. (2013) г. Berk et al. (2013) ; см Bloniarz et al. (2016) и Bloniarz et al. (2016) для получения дополнительной информации.

  • Выходя за рамки простых экспериментов (раздел 4.4)

Я решил сосредоточиться на трех понятиях: действительности, неоднородность эффектов лечения, а также механизмов. Эти понятия имеют разные названия в разных областях. Например, психологи стремятся выйти за рамки простых экспериментов, сосредоточив внимание на посредников и модераторов (Baron and Kenny 1986) . Идея медиаторов захватывается, что я называю механизмы, и идея модераторов захватывается, что я называю внешняя валидность (например, будут результаты эксперимента иначе, если бы он был запущен в различных ситуациях) и гетерогенность эффектов лечения ( например, являются эффекты больше для некоторых людей, чем другие люди).

Эксперимент Schultz et al. (2007) и Schultz et al. (2007) показывает , как социальные теории могут быть использованы для разработки эффективных мер. Для более общего аргумента о роли теории в разработке эффективных мер, см Walton (2014) .

  • Срок действия (раздел 4.4.1)

Понятия внутреннего и внешнего действия были впервые введены в Campbell (1957) . См Shadish, Cook, and Campbell (2001) для более подробной истории и тщательной разработки статистического вывода действительности, внутренней действительности, построить действительность, и внешнюю действительность.

Для обзора вопросов , связанных с выводом статистической достоверности в экспериментах см Gerber and Green (2012) (для точки зрения социальной науки) и Imbens and Rubin (2015) (для точки зрения статистики). Некоторые вопросы статистического вывода действительности , которые возникают именно в экспериментах онлайн - полевых включают в себя такие вопросы, как вычислительно эффективных методов для создания доверительных интервалов с зависимыми данными (Bakshy and Eckles 2013) г. (Bakshy and Eckles 2013) .

Внутренняя достоверность может быть трудно обеспечить в сложных полевых экспериментов. Смотрите, например, Gerber and Green (2000) , Imai (2005) , и Gerber and Green (2005) для дискуссии о реализации комплексного полевого эксперимента о голосовании. Kohavi et al. (2012) и Kohavi et al. (2012) и Kohavi et al. (2013) и Kohavi et al. (2013) обеспечить введение в вызовы интервала действия в экспериментах онлайн на местах.

Одна из основных проблем с внутренней действительности являются проблемы с рандомизации. Один из способов обнаружить потенциально проблемы с рандомизации является сравнение лечения и контрольные группы наблюдаемых признаков. Такого рода сравнения называется проверка баланса. См Hansen and Bowers (2008) для статистического подхода , чтобы сбалансировать проверки, и увидеть Mutz and Pemantle (2015) для опасений по поводу проверки баланса. Например, с помощью баланса проверить Allcott (2011) обнаружили , что есть некоторые доказательства того, что рандомизация не была реализована правильно в трех экспериментах , в некоторых экспериментах Оповер (смотри таблицу 2; сайты , 2, 6 и 8). Что касается других подходов см Imbens and Rubin (2015) , глава 21.

Другие основные проблемы, связанные с внутренней действительности являются: 1) односторонний несоблюдением, где не все в группе лечения на самом деле получали лечение, 2) Утеплители несоблюдения, где не все в группе лечения получает лечение и некоторые люди в контрольной группе получают лечение, 3) истощение, где результаты не измеряются для некоторых участников, и 4) интерференция, где лечение разливается в течение от людей в состоянии лечения людям в состоянии управления. См Gerber and Green (2012) Главы 5, 6, 7 и 8 больше по каждому из этих вопросов.

Более подробную информацию о валидности см Westen and Rosenthal (2003) , и больше на валидности в больших источниках данных, Lazer (2015) и в главе 2 этой книги.

Одним из аспектов внешней действительности является установка , где проверяется вмешательство. Allcott (2015) обеспечивает тщательную теоретическую и эмпирическую лечение смещения выбора площадки. Этот вопрос также обсуждается в Deaton (2010) . В дополнение к тиражируется во многих местах, вмешательство Home Energy Report также был изучен независимо друг от друга несколькими исследовательскими группами (например, Ayres, Raseman, and Shih (2013) ).

  • Неоднородность эффектов лечения (раздел 4.4.2)

Обстоятельный обзор гетерогенности эффектов лечения в полевых экспериментах, смотрите главу 12 Gerber and Green (2012) . Для введений гетерогенности эффектов лечения в медицинских исследованиях, см Kent and Hayward (2007) , Longford (1999) , и Kravitz, Duan, and Braslow (2004) . Неоднородность эффектов лечения как правило, сосредоточены на различиях, основанных на характеристиках предварительной обработки. Если вы заинтересованы в гетерогенности , основанные на результатах после лечения, а затем более сложные approachs нужны такие , как главная расслаивания (Frangakis and Rubin 2002) , (Frangakis and Rubin 2002) ; см Page et al. (2015) и Page et al. (2015) для обзора.

Многие исследователи оценивают гетерогенность эффектов лечения с использованием линейной регрессии, но более новые методы основаны на машинном обучении, например , Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) и Taddy et al. (2016) , и Athey and Imbens (2016a) .

Существует некоторый скептицизм по поводу выводов гетерогенности эффектов из - за многочисленных проблем сравнения и "рыбалка." Есть целый ряд статистических подходов , которые могут помочь в решении проблем по поводу множественного сравнения (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Один из подходов к озабоченности по поводу "промысла" является предварительная регистрация, которая становится все более распространенным явлением в психологии (Nosek and Lakens 2014) , политология (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и экономика (Olken 2015) .

В исследовании Costa and Kahn (2013) лишь около половины домохозяйств в эксперименте могли быть связаны с демографической информации. Читатели, заинтересованные в деталях и возможных проблемах с этим анализом следует обратиться к оригинальной работе.

  • Механизмы (раздел 4.4.3)

Механизмы невероятно важны, но они оказываются очень трудно учиться. Исследования о механизмах тесно связано с изучением медиаторов в психологии (но смотри также VanderWeele (2009) для точного сравнения между этими двумя идеями). Статистические подходы к поиску механизмов, таких , как подход , разработанный в Baron and Kenny (1986) , являются довольно распространенным явлением. К сожалению, получается, что эти процедуры зависят от некоторых сильных допущений (Bullock, Green, and Ha 2010) и страдать , когда существует несколько механизмов, как можно было бы ожидать , во многих ситуациях (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) и Imai and Yamamoto (2013) предлагают некоторые улучшенные статистические методы. Кроме того, VanderWeele (2015) предлагает лечение книжной длины с целым рядом важных результатов, в том числе комплексный подход к анализу чувствительности.

Отдельный подход ориентирован на эксперименты, которые пытаются манипулировать механизмом непосредственно (например, давая матросы витамин С). К сожалению, во многих ситуациях социальных наук часто есть несколько механизмов, и это трудно разработать процедуры, которые меняют один, не меняя остальных. Некоторые подходы к экспериментально изменяющие механизмы описаны в Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .

И, наконец, механизмы также имеют давнюю историю в философии науки , как описано Hedström and Ylikoski (2010) .

  • Использование существующих сред (раздел 4.5.1.1)

Более подробную информацию об использовании заочного обучения и исследований аудита для измерения дискриминации см Pager (2007) .

  • Создайте свой ​​собственный эксперимент (раздел 4.5.1.2)

Самый распространенный способ набрать участников экспериментов, которые вы строите является Amazon Mechanical Turk (MTurk). Поскольку MTurk подражает аспекты традиционных лабораторных экспериментов высокооплачиваемую людей для выполнения задач, которые они не могли бы сделать для свободно многих исследователей уже начали использовать Turkers (рабочие на MTurk) в качестве участников в человеческих субъектов экспериментов приводит к более быстрой и дешевой сбора данных, чем традиционные на кампусе лабораторные эксперименты (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Самая большая сила экспериментов с участниками, набранных из MTurk являются материально-техническое: они позволяют исследователям набирать участников быстро и по мере необходимости. В то время как лабораторные эксперименты могут занять несколько недель, чтобы запустить и полевые эксперименты могут занять несколько месяцев, чтобы установка, эксперименты с участниками, набранных из MTurk может быть запущен в днях. Например, Berinsky, Huber, and Lenz (2012) смогли набрать 400 предметов в один день , чтобы принять участие в 8 - й минуте эксперимента. Кроме того, эти участники могут быть привлечены практически для любых целей (в том числе обследований и массового сотрудничества, как это обсуждается в главах 3 и 5). Эта простота набора означает, что исследователи могут проводить последовательности взаимосвязанных экспериментов в быстрой последовательности.

Перед тем как набор участников из MTurk для собственных экспериментов, есть четыре важные вещи, которые необходимо знать. Во-первых, многие исследователи имеют неспецифическую скепсис экспериментов с участием Turkers. Поскольку этот скептицизм не является специфическим, трудно противостоять с доказательствами. Тем не менее, после нескольких лет исследований с использованием Turkers, теперь мы можем сделать вывод, что этот скепсис не особенно нужна. Там было много исследований, сравнивающих демографию Turkers на другие группы населения и многих исследований, сравнивающих результаты экспериментов с Turkers с результатами других групп населения. Учитывая всю эту работу, я думаю , что лучший способ для вас , чтобы думать об этом является то , что Turkers являются разумными образец удобства, так же, как студентов , но немного более разнообразным (Berinsky, Huber, and Lenz 2012) . Таким образом, так же, как студенты разумное население для некоторых, но не все экспериментальные исследования, Turkers являются разумное население для некоторых, но не все исследования. Если вы собираетесь работать с Turkers, то имеет смысл прочитать многие из этих сравнительных исследований и понять свои нюансы.

Во- вторых, исследователи разработали передовой практики для повышения внутренней валидности экспериментов турок, и вы должны изучить и следовать этим передовой практики (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Например, исследователи , использующие Turkers рекомендуется использовать грохоты для удаления невнимательных участников (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (Смотри также DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Если вы не удалить невнимательных участников, то любой эффект лечения может быть вымываются шума, поступающего из невнимательных участников, так и на практике количество невнимательных участников может быть существенным. В эксперименте Хубер и его коллеги (2012) около 30% участников не удалось основное внимание грохотов. Еще одна общая проблема с Turkers не является наивных участников (Chandler et al. 2015) и (Chandler et al. 2015) .

В- третьих, по сравнению с некоторыми другими формами цифровых экспериментов, MTurk эксперименты не могут масштабироваться, Stewart et al. (2015) и Stewart et al. (2015) считает , что в любой момент времени существует всего около 7000 человек на MTurk.

И, наконец, вы должны знать , что MTurk это сообщество со своими собственными правилами и нормами (Mason and Suri 2012) . Таким же образом , что вы пытаетесь узнать о культуре страны , в которой вы собираетесь запускать ваши эксперименты, вы должны попробовать , чтобы узнать больше о культуре и нормах Turkers (Salehi et al. 2015) и (Salehi et al. 2015) . И, вы должны знать , что Turkers будет говорить о вашем опыте , если вы делаете что - то неуместное или неэтичного (Gray et al. 2016) и (Gray et al. 2016) .

MTurk является невероятно удобный способ набора участников для ваших экспериментов, являются ли они лабораторного типа, такие как Huber, Hill, and Lenz (2012) , или более в полевых условиях, как, например , как Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) и Goldstein et al. (2014) , Horton and Zeckhauser (2016) , и Mao et al. (2016) и Mao et al. (2016) .

  • Создайте свой ​​собственный продукт (раздел 4.5.1.3)

Если вы думаете о попытке создать свой ​​собственный продукт, я рекомендую вам прочитать советы , предлагаемые группой MovieLens в Harper and Konstan (2015) . Ключевым озарением из их опыта в том, что для каждого успешного проекта есть много, много неудач. Например, группа MovieLens запустила другие продукты , такие , как GopherAnswers , которые были полные провалы (Harper and Konstan 2015) . Другой пример исследователя неисправного при попытке создать продукт является попытка Эдварда Кастронова, чтобы создать интернет-игру под названием Arden. Несмотря на $ 250 000 в финансировании, проект был провал (Baker 2008) . Такие проекты, как GopherAnswers и Ардена, к сожалению, гораздо чаще, чем такие проекты, как MovieLens. И, наконец, когда я сказал, что я не знал о каких-либо других исследователей, которые успешно построили продукты для повторных экспериментов здесь мои критерии: 1) участники используют продукт из-за того, что он дает им (например, они не платят, и они не являются добровольцы помогают науке) и 2) продукт был использован для более чем одного отдельного эксперимента (то есть не тот же самый эксперимент несколько раз с разными пулами участником). Если вы знаете другие примеры, пожалуйста, дайте мне знать.

  • Партнер с мощным (раздел 4.5.2)

Я слышал идею Quadrant Пастера часто обсуждается в технологических компаний, и это помогает организовать научно - исследовательскую работу в Google (Spector, Norvig, and Petrov 2012) .

Бонд и исследование коллег (2012) также пытается обнаружить влияние этих обработок на друзей тех , кто получил их. Из-за конструкции эксперимента, эти вторичные эффекты трудно обнаружить чисто; Заинтересованные читатели должны увидеть Bond et al. (2012) и Bond et al. (2012) для более подробного обсуждения. Этот эксперимент является частью давней традиции экспериментов в области политической науки об усилиях по поощрению голосования (Green and Gerber 2015) . Эти эксперименты Get-вне-The-голосования являются общими отчасти потому, что они находятся в квадранте Пастера. То есть, есть много людей, которые мотивированы, чтобы увеличить голосования и голосования может быть интересным поведением, чтобы проверить более общие теории об изменении поведения и социального влияния.

Другие исследователи предоставили консультации о проведении экспериментов на местах с партнерскими организациями , такими , как политические партии, НПО и бизнеса (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Другие предлагали советы о том , как партнерские отношения с организациями , могут повлиять на исследовательские проекты (Green, Calfano, and Aronow 2014; King et al. 2007) и (Green, Calfano, and Aronow 2014; King et al. 2007) . Партнерство может также привести к этическим вопросам (Humphreys 2015; Nickerson and Hyde 2016) .

  • Дизайн советы (раздел 4.6)

Если вы собираетесь создать план анализа перед запуском эксперимента, я предлагаю вам начать с чтения руководящих принципов представления докладов. КОНСОРТ (сводный стандарт отчетность испытаний) руководящих принципов были разработаны в медицине (Schulz et al. 2010) и (Mayo-Wilson et al. 2013) (Schulz et al. 2010) и модифицированы для социальных исследований (Mayo-Wilson et al. 2013) и (Mayo-Wilson et al. 2013) . Связанный набор руководящих принципов была разработана редакторами журнала экспериментальной политологии (Gerber et al. 2014) и Mutz and Pemantle (2015) Gerber et al. (2015) (Gerber et al. 2014) (см также Mutz and Pemantle (2015) и Gerber et al. (2015) и Gerber et al. (2015) ). И, наконец, руководящие принципы отчетности были разработаны в психологии (Group 2008) , а также увидеть Simmons, Nelson, and Simonsohn (2011) .

Если вы создаете план анализа вы должны рассмотреть перед его регистрацией, так как предварительная регистрация увеличит уверенность, что другие имеют в своих результатах. Кроме того, если вы работаете с партнером, он будет ограничивать способность вашего партнера, чтобы изменить анализ после просмотра результатов. Предварительная регистрация становится все более распространенным явлением в психологии (Nosek and Lakens 2014) , политология (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и экономика (Olken 2015) .

Создавая свой ​​план предварительного анализа вы должны знать , что некоторые исследователи также используют регрессию и связанные с ним подходы для повышения точности оцененного эффекта лечения, и есть некоторые дебаты по поводу такого подхода: Freedman (2008) , Lin (2013) , и Berk et al. (2013) и Berk et al. (2013) г. Berk et al. (2013) ; см Bloniarz et al. (2016) и Bloniarz et al. (2016) для получения дополнительной информации.

Дизайн советы специально для экспериментов онлайн на местах также представлены в Konstan and Chen (2007) и Chen and Konstan (2015) .

  • Создание нулевых переменных данных о затратах (раздел 4.6.1)

Более подробную информацию о экспериментах MusicLab см Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) и Salganik (2007) . Более подробную информацию о победитель получает все рынки, см Frank and Cook (1996) . Более подробную информацию о распутывания удачи и мастерства в более общем плане , см Mauboussin (2012) , Watts (2012) и Frank (2016) .

Существует другой подход к устранению выплат участнику, исследователи должны использовать с осторожностью: призыв на военную службу. Во многих экспериментах онлайн полевых участники не в основном разработаны в эксперименты и никогда не компенсируются. Примеры этого подхода включают Restivo и ван де Rijt в (2012) эксперимент на награды в Википедии и Бонд и коллеги (2012) эксперимент по побуждая людей голосовать. Эти эксперименты действительно не имеют нулевой переменные издержки, они имеют нулевой переменные издержки для исследователей. Несмотря на то, стоимость многих из этих опытов крайне мала каждому участнику, небольшие затраты на наложено огромное количество участников может сложить быстро. Исследователи, работающие онлайн-массовые эксперименты часто оправдывают важность небольших расчетными эффектов лечения, говоря, что эти малые эффекты могут стать важным при применении ко многим людям. Точно такая же мышление относится к расходам, которые исследователи налагают на участников. Если ваши эксперименты вызывает один миллион людей тратить одну минуту, эксперимент не очень вредно для любого конкретного человека, но в совокупности он потратил почти два года времени.

Другой подход к созданию нулевой оплаты переменных издержек для участников использовать лотерею, подход , который также был использован в исследованиях обследования (Halpern et al. 2011) и (Halpern et al. 2011) . Наконец, для более о разработке приятных пользовательские впечатления см Toomim et al. (2011) и Toomim et al. (2011) .

  • Заменить, поиска и уменьшить (раздел 4.6.2)

Вот исходные определения трех R, от Russell and Burch (1959) :

"Замена означает замещение сознательных живых высших животных неодушевленные материала. Сокращение означает уменьшение количества животных, используемых для получения информации о заданном количестве и точности. Доработка означает любое снижение частоты или тяжести нечеловеческих процедур, применяемых к тем животным, которые еще должны быть использованы ".

Три важные вещи, которые я предлагаю, не переопределяют этические принципы, описанные в главе 6. Скорее, они являются более усложненный вариант один из этих принципов-благотворность-специально для установки человеческих экспериментов.

При рассмотрении вопроса о Эмоциональная Инфекция, есть три не-этические вопросы, которые следует иметь в виду при интерпретации этого эксперимента. Во-первых, не ясно, каким образом фактические детали эксперимента подключить к теоретическим требованиям; Другими словами, есть вопросы о валидности. Не ясно, что положительные и отрицательные количество слов на самом деле являются хорошим индикатором эмоционального состояния участников, потому что 1) не ясно, что слова, которые люди отправляют являются хорошим индикатором их эмоций и 2) не ясно, что конкретный метод анализа настроений , которые использовали исследователи в состоянии надежно вывести эмоции (Beasley and Mason 2015; Panger 2016) . Другими словами, может быть плохой мерой необъективной сигнала. Во-вторых, разработка и анализ эксперимента ничего не говорит нам о том, кто был самым влияние (то есть, нет никакого анализа гетерогенности эффектов лечения) и что может быть механизмом. В этом случае исследователи имели много информации об участниках, но они были в основном рассматриваются как виджеты в анализе. В-третьих, величина эффекта в этом эксперименте, был очень мал; разница между лечебной и контрольной условиях составляет около 1 в 1000 слов. В своей работе, Крамер и его коллеги делают дело, что эффект такого размера имеет важное значение, потому что сотни миллионов людей получить доступ к их News Feed каждый день. Другими словами, они утверждают, что даже эффекты, которые малы для каждого человека они большие в совокупности. Даже если вы должны были принять этот аргумент, он до сих пор не ясно, если эффект такого размера имеет важное значение в отношении более общего научного вопроса об эмоциональном заразы. Более подробную информацию о ситуациях , когда малые эффекты являются важными см Prentice and Miller (1992) .

С точки зрения первого R (восстановительная), сравнивая эмоциональный заразы эксперимент (Kramer, Guillory, and Hancock 2014) и эмоциональное домино естественный эксперимент (Coviello et al. 2014) и (Coviello et al. 2014) предлагает некоторые общие уроки о компромиссах , связанных с переходом от эксперименты на естественных экспериментов (и другие подходы, такие как соответствие, что попытка аппроксимировать эксперименты в неэкспериментальных данных, смотрите главу 2). Помимо этических преимуществ, переход от экспериментальной к не-экспериментальных исследований также позволяет исследователям изучать методы лечения, что они не в состоянии материально-технического обеспечения для развертывания. Эти этические и материально-технические преимущества приходится платить, однако. С естественных экспериментов исследователи имеют меньше контроля над вещами, как набор участников, рандомизации и характер лечения. Например, одно ограничение осадков в качестве лечения является то, что оно одновременно увеличивает положительность и отрицательность уменьшается. В экспериментальном исследовании, однако, Крамер и его коллеги смогли отрегулировать положительность и отрицательность независимо друг от друга.

Конкретный подход , используемый Coviello et al. (2014) и Coviello et al. (2014) получила дальнейшее развитие в Coviello, Fowler, and Franceschetti (2014) . Для введения в инструментальных переменных см Angrist and Pischke (2009) (менее формальный) или Angrist, Imbens, and Rubin (1996) (более формальный характер ). Для скептической оценки инструментальных переменных см Deaton (2010) , а также для введения в инструментальных переменных со слабыми инструментами (дождь является слабым инструментом), см Murray (2006) .

В более общем плане , хорошее введение в естественных экспериментов Dunning (2012) , и Rosenbaum (2002) , Rosenbaum (2009) , и Shadish, Cook, and Campbell (2001) предлагают хорошие идеи по поводу оценки причинно - следственных эффектов без экспериментов.

С точки зрения второго R (Refinement), есть научные и материально-технические компромиссы при рассмотрении изменения конструкции эмоционального Contagion от блокирования сообщения для повышения сообщения. Например, это может быть так, что техническая реализация Ленте новостей делает его значительно легче сделать эксперимент с блокированием сообщения, а не эксперимента с повышения сообщения (обратите внимание, что эксперимент с блокированием сообщения может быть реализован в виде слоя на верхняя часть системы канал новостей без необходимости изменения базовой системы). С научной точки зрения, однако, теория рассмотрены эксперимента не ясно указывают одну конструкцию над другим.

К сожалению, я не в курсе существенного предварительного исследования об относительных преимуществах блокировки и повышения содержания в Ленте новостей. Кроме того, я не видел много исследований о совершенствовании методов лечения, чтобы сделать их менее вредными; Единственным исключением является Jones and Feamster (2015) , которая рассматривает случай измерения интернет - цензуры (тему я обсуждаю в главе 6 , в отношении к изучению Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

С точки зрения третьего R (сокращения), хорошее введение в традиционный анализ питания является Cohen (1988) . ковариаты предварительной обработки могут быть включены в стадии проектирования и стадии анализа экспериментов; Глава 4 Gerber and Green (2012) обеспечивает хорошее введение в обоих подходов, и Casella (2008) обеспечивает обработку более глубокий. Методы, которые используют эту информацию для предварительной обработки в рандомизации, как правило, называются либо блокировали экспериментальные конструкции или слоистые экспериментальных образцов (терминология не используется последовательно во всех общинах); эти методы глубоко связаны с стратифицированных методов отбора проб , рассмотренных в главе 3. См Higgins, Sävje, and Sekhon (2016) для дополнительной информации об использовании этих конструкций в массивных экспериментах. Ковариаты предварительной обработки также могут быть включены в стадии анализа. McKenzie (2012) исследует различия-в-различиях подход к анализу полевых экспериментов , более подробно. См Carneiro, Lee, and Wilhelm (2016) Более подробную информацию о компромиссах между различными подходами к повышению точности в оценках эффектов лечения. И, наконец, при решении вопроса, чтобы попытаться включить ковариатами предварительной обработки на стадии проектирования или анализа этапа (или оба), есть несколько факторов, которые необходимо учитывать. В условиях , когда исследователи хотят показать , что они не являются "рыбалка" (Humphreys, Sierra, and Windt 2013) , с использованием ковариатами предварительной обработки на стадии проектирования может быть полезным (Higgins, Sävje, and Sekhon 2016) . В ситуациях , когда участники прибывают последовательно, особенно онлайн полевых экспериментов с использованием информации для предварительной обработки в стадии проектирования может быть трудным логистически, смотри, например , Xie and Aurisset (2016) .

Стоит добавить немного интуиции о том, почему разница в разностей может быть гораздо более эффективным, чем разница-в-средств. Многие онлайн результаты имеют очень высокую дисперсию (смотри , например, Lewis and Rao (2015) и Lamb et al. (2015) и Lamb et al. (2015) ) и являются относительно стабильными в течение долгого времени. В этом случае оценка изменения будут иметь существенно меньшую дисперсию, увеличивая мощность статистического теста. Одной из причин этого подошел не используется чаще, является то, что до цифрового века не было распространено иметь результаты предварительной обработки. Более конкретный способ думать об этом, чтобы представить себе эксперимент по измерению, вызывает ли конкретная процедура упражнения потеря веса. Если вы делаете подход разница-в-средств, ваша оценка будет иметь изменчивость, которая исходит от изменчивости веса в популяции. Если вы делаете подход разница-в-разницы, однако, что в природе изменение веса получает удалены, и вы можете легко определить разницу, вызванную лечением.

Одним из важных способов , чтобы уменьшить число участников , участвующих в эксперименте , является проведение анализа мощности, что Крамер и его коллеги могли бы сделать на основании размеров эффекта , наблюдаемого из естественного эксперимента по Coviello et al. (2014) или более ранних версий не-экспериментальное исследование Крамера (2012) (на самом деле эти мероприятия в конце этой главы). Обратите внимание на то, что такое использование анализа мощности немного отличается от типичной. В аналоговом возрасте, как правило, исследователи сделали анализ мощности, чтобы убедиться, что их исследование не было слишком маленьким (т.е. под питанием). Теперь, однако, исследователи должны сделать анализ мощности, чтобы убедиться, что их исследование не является слишком большим (т.е. над питанием).

Наконец, я рассмотрел добавление четвертого R: перепрофилировать. То есть, если исследователи находят себя с более опытными данными, чем они должны обратиться к их первоначальный вопрос исследования, они должны переориентировать данные задавать новые вопросы. Например, представьте, что Крамер и его коллеги использовали Разностно-в-различиях оценщик и оказались с большим количеством данных, чем это необходимо для решения их вопроса исследования. Вместо того, чтобы не использовать эти данные в полной мере, они могли бы изучали размер эффекта как функция предварительной обработке эмоционального выражения. Так же , как Schultz et al. (2007) и Schultz et al. (2007) обнаружили , что эффект лечения была различной для легких и тяжелых пользователей, возможно , последствия Лента новостей отличались для людей , которые уже имели тенденцию оставлять счастливые (или печальные) сообщения. Repurposing может привести к "рыбалка" (Humphreys, Sierra, and Windt 2013) и "р-взлом" (Simmons, Nelson, and Simonsohn 2011) , но они в значительной степени адресный с комбинацией честной отчетности (Simmons, Nelson, and Simonsohn 2011) , предварительная регистрация (Humphreys, Sierra, and Windt 2013) , а также методы машинного обучения , которые пытаются избежать чрезмерной подгонки.