Срок действия относится к тому , сколько результаты эксперимента поддерживают более общий вывод.
Ни один эксперимент не является совершенным, и исследователи разработали обширный словарный запас , чтобы описать возможные проблемы. Срок действия относится к степени , в которой результаты конкретного эксперимента поддерживают некоторые более общий вывод. Социальные ученые обнаружили , что полезно разделить действительность на четыре основных типа: статистический вывод достоверности, внутренняя валидность, построить действительность, и внешняя валидность (Shadish, Cook, and Campbell 2001, Ch 2) . Осваивая эти понятия предоставит вам умственную контрольный список для критикуя и совершенствование конструкции и анализ эксперимента, и это поможет вам общаться с другими исследователями.
Статистическая достоверность вывод центров по всему , было ли сделано статистический анализ эксперимента правильно. В контексте Schultz et al. (2007) и Schultz et al. (2007) такой вопрос может концентрироваться на вычисляться ли они их р-значения правильно. Статистический анализ выходит за рамки этой книги, но я могу сказать, что статистические принципы, необходимые для разработки и анализа экспериментов не изменились в эпоху цифровых технологий. Тем не менее, другая среда данных в цифровых экспериментах действительно создает новые статистические возможности (например, с помощью методов машинного обучения для оценки гетерогенность эффектов лечения (Imai and Ratkovic 2013) г. (Higgins, Sävje, and Sekhon 2016) (Imai and Ratkovic 2013) ) и новых вычислительных задач (например, блокирование в массивных экспериментах (Higgins, Sävje, and Sekhon 2016) ).
Внутренняя достоверность центров по всему , были ли выполнены правильно экспериментальные процедуры. Возвращаясь к эксперименту Schultz et al. (2007) и Schultz et al. (2007) , вопросы о внутренней действительности может сосредоточится вокруг рандомизации, доставку лечения и измерение результатов. Например, вы можете быть обеспокоены тем, что научные сотрудники не читали электросчетчики надежно. На самом деле, Шульц и его коллеги были обеспокоены этой проблемой, и они имели образец метров для чтения в два раза; К счастью, результаты были по существу идентичны. В общем, Шульца и эксперимент коллег по-видимому, имеют высокую внутреннюю валидность, но это не всегда так; комплексное поле и онлайн-эксперименты часто сталкиваются с проблемами на самом деле, доставляющих право обращения к нужным людям и измерения результатов для всех. К счастью, цифровой век может помочь уменьшить беспокойство по поводу внутренней действительности, потому что делает его легче гарантировать, что лечение поставляется в виде предназначена для тех, кто должен получить его и измерять результаты для всех участников.
Построить центры валидности вокруг матча между данными и теоретическими конструкциями. Как уже говорилось в главе 2, конструкции представляют собой абстрактные понятия, которые социологи причина о. К сожалению, эти абстрактные понятия, не всегда имеют четкие определения и измерения. Возвращаясь к Schultz et al. (2007) и Schultz et al. (2007) , утверждают , что Обеспечительная социальные нормы могут снизить потребление электроэнергии требует исследователей разработать лечение , которое будет управлять "Обеспечительная социальных норм» (например, смайлик) и измерить "потребление электроэнергии". В аналоговых экспериментах, многие исследователи разработали свои собственные процедуры и измерить свои результаты. Такой подход гарантирует, что, в максимально возможной степени, эксперименты совпадают абстрактные построения изучаются. В цифровых экспериментах, где исследователи партнер с компаниями или правительствами для доставки лечения и использования всегда на системах данных для измерения результатов, матч между экспериментом и теоретических построений может быть менее жесткой. Таким образом, я ожидаю, что конструкция действительность будет, как правило, большее беспокойство в цифровых экспериментах, чем аналоговых экспериментов.
И, наконец, внешняя валидность концентрирует ли результаты этого эксперимента будут обобщать на другие ситуации. Возвращаясь к Schultz et al. (2007) и Schultz et al. (2007) , можно было бы спросить, будет ли это та же самая идея, предоставляя людям информацию об их использовании энергии в связи с их сверстниками и сигнал Обеспечительная норм (например, смайлик) -снижение потребления энергии , если это было сделано по-другому в другой параметр? Для большинства хорошо продуманные и хорошо проводить эксперименты, опасения по поводу внешней действительности труднее всего обратиться. В прошлом эти дебаты о внешней действительности часто были просто куча людей сидит в комнате, пытаясь представить, что произошло бы, если процедуры были сделаны по-другому, или в другом месте, или с разными людьми. К счастью, цифровой век позволяет исследователям выйти за пределы этих спекуляций данных, свободной и оценить внешнюю действительность эмпирически.
Так как результаты Schultz et al. (2007) и Schultz et al. (2007) были настолько захватывающими, компания под названием Оповер партнерстве с коммунальных услуг в Соединенных Штатах , чтобы развернуть лечение более широко. На основе конструкции Schultz et al. (2007) и Schultz et al. (2007) , Оповер создано настроить Home Energy сообщает , что было два основных модуля, один с указанием использования электроэнергии домохозяйства по отношению к своим соседям с смайлика и один обеспечивая советы для снижения потребления энергии (Рисунок 4.6). Затем, в сотрудничестве с исследователями, Оповер бегала рандомизированных контролируемых экспериментов, чтобы оценить воздействие Home Energy Reports. Несмотря на то, что лечение в этих экспериментах, как правило, доставляются физически, как правило, через старомодный обычной почте, результат был измерен с использованием цифровых устройств в физическом мире (например, измерители мощности). Вместо того, чтобы вручную собирать эту информацию с научными сотрудниками, посещающих каждый дом, эксперименты Оповер все они были сделаны в сотрудничестве с энергетическими компаниями, позволяющих исследователям получить доступ к показания мощности. Таким образом, эти эксперименты частично цифровых области проводились в массовом масштабе при низкой стоимости переменной.
В первой серии экспериментов с участием 600000 домохозяйств , обслуживаемых 10 коммунальных предприятий вокруг Соединенных Штатов, Allcott (2011) нашли Energy Report Home снизила потребление электроэнергии на 1,7%. Другими словами, результаты намного большего, более географически разнообразного исследования были качественно сходны с результатами Schultz et al. (2007) и Schultz et al. (2007) . Но, размер эффекта был меньше: в Schultz et al. (2007) и Schultz et al. (2007) домохозяйства в описательной и инъективного условии норм (один с смайликом) сократили потребление электроэнергии на 5%. Точная причина этого различия неизвестна, но Allcott (2011) предположил , что получение рукописные смайлик в рамках исследования под эгидой университета может иметь большее влияние на поведение , чем получение печатного смайлик в рамках массового производства отчета из энергетическая компания.
Кроме того, в последующих исследованиях, Allcott (2015) сообщили о дополнительных 101 экспериментов с участием еще 8 миллионов домохозяйств. В этих экспериментах следующих 101 Энергия Report Home продолжает вызывать людей, чтобы снизить потребление электроэнергии, но последствия были еще меньше. Точная причина этого снижения не известен, но Allcott (2015) предположил , что эффективность доклада , как представляется, сокращается с течением времени , потому что он был на самом деле применяется к различным типам участников. Более конкретно, коммунальные услуги в более эколог областях, более вероятно, принять программу раньше и их клиенты были более отзывчивы к лечению. Как коммунальные услуги с меньшим количеством экологических клиентов приняли программу, ее эффективность по всей видимости снижается. Таким образом, так же, как рандомизация в экспериментах гарантирует, что лечение и контрольной группы похожи, рандомизации в исследовательских центрах гарантирует, что оценки могут быть обобщены из одной группы участников к более общей группы населения (вспомним главу 3 о выборке данных). Если научные сайты не отбираются случайным методом, то обобщения, даже от совершенно разработан и проведен эксперимент, может быть проблематичным.
Вместе эти эксперименты 111-10 в Allcott (2011) и 101 в Allcott (2015) -involved около 8,5 миллионов семей из всех уголков Соединенных Штатов. Они постоянно показывают, что Home Energy Отчеты сократить среднее потребление электроэнергии, результат, который поддерживает оригинальные выводы Шульца и его коллеги из 300 домов в Калифорнии. За просто тиражирование эти первоначальные результаты, последующие эксперименты также показывают, что величина эффекта зависит от местоположения. Этот набор экспериментов иллюстрирует также два более общих моментов, касающихся экспериментов частично цифровых полей. Во-первых, исследователи смогут эмпирическим путем решения проблем, связанных внешней действительности, когда стоимость проведения экспериментов низка, и это может произойти, если результат уже измеряется всегда на данных системы. Таким образом, можно предположить, что исследование должно быть на наблюдении за других интересных и важных поведения, которые уже записаны, а затем эксперименты, на вершине этой существующей измерительной инфраструктуры. Во-вторых, это множество экспериментов напоминает нам о том, что эксперименты цифровые поля не только в режиме онлайн; все больше и больше я ожидаю, что они будут везде с большим количеством результатов измерений с помощью датчиков в искусственной среде.
Четыре типа действия-статистический вывод действительности, внутренней действительности, построить действительность, внешняя валидность, обеспечивают умственную контрольный список, чтобы помочь исследователям оценить ли результаты конкретного эксперимента поддерживают более общий вывод. По сравнению с аналоговыми экспериментов возраста, в цифровых экспериментов возраста должно быть легче решать внешнюю действительность эмпирически и оно должно быть легче обеспечить внутреннюю справедливость. С другой стороны, вопросы валидности, вероятно, будет более сложным в цифровых экспериментах возраста (хотя это было не так с экспериментами Оповер).