Срок действия относится к тому , сколько результаты эксперимента поддерживают более общий вывод.
Ни один эксперимент не является совершенным, и исследователи разработали обширный словарь для описания возможных проблем. Валидность относится к тому, насколько результаты конкретного эксперимента подтверждают более общий вывод. Социологи сочли полезным расколоть действительность на четыре основных типа: достоверность статистического заключения, внутренняя валидность, достоверность конструкции и внешняя достоверность (Shadish, Cook, and Campbell 2001, chap. 2) . Освоение этих концепций даст вам ментальный контрольный список для критики и улучшения дизайна и анализа эксперимента, и это поможет вам общаться с другими исследователями.
Статистическая достоверность результатов основана на правильном ли статистическом анализе эксперимента. В контексте Schultz et al. (2007) , такой вопрос может сосредоточиться на том, правильно ли они вычислили свои \(p\) -значения. Статистические принципы, необходимые для разработки и анализа экспериментов, выходят за рамки этой книги, но они не коренным образом изменились в эпоху цифровых технологий. Однако изменилось, что среда данных в цифровых экспериментах создала новые возможности, такие как использование методов машинного обучения для оценки гетерогенности лечебных эффектов (Imai and Ratkovic 2013) .
Внутренняя достоверность сосредотачивается на правильности выполнения экспериментальных процедур. Возвращаясь к эксперименту Schultz et al. (2007) , вопросы о внутренней достоверности могли бы сосредоточиться на рандомизации, доставке лечения и измерении результатов. Например, вы можете быть обеспокоены тем, что ассистенты не надежно считывали электрические счетчики. Фактически, Шульц и его коллеги были обеспокоены этой проблемой, и у них был образец счетчиков, читаемых дважды; к счастью, результаты были практически идентичны. В общем, эксперимент Шульца и его коллег, как представляется, имеет высокую внутреннюю достоверность, но это не всегда так: сложные полевые и онлайн-эксперименты часто сталкиваются с проблемами, которые фактически обеспечивают правильное лечение нужным людям и оценивают результаты для всех. К счастью, цифровой возраст может помочь уменьшить обеспокоенность по поводу внутренней действительности, поскольку теперь легче обеспечить, чтобы лечение доставлялось тем, кто должен его получать, и оценивать результаты для всех участников.
Постройте центры достоверности вокруг соответствия между данными и теоретическими конструкциями. Как обсуждалось в главе 2, конструкции являются абстрактными понятиями, о которых рассуждают социологи. К сожалению, эти абстрактные понятия не всегда имеют четкие определения и измерения. Возвращаясь к Schultz et al. (2007) , утверждение о том, что запретительные социальные нормы могут снизить потребление электроэнергии, требует от исследователей разработки процедуры, которая будет манипулировать «запретительными социальными нормами» (например, смайлик) и измерять «использование электричества». В аналоговых экспериментах многие исследователи разработали собственные методы лечения и измерили собственные результаты. Такой подход гарантирует, что, насколько это возможно, эксперименты соответствуют изучаемым абстрактным конструкциям. В цифровых экспериментах, где исследователи сотрудничают с компаниями или правительствами для проведения лечения и использования систем данных с постоянными данными для оценки результатов, совпадение между экспериментом и теоретическими конструкциями может быть менее жестким. Таким образом, я ожидаю, что конструктивная валидность будет иметь большее значение в цифровых экспериментах, чем в аналоговых экспериментах.
Наконец, внешняя достоверность сосредотачивается вокруг того, можно ли обобщить результаты этого эксперимента в других ситуациях. Возвращаясь к Schultz et al. (2007) , можно было бы спросить, может ли эта же идея предоставить людям информацию об их использовании энергии в отношении своих сверстников и сигнал запретительных норм (например, смайлик) - уменьшить потребление энергии, если бы это было сделано по-другому в другой обстановке. Для большинства хорошо продуманных и опытных экспериментов наиболее опасными являются проблемы с внешней валидностью. Раньше в этих дискуссиях о внешней действительности часто присутствовало не что иное, как группа людей, сидевших в комнате, пытаясь представить, что произошло бы, если бы процедуры были выполнены по-другому или в другом месте или с разными участниками , К счастью, цифровая эпоха позволяет исследователям выйти за рамки этих беспредметных спекуляций и эмпирически оценить внешнюю достоверность.
Поскольку результаты Schultz et al. (2007) были настолько захватывающими, что компания, названная Opower, сотрудничала с коммунальными предприятиями в Соединенных Штатах, чтобы развернуть лечение более широко. Основываясь на конструкции Schultz et al. (2007) , Оповер создал индивидуальные отчеты по домашней энергии, в которых было два основных модуля: один показывал потребление электроэнергии домохозяйством по отношению к своим соседям с помощью смайлика и один способ советов по снижению потребления энергии (рисунок 4.6). Затем, в сотрудничестве с исследователями, Оповер проводила рандомизированные контролируемые эксперименты для оценки воздействия этих Докладов о домашней энергии. Несмотря на то, что лечение в этих экспериментах обычно доставлялось физически - обычно через старомодную уличную почту - результат измерялся с использованием цифровых устройств в физическом мире (например, измерителей мощности). Кроме того, вместо того, чтобы вручную собирать эту информацию с помощью ассистентов-исследователей, посещающих каждый дом, эксперименты Оповера проводились в сотрудничестве с энергетическими компаниями, позволяющими исследователям получать доступ к показаниям мощности. Таким образом, эти частично цифровые полевые эксперименты проводились в массовом масштабе при низкой переменной стоимости.
В первом наборе экспериментов с участием 600 000 домашних хозяйств из 10 различных сайтов Allcott (2011) обнаружил, что Home Energy Report снизил потребление электроэнергии. Другими словами, результаты гораздо большего, более географически разнообразного исследования были качественно подобны результатам Schultz et al. (2007) . Кроме того, в последующих исследованиях, в которых участвовало восемь миллионов дополнительных домашних хозяйств из 101 различных сайтов, Allcott (2015) снова обнаружил, что в отчете о домашней энергии последовательно снижается потребление электроэнергии. Этот гораздо больший набор экспериментов также показал интересный новый шаблон, который не был бы виден ни в одном эксперименте: размер эффекта уменьшился в последующих экспериментах (рисунок 4.7). Allcott (2015) предположил, что это снижение произошло, потому что со временем лечение применялось к различным типам участников. Более конкретно, коммунальные услуги с более экологически ориентированными клиентами, скорее всего, приняли программу раньше, и их клиенты более восприимчивы к лечению. Поскольку утилиты с менее ориентированными на окружающую среду клиентами приняли программу, ее эффективность, похоже, снизилась. Таким образом, так же, как рандомизация в экспериментах гарантирует, что группа лечения и контроля одинакова, рандомизация на исследовательских участках гарантирует, что оценки могут быть обобщены от одной группы участников к более общей популяции (вспомните главу 3 о выборке). Если исследовательские сайты не будут выборочно выборочно, то обобщение - даже из прекрасно спроектированного и проведенного эксперимента - может быть проблематичным.
Вместе эти 111 экспериментов -10 в Allcott (2011) и 101 в Allcott (2015) приняли около 8,5 миллионов домашних хозяйств со всех концов Соединенных Штатов. Они постоянно показывают, что Home Energy Reports сокращает среднее потребление электроэнергии, что подтверждает исходные выводы Шульца и коллег из 300 домов в Калифорнии. Помимо просто повторения этих исходных результатов, последующие эксперименты также показывают, что размер эффекта зависит от местоположения. Этот набор экспериментов также иллюстрирует еще две общие точки относительно частично цифровых полевых экспериментов. Во-первых, исследователи смогут эмпирически решить проблемы внешней действительности, когда затраты на проведение экспериментов низки, и это может произойти, если результат уже измеряется постоянной системой данных. Поэтому, это предполагает, что исследователи должны следить за другими интересными и важными поведением, которые уже записаны, а затем проектировать эксперименты поверх этой существующей измерительной инфраструктуры. Во-вторых, этот набор экспериментов напоминает нам о том, что цифровые полевые эксперименты не только в режиме онлайн; все чаще я ожидаю, что они будут повсеместно с множеством результатов, измеренных датчиками в построенной среде.
Четыре типа достоверности - достоверность статистического заключения, внутренняя валидность, достоверность конструкции и внешняя достоверность - представляют собой контрольный список умений, чтобы помочь исследователям оценить, поддерживает ли результаты конкретного эксперимента более общий вывод. По сравнению с аналогово-возрастными экспериментами, в экспериментах с цифровым возрастом, эмпирически должно быть проще обращаться к внешней действительности, и также должно быть проще обеспечить внутреннюю достоверность. С другой стороны, вопросы построения достоверности, вероятно, будут более сложными в экспериментах в цифровом возрасте, особенно в цифровых полевых экспериментах, которые предполагают партнерские отношения с компаниями.