Термін дії відноситься до того , скільки результати експерименту підтримують більш загальний висновок.
Жоден експеримент не є досконалим, і дослідники розробили широкий словник для опису можливих проблем. Дієвість відноситься до того, наскільки результатами певного експерименту є якийсь більш загальний висновок. Соціологи виявили корисним розбити дієвість на чотири основні типи: дійсність статистичного висновку, внутрішня дійсність, конструктивна дійсність та зовнішня дійсність (Shadish, Cook, and Campbell 2001, chap. 2) . Освоєння цих концепцій дасть вам ментальний контрольний список для критики та вдосконалення дизайну та аналізу експерименту, і це допоможе вам спілкуватися з іншими дослідниками.
Статистичний висновок полягає в тому, чи правильно було здійснено статистичний аналіз експерименту. У контексті Schultz et al. (2007) , таке питання може зосереджуватись на тому, чи правильно вони обчислюють їх \(p\) -значення. Статистичні принципи, необхідні для розробки та аналізу експериментів, виходять за рамки цієї книги, але вони не змінилися в епоху цифрового століття. Проте, що змінилося, полягає в тому, що середовище даних у цифрових експериментах створило нові можливості, такі як використання методів машинного навчання для оцінки неоднорідності ефектів лікування (Imai and Ratkovic 2013) .
Внутрішня межа дії полягає в тому, чи правильно виконано експериментальні процедури. Повернення до експерименту Schultz et al. (2007) , питання про внутрішню дієвість можуть зосереджуватися навколо рандомізації, надання лікування та вимірювання результатів. Наприклад, ви можете бути стурбовані тим, що асистенти дослідників надійно не читали електролічильники. Справді, Шульц та його колеги були стурбовані цією проблемою, і вони мали зразок лічильників, прочитаних двічі; на щастя, результати були по суті однаковими. Загалом, експеримент Шульца та його колег, як видається, має високу внутрішню дієвість, але це не завжди так: складні польові та он-лайнові експерименти часто виникають із проблем, які фактично забезпечують правильне ставлення до потрібних людей та вимірювання результатів для кожного. На щастя, цифровий вік може допомогти зменшити стурбованість внутрішньою дієвістю, тому що зараз легше забезпечити доставку лікування тим, хто його має прийняти, і оцінити результати для всіх учасників.
Побудова обгрунтованості центрів навколо матчу між даними та теоретичними конструкціями. Як обговорюється у главі 2, конструкції є абстрактними поняттями, про які говорять соціологи. На жаль, ці абстрактні поняття не завжди мають чітких визначень та вимірювань. Повернення до Schultz et al. (2007) стверджує, що заборона на соціальні норми може зменшити споживання електроенергії, тому дослідники повинні розробляти методи лікування, що маніпулюють "забороненими соціальними нормами" (наприклад, емоційкою) та вимірювати "споживання електроенергії". У аналогових експериментах багато дослідників розробили власне лікування та оцінили свої результати. Цей підхід гарантує, що, наскільки це можливо, експерименти співпадають з вивченими абстрактними конструкціями. У цифрових експериментах, де дослідники співпрацюють з компаніями чи урядами для надання лікування та використання постійно діючих систем даних для вимірювання результатів, співвідношення між експериментом та теоретичними побудовами може бути менш жорстким. Таким чином, я очікую, що дійсність конструкції, як правило, є більшою проблемою в цифрових експериментах, ніж в аналогових експериментах.
Нарешті, зовнішня межа дії полягає в тому, чи можуть результати цього експерименту бути узагальнені на інші ситуації. Повернення до Schultz et al. (2007) , можна було б поцікавитись, чи дають ті самі ідеї, що надають людям інформацію про їх споживання енергії у стосунках зі своїми однолітками, та сигналу про заборонні норми (наприклад, смайлик) - зменшить споживання енергії, якщо це було зроблено іншим чином в іншому оточенні. Для найбільш добре розроблених і добре провідних експериментів найчастіше можна звернути увагу на зовнішню дійсність. У минулому ці дебати про зовнішню дієвість часто включали не більше, ніж групу людей, що сидять в кімнаті, намагаючись уявити, що сталося б, якщо б процедури були зроблені по-іншому, або в іншому місці, або з різними учасниками . На щастя, цифрова епоха дає змогу дослідникам виходити за рамки цих бездокументарних спекуляцій та оцінити зовнішню дійсність емпірично.
Оскільки результати Schultz et al. (2007) були настільки захоплюючими, що компанія Opower співпрацювала з комунальними підприємствами США, щоб розгорнути це лікування більш широко. Виходячи з дизайну Schultz et al. (2007) , Opower створив індивідуальні звіти про домашню енергію, що мали два основних модулі: один з яких показує використання електроенергії у домогосподарстві щодо своїх сусідів за допомогою смайлика та надання порад щодо зниження енергоспоживання (рис 4.6). Потім, спільно з дослідниками, Opower запустив рандомізовані контрольні експерименти, щоб оцінити вплив цих звітів про домашню енергію. Незважаючи на те, що лікування в цих експериментах, як правило, здійснювалося фізично, як правило, через старомодне пошкодження потоку - результат вимірювався цифровими пристроями у фізичному світі (наприклад, лічильники електроенергії). Крім того, замість того, щоб вручну збирати цю інформацію з асистентів-дослідників, які відвідують кожен будинок, експерименти Opower були зроблені у партнерстві з енергетичними компаніями, що дозволило дослідникам отримати доступ до енергетичних показань. Таким чином, ці частково цифрові польові експерименти були запущені у масовому масштабі за низьких змінних витрат.
У першому наборі експериментів із 600 000 домогосподарств з 10 різних сайтів, Allcott (2011) виявив, що Звіт про домашній енергоресурс знизив споживання електроенергії. Іншими словами, результати набагато більшого, більш географічно різноманітного дослідження були якісно подібні до результатів Schultz et al. (2007) . Крім того, у подальших дослідженнях, у яких взяли участь вісім мільйонів додаткових домогосподарств з 101 різних сайтів, Allcott (2015) знову встановив, що Доповідь Home Energy постійно знижує споживання електроенергії. Цей набагато більший набір експериментів також виявив цікавий новий шаблон, який не був би видимим в жодному окремому експерименті: розмір ефекту знизився в пізніших експериментах (рис 4.7). Allcott (2015) припустив, що це зниження відбулося через те, що з часом лікування застосовувалося до різних типів учасників. Більш конкретно, комунальні послуги з більш екологічно орієнтованими клієнтами, швидше за все, приймають програму раніше, і їх клієнти більш чуйно реагують на лікування. Оскільки комунальні послуги з менш екологічно орієнтованими клієнтами прийняли програму, її ефективність виявилася неефективною. Таким чином, подібно до того, як рандомізація в експериментах гарантує, що лікування та контрольна група подібні, рандомізація в сайтах досліджень гарантує, що оцінки можна узагальнити від однієї групи учасників до більш загальної версії населення (див. Розділ 3 про вибірку). Якщо дослідницькі сайти не відбираються випадковим чином, то узагальнення навіть від ідеально розробленого та проведеного експерименту може бути проблематичним.
Разом ці 111 експериментів-10 у Allcott (2011) та 101 в Allcott (2015) залучили близько 8,5 мільйонів домогосподарств із усього Сполучених Штатів. Вони послідовно показують, що Home Energy Reports знижують середнє споживання електроенергії, в результаті чого підтримуються оригінальні висновки Шульца та його колег із 300 будинків у Каліфорнії. Окрім простого відтворення цих оригінальних результатів, подальші експерименти також показують, що розмір ефекту залежить від місця розташування. Цей набір експериментів також ілюструє ще два загальні моменти щодо частково цифрових польових експериментів. По-перше, дослідники зможуть емпірично вирішувати питання про зовнішню дієвість, коли вартість експериментів експериментів невелика, і це може статися, якщо результат вже вимірюється системою постійних даних. Тому він пропонує, щоб дослідники мали спостерігати за іншими цікавими та важливими способами поведінки, які вже реєструються, а потім розробляти експерименти на вершині цієї існуючої вимірювальної інфраструктури. По-друге, цей набір експериментів нагадує нам, що експерименти з цифровими полями не просто в Інтернеті; все частіше я сподіваюсь, що вони будуть скрізь з багатьма результатами, виміряними датчиками у вбудованому середовищі.
Чотири типи справедливості-статистичного обґрунтування, внутрішньої дійсності, дійсності конструкції та зовнішньої дійсності - надають психологічний контрольний список, щоб допомогти дослідникам оцінити, чи результати певного експерименту підтримують більш загальний висновок. У порівнянні з експериментами аналогового віку, в експериментах у цифровому віці має бути простіше розглядати емпіричну зовнішню дієвість, а також легше забезпечити внутрішню дієвість. З іншого боку, проблеми конструктивної обґрунтованості, ймовірно, будуть більш складними в експериментах в цифровому віці, особливо в цифрових польових експериментах, які передбачають партнерські відносини з компаніями.