[ , ] Беринский и его коллеги (2012) оценили MTurk частично путем тиражирования трех классических экспериментов. Реплицируйте классический эксперимент по кадрированию азиатских болезней, сделанный Tversky and Kahneman (1981) . Согласны ли ваши результаты с Тверским и Канеманом? Соответствуют ли ваши результаты тем Беринским и коллегам? Что - если что-нибудь - это учит нас использованию MTURK для экспериментов по обследованию?
[ , ] В несколько лаконичной бумаге под названием «Мы должны разбить», социальный психолог Роберт Сиалдини, один из авторов Schultz et al. (2007) , писал, что он рано ушел с работы в качестве профессора, отчасти из-за проблем, с которыми он столкнулся в полевых экспериментах в дисциплине (психологии), которая в основном проводит лабораторные эксперименты (Cialdini 2009) . Прочтите статью Сиалдини и напишите ему электронное письмо, в котором он просит его пересмотреть свой распад в свете возможностей цифровых экспериментов. Используйте конкретные примеры исследований, которые касаются его проблем.
[ ] Чтобы определить, блокируют ли небольшие начальные успехи или исчезают, ван де Рейт и его коллеги (2014) вмешались в четыре разные системы, дающие успех случайным образом отобранным участникам, а затем измерили долгосрочные последствия этого произвольного успеха. Можете ли вы подумать о других системах, в которых вы могли бы проводить подобные эксперименты? Оцените эти системы с точки зрения вопросов научной ценности, алгоритмического смешения (см. Главу 2) и этики.
[ , ] Результаты эксперимента могут зависеть от участников. Создайте эксперимент, а затем запустите его на MTurk, используя две различные стратегии набора. Попытайтесь выбрать эксперимент и стратегии найма, чтобы результаты были как можно более разными . Например, ваши стратегии найма могут заключаться в том, чтобы набирать участников утром и вечером или компенсировать участникам высокую и низкую зарплату. Такие различия в стратегии найма могут привести к разным пулам участников и различным экспериментальным результатам. Насколько отличались ваши результаты? Что это говорит о проведении экспериментов на MTURK?
[ , , ] Представьте, что вы планировали эксперимент Emotional Contagion (Kramer, Guillory, and Hancock 2014) . Используйте результаты раннего обсервационного исследования Kramer (2012) чтобы определить количество участников в каждом состоянии. Эти два исследования не соответствуют друг другу, поэтому не забудьте указать все допущения, которые вы делаете:
[ , , ] Ответьте на предыдущий вопрос еще раз, но на этот раз, а не используя ранее проведенное исследование Kramer (2012) , используйте результаты более раннего естественного эксперимента Lorenzo Coviello et al. (2014) .
[ ] Как Margetts et al. (2011) и van de Rijt et al. (2014) провели эксперименты по изучению процесса подписания ходатайства. Сравните и сравните конструкции и результаты этих исследований.
[ ] Dwyer, Maki, and Rothman (2015) провели два полевых эксперимента о взаимосвязи между социальными нормами и про-экологическим поведением. Вот реферат их статьи:
«Как психологическая наука может быть использована для поощрения поведения, связанного с окружающей средой? В двух исследованиях вмешательства, направленные на поощрение поведения в области сохранения энергии в общественных ванных комнатах, изучали влияние описательных норм и личной ответственности. В исследовании 1 состояние света (то есть, включено или выключено) было обработано до того, как кто-то вошел в незанятую общественную ванную комнату, указав описательную норму для этой установки. Участники были значительно более склонны отключать свет, если они были выключены, когда они вошли. В исследовании 2 было включено дополнительное условие, в котором норма отключения света была продемонстрирована конфедератом, но участники сами не отвечали за его включение. Личная ответственность способствовала влиянию социальных норм на поведение; когда участники не отвечали за включение света, влияние нормы уменьшалось. Эти результаты показывают, как описательные нормы и личная ответственность могут регулировать эффективность профилактических вмешательств ».
Прочтите их статью и разработайте репликацию исследования 1.
[ , ] Исходя из предыдущего вопроса, теперь выполняйте свой проект.
[ ] Существовали существенные дискуссии о экспериментах с использованием участников, набранных из MTurk. Параллельно также обсуждались существенные споры об экспериментах с участием участников, набранных из студенческих групп студентов. Напишите двухстраничную записку, сравнивающую и контрастирующую с Туркерами и студентами в качестве участников исследования. Ваше сравнение должно включать обсуждение как научных, так и логистических вопросов.
[ ] Книга Джима Манзи « Неконтролируемая» (2012) - замечательное введение в силу экспериментов в бизнесе. В книге он рассказал следующую историю:
«Я когда-то встречался с настоящим гением бизнеса, самодельным миллиардером, у которого было глубокое, интуитивное понимание мощности экспериментов. Его компания потратила значительные ресурсы, пытаясь создать великолепные витрины магазинов, которые будут привлекать потребителей и увеличивать продажи, поскольку традиционная мудрость говорит, что они должны. Эксперты тщательно тестировали дизайн после проектирования, а в отдельных сеансах проверки тестов в течение ряда лет не показывали существенного причинного эффекта каждого нового дизайна дисплея при продажах. Старшие менеджеры по маркетингу и мерчендайзинга встретились с генеральным директором, чтобы пересмотреть эти исторические результаты испытаний в полном объеме. После представления всех экспериментальных данных они пришли к выводу, что общепринятая мудрость ошибочна - эти окна не управляют продажами. Их рекомендуемые действия заключались в сокращении затрат и усилий в этой области. Это резко продемонстрировало способность экспериментов отменить традиционную мудрость. Ответ генерального директора был прост: «Я пришел к выводу, что ваши дизайнеры не очень хороши». Его решение заключалось в увеличении усилий в дизайне дисплея магазина и привлечении новых людей » (Manzi 2012, 158–9)
Какой тип действия вызывает озабоченность у генерального директора?
[ ] Основываясь на предыдущем вопросе, представьте, что вы были на совещании, на котором обсуждались результаты экспериментов. Какие четыре вопроса вы можете задать - по одному для каждого типа действительности (статистический, конструктивный, внутренний и внешний)?
[ ] Bernedo, Ferraro, and Price (2014) изучили семилетний эффект водосберегающего вмешательства, описанный в Ferraro, Miranda, and Price (2011) (см. Рисунок 4.11). В этой статье Бернедо и его коллеги также стремились понять механизм, лежащий в основе этого эффекта, путем сравнения поведения домохозяйств, которые были и не двигались после того, как лечение было доставлено. То есть, грубо говоря, они пытались выяснить, повлияло ли лечение на дом или домовладельца.
[ ] В последующей работе с Schultz et al. (2007) Шульц и его коллеги провели серию из трех экспериментов по влиянию описательных и запретительных норм на другое поведение окружающей среды (повторное использование полотенца) в двух контекстах (гостиница и кондоминиум с тайм-шер) (Schultz, Khazian, and Zaleski 2008) ,
[ ] В ответ на Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) провели серию лабораторных экспериментов для изучения дизайна электрических счетов. Вот как они описывают это в реферате:
«В эксперименте, проведенном на основе опроса, каждый участник увидел гипотетический счет за электроэнергию для семьи с относительно высоким потреблением электроэнергии, охватывающий информацию о (а) историческом использовании, (б) сравнение с соседями и (в) историческое использование с разбивкой по приборам. Участники увидели все типы информации в одном из трех форматов, включая (a) таблицы, (b) гистограммы и (c) графики значков. Мы сообщаем о трех основных выводах. Во-первых, потребители лучше всего понимали каждый тип информации об использовании электричества, когда он был представлен в таблице, возможно, потому, что таблицы облегчают чтение простых точек. Во-вторых, предпочтения и намерения сэкономить электроэнергию были самыми сильными для информации о историческом использовании, независимо от формата. В-третьих, люди с более низкой энергетической грамотностью поняли всю информацию меньше ».
В отличие от других последующих исследований, основным результатом интереса к Canfield, Bruin, and Wong-Parodi (2016) является поведение, а не фактическое поведение. Каковы сильные и слабые стороны такого типа исследований в более широкой исследовательской программе, способствующей экономии энергии?
[ , ] Smith and Pell (2003) представил сатирический метаанализ исследований, демонстрирующих эффективность парашютов. Они заключили:
«Как и во многих мероприятиях, направленных на предотвращение плохого состояния здоровья, эффективность парашютов не подвергалась строгой оценке с использованием рандомизированных контролируемых испытаний. Сторонники доказательной медицины критиковали принятие мер, оцениваемых с использованием только наблюдательных данных. Мы считаем, что каждый мог бы выиграть, если бы самые радикальные герои доказательной медицины организовали и участвовали в двойном слепом, рандомизированном, плацебо-контролируемом, кроссовом испытании парашюта ».
Напишите опцию, подходящую для общедоступной газеты, например, « Нью-Йорк таймс» , выступая против фетишизации экспериментальных данных. Приведите конкретные конкретные примеры. Подсказка: см. Также Deaton (2010) и Bothwell et al. (2016) .
[ , , ] Оценки различий в различиях лечебного эффекта могут быть более точными, чем оценки с разностью в среднем. Напишите записку инженеру, отвечающему за тестирование A / B в стартовой социальной медиа-компании, объясняющей ценность подхода «разница в различиях» для запуска онлайн-эксперимента. Меморандум должен включать постановку проблемы, некоторую интуицию об условиях, при которых разностная оценка будет превосходить оценку с разницей в среднем и простое симуляционное исследование.
[ , ] Гэри Ловман был профессором Гарвардской школы бизнеса, прежде чем стать генеральным директором Harrah's, одной из крупнейших компаний казино в мире. Когда он перебрался в Harrah's, Loveman превратил компанию в программу лояльности с частыми летчиками, которая собрала огромное количество данных о поведении клиентов. В дополнение к этой постоянно действующей измерительной системе компания начала эксперименты. Например, они могут провести эксперимент, чтобы оценить эффект купона на бесплатную ночь в отеле для клиентов с определенным шаблоном азартных игр. Вот как Loveman описал важность экспериментов для повседневной деловой практики Harrah:
«Как будто вы не издеваетесь над женщинами, вы не воруете, и у вас должна быть контрольная группа. Это одна из тех вещей, которые вы можете потерять для своей работы в Harrah's - не управляя контрольной группой » (Manzi 2012, 146)
Напишите письмо новому сотруднику, объяснив, почему Лавман считает важным иметь контрольную группу. Вы должны попытаться включить пример - реальный или составленный, чтобы проиллюстрировать вашу точку.
[ , ] Новый эксперимент направлен на оценку эффекта приема напоминаний текстовых сообщений о поглощении вакцины. Готов принять участие сто пятьдесят клиник, каждый из которых имеет 600 подходящих пациентов. Существует фиксированная стоимость 100 долларов США для каждой клиники, с которой вы хотите работать, и она стоит 1 доллар за каждое текстовое сообщение, которое вы хотите отправить. Кроме того, любые клиники, с которыми вы работаете, будут оценивать результат (независимо от того, получали ли кто-либо вакцинацию) бесплатно. Предположим, что у вас есть бюджет в 1000 долларов.
[ , ] Основной проблемой онлайн-курсов является истощение: многие учащиеся, которые начинают курсы, заканчивают выбывание. Представьте, что вы работаете на онлайн-платформе обучения, а дизайнер на платформе создал визуальный индикатор прогресса, который, по ее мнению, поможет помешать студентам отказаться от курса. Вы хотите проверить влияние индикатора прогресса на студентов на большом курсе вычислительной социальной науки. После решения любых этических вопросов, которые могут возникнуть в эксперименте, вы и ваши коллеги опасаетесь, что на курсе может не хватить студентов, чтобы надежно обнаружить эффекты индикатора прогресса. В следующих расчетах вы можете предположить, что половина студентов получит индикатор выполнения, а половина - нет. Кроме того, вы можете предположить, что никаких помех нет. Другими словами, вы можете предположить, что на участников влияет только то, получили ли они лечение или контроль; они не влияют на то, получали ли другие люди лечение или контроль (более формальное определение см. в главе 8 « Gerber and Green (2012) ). Следите за любыми дополнительными предположениями, которые вы делаете.
[ , , ] Представьте, что вы работаете в качестве научного сотрудника в технической компании. Кто-то из отдела маркетинга запрашивает вашу помощь в оценке эксперимента, который они планируют, чтобы оценить рентабельность инвестиций (ROI) для новой онлайн-рекламной кампании. ROI определяется как чистая прибыль от кампании, деленная на стоимость кампании. Например, кампания, которая не повлияла бы на продажи, имела бы ROI -100%; кампания, в которой прибыль, равная затратам, была бы равна ROI 0; и кампания, в которой была получена прибыль, была вдвое больше, а стоимость - на 200%.
Перед началом эксперимента отдел маркетинга предоставляет вам следующую информацию, основанную на их более ранних исследованиях (на самом деле эти значения типичны для реальных онлайн-рекламных кампаний, о которых сообщалось в Lewis and Rao (2015) ):
Напишите записку, в которой оценивается этот предлагаемый эксперимент. В вашей записке следует использовать доказательства из создаваемого ими моделирования, и он должен затрагивать две основные проблемы: (1) Вы порекомендовали бы запустить этот эксперимент, как планировалось? Если да, то почему? Если нет, почему бы и нет? Не забудьте четко указать критерии, которые вы используете для принятия этого решения. (2) Какой размер выборки вы бы порекомендовали для этого эксперимента? Опять же, пожалуйста, не забудьте четко указать критерии, которые вы используете для принятия этого решения.
В этом конкретном случае будет рассмотрена хорошая записка; лучшая заметка будет обобщаться из этого случая одним способом (например, показать, как изменяется решение в зависимости от размера эффекта кампании); и замечательная записка представит полностью обобщенный результат. Ваша заметка должна использовать графики, чтобы помочь проиллюстрировать ваши результаты.
Вот два намека. Во-первых, отдел маркетинга мог предоставить вам лишнюю информацию, и они, возможно, не предоставили вам необходимую информацию. Во-вторых, если вы используете R, имейте в виду, что функция rlnorm () не работает так, как ожидают многие люди.
Эта деятельность даст вам опыт анализа мощности, создания симуляций и передачи ваших результатов со словами и графиками. Это должно помочь вам провести анализ мощности для любого эксперимента, а не только эксперименты, предназначенные для оценки ROI. Эта деятельность предполагает, что у вас есть некоторый опыт статистического тестирования и анализа мощности. Если вы не знакомы с анализом мощности, я рекомендую вам прочитать «Power Primer» от Cohen (1992) .
Эта деятельность была вдохновлена прекрасной статьей RA Lewis and Rao (2015) , которая наглядно иллюстрирует фундаментальное статистическое ограничение даже массивных экспериментов. Их статья, которая первоначально имела провокационное название «О невозможности измерения доходности рекламы», показывает, насколько сложно измерять отдачу от инвестиций в онлайн-рекламу даже при проведении цифровых экспериментов с участием миллионов клиентов. В более общем плане RA Lewis and Rao (2015) иллюстрируют фундаментальный статистический факт, который особенно важен для экспериментов с цифровым возрастом: трудно оценить небольшие эффекты лечения среди шумных исходных данных.
[ , ] Сделайте то же, что и в предыдущем вопросе, но вместо симуляции следует использовать аналитические результаты.
[ , , ] Сделайте то же, что и в предыдущем вопросе, но используйте результаты моделирования и аналитики.
[ , , ] Представьте, что вы написали записку, описанную выше, и кто-то из отдела маркетинга предоставляет один кусок новой информации: они ожидают 0,4 корреляции между продажами до и после эксперимента. Как это изменит рекомендации в вашей записке? (Подсказка: см. Раздел 4.6.2 для получения дополнительной информации о разностном методе оценки и оценке разницы в различиях.)
[ , ] Чтобы оценить эффективность новой программы поддержки занятости на базе Интернета, университет провел рандомизированное контрольное исследование среди 10 000 студентов, которые вошли в последний учебный год. Бесплатная подписка с уникальной регистрационной информацией была отправлена через эксклюзивное приглашение по электронной почте 5000 случайным образом выбранным студентам, в то время как остальные 5000 студентов были в контрольной группе и не имели подписки. Двенадцать месяцев спустя последующее обследование (без ответа) показало, что в обеих группах лечения и контроля 70% студентов обеспечивали полный рабочий день в выбранной области (таблица 4.6). Таким образом, казалось, что веб-служба не имела никакого эффекта.
Тем не менее, ученый-ученый из университета изучил данные немного ближе и обнаружил, что только 20% студентов в группе лечения когда-либо вошли в учетную запись после получения электронной почты. Кроме того, и несколько удивительно, что среди тех, кто заходил на сайт, только 60% обеспечили занятость на полный рабочий день в своей выбранной области, что было ниже, чем темп для людей, которые не вошли в систему и не снизили ставку для людей в состоянии управления (таблица 4.7).
Подсказка: этот вопрос выходит за рамки материалов, рассмотренных в этой главе, но затрагивает вопросы, общие в экспериментах. Этот тип экспериментального дизайна иногда называют конструкцией поощрения, потому что участникам предлагается участвовать в лечении. Эта проблема является примером того, что называется односторонним несоответствием (см. Главу 5 Gerber and Green (2012) ).
[ ] После дальнейшего изучения выяснилось, что эксперимент, описанный в предыдущем вопросе, был еще более сложным. Оказалось, что 10% людей в контрольной группе заплатили за доступ к службе, и в итоге они достигли уровня занятости в 65% (таблица 4.8).
Подсказка: этот вопрос выходит за рамки материалов, рассмотренных в этой главе, но затрагивает вопросы, общие в экспериментах. Эта проблема является примером того, что называется двусторонним несоблюдением (см. Главу 6 Gerber and Green (2012) ).
группа | Размер | Уровень занятости |
---|---|---|
Предоставленный доступ к веб-сайту | 5000 | 70% |
Не предоставляется доступ к веб-сайту | 5000 | 70% |
группа | Размер | Уровень занятости |
---|---|---|
Предоставленный доступ к веб-сайту и вход в систему | 1000 | 60% |
Предоставленный доступ к веб-сайту и никогда не вошел в систему | 4000 | 72,5% |
Не предоставляется доступ к веб-сайту | 5000 | 70% |
группа | Размер | Уровень занятости |
---|---|---|
Предоставленный доступ к веб-сайту и вход в систему | 1000 | 60% |
Предоставленный доступ к веб-сайту и никогда не вошел в систему | 4000 | 72,5% |
Не предоставляется доступ к веб-сайту и оплачивается | 500 | 65% |
Не предоставлен доступ к веб-сайту и не оплатил его | +4500 | 70,56% |