мероприятия

Условные обозначения:

  • Степень сложности: легкий легко , средний средний , жесткий жесткий , очень сложно очень сложно
  • требует математику ( требует математику )
  • требует кодирования ( требует кодирования )
  • Сбор данных ( Сбор данных )
  • мои любимые ( мой любимый )
  1. [ средний , Сбор данных ] Беринского и его коллеги (2012) оценивает Механический турок частично тиражирование три классических экспериментов. Репликация классический азиатский эксперимент по болезни кадрирования Tversky and Kahneman (1981) . Сделайте ваши результаты матча Тверски и Канеман-х? Сделайте ваши результаты матча Беринского и его коллеги? Что-нибудь, если-это учит нас об использовании Mechanical Turk для экспериментов обследования?

  2. [ средний , мой любимый ] В статье несколько неискренний под названием "Мы должны Break Up," социальный психолог Роберт Чалдини, один из авторов Schultz et al. (2007) и Schultz et al. (2007) , писал , что он уходит в отставку рано от его работы в качестве профессора, отчасти из - за проблем , с которыми он столкнулся делать полевые эксперименты в дисциплине (психологии) , которые в основном проводит лабораторные эксперименты (Cialdini 2009) . Прочитайте статью Чалдини, и написать ему письмо, призывающее его пересмотреть свою ломку в свете возможностей цифровых экспериментов. Используйте конкретные примеры исследований, которые решить свои проблемы.

  3. [ средний ] Для того , чтобы определить , является ли блокировка в небольшие первоначальные успехи или неувядаемому, ван де Rijt и и его коллеги (2014) вмешалась в четырех различных систем даруя успех на случайно выбранных участников, а затем измерили долгосрочные последствия этого произвольного успеха. Вы можете думать о других системах, в которых вы могли бы провести подобные эксперименты? Оценить эти системы с точки зрения вопросов научной ценности, алгоритмическое вмешивающимся (смотрите Главу 2) и этики.

  4. [ средний , Сбор данных ] Результаты эксперимента могут зависеть от участников. Создание эксперимента, а затем запустить его на Amazon Механический турок (MTurk) с использованием двух различных стратегий найма. Попробуйте выбрать стратегии эксперимента и найма на работу , так что результаты будут столь же различны , насколько это возможно. Например, ваши стратегии по набору персонала могут быть набирать участников утром и вечером или возмещать участникам с высокой и низкой заработной платой. Такого рода различия в стратегии набора персонала могут привести к различным пулы участников и различных экспериментальных результатов. Насколько отличается ли ваши результаты получаются? Что означает, что говорит нам о проведении экспериментов на MTurk?

  5. [ очень сложно , требует математику , требует кодирования , мой любимый ] Представьте , что вы планировали Эмоциональное исследование заразы (Kramer, Guillory, and Hancock 2014) . Используйте результаты из более ранних наблюдений исследования Kramer (2012) , чтобы решить , количество участников в каждом состоянии. Эти два исследования не идеально соответствуют друг другу, поэтому обязательно явно перечислить все предположения, что вы делаете:

    1. Запуск моделирования , который будет решать , сколько участников было бы необходимо , чтобы обнаружить эффект столь же большой как эффект в Kramer (2012) с \ (\ альфа = 0,05 \) и \ (1 - \ бета = 0,8 \).
    2. Сделайте то же самое вычисление аналитически.
    3. С учетом результатов от Kramer (2012) был Эмоциональная Contagion (Kramer, Guillory, and Hancock 2014) над двигателем (т.е. имело ли оно больше участников , чем это необходимо)?
    4. Из предположений, которые вы сделали, которые имеют наибольшее влияние на ваши подсчеты?
  6. [ очень сложно , требует математику , требует кодирования , мой любимый ] Ответьте на вопрос выше, но вместо того , чтобы использовать ранее наблюдательное исследование по Kramer (2012) использовать результаты из более раннего естественного эксперимента Coviello et al. (2014) и Coviello et al. (2014) .

  7. [ легко ] Оба Rijt et al. (2014) и Rijt et al. (2014) и Margetts et al. (2011) и Margetts et al. (2011) и проводить эксперименты , которые изучают процесс людей , подписавшись петицию. Сравните и дизайн и результаты этих исследований.

  8. [ легко ] Dwyer, Maki, and Rothman (2015) провели два полевых экспериментов по взаимосвязи между социальными нормами и proenvironmental поведения. Вот тезисы своей статьи:

    "Как может психологическая наука использоваться, чтобы поощрить proenvironmental поведение? В двух исследованиях, мероприятия, направленные на поощрение поведения по сохранению энергии в общественных ванных исследовали влияние описательных норм и личной ответственности. В исследовании 1, индикатор состояния (т.е., включен или выключен) манипулировали, прежде чем кто-то вошел незанятый общественную ванную комнату, сигнализируя описательную норму для этого параметра. Участники были значительно более вероятно, включить свет, если бы они были выключены, когда они вошли. В исследовании 2, дополнительное условие было включено в котором норма выключая свет был продемонстрирован сообщником, но участники сами не были ответственны за превращение его. Персональная ответственность модерируется влияние социальных норм на поведение; когда участники не были ответственны за зажигая света, влияние нормы уменьшалась. Эти результаты указывают на то, как описательный нормы и личная ответственность может регулировать эффективность proenvironmental вмешательства ".

    Прочитайте их документ и разработать репликацию исследования 1.

  9. [ средний , Сбор данных ] Опираясь на предыдущий вопрос, в настоящее время проводят свой дизайн.

    1. Как результаты сравнить?
    2. Чем можно объяснить эти различия?
  10. [ средний ] Там было значительное дебаты по поводу экспериментов с использованием участников, набранных из Amazon Механический турок. Параллельно с этим, наблюдается также существенная дискуссия об экспериментах с использованием участников, набранных из студентов популяций студентов. Написать две страницы памятки сравнения и противопоставления в Turkers и студентов старших курсов в качестве участников исследователей. Ваше сравнение должно включать обсуждение научных и технических вопросов.

  11. [ легко Книга] Джима MANZI в Неконтролируемый (2012) является прекрасным введением во власть экспериментов в бизнесе. В книге он передал эту историю:

    "Я был когда-то на встрече с истинным бизнес-гения, самодельный миллиардер который имел глубокое, интуитивное занижение мощности экспериментов. Его компания потратила значительные ресурсы, пытаясь создать большое магазин витрин, которые привлекут потребителей и рост продаж, так как здравый смысл говорит, что они должны. Специалисты тщательно тестируются дизайн после разработки, так и в отдельных сессий тест по рассмотрению в течение определенного периода лет держали не показывая никаких существенных причинно-следственное влияние каждого нового дизайна дисплея по продажам. Старший маркетинг и мерчендайзинг руководители встретились с генеральным директором, чтобы рассмотреть эти исторические результаты испытаний в Toto. После представления всех экспериментальных данных, они пришли к выводу, что традиционная мудрость была неправильно, что окно отображает не увеличить объем продаж. Рекомендуется Их действие заключается в сокращении затрат и усилий в этой области. Это резко продемонстрировали способность экспериментов опрокинуть общепринятой точке зрения. Ответ генерального директора был прост: "Мой вывод заключается в том, что ваши дизайнеры не очень хорошо." Его решение было увеличение усилий в области дизайна магазина дисплея, а также, чтобы получить новых людей , чтобы сделать это. " (Manzi 2012, 158–9)

    Какой тип действительности является забота директора?

  12. [ легко ] Опираясь на предыдущий вопрос, представьте, что вы были на встрече, где обсуждались результаты экспериментов. Какие четыре вопроса, которые вы могли бы спросить, по одному для каждого типа действия (статистический, построения, внутреннего и внешнего)?

  13. [ легко ] Bernedo, Ferraro, and Price (2014) изучает семилетний эффект вмешательства водосбережения , описанной в Ferraro, Miranda, and Price (2011) (см Рисунок 4.10). В этой статье, Bernedo и его коллеги также пытаются понять механизм за эффекта, сравнивая поведение домохозяйств, имеющих и не сдвинулись после лечения был доставлен. То есть, грубо говоря, они пытаются увидеть влияние ли лечение дома или домовладельца.

    1. Прочитайте статью, описать их конструкцию, и суммировать свои выводы. б) повлиять ли их выводы, как вы должны оценить экономическую эффективность подобных мероприятий? Если да, то почему? Если нет, то почему бы и нет?
  14. [ легко ] В последующей деятельности по итогам Schultz et al. (2007) и Schultz et al. (2007) , Шульц и его коллеги выполняют серию из трех экспериментов по влиянию описательных и Обеспечительная норм на другом экологического поведения (повторное использование полотенец) в двух контекстах (гостиница и таймшер кондоминиума) (Schultz, Khazian, and Zaleski 2008) ,

    1. Обобщить дизайн и выводы этих трех экспериментов.
    2. Как, если вообще, они изменить интерпретацию Schultz et al. (2007) и Schultz et al. (2007) ?
  15. [ легко ] В ответ на Schultz et al. (2007) и Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) провели серию лабораторных подобных экспериментов по изучению конструкции электрических счетов. Вот как они описывают его абстрактно:

    "В эксперименте на основе обследования, каждый участник увидел гипотетический счет на электроэнергию для семьи с относительно высоким использованием электроэнергии, охватывающая информацию о (а) исторического использования, (б) сравнение с соседями, и (в) историческое использование с разбивкой прибора. Участники увидели все типы информации в одном из трех форматов, включая (а) таблиц, (б) гистограммой, и (с) значок графики. Мы сообщаем о трех основных выводах. Во-первых, потребители поняли каждый тип информации электричества используют больше всего, когда он был представлен в таблице, возможно, потому что таблицы облегчают простое чтение точки. Во-вторых, предпочтения и намерения, чтобы экономить электроэнергию были самыми сильными за исторической использованием информации, независимо от формата. В-третьих, люди с более низкой энергетической грамотности понимали всю информацию меньше ".

    В отличие от других последующих исследований, основным результатом интереса к Canfield, Bruin, and Wong-Parodi (2016) сообщается поведение не реальное поведение. Каковы сильные и слабые стороны такого рода исследований в более широкой исследовательской программы, способствующей экономии энергии?

  16. [ средний , мой любимый ] Smith and Pell (2003) сатирическое мета-анализ исследований , демонстрирующих эффективность парашютами. Они пришли к выводу:

    "Как и многие мероприятия направлены на предотвращение плохого состояния здоровья, эффективность парашютами не была подвергнута тщательной оценки с помощью рандомизированных контролируемых испытаний. Сторонники доказательной медицины, основанной критиковали принятие мер, оцененных с использованием только данных наблюдений. Мы считаем, что каждый может принести пользу, если самые радикальные главные герои доказательной медицины, основанной организовал и участвовал в двойном слепом, контролируемое рандомизированное, плацебо, перекрестное исследование парашюта ".

    Написать обзорных подходящий для общей читательской аудитории газеты, такие как The New York Times, выступая против фетишизации экспериментальных доказательств. Обеспечить конкретные, конкретные примеры. Подсказка: Смотрите также, Bothwell et al. (2016) и Bothwell et al. (2016) и Deaton (2010)

  17. [ средний , требует кодирования , мой любимый ] Разница в разностей оценках эффекта лечения может быть более точным, чем разница-в-средних оценок. Написать записку инженера, ответственного за тестирование A / B на начальном социальные медиа-компании, объясняющий значение подхода дифференциально-в-различиях для запуска онлайн-эксперимент. Памятка должна включать в себя постановку задачи, некоторую интуицию об условиях, при которых оценщик разность-в-разности будет превосходить оценщик разница-в-среднем и простое исследование моделирования.

  18. [ легко , мой любимый ] Гэри Лавмен был профессором в Гарвардской школе бизнеса, прежде чем стать генеральный директор Harrah, одной из крупнейших компаний казино в мире. Когда он переехал в Harrah 's, Лавмен превратил компанию с часто летчиком подобные программы лояльности, которые собраны огромные объемы данных о поведении клиента. Помимо этого всегда на измерительной системе, компания начала проведения экспериментов. Например, они могли бы провести эксперимент, чтобы оценить влияние купона на бесплатную ночь отель для клиентов с определенным рисунком играя в азартные игры. Вот как Лавмен описал важность экспериментов для повседневных бизнес Харры практики:

    "Это, как вы не притеснять женщин, ты не воруй, и вы должны иметь контрольную группу. Это одна из вещей , которые вы можете потерять свою работу , по крайней Harrah's-не работает контрольная группа. " (Manzi 2012, 146)

    Написать письмо к новому сотруднику, объясняющей, почему Лавмен думает, что это так важно иметь контрольную группу. Вы должны попытаться включить пример-либо реальной или составленную-иллюстрировать вашу точку зрения.

  19. [ жесткий , требует математику ] Новый эксперимент направлен оценить эффект получения текстовых сообщений напоминания о вакцинации против. 150 клиник, каждый из которых с 600 подходящих пациентов, готовы участвовать. Существует фиксированная стоимость 100 долларов за каждую клинику вы хотите работать, и это стоит 1 доллар для каждого текстового сообщения, которое вы хотите отправить. Кроме того, любые клиники, что вы работаете с будет измерять результат (кто-то, получил ли прививку) бесплатно. Предположим, что у вас есть бюджет в размере 1000 долларов.

    1. При каких условиях это может быть лучше сосредоточить свои ресурсы на небольшом количестве клиник и при каких условиях может было бы лучше, чтобы распространить их более широко?
    2. Какие факторы определяют бы наименьший размер эффекта, который вы сможете надежно обнаружить с вашим бюджетом?
    3. Написать записку, объясняющую эти компромиссы потенциальному донору.
  20. [ жесткий , требует математику ] Одна из основных проблем с онлайн-курсов является истощение; многие студенты, которые начинаются курсы в конечном итоге выпадение. Представьте, что вы работаете в онлайн-платформы обучения, а также дизайнер на платформе создал визуальный индикатор, что она думает, что поможет предотвратить студентов отсева курса. Вы хотите, чтобы проверить эффект индикатора выполнения на студентов в большой вычислительной социальных наук конечно. После устранения любых этических проблем, которые могут возникнуть в эксперименте, вы и ваши коллеги получают обеспокоены тем, что курс может не иметь достаточного количества студентов, чтобы надежно обнаруживать эффекты индикатора выполнения. В расчетах ниже вы можете предположить, что половина студентов получит прогресс бар и половина нет. Кроме того, можно предположить, что нет помех. Другими словами, можно предположить, что участники влияют только получили ли они лечение или контроль; они не осуществляют , получили ли другие люди , лечение или контроль (для более формального определения, см Gerber and Green (2012) , гл. 8). Пожалуйста, следить за каких-либо дополнительных предположений, которые вы делаете.

    1. Предположим, что индикатор хода выполнения, как ожидается, увеличить долю студентов, которые заканчивают класс на 1 процентный пункт, каков размер образца, необходимый для надежного определения эффекта?
    2. Предположим, что индикатор хода выполнения, как ожидается, увеличить долю студентов, которые заканчивают класс на 10 процентных пунктов, каков размер образца, необходимый для надежного определения эффекта?
    3. Теперь представьте, что вы запустили эксперимент и студентов, которые закончили все материалы курса приняли итоговый экзамен. Когда вы сравните итоговый экзамен оценки студентов, которые получили прогресс бар для тех, кто не, вы найдете, к своему удивлению, что студенты, которые не получили индикатор прогресса на самом деле забил выше. Означает ли это, что прогресс бар вызвал студентов учиться меньше? Что вы можете узнать из этого исхода данных? (Подсказка: См Gerber and Green (2012) , Ч. 7.)
  21. [ очень сложно , требует кодирования ] В прекрасной бумаге, Lewis and Rao (2015) ярко иллюстрируют фундаментальное статистическое ограничение даже массивных экспериментов. Бумаги, которые первоначально имели провокационное название «О Приконтинентальной невозможности измерения Возврат к рекламе" мерцает, как трудно измерить отдачу от инвестиций в онлайн-рекламы, даже цифровые эксперименты с участием миллионов клиентов. В более общем плане, бумага ясно показывает, что трудно оценить небольшой эффект лечения среди зашумленных данных результатов. Или сказал diffently, бумага показывает , что предполагаемые эффекты лечения будут иметь большие доверительные интервалы , когда воздействие к стандартное отклонение (\ (\ гидроразрыва {\ Delta \ бар {у}} {\ Sigma} \)) отношение мало. Важный общий урок из этой работы является то, что результаты экспериментов с малым отношением ударно-к-стандартное отклонение (например, ROI рекламных кампаний) будут неудовлетворительными. Ваша задача будет состоять в том, чтобы написать заметку к кому-то в отделе маркетинга компании evaluting плановый эксперимент по измерению ROI от рекламной кампании. Ваша записка должна поддерживаться с графиками результатов компьютерного моделирования.

    Вот некоторая информация, которая вам может понадобиться. Все эти числовые значения характерны для реальных экспериментов , представленных в Lewis and Rao (2015) :

    • ROI, ключевой показатель для рекламных кампаний в Интернете, определяется как чистая прибыль от кампании (валовой прибыли от кампании за вычетом стоимости кампании), деленный на стоимость кампании. Например, кампания, которая не имела никакого влияния на продажи будет иметь рентабельность инвестиций -100% и кампанию, в которой прибыль, полученная были равны затратам имели бы ROI 0.

    • средние продажи на одного клиента составляет $ 7 со стандартным отклонением от $ 75.

    • кампания, как ожидается, увеличить объем продаж на $ 0,35 на одного клиента, что соответствует увеличению прибыли в размере $ 0,175 на одного клиента. Другими словами, валовая прибыль составляет 50%.

    • запланированный размер эксперимента составляет 200000 человек, а половина в группе лечения и половина в контрольной группе.

    • стоимость кампании составляет $ 0,14 за каждого участника.

    Написать записку evaluting этот эксперимент. Вы рекомендовали бы запускать этот эксперимент, как планировалось? Если да, то почему? Если нет, то какие изменения вы могли бы порекомендовать?

    Хорошая памятка будет рассматривать этот конкретный случай; лучше памятка будет обобщать из этого случая в одну сторону (например, показать, как изменения решения в зависимости от соотношения ударно-к-стандартное отклонение); и большая памятка представит полностью обобщенный результат.

  22. [ очень сложно , требует математику ] Сделайте то же самое, что и предыдущий вопрос, но вместо моделирования вы должны использовать аналитические результаты.

  23. [ очень сложно , требует математику , требует кодирования ] Сделайте то же самое, что и предыдущий вопрос, но использовать как моделирование и аналитические результаты.

  24. [ очень сложно , требует математику , требует кодирования ] Представьте, что вы написали записку, описанную выше, используя либо моделирование, аналитические результаты, или как-и кто-то из отдела маркетинга рекомендует использовать дифференциально-в-различиях оценщик, а не разница в средствах оценки (см раздел 4.6.2) , Написать новую короткую записку, объясняющую, как 0,4 корреляция между продажами перед экспериментом и продаж после эксперимента изменит ваш вывод.

  25. [ жесткий , требует математику ] Для того, чтобы оценить эффективность нового веб-сервиса карьеры, офис университета карьеры службы провели рандомизированное контрольное исследование среди 10000 студентов, поступающих в свой последний год в школе. Бесплатная подписка с уникальной информацией входа в систему был отправлен через эксклюзивную приглашение по электронной почте 5000 случайно выбранных студентов, в то время как остальные 5000 студентов находятся в контрольной группе и не имеют подписку. Двенадцать месяцев спустя, обследование последующих (без неответов) показывает, что в обоих лечения и контрольных группах, 70% студентов обеспечили полную занятость в выбранной ими области (таблица 4.5). Таким образом, создается впечатление, что веб-сервис не имел никакого эффекта.

    Тем не менее, умный ученый данных в университете немного более внимательно посмотрел на данные и обнаружили, что только 20% студентов в группе лечения когда-либо войти в учетную запись после получения электронного письма. Кроме того, и в некоторой степени удивительно, что среди тех, кто вошли в сайт только 60% обеспечил полную занятость в выбранной ими области, которая была ниже, чем ставка для людей, которые не выполняли вход и ниже, чем скорость для людей в условие контроля (таблица 4.6).

    1. Обеспечить объяснение того, что могло бы произойти.
    2. Какие два способа расчета эффекта лечения в этом эксперименте?
    3. Учитывая этот результат, если карьера службы университета предоставляют эту веб-карьеры сервис для всех студентов? Просто чтобы быть ясно, что это не вопрос с простым ответом.
    4. Что они должны делать дальше?

    Подсказка: Этот вопрос выходит за рамки материала, описанный в этой главе, но рассматриваются вопросы, наиболее часто встречающиеся в экспериментах. Этот тип экспериментального проектирования иногда называют дизайн ободрение , потому что участникам предлагается принять участие в лечении. Эта проблема является примером того , что называется односторонним несоблюдением (см Gerber and Green (2012) , гл. 5)

  26. [ жесткий ] После дальнейшего обследования, выясняется, что Эксперимент, описанный в предыдущем вопросе был еще более сложным. Оказывается, что 10% людей в контрольной группе заплатили за доступ к сервису, и они закончили с уровнем занятости 65% (Таблица 4.7).

    1. Написать письмо суммируя то, что вы думаете, что происходит, и рекомендовать курс действий.

    Подсказка: Этот вопрос выходит за рамки материала, описанный в этой главе, но рассматриваются вопросы, наиболее часто встречающиеся в экспериментах. Эта проблема является примером того , что называется двусторонним несоблюдением (см Gerber and Green (2012) , гл. 6)

Таблица 4.5: Простой вид данных эксперимента карьерных услуг.
группа Размер Уровень занятости
Предоставленный доступ к веб-сайт 5000 70%
Не предоставлен доступ к веб-сайт 5000 70%
Таблица 4.6: Более полное представление о данных эксперимента карьерных услуг.
группа Размер Уровень занятости
Предоставлен доступ к веб-сайт и входа в систему 1000 60%
Предоставлен доступ к веб-сайт и не вошли в систему 4000 85%
Не предоставлен доступ к веб-сайт 5000 70%
Таблица 4.7: Полный вид данных эксперимента карьерных услуг.
группа Размер Уровень занятости
Предоставлен доступ к веб-сайт и входа в систему 1000 60%
Предоставлен доступ к веб-сайт и не вошли в систему 4000 72,5%
Не предоставлен доступ к веб-сайт и заплатил за него 500 65%
Не предоставлен доступ к веб-сайт и не платить за него 4.500 70,56%