Діяльності

Цей переклад був створений за допомогою комп'ютера. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

Діяльності

Умовні позначення:

Ступінь складності: легкий , середній , жорсткий , дуже важкий
вимагає математику ( $вимагає математику$ )
вимагає кодування ( )
збір даних ( )
мої улюблені ( )

[ , ] Берінскій і його колеги (2012) оцінює Механічний турок частково тиражування три класичних експериментів. Реплікація класичний азіатський експеримент через хворобу кадрування Tversky and Kahneman (1981) . Зробіть ваші результати матчу Тверскі і Канеман-х? Зробіть ваші результати матчу Берінскій і його колеги? Що-небудь, якщо-це вчить нас про використання Mechanical Turk для експериментів обстеження?
[ , ] У статті кілька нещирий під назвою "Ми повинні Break Up," соціальний психолог Роберт Чалдіні, один з авторів Schultz et al. (2007) і Schultz et al. (2007) , писав , що він іде у відставку рано від його роботи в якості професора, почасти через - за проблем , з якими він зіткнувся робити польові експерименти в дисципліні (психології) , які в основному проводить лабораторні експерименти (Cialdini 2009) . Прочитайте статтю Чалдіні, і написати йому лист, що закликає його переглянути свою ломку в світлі можливостей цифрових експериментів. Використовуйте конкретні приклади досліджень, які вирішити свої проблеми.
[ ] Для того , щоб визначити , є чи блокування в невеликі початкові успіхи або нев'янучу, ван де Rijt і і його колеги (2014) втрутилася в чотирьох різних систем даруючи успіх на випадково обраних учасників, а потім виміряли довгострокові наслідки цього довільного успіху. Ви можете думати про інших системах, в яких ви могли б провести подібні експерименти? Оцінити ці системи з точки зору питань наукової цінності, алгоритмічне вмешивающимся (дивіться Главу 2) і етики.
[ , ] Результати експерименту можуть залежати від учасників. Створення експерименту, а потім запустити його на Amazon Механічний турок (MTurk) з використанням двох різних стратегій найму. Спробуйте вибрати стратегії експерименту і найму на роботу , так що результати будуть настільки ж різні , наскільки це можливо. Наприклад, ваші стратегії по набору персоналу можуть бути набирати учасників вранці і ввечері або відшкодовувати учасникам з високою і низькою заробітною платою. Такого роду відмінності в стратегії набору персоналу можуть призвести до різних пули учасників і різних експериментальних результатів. Наскільки відрізняється ваші результати виходять? Що означає, що говорить нам про проведення експериментів на MTurk?
[ , $вимагає математику$ , , ] Уявіть , що ви планували Емоційне дослідження зарази (Kramer, Guillory, and Hancock 2014) . Використовуйте результати з більш ранніх спостережень дослідження Kramer (2012) , щоб вирішити , кількість учасників в кожному стані. Ці два дослідження не ідеально відповідають один одному, тому обов'язково явно перерахувати всі припущення, що ви робите:
1. Запуск моделювання , який буде вирішувати , скільки учасників було б необхідно , щоб виявити ефект настільки ж великий як ефект в Kramer (2012) с \ (\ альфа = 0,05 \) і \ (1 - \ бета = 0,8 \).
2. Зробіть те ж саме обчислення аналітично.
3. З урахуванням результатів від Kramer (2012) був Емоційна Contagion (Kramer, Guillory, and Hancock 2014) над двигуном (тобто мала вона більше учасників , ніж це необхідно)?
4. З припущень, які ви зробили, які мають найбільший вплив на ваші підрахунки?
[ , $вимагає математику$ , , ] Дайте відповідь на питання вище, але замість того , щоб використовувати раніше наглядове дослідження по Kramer (2012) використовувати результати з більш раннього природного експерименту Coviello et al. (2014) і Coviello et al. (2014) .
[ ] Обидва Rijt et al. (2014) і Rijt et al. (2014) і Margetts et al. (2011) і Margetts et al. (2011) і проводити експерименти , які вивчають процес людей , підписавшись петицію. Порівняйте і дизайн і результати цих досліджень.
[ ] Dwyer, Maki, and Rothman (2015) провели два польових експериментів з питань взаємодії між соціальними нормами і proenvironmental поведінки. Ось тези своєї статті:

"Як може психологічна наука використовуватися, щоб заохотити proenvironmental поведінку? У двох дослідженнях, заходи, спрямовані на заохочення поведінки щодо збереження енергії в громадських ванних досліджували вплив описових норм і особистої відповідальності. У дослідженні 1, індикатор стану (тобто, включений або вимкнений) маніпулювали, перш ніж хтось увійшов незайнятий громадську ванну кімнату, сигналізуючи описову норму для цього параметра. Учасники були значно більш імовірно, включити світло, якби вони були вимкнені, коли вони увійшли. У дослідженні 2, додаткову умову було включено в якому норма вимикаючи світло був продемонстрований спільником, але учасники самі не були відповідальні за перетворення його. Персональна відповідальність модерується вплив соціальних норм на поведінку; коли учасники були відповідальні за вмикаючи світла, вплив норми зменшувалася. Ці результати вказують на те, як описовий норми і особиста відповідальність може регулювати ефективність proenvironmental втручання ".

Прочитайте їх документ і розробити реплікацію дослідження 1.
[ , ] Спираючись на попереднє запитання, в даний час проводять свій дизайн.
1. Як результати порівняти?
2. Чим можна пояснити ці відмінності?
[ ] Там було значне дебати з приводу експериментів з використанням учасників, набраних з Amazon Механічний турок. Паралельно з цим, спостерігається також суттєва дискусія про експерименти з використанням учасників, набраних зі студентів популяцій студентів. Написати дві сторінки пам'ятки порівняння і протиставлення в Turkers і студентів старших курсів в якості учасників дослідників. Ваше порівняння повинно включати обговорення наукових і технічних питань.
[ Книга] Джима MANZI в Неконтрольований (2012) є прекрасним введенням у владу експериментів в бізнесі. У книзі він передав цю історію:

"Я був колись на зустрічі зі справжнім бізнес-генія, саморобний мільярдер який мав глибоке, інтуїтивне заниження потужності експериментів. Його компанія витратила значні ресурси, намагаючись створити велику магазин вітрин, які привернуть споживачів і зростання продажів, так як здоровий глузд говорить, що вони повинні. Фахівці ретельно тестуються дизайн після розробки, так і в окремих сесій тест з розгляду протягом певного періоду років тримали не показуючи ніяких істотних причинно-слідче вплив кожного нового дизайну дисплея з продажу. Старший маркетинг і мерчендайзинг керівники зустрілися з генеральним директором, щоб розглянути ці історичні результати випробувань в Toto. Після представлення всіх експериментальних даних, вони прийшли до висновку, що традиційна мудрість була неправильно, що вікно відображає не збільшити обсяг продажів. Рекомендується Їх дія полягає в скороченні витрат і зусиль в цій області. Це різко продемонстрували здатність експериментів перекинути із загальноприйнятою точкою зору. Відповідь генерального директора був простий: "Мій висновок полягає в тому, що ваші дизайнери не дуже добре." Його рішення було збільшення зусиль в області дизайну магазина дисплея, а також, щоб отримати нових людей , щоб зробити це. " (Manzi 2012, 158–9)

Який тип дійсності є турбота директора?
[ ] Спираючись на попереднє запитання, уявіть, що ви були на зустрічі, де обговорювалися результати експериментів. Які чотири питання, які ви могли б запитати, по одному для кожного типу дії (статистичний, побудови, внутрішнього і зовнішнього)?
[ ] Bernedo, Ferraro, and Price (2014) вивчає семирічний ефект втручання водозбереження , описаної в Ferraro, Miranda, and Price (2011) (див Малюнок 4.10). У цій статті, Bernedo і його колеги також намагаються зрозуміти механізм за ефекту, порівнюючи поведінку домогосподарств, що мають і не зрушили після лікування був доставлений. Тобто, грубо кажучи, вони намагаються побачити вплив чи лікування вдома або домовласника.
1. Прочитайте статтю, описати їх конструкцію, і підсумовувати свої висновки. б) вплинути чи їх висновки, як ви повинні оцінити економічну ефективність подібних заходів? Якщо так, то чому? Якщо немає, то чому б і ні?
[ ] В подальшій діяльності за підсумками Schultz et al. (2007) і Schultz et al. (2007) , Шульц і його колеги виконують серію з трьох експериментів по впливу описових і Обеспечительная норм на іншому екологічної поведінки (повторне використання рушників) в двох контекстах (готель і таймшер кондомініуму) (Schultz, Khazian, and Zaleski 2008) ,
1. Узагальнити дизайн і висновки цих трьох експериментів.
2. Як, якщо взагалі, вони змінити інтерпретацію Schultz et al. (2007) і Schultz et al. (2007) ?
[ ] У відповідь на Schultz et al. (2007) і Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) провели серію лабораторних подібних експериментів з вивчення конструкції електричних рахунків. Ось як вони описують його абстрактно:

"Під час експерименту на основі обстеження, кожен учасник побачив гіпотетичний рахунок на електроенергію для сім'ї з відносно високим використанням електроенергії, що охоплює інформацію про (а) історичного використання, (б) порівняння з сусідами, і (в) історичне використання з розбивкою приладу. Учасники побачили всі типи інформації в одному з трьох форматів, включаючи (а) таблиць, (б) гистограммой, і (с) значок графіки. Ми повідомляємо про трьох основних висновках. По-перше, споживачі зрозуміли кожен тип інформації електрики використовують найбільше, коли він був представлений в таблиці, можливо, тому що таблиці полегшують просте читання точки. По-друге, переваги і наміри, щоб економити електроенергію були найсильнішими за історичною використанням інформації, незалежно від формату. По-третє, люди з більш низькою енергетичною грамотності розуміли всю інформацію менше ".

В відміну від інших подальших досліджень, основним результатом інтересу до Canfield, Bruin, and Wong-Parodi (2016) повідомляється поведінка не реальну поведінку. Які сильні та слабкі сторони такого роду досліджень в ширшій дослідницької програми, що сприяє економії енергії?
[ , ] Smith and Pell (2003) сатиричне мета-аналіз досліджень , що демонструють ефективність парашутами. Вони прийшли до висновку:

"Як і багато заходи спрямовані на запобігання поганий стан здоров'я, ефективність парашутами була піддана ретельної оцінки за допомогою рандомізованих контрольованих випробувань. Прихильники доказової медицини, заснованої критикували вжиття заходів, оцінених з використанням тільки даних спостережень. Ми вважаємо, що кожен може принести користь, якщо найрадикальніші головні герої доказової медицини, заснованої організував і брав участь в подвійному сліпому, контрольоване рандомізоване, плацебо, перехресне дослідження парашута ".

Написати оглядових відповідний для загальної читацької аудиторії газети, такі як The New York Times, виступаючи проти фетишизації експериментальних доказів. Забезпечити конкретні, конкретні приклади. Підказка: Дивіться також, Bothwell et al. (2016) і Bothwell et al. (2016) і Deaton (2010)
[ , , ] Різниця в різниць оцінках ефекту лікування може бути більш точним, ніж різниця-в-середніх оцінок. Написати записку інженера, відповідального за тестування A / B на початковому соціальні медіа-компанії, яка пояснювала б значення підходу диференційно-в-відмінностях для запуску онлайн-експеримент. Пам'ятка має включати в себе постановку задачі, деяку інтуїцію про умови, при яких оцінювач різниця-в-різниці буде перевершувати оцінювач різниця-в-середньому і просте дослідження моделювання.
[ , ] Гері Лавмен був професором в Гарвардській школі бізнесу, перш ніж стати генеральний директор Harrah, однією з найбільших компаній казино в світі. Коли він переїхав в Harrah 's, Лавмен перетворив компанію з часто льотчиком подібні програми лояльності, які зібрані величезні обсяги даних про поведінку клієнта. Крім цього завжди на вимірювальній системі, компанія почала проведення експериментів. Наприклад, вони могли б провести експеримент, щоб оцінити вплив купона на безкоштовну ніч готель для клієнтів з певним малюнком граючи в азартні ігри. Ось як Лавмен описав важливість експериментів для повсякденних бізнес Харрі практики:

"Це, як ви не гнобити жінок, ти не кради, і ви повинні мати контрольну групу. Це одна з речей , які ви можете втратити свою роботу , по крайней Harrah's-не працює контрольна група. " (Manzi 2012, 146)

Написати листа до нового співробітника, що пояснює, чому Лавмен думає, що це так важливо мати контрольну групу. Ви повинні спробувати включити приклад-якої реальної чи складену-ілюструвати вашу точку зору.
[ , $вимагає математику$ ] Новий експеримент спрямований оцінити ефект отримання текстових повідомлень нагадування про вакцинацію проти. 150 клінік, кожен з яких з 600 відповідних пацієнтів, готові брати участь. Існує фіксована вартість 100 доларів за кожну клініку ви хочете працювати, і це коштує 1 долар для кожного текстового повідомлення, яке ви хочете відправити. Крім того, будь-які клініки, що ви працюєте з вимірюватиме результат (хтось, чи отримав щеплення) безкоштовно. Припустимо, що у вас є бюджет в розмірі 1000 доларів.
1. За яких умов це може бути краще зосередити свої ресурси на невеликій кількості клінік і за яких умов може було б краще, щоб поширити їх більш широко?
2. Які фактори визначають б найменший розмір ефекту, який ви зможете надійно виявити за вашим бюджетом?
3. Написати записку, що пояснює ці компроміси потенційному донору.
[ , $вимагає математику$ ] Одна з основних проблем з онлайн-курсів є виснаження; багато студентів, які починаються курси в кінцевому підсумку випадання. Уявіть, що ви працюєте в онлайн-платформи навчання, а також дизайнер на платформі створив візуальний індикатор, що вона думає, що допоможе запобігти студентів відсіву курсу. Ви хочете, щоб перевірити ефект індикатора виконання на студентів у великій обчислювальної соціальних наук звичайно. Після усунення будь-яких етичних проблем, які можуть виникнути в експерименті, ви і ваші колеги отримують стурбовані тим, що курс може не мати достатньої кількості студентів, щоб надійно виявляти ефекти індикатора виконання. У розрахунках нижче ви можете припустити, що половина студентів отримає прогрес бар і половина немає. Крім того, можна припустити, що немає перешкод. Іншими словами, можна припустити, що учасники впливають тільки отримали вони лікування або контроль; вони не здійснюють , отримали чи інші люди , лікування або контроль (для більш формального визначення, см Gerber and Green (2012) , гл. 8). Будь ласка, стежити за будь-яких додаткових припущень, які ви робите.
1. Припустимо, що індикатор ходу виконання, як очікується, збільшити частку студентів, які закінчують клас на 1 процентний пункт, який розмір зразка, необхідний для надійного визначення ефекту?
2. Припустимо, що індикатор ходу виконання, як очікується, збільшити частку студентів, які закінчують клас на 10 процентних пунктів, який розмір зразка, необхідний для надійного визначення ефекту?
3. Тепер уявіть, що ви запустили експеримент і студентів, які закінчили всі матеріали курсу прийняли підсумковий іспит. Коли ви порівняйте підсумковий іспит оцінки студентів, які отримали прогрес бар для тих, хто не, ви знайдете, на свій подив, що студенти, які не отримали індикатор прогресу насправді забив вище. Чи означає це, що прогрес бар викликав студентів вчитися менше? Що ви можете дізнатися з цього результату даних? (Підказка: Див Gerber and Green (2012) , Ч. 7.)
[ , ] У прекрасному папері, Lewis and Rao (2015) яскраво ілюструють фундаментальне статистичне обмеження навіть масивних експериментів. Папери, які спочатку мали провокаційна назва «Про Пріконтінентальной неможливості вимірювання Повернення до реклами" мерехтить, як важко виміряти віддачу від інвестицій в онлайн-реклами, навіть цифрові експерименти за участю мільйонів клієнтів. У більш загальному плані, папір ясно показує, що важко оцінити невеликий ефект лікування серед зашумлених даних результатів. Або сказав diffently, папір показує , що передбачувані ефекти лікування матимуть великі довірчі інтервали , коли вплив до стандартне відхилення (\ (\ гідророзриву {\ Delta \ бар {у}} {\ Sigma} \)) відношення мало. Важливий загальний урок з цієї роботи є те, що результати експериментів з малим відношенням ударно-к-стандартне відхилення (наприклад, ROI рекламних кампаній) будуть незадовільними. Ваше завдання буде полягати в тому, щоб написати замітку до когось у відділі маркетингу компанії evaluting плановий експеримент з вимірювання ROI від рекламної кампанії. Ваша записка повинна підтримуватися з графіками результатів комп'ютерного моделювання.

Ось деяка інформація, яка вам може знадобитися. Всі ці числові значення характерні для реальних експериментів , представлених в Lewis and Rao (2015) :
- ROI, ключовий показник для рекламних кампаній в Інтернеті, визначається як чистий прибуток від кампанії (валового прибутку від кампанії за вирахуванням вартості кампанії), поділений на вартість кампанії. Наприклад, кампанія, яка не мала ніякого впливу на продажу матиме рентабельність інвестицій -100% і кампанію, в якій прибуток, отриманий були дорівнюють витратам мали б ROI 0.
- середні продажу на одного клієнта становить $ 7 зі стандартним відхиленням від $ 75.
- кампанія, як очікується, збільшити обсяг продажів на $ 0,35 на одного клієнта, що відповідає збільшенню прибутку в розмірі $ 0,175 на одного клієнта. Іншими словами, валовий прибуток становить 50%.
- запланований розмір експерименту становить 200000 осіб, а половина в групі лікування і половина в контрольній групі.
- вартість кампанії становить $ 0,14 за кожного учасника.
Написати записку evaluting цей експеримент. Чи будете ви рекомендувати запускати цей експеримент, як планувалося? Якщо так, то чому? Якщо ні, то які зміни ви могли б порекомендувати?

Хороша пам'ятка буде розглядати цей конкретний випадок; краще пам'ятка буде узагальнювати з цього випадку в одну сторону (наприклад, показати, як зміни рішення в залежності від співвідношення ударно-к-стандартне відхилення); і велика пам'ятка представить повністю узагальнений результат.
[ , $вимагає математику$ ] Зробіть те ж саме, що і попереднє запитання, але замість моделювання ви повинні використовувати аналітичні результати.
[ , $вимагає математику$ , ] Зробіть те ж саме, що і попереднє запитання, але використовувати як моделювання та аналітичні результати.
[ , $вимагає математику$ , ] Уявіть, що ви написали записку, описану вище, використовуючи або моделювання, аналітичні результати, або як-й хтось із відділу маркетингу рекомендує використовувати диференційно-в-відмінностях оцінювач, а не різниця в засобах оцінки (див розділ 4.6.2) , Написати нову коротку записку, що пояснює, як 0,4 кореляція між продажами перед експериментом і продажів після експерименту змінить ваш висновок.
[ , $вимагає математику$ ] Для того, щоб оцінити ефективність нового веб-сервісу кар'єри, офіс університету кар'єри служби провели рандомізоване контрольне дослідження серед 10000 студентів, що надходять в свій останній рік в школі. Безкоштовна підписка з унікальною інформацією входу в систему був відправлений через ексклюзивну запрошення по електронній майже 5000 випадково вибраних студентів, в той час як інші 5000 студентів знаходяться в контрольній групі і не мають підписку. Дванадцять місяців по тому, обстеження наступних (без неответа) показує, що в обох лікування і контрольних групах, 70% студентів забезпечили повну зайнятість в обраній ними галузі (таблиця 4.5). Таким чином, створюється враження, що веб-сервіс не мав ніякого ефекту.

Проте, розумний вчений даних в університеті трохи уважніше подивився на дані і виявили, що тільки 20% студентів в групі лікування коли-небудь увійти в обліковий запис після отримання електронного листа. Крім того, і в деякій мірі дивно, що серед тих, хто увійшли в сайт тільки 60% забезпечив повну зайнятість в обраній ними галузі, яка була нижчою, ніж ставка для людей, які не зробили цього і нижче, ніж швидкість для людей в умова контролю (таблиця 4.6).
1. Забезпечити пояснення того, що могло б статися.
2. Які два способи розрахунку ефекту лікування в цьому експерименті?
3. З огляду на цей результат, якщо кар'єра служби університету надають цю веб-кар'єри сервіс для всіх студентів? Просто щоб бути ясно, що це не питання з простим відповіддю.
4. Що вони повинні робити далі?
Підказка: Це питання виходить за рамки матеріалу, описаний в цьому розділі, але розглядаються питання, що найчастіше зустрічаються в експериментах. Цей тип експериментального проектування іноді називають дизайн підбадьорення , тому що учасникам пропонується взяти участь в лікуванні. Ця проблема є прикладом того , що називається одностороннім недотриманням (див Gerber and Green (2012) , гл. 5)
[ ] Після подальшого обстеження, з'ясовується, що Експеримент, описаний в попередньому питанні був ще більш складним. Виявляється, що 10% людей в контрольній групі заплатили за доступ до сервісу, і вони закінчили з рівнем зайнятості 65% (Таблиця 4.7).
1. Написати листа підсумовуючи те, що ви думаєте, що відбувається, і рекомендувати курс дій.
Підказка: Це питання виходить за рамки матеріалу, описаний в цьому розділі, але розглядаються питання, що найчастіше зустрічаються в експериментах. Ця проблема є прикладом того , що називається двостороннім недотриманням (див Gerber and Green (2012) , гл. 6)

Таблиця 4.5: Простий вид даних експерименту кар'єрних послуг.
група	розмір	рівень зайнятості
Наданий доступ до веб-сайт	5000	70%
Чи не надано доступ до веб-сайт	5000	70%

Таблиця 4.6: Більш повне уявлення про дані експерименту кар'єрних послуг.
група	розмір	рівень зайнятості
Надано доступ до веб-сайт і входу в систему	1000	60%
Надано доступ до веб-сайт і не увійшли в систему	4000	85%
Чи не надано доступ до веб-сайт	5000	70%

Таблиця 4.7: Повний вид даних експерименту кар'єрних послуг.
група	розмір	рівень зайнятості
Надано доступ до веб-сайт і входу в систему	1000	60%
Надано доступ до веб-сайт і не увійшли в систему	4000	72,5%
Чи не надано доступ до веб-сайт і заплатив за нього	500	65%
Чи не надано доступ до веб-сайт і не платити за нього	4.500	70,56%