[ , ] Берінський та його колеги (2012) частково оцінили MTurk шляхом відтворення трьох класичних експериментів. Повторити класичний експеримент з аналізу захворювань Азії на Tversky and Kahneman (1981) . Чи відповідають ваші результати Тверському та Канеману? Чи відповідають ваші результати Берінському та його колегам? Що, якщо що завгодно, це навчить нас використовувати MTurk для дослідницьких експериментів?
[ , ] У деякій паперовій книзі під назвою "Ми повинні розбити", соціальний психолог Роберт Чиалдіні, один з авторів Schultz et al. (2007) пише, що він пішов з роботи на посаду професора, частково через виклики, з якими він стикається, проводячи польові експерименти в дисципліні (психології), яка в основному проводить лабораторні експерименти (Cialdini 2009) . Ознайомтеся з документом Циалдіні та напишіть йому електронного листа з проханням переглянути його розбивку в світлі можливостей цифрових експериментів. Використовуйте конкретні приклади досліджень, які стосуються його проблем.
[ Щоб визначити, чи малі початкові успіхи замикаються або зникають, ван де Рідж та його колеги (2014) втручаються в чотири різні системи, що дають успіх у випадково вибраних учасників, а потім вимірюють довгострокові наслідки цього довільного успіху. Чи можете ви думати про інші системи, в яких можна було б запускати аналогічні експерименти? Оцініть ці системи з погляду питань наукової цінності, алгоритмічного змішування (див. Розділ 2) та етики.
[ , ] Результати експерименту можуть залежати від учасників. Створіть експеримент, а потім запустіть його на MTurk за допомогою двох різних стратегій набору. Спробуйте вибрати стратегію експерименту та підбору персоналу, щоб результати були настільки різними, наскільки це можливо. Наприклад, стратегія набору персоналу може полягати у прийомі учасників вранці та ввечері або в компенсації учасникам високої та низької заробітної плати. Такі різноманітні стратегії набору персоналу можуть призвести до різних пулів учасників та різних експериментальних результатів. Як різняться ваші результати? Що це показує про експерименти на MTurk?
[ , , ] Уявіть собі, що ви планували експеримент "Емоційна інфекція" (Kramer, Guillory, and Hancock 2014) . Використовуйте результати попереднього спостереження Kramer (2012) щоб визначити кількість учасників у кожному стані. Ці два дослідження не збігаються відмінно, тому обов'язково чітко перерахуйте всі припущення, які ви робите:
[ , , ] Відповісти на попереднє запитання ще раз, але на цей раз замість використання попереднього спостережливого дослідження Kramer (2012) використовуйте результати попереднього природного експерименту Lorenzo Coviello et al. (2014) .
[ ] Обидва Margetts et al. (2011) та van de Rijt та ін. (2014) Провели експерименти з вивченням процесу підписування петиції. Порівняйте і порівнюйте конструкції та висновки цих досліджень.
[ ] Dwyer, Maki, and Rothman (2015) провели два польових експериментальних дослідження щодо взаємозв'язку між соціальними нормами та про-екологічною поведінкою. Ось абзац свого документа:
"Як може бути використана психологічна наука для заохочення природоохоронної поведінки? У двох дослідженнях, заходи, спрямовані на сприяння енергозбереженню в громадських ванних кімнатах, вивчали вплив описових норм та особисту відповідальність. У Дослідженні 1 світловий статус (тобто ввімкнення чи вимкнення) маніпулювали, перш ніж хтось увійшов у незайману загальну ванну кімнату, повідомляючи про описові норми для цього налаштування. Учасники значно частіше вимикали світло, якщо вони були вимкнені, коли вони входили. У Дослідженні 2 було включено додаткову умову, в якій норму вимикання світла демонстрували конфедерація, але учасники не самі не несли відповідальності за його включення. Особиста відповідальність моделювала вплив соціальних норм на поведінку; коли учасники не були відповідальні за включення світла, вплив норми було зменшено. Ці результати свідчать про те, яким чином описові норми та особиста відповідальність можуть регулювати ефективність заходів з охорони навколишнього середовища ".
Ознайомтеся з їхньою роботою та спробуйте реплікацію дослідження 1.
[ , ] Виходячи з попереднього питання, виконайте свій дизайн.
[ ] Були суцільні дискусії про експерименти з учасниками, набраними з MTurk. Паралельно відбулися суттєві дискусії щодо експериментів із використанням учасників, узятих з студентських груп студентів. Напишіть на двох сторінках нагадування про порівняння та контрастність турків та студентів як учасників дослідження. Ваше порівняння має включати обговорення як наукових, так і матеріально-технічних питань.
[ ] Книга Джима Манзі " Неконтрольована" (2012) - чудовий уявлення про силу експериментування в бізнесі. У книзі він передав таку історію:
"Я був колись на зустрічі з справжнім діловим генієм, саморобним мільярдером, який мав глибоке, інтуїтивне розуміння сили експериментів. Його компанія витрачала значні ресурси, намагаючись створити чудові вітрини, які б приваблювали споживачів та збільшували продажі, як кажуть, що вони повинні це зробити. Експерти ретельно протестували дизайн після дизайну, а в окремих сесіях тестового огляду протягом певного періоду років не було виявлено жодного значного причинного впливу кожного нового дизайну дисплея на продаж. Старший менеджер з маркетингу та маркетингу зустрівся з генеральним директором, щоб переглянути ці історичні результати тесту в toto. Представши всі експериментальні дані, вони дійшли висновку, що загальноприйнята мудрість була неправильною - це вікно, яке не відображає продаж. Їх рекомендована дія полягала у зниженні витрат і зусиль у цій галузі. Це суттєво продемонструвало здатність експериментувати, щоб відкинути умовну мудрість. Відповідь генерального директора була проста: "Мій висновок, що ваші дизайнери не дуже добре". Його рішенням було збільшити зусилля у дизайні дисплея магазину, щоб нові люди могли це зробити " (Manzi 2012, 158–9)
Який тип дії є інтересом генерального директора?
[ ] Виходячи з попереднього питання, уявіть, що ви були на зустрічі, де обговорювалися результати експериментів. Які чотири запитання можна поставити: один для кожного типу дії (статистичний, конструктований, внутрішній та зовнішній)?
[ ] Bernedo, Ferraro, and Price (2014) вивчили семирічний ефект від водопостачання, описаного в Ferraro, Miranda, and Price (2011) (див. Малюнок 4.11). У цьому документі Бернедо та його колеги також намагалися зрозуміти механізм впливу, порівнюючи поведінку домогосподарств, які мали і не рушили після обробки. Тобто, приблизно, вони намагалися з'ясувати, чи було лікування вплинути на будинок або власника житла.
[ ] У подальшому до Schultz et al. (2007) , Шульц та його колеги провели серію з трьох експериментів щодо впливу описових та заборонних норм на іншу поведінку навколишнього середовища (повторне використання рушників) у двох контекстах ( (Schultz, Khazian, and Zaleski 2008) готель та таймшер) (Schultz, Khazian, and Zaleski 2008) .
[ ] У відповідь на Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) провели серію лабораторних експериментів з вивчення дизайну електричних рахунків. Ось як вони описують його в абстрактному вигляді:
"У дослідженні на основі опитування кожен учасник побачив гіпотетичний рахунок на електроенергію для сім'ї з відносно високим споживанням електроенергії, що включає інформацію про (а) історичне використання, (б) порівняння з сусідами та (в) історичне використання з розбиттям пристроїв. Учасники бачили всі типи інформації в одному з трьох форматів, включаючи (a) таблиці, (b) гістограми та (c) графіки значків. Ми повідомляємо про три основні висновки. По-перше, споживачі розуміли кожен вид інформації про використання електроенергії найбільше, коли це було представлено в таблиці, можливо, тому що таблиці полегшують просте читання точка. По-друге, переваги та наміри економити електроенергію були найсильнішими для інформації про історичне використання, незалежно від формату. По-третє, люди з низькою енергетичною грамотністю розуміють всю інформацію менше ».
На відміну від інших подальших досліджень, основним результатом інтересу в Canfield, Bruin, and Wong-Parodi (2016) є поведінка, а не фактична поведінка. Які сильні та слабкі сторони такого типу досліджень у більш широкій дослідницькій програмі, що сприяє економії енергії?
[ , ] Smith and Pell (2003) представили сатиричний мета-аналіз досліджень, що демонструють ефективність парашутів. Вони зробили висновок:
"Як і у багатьох заходах, спрямованих на профілактику поганого здоров'я, ефективність парашутів не була ретельно оцінена за допомогою рандомізованих контрольованих досліджень. Прихильники доказової медицини критикували прийняття втручань, оцінених за допомогою лише спостережних даних. Ми вважаємо, що кожен може скористатися, якщо найбільш радикальні головні дійові особи доказової медицини організували та брали участь у подвійному сліпому, рандомізованому, плацебо-контрольованому кросоверному дослідженні парашута ".
Напишіть відповідний варіант для загальної читацької газети, наприклад, " Нью-Йорк Таймс" , який виступає проти фетишизації експериментальних доказів. Надайте конкретні конкретні приклади. Підказка: Див. Також Deaton (2010) і Bothwell et al. (2016) . Bothwell et al. (2016) .
[ , , ] Різниця в відмінності оцінки ефекту лікування може бути більш точною, ніж різниця в середніх оцінках. Напишіть меморандум інженеру, який відповідає за перевірку A / B у початковій компанії із соціальних мереж, пояснюючи значення підходу "різниця в відмінності" для ведення онлайн-експерименту. Доповідна записка повинна містити твердження про проблему, деяку інтуїцію про умови, за яких різниця у різниці оцінювача перевищить середню різницю в оцінці та просте моделювання.
[ , ] Гері Лавман був професором Гарвардської бізнес-школи, а потім став генеральним директором Harrah's, однієї з найбільших компаній у світі казино. Коли він переїхав до Харри, компанія Loveman перетворила компанію на програму лояльності, яка часто використовувалась як льотчик, яка зібрала величезну кількість даних про поведінку клієнтів. На вершині цієї постійно вимірюваної системи компанія почала експерименти. Наприклад, вони можуть провести експеримент, щоб оцінити ефект купона для безкоштовної ночі готелів для клієнтів із певною моделлю гральних закладів. Ось як він описав важливість експериментування щоденних ділових практик Harrah:
"Це схоже на те, що ви не переслідуєте жінок, ви не вкрали, і вам потрібно мати контрольну групу. Це одне з того, що ви можете втратити свою роботу в Harrah'ах - не керуючи контрольної групою " (Manzi 2012, 146)
Напишіть електронного листа до нового співробітника, пояснюючи, чому Любмін вважає важливим мати контрольну групу. Ви повинні спробувати включити приклад - реальний або зроблений, щоб проілюструвати свою точку зору.
[ , ] Новий експеримент спрямований на оцінку ефекту нагадування про текстові повідомлення щодо прийняття вакцинації. Сто п'ятдесят клінік, кожна з яких має 600 бажаючих пацієнтів, готові взяти участь. Існує фіксована вартість 100 доларів за кожну клініку, з якою ви хочете працювати, і це коштує 1 долар за кожне текстове повідомлення, яке ви хочете надіслати. Крім того, будь-які клініки, з якими ви працюєте, оцінять результат (чи хтось отримав щеплення) безкоштовно. Припустимо, що у вас є бюджет у розмірі 1000 доларів.
[ , ] Найважливішою проблемою, пов'язаною з онлайновими курсами, є стирання: багато студентів, які починають курси, закінчаться. Уявіть собі, що ви працюєте на платформі онлайн-навчання, а дизайнер на платформі створив візуальний бар'єр прогресу, який, на її думку, допоможе не дати студентам вийти з курсу. Ви хочете перевірити ефект ступеня прогресу на студентів у великому обчислювальному курсі соціальної науки. Вирішивши будь-які етичні проблеми, які можуть виникнути в експерименті, ви і ваші колеги турбуються, що на курсі може не вистачати студентів, щоб надійно виявити наслідки панелі виконання. У наступних розрахунках можна припустити, що половина студентів отримає індикатор виконання, а половину - не. Крім того, можна припустити, що немає ніяких перешкод. Інакше кажучи, ви можете припустити, що учасники постраждали тільки від того, чи отримували вони лікування чи контроль; вони не впливають на те, чи отримували інші люди лікування чи контроль (для більш формальної визначення, див. главу 8 Gerber and Green (2012) ). Слідкуйте за будь-якими додатковими припущеннями, які ви робите.
[ , , ] Уявіть, що ви працюєте науковцем даних у технічній компанії. Хтось з відділу маркетингу просить про вашу допомогу в оцінці експерименту, який вони планують, щоб виміряти рентабельність інвестицій (НРІ) для нової рекламної кампанії в Інтернеті. Рентабельність інвестицій визначається як чистий прибуток від кампанії, поділений на вартість кампанії. Наприклад, кампанія, яка не вплинула на продажі, матиме рентабельність інвестицій -100%; кампанія, в якій прибуткова прибуток була рівною витратам, рентабельність інвестицій становитиме 0; і кампанія, в якій прибуток генерувався вдвічі, вартість рентабельності інвестицій становитиме 200%.
Перед початком експерименту відділ маркетингу надає вам таку інформацію на основі їхніх попередніх досліджень (фактично ці значення характерні для реальних рекламних кампаній в Інтернеті, про які повідомляється в Льюїсі та Рао (2015) ):
Напишіть нагадування про оцінку цього запропонованого експерименту. Ваша доповідь повинна використовувати свідчення з моделювання, яке ви створюєте, і має вирішувати дві основні проблеми: (1) Чи рекомендуєте ви запустити цей експеримент, як заплановано? Якщо так, то чому? Якщо ні, то чому б і ні? Обов'язково ознайомтеся з критеріями, які ви використовуєте для прийняття цього рішення. (2) Який тип вибірки ви б рекомендували для цього експерименту? Знову ж таки, будь ласка, не забудьте про критерії, які ви використовуєте для прийняття цього рішення.
У цьому конкретному випадку буде розглянуто гарне нагадування; краще нагадування буде узагальнювати з цього випадку одним способом (наприклад, показати, як рішення змінюється як функція розміру ефекту кампанії); і чудовий запис буде представляти повністю узагальнений результат. Ваша доповідь повинна використовувати графіки, щоб ілюструвати результати.
Ось два натяки. По-перше, відділ маркетингу може надати вам непотрібну інформацію, і вони, можливо, не змогли надати вам необхідну інформацію. По-друге, якщо ви використовуєте R, пам'ятайте, що функція rlnorm () не працює так, як багато хто очікує.
Ця діяльність дасть вам змогу аналізувати владу, створювати симуляції та повідомляти свої результати словами та графіками. Це має допомогти вам провести аналіз сили для будь-якого експерименту, а не просто експериментів, призначених для оцінки рентабельності інвестицій. Ця діяльність передбачає, що у вас є певний досвід статистичного тестування та аналізу влади. Якщо ви не знайомі з аналізом енергії, я рекомендую вам прочитати "Power Primer" Cohen (1992) .
Ця діяльність була натхненна чудовим документом RA Lewis and Rao (2015) , що яскраво ілюструє фундаментальне статистичне обмеження навіть масових експериментів. Їх робота, яка спочатку мала провокаційну назву "Про майже неможливість вимірювання віддачі рекламі", показує, наскільки важко виміряти рентабельність інвестицій онлайн-реклами, навіть за допомогою цифрових експериментів з участю мільйонів клієнтів. У більш загальному плані, RA Lewis and Rao (2015) ілюструють фундаментальний статистичний факт, який особливо важливий для експериментів у цифровому віці: важко оцінити малі ефекти лікування серед шумних даних про результати.
[ , ] Зробіть те ж саме, що і попереднє запитання, але, а не моделювання, слід використовувати аналітичні результати.
[ , , ] Зробіть те ж саме, що й попереднє запитання, але використовуйте як симуляційні, так і аналітичні результати.
[ , , ] Уявіть собі, що ви написали нагадування, описане вище, а хтось з відділу маркетингу надає одну частину нової інформації: вони очікують 0,4 кореляції між продажами до і після експерименту. Як це змінює рекомендації у вашій нагадуванні? (Підказка: див. Розділ 4.6.2, щоб дізнатись більше про оціночну різницю між значеннями та оцінювач різниці в відмінності.)
[ , ] Щоб оцінити ефективність нової веб-програми допомоги у сфері зайнятості, університет провело рандомізоване контрольне випробування серед 10 000 студентів, які вступають у свій останній рік навчання. Безкоштовна підписка з унікальною реєстраційною інформацією була відправлена через ексклюзивне запрошення електронною поштою до 5000 випадково вибраних учнів, а інші 5000 студентів перебували в контрольній групі та не мали підписки. Через дванадцять місяців наступне опитування (без відповіді) показало, що як у лікувальних, так і в контрольних групах 70% учнів забезпечили повну зайнятість у вибраній галузі (табл. 4.6). Таким чином, здавалося, що веб-сервіс не мав ефекту.
Однак вчений-вчитель в університеті подивився на дані трохи ближче і виявив, що лише 20% студентів групи лікування входили до облікового запису після отримання електронного листа. Далі, і дещо дивно, що серед тих, хто ввійшов на веб-сайт, лише 60% забезпечували роботу на повну зайнятість у вибраній області, що нижче, ніж ставка для тих, хто не ввійшов у систему та нижче, ніж ставка для людей в умовах контролю (таблиця 4.7).
Підказка: це питання виходить за межі матеріалу, що розглядається в цьому розділі, але вирішує питання, що є загальними в експериментах. Цей тип експериментального дизайну іноді називають заохочувальним дизайном, тому що учасникам пропонується займатися лікуванням. Ця проблема є прикладом того, що називається однобічним невідповідністю (див. Главу 5 Gerber and Green (2012) ).
[ ] Після подальшого розгляду виявилося, що експеримент, описаний у попередньому питанні, був ще більш складним. Виявилося, що 10% людей у контрольній групі заплатили за доступ до послуги, і вони склали 65% зайнятості (таблиця 4.8).
Підказка: це питання виходить за межі матеріалу, що розглядається в цьому розділі, але вирішує питання, що є загальними в експериментах. Ця проблема є прикладом того, що називається двосторонньою невідповідністю (див. Главу 6 Gerber and Green (2012) ).
Група | Розмір | Рівень зайнятості |
---|---|---|
Надається доступ до веб-сайту | 5000 | 70% |
Не надається доступ до веб-сайту | 5000 | 70% |
Група | Розмір | Рівень зайнятості |
---|---|---|
Надано доступ до веб-сайту та увійшов до системи | 1000 | 60% |
Надано доступ до веб-сайту та ніколи не входило | 4000 | 72,5% |
Не надається доступ до веб-сайту | 5000 | 70% |
Група | Розмір | Рівень зайнятості |
---|---|---|
Надано доступ до веб-сайту та увійшов до системи | 1000 | 60% |
Надано доступ до веб-сайту та ніколи не входило | 4000 | 72,5% |
Не надано доступу до веб-сайту та оплачено | 500 | 65% |
Не надав доступ до веб-сайту і не заплатив за нього | 4,500 | 70,56% |