[ , ] Берински и колеги (2012) оценяват MTurk отчасти чрез репликиране на три класически експеримента. Възпроизвеждайте класическия експеримент за оформяне на азиатските заболявания от Tversky and Kahneman (1981) . Резултатите ви съвпадат ли с Tversky и Kahneman? Резултатите ви съвпадат ли с тези берински и колеги? Какво - ако нещо - това ни учи да използваме MTurk за експерименти с проучвания?
[ , ] В книга, озаглавена "Ние трябва да се разпаднем", в известна степен на езика в бузата, социологът Робърт Сиалдин, един от авторите на Schultz et al. (2007) пише, че се оттегля рано от работата си като професор, отчасти поради предизвикателствата, пред които е изправен, като извършва полеви експерименти в дисциплина (психология), която основно провежда лабораторни експерименти (Cialdini 2009) . Прочетете доклада на Cialdini и му напишете имейл, в който го призова да преразгледа разбирането си в светлината на възможностите за цифрови експерименти. Използвайте конкретни примери за изследвания, които са насочени към неговите притеснения.
[ ] За да се определи дали малките първоначални успехи се задържат или изчезват, Ван де Рид и колеги (2014) намесват в четири различни системи, които дават успех на случайно подбрани участници, и след това измерват дългосрочните последици от този произволен успех. Можете ли да мислите за други системи, в които бихте могли да изпълните подобни експерименти? Оценявайте тези системи по отношение на въпроси от научна стойност, алгоритмични обърквания (виж глава 2) и етика.
[ , ] Резултатите от експеримента могат да зависят от участниците. Създайте експеримент и го стартирайте на MTurk, като използвате две различни стратегии за набиране на персонал. Опитайте се да изберете експеримента и стратегиите за набиране, така че резултатите да бъдат възможно най- различни . Например, вашите стратегии за набиране на персонал биха могли да бъдат наемат участници сутрин и вечер или да компенсират участниците с високо и ниско заплащане. Тези различия в стратегията за набиране на персонал могат да доведат до различни групи участници и различни експериментални резултати. Колко различни са ви резултатите? Какво разкрива това за провеждане на експерименти с MTurk?
[ , , ] Представете си, че сте планирали експеримента Емоционален контакт (Kramer, Guillory, and Hancock 2014) . Използвайте резултатите от по-ранно наблюдение от Kramer (2012) да определите броя на участниците във всяко състояние. Тези две проучвания не съвпадат перфектно, така че не забравяйте изрично да изброите всички предположения, които правите:
[ , , ] Отново отговорете на предишния въпрос, но този път, вместо да използвате предишното наблюдение от Kramer (2012) , използвайте резултатите от по-ранен естествен експеримент от Lorenzo Coviello et al. (2014) .
[ ] Както Margetts et al. (2011) и van de Rijt et al. (2014) извършва експерименти, изучаващи процеса на подписване на петиция. Сравнете и контрастирайте дизайните и констатациите от тези изследвания.
[ ] Dwyer, Maki, and Rothman (2015) провеждат два полеви експеримента върху връзката между социалните норми и про-екологичното поведение. Ето резюмето на тяхната статия:
"Как може да се използва психологическата наука, за да се насърчи поведението на околната среда? В две проучвания интервенциите, насочени към насърчаване на енергийното поведение в обществени бани, изследваха влиянието на описателните норми и личната отговорност. В Проучване 1 състоянието на светлината (т.е. включено или изключено) е било манипулирано, преди някой да влезе в незаета обществена баня, като сигнализира описателната норма за тази настройка. Участниците имаха значително по-голяма вероятност да изключат светлините, ако бяха изключени, когато влязоха. В Проучване 2 беше включено допълнително условие, при което нормата за изключване на светлината бе демонстрирана от конфедерацията, но участниците не самите са отговорни за включването й. Личната отговорност намалява влиянието на социалните норми върху поведението; когато участниците не бяха отговорни за включването на светлината, влиянието на нормата беше намалено. Тези резултати показват, че описателните норми и личната отговорност могат да регулират ефективността на интервенциите в областта на околната среда. "
Прочетете техния документ и направете репликация на изследване 1.
[ , ] Въз основа на предишния въпрос, сега изпълнете своя дизайн.
[ ] Съществуваха значителни дебати относно експериментите, използващи участници, наети от MTurk. Успоредно с това имаше и сериозен дебат за експериментите, използващи участниците, наети от студентите от студентите. Напишете двустранична бележка, сравняваща и контрастиращи туркери и студенти като изследователи. Вашето сравнение трябва да включва обсъждане както на научни, така и на логистични въпроси.
[ ] Книгата на Джим Манзи Неконтролирана (2012) е чудесно въведение в силата на експериментирането в бизнеса. В книгата той предава следната история:
"Веднъж бях на среща с истински бизнес гений, милиардер, който имаше дълбоко интуитивно подценяване на силата на експериментите. Компанията му изразходва значителни ресурси, опитвайки се да създаде страхотни екрани за прозорци, които да привлекат потребителите и да увеличат продажбите, тъй като конвенционалната мъдрост казва, че трябва. Експерти внимателно тестван дизайн след проектирането, както и в отделните сесии преглед тест в продължение на години продължи да показва не значителен каузален ефект на всеки нов дизайн на дисплея върху продажбите. Старши мениджъри по маркетинг и търговия с продукти се срещнаха с главния изпълнителен директор, за да прегледат тези исторически резултати от тестовете. След като представиха всички експериментални данни, те стигнаха до извода, че конвенционалната мъдрост е погрешна - прозоречните дисплеи не водят до продажби. Препоръчаното им действие беше да се намалят разходите и усилията в тази област. Това драматично демонстрира способността на експеримента да преобърне конвенционалната мъдрост. Отговорът на главния изпълнителен директор беше прост: "Моето заключение е, че твоите дизайнери не са много добри". Неговото решение беше да се увеличат усилията в дизайна на магазините и да се направят нови хора. " (Manzi 2012, 158–9)
Какъв вид валидност е загрижеността на главния изпълнителен директор?
[ ] Въз основа на предишния въпрос, представете си, че сте били на срещата, където бяха обсъдени резултатите от експериментите. Какви са четирите въпроса, които можете да зададете - един за всеки вид валидност (статистически, конструктивен, вътрешен и външен)?
[ ] Bernedo, Ferraro, and Price (2014) изучават седемгодишния ефект от интервенцията за спестяване на вода, описана във Ferraro, Miranda, and Price (2011) (виж фигура 4.11). В тази статия Бернадо и колеги също се стремяха да разберат механизма зад ефекта, като сравняват поведението на домакинствата, които са преминали и не са се преместили след предоставяне на лечението. Това е, грубо, те се опитаха да видят дали лечението засяга дома или собственика на къщата.
[ ] В последващо действие на Schultz et al. (2007) , Schultz и колеги направиха поредица от три експеримента върху ефекта на описателните и преюдициалните норми върху различното поведение на околната среда (повторна употреба на кърпи) в два контекста (хотел и временно ползване на етажната собственост) (Schultz, Khazian, and Zaleski 2008) ,
[ ] В отговор на Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) провеждат серия лабораторни експерименти, за да проучат дизайна на електрическите сметки. Ето как се описват в резюме:
"В експеримент, основан на проучване, всеки участник видя хипотетична сметка за електроенергия за семейство с относително висока употреба на електроенергия, обхващаща информация за (а) историческо използване, (б) сравнения със съседите и (в) историческо използване с разбивка на уредите. Участниците видяха всички типове информация в един от трите формата, включително (a) таблици, (б) графики и (в) икони. Ние докладваме за три основни констатации. Първо, потребителите разбират най-много всеки тип информация за използването на електроенергия, когато тя е представена в таблица, може би защото таблиците улесняват прочитането на простичкото точково съобщение. Второ, предпочитанията и намеренията за икономия на електроенергия са най-силни за информацията за историческата употреба, независимо от формата. Трето, хората с по-ниска енергийна грамотност разбираха цялата информация по-малко.
За разлика от други последващи проучвания, основният резултат от интереса към Canfield, Bruin, and Wong-Parodi (2016) е отчетено поведение, а не действително поведение. Какви са силните и слабите страни на този тип изследване в рамките на една по-широка изследователска програма, насърчаваща спестяването на енергия?
[ , ] Smith and Pell (2003) представиха сатичен мета-анализ на проучвания, демонстриращи ефективността на парашутите. Те заключават:
"Както при много интервенции, предназначени за предотвратяване на лошо здравословно състояние, ефективността на парашутите не е била подложена на строга оценка чрез използване на рандомизирани контролирани проучвания. Застъпниците на медицина, базирана на доказателства, критикуват приемането на интервенции, оценени чрез използването само на данни от наблюдението. Смятаме, че всички биха могли да се възползват, ако най-радикалните протагонисти на доказателствената медицина организират и участват в двойно сляпо, рандомизирано, плацебо контролирано кръстосано проучване на парашута ".
Напишете подходящ за общ вестник вестник, като Ню Йорк Таймс , като се противопоставяте на фетишизирането на експериментални доказателства. Дайте конкретни конкретни примери. Съвет: Вижте също Deaton (2010) и Bothwell et al. (2016) .
[ , , ] Оценките за разликите в разликите на ефекта от лечението могат да бъдат по-точни от оценките на разликите в средните стойности. Напишете бележка до инженер, който отговаря за тестването на A / B в стартираща социална медийна компания, обяснявайки стойността на подхода за разлика в разликите за провеждане на онлайн експеримент. Бележката трябва да включва изложение на проблема, известна интуиция за условията, при които оценката за разликата в разликата ще надминава оценката на разликата в средната стойност и просто проучване на симулацията.
[ , ] Гари Ломеман е професор в Harvard Business School, преди да стане изпълнителен директор на Harrah's, една от най-големите казино компании в света. Когато се премести в Harrah's, Loveman преобразува компанията с програма за лоялност, подобна на често използвана, която събира огромни количества данни за поведението на клиентите. На върха на тази система за непрекъснато измерване компанията започна експерименти. Например, те биха могли да проведат експеримент, за да оценят ефекта от талона за безплатна хотелска вечер за клиенти със специфичен модел на хазарт. Ето как Loveman описва значението на експеримента за ежедневните бизнес практики на Harrah:
- Сякаш не сте тормозили жени, не крадат и трябва да имате контролна група. Това е едно от нещата, които може да загубите работата си в Harrah's - без да управлявате контролна група. " (Manzi 2012, 146)
Напишете имейл на нов служител, който обяснява защо Loveman смята, че е толкова важно да има контролна група. Трябва да се опитате да включите пример - реален или направен - за да илюстрирате вашето мнение.
[ , ] Новият експеримент има за цел да оцени ефекта от получаването на напомняния за текстови съобщения относно поглъщането на ваксини. Сто и петдесет клиники, всеки с 600 отговарящи на условията пациенти, желаят да участват. Има фиксирана цена от $ 100 за всяка клиника, с която искате да работите, и струва $ 1 за всяко текстово съобщение, което искате да изпратите. Освен това, всички клиники, с които работите, ще измерват резултата (независимо дали някой е получил ваксинация) безплатно. Да приемем, че имате бюджет от $ 1000.
[ , ] Основен проблем с онлайн курсовете е износването: много студенти, които започват курсове, накрая отпадат. Представете си, че работите в онлайн платформа за обучение и дизайнер на платформата е създала бар за визуален прогрес, който според нея ще помогне на студентите да се откажат от курса. Искате да изпробвате ефекта от лентата за напредъка на учениците в голям курс по компютърни социални науки. След като се занимавате с всякакви етични въпроси, които могат да възникнат в експеримента, вие и колегите ви се притеснявате, че курсът може да няма достатъчно ученици, за да разбере надеждно ефектите от лентата за напредъка. В следващите изчисления можете да приемете, че половината от студентите ще получат лентата за напредъка и половината не. Освен това можете да приемете, че няма смущения. С други думи, можете да приемете, че участниците са засегнати само от това дали са получили лечение или контрол; те не се повлияват от това дали други хора са получили лечението или контрола (за по-формално определение, вж. глава 8 на Gerber and Green (2012) ). Проследявайте всички допълнителни предположения, които правите.
[ , , ] Представете си, че работите като научен сътрудник на технологична компания. Някой от маркетинговия отдел иска вашата помощ при оценяването на експеримент, който планират, за да се измери възвръщаемостта на инвестициите за нова онлайн рекламна кампания. ROI се определя като нетната печалба от кампанията, разделена на разходите за кампанията. Например кампания, която няма ефект върху продажбите, ще има ROI от -100%; кампания, при която генерираните печалби са равни на разходите, ще имат ROI от 0; а кампанията, при която генерираните печалби са били два пъти по-високи, биха имали ROI от 200%.
Преди да стартирате експеримента, маркетинговият отдел Ви предоставя следната информация въз основа на предишните си проучвания (всъщност тези стойности са типични за реалните онлайн рекламни кампании, описани в Lewis и Rao (2015) ):
Напишете бележка, оценяваща този предложен експеримент. Вашата бележка трябва да използва доказателства от симулацията, която създавате, и трябва да разгледа два основни въпроса: (1) Бихте ли препоръчали стартирането на този експеримент, както е планирано? Ако е така, защо? Ако не, защо не? Уверете се, че сте ясни относно критериите, които използвате, за да вземете това решение. (2) Какъв размер проба бихте препоръчали за този експеримент? Отново, уверете се, че сте ясни относно критериите, които използвате, за да вземете това решение.
Добра бележка ще разгледа този конкретен случай; по-добра бележка ще се обобщи от този случай по един начин (напр. покажете как решението се променя в зависимост от размера на ефекта от кампанията); и голяма бележка ще представи напълно обобщен резултат. Вашата бележка трябва да използва графики, за да илюстрира вашите резултати.
Ето два съвета. Първо, маркетинговият отдел може да ви е предоставил ненужна информация и е възможно те да не са ви предоставили необходимата информация. Второ, ако използвате R, бъдете наясно, че функцията rlnorm () не работи така, както много хора очакват.
Тази дейност ще ви даде практически опит с анализ на мощността, създаване на симулации и съобщаване на резултатите с думи и графики. Той трябва да ви помогне да провеждате анализ на мощността за всеки вид експеримент, а не само за експерименти, предназначени да оценят възвръщаемостта на инвестициите. Тази дейност предполага, че имате известен опит със статистически тестове и анализ на мощността. Ако не сте запознати с анализа на мощността, препоръчваме Ви да прочетете "Power Primer" от Cohen (1992) .
Тази дейност е вдъхновена от прекрасната хартия на RA Lewis and Rao (2015) , която ярко илюстрира фундаментално статистическо ограничение на дори масови експерименти. Техният документ, който първоначално е имал провокативното заглавие "За непосредствената невъзможност за измерване на връщането към реклама" - показва колко трудно е да се измери възвръщаемостта на инвестициите в онлайн реклами, дори и с цифрови експерименти, включващи милиони клиенти. По-общо казано, RA Lewis and Rao (2015) илюстрират фундаментален статистически факт, който е особено важен за експериментите в дигиталната възраст: трудно е да се оценят малките ефекти на лечение в средата на шумни данни за резултатите.
[ , ] Направете същото като предишния въпрос, но вместо симулация трябва да използвате аналитични резултати.
[ , , ] Направете същото като предишния въпрос, но използвайте както симулационни, така и аналитични резултати.
[ , , ] Представете си, че сте написали описанието, описано по-горе, и някой от маркетинговия отдел предоставя една нова информация: очакват 0,4 корелация между продажбите преди и след експеримента. Как това променя препоръките в бележката ви? (Съвет: вижте раздел 4.6.2 за повече информация за оценката на разликата в средствата и оценката за разликата в разликите.)
[ , ] За да се оцени ефективността на нова уеб базирана програма за подпомагане на заетостта, университетът проведе рандомизирано контролно проучване сред 10 000 студенти, навлезли в последната си година на обучение. Безплатен абонамент с уникална информация за вход беше изпратен чрез ексклузивна електронна поща до 5000 от случайно избраните студенти, а останалите 5 000 студенти бяха в контролната група и нямаха абонамент. Дванадесет месеца по-късно, последващо проучване (без отсъствие) показва, че и при групите за лечение, и при контролните групи 70% от учениците са осигурили заетост на пълен работен ден в избраната от тях област (таблица 4.6). По този начин изглеждаше, че уеб базираната услуга няма ефект.
Въпреки това умният учен от университета погледна малко по-внимателно данните и установи, че само 20% от учениците в групата за лечение са влезли в сметката, след като са получили имейла. По-нататък и донякъде изненадващо сред тези, които са влезли в уебсайта, само 60% са осигурили заетост на пълен работен ден в избраната от тях област, което е по-ниско от процента за хората, които не са влизали и са по-ниски от тези за хората в контролно състояние (таблица 4.7).
Съвет: Този въпрос надхвърля материала, обхванат в тази глава, но разглежда въпроси, които са общи при експериментите. Този тип експериментален дизайн понякога се нарича стимулиращ дизайн, тъй като участниците се насърчават да се включат в лечението. Този проблем е пример за това, което се нарича едностранно несъответствие (вж. Глава 5 от " Gerber and Green (2012) ).
[ ] След допълнително проучване се оказа, че експериментът, описан в предходния въпрос, е още по-сложен. Оказа се, че 10% от хората в контролната група са платили за достъп до услугата и са достигнали 65% (таблица 4.8).
Съвет: Този въпрос надхвърля материала, обхванат в тази глава, но разглежда въпроси, които са общи при експериментите. Този проблем е пример за това, което се нарича двустранно несъответствие (вж. Глава 6 на Gerber and Green (2012) ).
група | размер | Коефициент на заетост |
---|---|---|
Предоставен достъп до уебсайта | 5000 | 70% |
Не е предоставен достъп до уебсайта | 5000 | 70% |
група | размер | Коефициент на заетост |
---|---|---|
Предоставен достъп до уебсайта и влязъл в профила | 1000 | 60% |
Предоставен достъп до уебсайта и никога не е влизал в профила | 4000 | 72.5% |
Не е предоставен достъп до уебсайта | 5000 | 70% |
група | размер | Коефициент на заетост |
---|---|---|
Предоставен достъп до уебсайта и влязъл в профила | 1000 | 60% |
Предоставен достъп до уебсайта и никога не е влизал в профила | 4000 | 72.5% |
Не е предоставен достъп до уебсайт и е платен за него | 500 | 65% |
Не е предоставен достъп до уебсайта и не е платил за него | 4500 | 70,56% |