Key:
[ , ] Berinsky и колеги (2012) оценява Mechanical Turk отчасти чрез репликиране на три класически експерименти. Дублиране на класически азиатски рамкиране на заболяванията експеримента от Tversky and Kahneman (1981) . Съвпадат резултатите си Тверски и Канеман е? Съвпадат резултатите си Berinsky и колеги? Какво-ако нещо-значи това ни научи за използването Mechanical Turk за експерименти проучването?
[ , ] В документ, донякъде езика в бузата, озаглавена "Ние трябва да се разбият," социалния психолог Робърт Cialdini, един от авторите на Schultz et al. (2007) , пише, че се оттегля рано от работата си като преподавател, отчасти заради предизвикателствата, той се сблъскват прави полеви експерименти в дисциплина (психология), които основно провежда лабораторни експерименти (Cialdini 2009) . Прочетете хартия Cialdini, а го напишете имейл призовавайки го да преосмисли своята раздяла с оглед на възможностите на цифровите експерименти. Използвайте конкретни примери за научни изследвания, че обръщението си притеснения.
[ ] За да се определи дали малки първоначални успехи блокиране или изчезне, ван де Rijt и и колеги (2014) встъпили в четири различни системи за връчване успех на произволно избрани участници, и след това се измерват дългосрочните последици от това произволно успех. Сещате ли се за други системи, в които можете да стартирате подобни експерименти? Оценка на тези системи по отношение на въпроси, свързани с научна стойност, алгоритмична смущаващи (виж глава 2), и етиката.
[ , ] Резултатите от експеримента могат да зависят от участниците. Създаване на един експеримент и след това да го изпълните на Amazon Mechanical Turk (MTurk) се използват две различни стратегии за набиране на персонал. Опитайте се да вземете стратегиите за експеримента и подбор на персонал, така че резултатите ще са толкова различни, колкото е възможно. Например, вашите стратегии за набиране на персонал могат да бъдат за привличане на участници в сутрин и вечер или да компенсира участници с високо и ниско заплащане. Тези видове разлики в стратегия за набиране могат да доведат до различни групи от участници и различни експериментални резултати. Колко различен е резултатите да се окажат? Какво означава, че разкрие за провеждане на експерименти върху MTurk?
[ , , , ] Представете си, че са планирали Емоционалната проучването зараза (Kramer, Guillory, and Hancock 2014) . Използване на резултатите от по-ранна наблюдателно проучване от Kramer (2012) , за да бъде определен броят на участниците във всяка състояние. Тези две проучвания, не съвпадат напълно, така че не забравяйте да изрично да се изброят всички допускания, които правите:
[ , , , ] Отговор на въпроса по-горе, но вместо да се използва по-рано наблюдателно проучване от Kramer (2012) използва резултатите от по-ранна естествен експеримент от Coviello et al. (2014) .
[ ] И двете Rijt et al. (2014) и Margetts et al. (2011) , така извършва експерименти, които изучават процеса на хората, подписали петиция. Сравняват и съпоставят проектиране и резултатите от тези изследвания.
[ ] Dwyer, Maki, and Rothman (2015) , проведено два полеви експерименти за връзката между социалните норми и proenvironmental поведение. Ето и резюме на доклада си:
"Как може да се използва психологическа наука за насърчаване proenvironmental поведение? В две проучвания, интервенции, насочени към насърчаване на поведение икономия на енергия в обществените бани изследват влиянието на описателни норми и лична отговорност. При проучване 1, светлина статус (т.е., или изключване) е манипулиран, преди някой да влезе незаето обществена баня, сигнализация описателния нормата за тази настройка. Участниците са били значително по-склонни да се обърнат на осветлението, ако те са на разстояние, когато те влязоха. При проучване 2, допълнително условие е била включена в който нормата на включване и изключване на светлината беше демонстрирана от Конфедерацията, но участниците не са били сами отговарят за да го включите. Лична отговорност модериран влиянието на социалните норми на поведение; когато участниците не са отговорни за включване на светлината, влиянието на нормата се намалява. Тези резултати показват, как описателен норми и лична отговорност може да се регулира на ефективността на proenvironmental интервенции. "
Прочетете статията си и изработи репликация на проучване 1.
[ , ] Въз основа на предишния въпрос, сега извършват своя дизайн.
[ ] Налице е значителен дебат за опити с участниците, наети от Amazon Mechanical Turk. Успоредно с това, там също е съществен дебат за опити с участниците, наети от студент населението. Напиши две страници бележка за сравняване и контрастиращи на Turkers и студентите като изследователи участници. сравнение Вие трябва да включва обсъждане на двете научни и логистични проблеми.
[ Книга] Джим Manzi на Неконтролирана (2012) е прекрасно въведение в силата на експериментиране в бизнеса. В книгата той препредава тази история:
"Веднъж бях на среща с истински бизнес гений, самостоятелно направени милиардер, който е имал дълбока, интуитивна подценяване на силата на експерименти. Неговата компания прекарва значителни средства се опитва да създаде големи магазина витрини, които биха могли да привличат потребителите и продажбите се увеличава, тъй като конвенционалната мъдрост казва, че трябва. Експертите внимателно тествани дизайн след проектирането, и в индивидуални сесии тест преглед за период от години държат не показва значителна причинна сила на всеки нов дизайн дисплей върху продажбите. Старши маркетинг и мърчандайзинг ръководители се срещнаха с изпълнителния директор за преразглеждане на тези исторически резултати от изпитвания при тото. След представянето на всички експериментални данни, те заключи, че конвенционалната мъдрост не е наред-, че витрини не стимулира продажбите. Тяхната препоръчително действие е да се намалят разходите и усилия в тази област. Това драстично демонстрирали способността на експериментиране, за да преобърне конвенционалната мъдрост. Реакцията на президента е прост: "Моето заключение е, че вашите дизайнери не са много добри." Неговото решение е да се увеличи усилията в магазин дисплей дизайн, и да получите нови хора, за да го направя. " (Manzi 2012, 158–9)
Кой тип на валидност е загрижеността на главен изпълнителен директор?
[ ] Въз основа на предишния въпрос, представете си, че сте били по време на срещата, където бяха обсъдени резултатите от експериментите. Какви са четири въпроса, които биха могли да поискат, по един за всеки вид на валидност (статистически, конструиране, вътрешно и външно)?
[ ] Bernedo, Ferraro, and Price (2014) изучава седемгодишен ефект от намесата на пестенето на вода, описана в Ferraro, Miranda, and Price (2011) (виж фигура 4.10). В тази книга, Bernedo и колеги също се стремят да разберат механизма зад ефект чрез сравняване на поведението на домакинствата, които имат и не са се преместили след лечението е било доставено. Това е, грубо, те се опитват да се види дали лечението повлияха дома или на собствениците.
[ ] В продължение на Schultz et al. (2007) , Шулц и колеги изпълняват серия от три експерименти върху ефекта на описателни и по съдебен норми на различно поведение на околната среда (кърпа повторна употреба) в две ситуации (на хотелски и временно ползване на собственост етажна собственост) (Schultz, Khazian, and Zaleski 2008) ,
[ ] В отговор на Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) организира серия от лабораторни-подобни експерименти за изследване на проектирането на електрически сметки. Ето как те го описват в реферата:
"В експеримент проучване на базата на всеки участник видя сметката хипотетичен електроенергия за едно семейство с относително високо потребление на електроенергия, която обхваща информация за (а) историческа употреба, (б) сравнения с съседи, и (в) историческата употреба с уред разбивка. Участниците видяха всички видове информация по един от трите формати, включително (а) таблици, (б) бар графики, и (с) икона графики. Ние докладва за три основни констатации. Първо, потребителите разбират всеки тип информация електричество използване на най-, когато тя беше представена в таблица, може би защото маси улесни прост точка четене. Второ, предпочитания и намерения да спести електричество бяха най-силните за историческа информация за употреба, независими от формат. Трето, хората с по-ниска енергия грамотност разбират цялата информация по-малко. "
За разлика от други последващи проучвания, основният резултат от интерес Canfield, Bruin, and Wong-Parodi (2016) се отчита поведението не действителното поведение. Какви са предимствата и недостатъците на този тип изследване в една по-широка програма за научни изследвания насърчаване на енергоспестяването?
[ , ] Smith and Pell (2003) е сатиричен мета-анализ на проучвания, доказващи ефективността на парашути. Те стигат до заключение:
"Както и при много интервенции, предназначени за предотвратяване на влошаване на здравето, ефективността на парашути не е било подложено на щателна оценка чрез използване на рандомизирани контролирани проучвания. Застъпниците на медицина, базирана на доказателства са критикували приемането на интервенции оценени чрез използване само данни от наблюдения. Ние смятаме, че всеки може да се възползва, ако най-радикалните герои на медицина, базирана на доказателства, организира и участва в двойно-сляпо, контролирано рандомизирано, плацебо, кросоувър процес на парашута. "
Напиши оп-ЕД, подходящ за общо читатели на вестници, като The New York Times, като се аргументира срещу fetishization на експериментални доказателства. Осигуряване на специфични, конкретни примери. Съвет: Виж също, Bothwell et al. (2016) и Deaton (2010)
[ , , ] Разлика-в-разлики оценители на лечебният ефект могат да бъдат по-точни, отколкото разликата-в-средната оценители. Напиши бележка за инженер, отговарящ за тестване A / B при стартиране социални медийна компания обяснява стойността на подхода за разлика-в-разлики за тичане онлайн експеримент. Бележката трябва да съдържа изявление на проблема, някои интуиция за условията, при които оценителят разлика-в-разликата ще превъзхождат изчислителното разлика-в-средна, и прост проучване симулация.
[ , ] Гари Ловман е професор в Harvard Business School, преди да стане изпълнителен директор на Harrah му, един от най-големите казина компании в света. Когато той се премества в Harrah е, Ловман трансформира компанията с чести пътувания, подобни на програма за лоялност, който е събрал огромно количество данни за поведението на клиентите. От началото на тази винаги-на система за измерване, компанията започна провеждане на експерименти. Например, те могат да проведете експеримент за оценка на ефекта на талон за безплатна хотел нощ за клиенти с конкретен модел хазарта. Ето как Ловман описано значението на експериментиране с ежедневните бизнес практики на Harrah:
"Това е като да не се обвинявайте жени, не крадат, и сте се погрижили да има контролна група. Това е едно от нещата, които можете да загубите работата си за най-Harrah's-не работи с контролна група. " (Manzi 2012, 146)
Напиши имейл на нов служител обяснява защо Ловман мисли, че е толкова важно да има контролна група. Трябва да се опитате да се включат един пример-или реален или съставено-, за да илюстрира си точка.
[ , ] Нов експеримент има за цел да се прецени ефектът от получаване на напомняния текстови съобщения на поглъщане ваксинация. 150 клиники, всяка с по 600 пациенти, отговарящи на условията, са готови да участват. Налице е фиксирана цена от 100 долара за всяка клиника, която искате да работите, и тя струва 1 долар за всеки текстово съобщение, което искате да изпратите. Освен това, всички клиники, че работите с ще измерват постигнатите резултати (дали някой получи ваксинация) безплатно. Да предположим, че имате бюджет от 1000 долара.
[ , ] Основен проблем с онлайн курсове е изтощение; много ученици, които започват курсове в крайна сметка отпадане. Представете си, че работите в онлайн платформа за обучение, и дизайнер на платформата е създал визуален прогрес бар, че тя мисли, че ще помогне за предотвратяване на студенти от отпадане от курса. Вие искате да се изследва влиянието на лентата за напредъка на учениците в голяма изчислителна социална наука, разбира се. След разрешаването на всякакви етични въпроси, които биха могли да възникнат в експеримента, вие и вашите колеги се притесняват, че курсът може да няма достатъчно студенти надеждно откриване на последиците от лентата за прогрес. В изчисленията по-долу може да се предположи, че половината от студентите ще получи лентата за прогрес и половина не. Освен това, може да се предположи, че няма намеса. С други думи, може да се предположи, че участниците са засегнати само от това дали те са получили лечение или контрол; те не се извършва от това дали други хора са получили лечение или контрол (за по-официална дефиниция, вижте Gerber and Green (2012) , гл. 8). Моля да следите на всички допълнителни допускания, които правите.
[ , ] В една прекрасна хартия, Lewis and Rao (2015) ярко илюстрира основна статистическа ограничаване на дори масивни експерименти. Хартията-, който първоначално трябваше провокативното заглавие "На Близо-невъзможността за измерване на завръща в реклама" -показва колко трудно е да се измери възвръщаемостта на инвестициите на онлайн реклами, дори и с дигитални експерименти, включващи милиони клиенти. По-общо казано, хартията, ясно показва, че е трудно да се прецени малък ефект от лечението сред шумни данни за резултати. Или заяви diffently, хартията показва, че оценените ефекти от лечението ще имат големи доверителни интервали, когато стандартното-отклонение въздействие-да-(\ (\ Фрак {\ делта \ бар {Y}} {\ сигма} \)) съотношение е малък. Най-важният общ урок от тази книга е, че резултати от експерименти с малък коефициент на въздействие-да-стандарт-отклонение (например, ROI на рекламни кампании) ще бъдат незадоволителни. Вашето предизвикателство е да се напише бележка на някого в маркетинговия отдел на компанията evaluting планиран експеримент за измерване на ROI на рекламна кампания. Вашата бележка трябва да бъде подкрепено с графики на резултатите от компютърни симулации.
Ето малко предварителна информация, че може да се наложи. Всички тези числени стойности са типични за реалните експерименти докладвани в Lewis and Rao (2015) :
ROI, ключов показател за онлайн рекламни кампании, се определя като нетната печалба от кампанията (брутната печалба от кампанията минус разходите на кампанията), разделено на стойността на кампанията. Например една кампания, която няма ефект върху продажбите ще има ROI от -100% и кампания, където печалбите са равни на разходите ще има ROI 0.
средните продажби на клиент е $ 7 със стандартно отклонение от $ 75.
кампанията се очаква да увеличи продажбите от $ 0,35 за всеки клиент, който съответства на увеличение на печалбата от $ 0,175 за всеки клиент. С други думи, брутната печалба е 50%.
планирания размер на експеримента е 200,000 души, половината в групата на лечение и половина в контролната група.
разходите за кампанията е $ 0,14 за всеки участник.
Напиши бележка evaluting този експеримент. Бихте ли препоръчали стартира този експеримент, както е планирано? Ако е така, защо? Ако не, какви промени бихте препоръчали?
Една добра бележка ще се занимае с този конкретен случай; по-добра бележка ще обобщим от този случай по един начин (например, показват как се променя решения като функция на коефициента на отражение-да-стандарт-отклонение); и голяма бележка ще представи напълно генерализирана резултат.
[ , ] Направете същото като на предишния въпрос, а по-скоро, отколкото симулация трябва да използвате аналитичните резултати.
[ , , ] Направете същото като на предишния въпрос, но използват симулация както и аналитичните резултати.
[ , , ] Представете си, че вие сте написали бележката е описано по-горе, като се използва или симулация, аналитични резултати, или и двете, и някой от отдела по маркетинг препоръчва да се използва оценител разлика-в-разлики, а не разлика в средство оценител (виж точка 4.6.2) , Напиши нова по-кратък бележка обяснява как един 0.4 корелация между продажби преди експеримента и продажби след експеримента би променило вашето заключение.
[ , ] За да се оцени ефективността на нов уеб-базирани кариера услуга, офис университетски кариерни услуги, проведено рандомизирано проучване контрол сред 10,000 студенти, влизащи последната година на училище. А безплатен абонамент с уникален лог-ин информация е изпратена чрез ексклузивен имейл покана до 5000 от произволно избрани студенти, а други 5000 са учениците в контролната група и нямат абонамент. Дванадесет месеца по-късно, проучване на проследяване (без липса на отговор) показва, че и в двете третирани и контролни групи, 70% от учениците са си осигурили заетост на пълно работно време в избраната от тях област (Таблица 4.5). По този начин, изглежда, че на уеб-базирана услуга, не е имало ефект.
Въпреки това, един умен учен данни в университета погледна данните малко по-отблизо и е установено, че само 20% от учениците в групата на лечение някога сте влезли в сметката след получаването на имейла. Освен това, и до известна степен изненадващо, сред тези, които са влезли в сайта, само 60% са осигурени работни места на пълен работен ден в избраната от тях област, която е по-ниска от цената за хора, които не влизат в и по-ниска от цената за хора в състоянието на контрола (Таблица 4.6).
Съвет: Този въпрос излиза извън материала, обхванат в тази глава, но разглежда въпроси често срещани в експерименти. Този тип експериментален дизайн понякога се нарича дизайн насърчение, защото участниците се насърчават да участват в лечението. Този проблем е пример за това, което се нарича едностранен несъответствие (вж Gerber and Green (2012) , гл. 5)
[ ] След допълнителна проверка, се оказва, че експериментът е описано в предходния въпрос е още по-сложно. Оказва се, че 10% от хората в контролната група, платена за достъп до услугата, и те в крайна сметка с равнище на заетост от 65% (Таблица 4.7).
Съвет: Този въпрос излиза извън материала, обхванат в тази глава, но разглежда въпроси често срещани в експерименти. Този проблем е пример за това, което се нарича двустранен несъответствие (вж Gerber and Green (2012) , гл. 6)
група | размер | Коефициент на заетост |
---|---|---|
Предоставен достъп до уеб сайт | 5000 | 70% |
Не е предоставен достъп до уеб сайт | 5000 | 70% |
група | размер | Коефициент на заетост |
---|---|---|
Предоставен достъп до уеб сайт и влезли в | 1000 | 60% |
Предоставен достъп до уеб сайт и никога не са влизали в | 4000 | 85% |
Не е предоставен достъп до уеб сайт | 5000 | 70% |
група | размер | Коефициент на заетост |
---|---|---|
Предоставен достъп до уеб сайт и влезли в | 1000 | 60% |
Предоставен достъп до уеб сайт и никога не са влизали в | 4000 | 72,5% |
Не е предоставен достъп до уеб сайт и плаща за него | 500 | 65% |
Не е предоставен достъп до уеб сайт и не плати за него | 4500 | 70,56% |