[ , ] Берински и колеге (2012) проценили МТурк делом реплицирањем три класична експеримента. Реплицирати експеримент у класичној азијској болести Tversky and Kahneman (1981) . Да ли се ваши резултати уклапају у Тверски и Кахнеман? Да ли се ваши резултати подударају са Беринским и колегама? Шта - ако нешто - да ли нас ово научи да користимо МТурк за експерименте истраживања?
[ , ] У доњем раду на папиру под називом "Морамо да прекинемо", социјални психолог Роберт Циалдини, један од аутора Schultz et al. (2007) писао је да се раније напушта са посла као професора, дијелом због изазова са којима се суочавао са теренским експериментима у дисциплини (психологији) која углавном води лабораторијске експерименте (Cialdini 2009) . Прочитајте чланак Циалдини и напишите му е-пошту позивајући га да преиспита свој распад у свјетлу могућности дигиталних експеримената. Користите конкретне примере истраживања које се баве његовом забринутошћу
[ ] Да би се утврдило да ли су мали почетни успеси закључани или нестали, ван де Ријт и колеге (2014) интервенисали су у четири различита система који су успјели на случајно одабраним учесницима, а затим измерили дугорочне утицаје овог произвољног успјеха. Можете ли размишљати о другим системима у којима бисте могли да покренете сличне експерименте? Процијените ове системе у смислу питања научне вриједности, алгоритамских конфузија (види поглавље 2) и етике.
[ , ] Резултати експеримента могу зависити од учесника. Креирајте експеримент и затим га покрените на МТурк користећи двије различите стратегије запошљавања. Покушајте одабрати стратегије експеримента и регрутације тако да ће резултати бити што различити . На примјер, ваше стратегије запошљавања би могле бити запошљавање учесника ујутро и вече или за компензацију учесника са високим и ниским платама. Ове врсте разлика у стратегији запошљавања могле би довести до различитих група учесника и различитих експерименталних исхода. Колико су различити резултати? Шта то открива о покретању експеримената на МТурк?
[ , , ] Замислите да сте планирали експеримент емоционалне контагије (Kramer, Guillory, and Hancock 2014) . Користе резултате раније посматране студије Kramer (2012) да би одлучили о броју учесника у сваком стању. Ове две студије се не подударају тако да будите сигурни да изричито наводите све претпоставке које сте направили:
[ , , ] Поново одговорите на претходно питање, али овог пута уместо да користите раније посматрачко истраживање Kramer (2012) , користите резултате ранијег природног експеримента од Lorenzo Coviello et al. (2014) .
[ ] Margetts et al. (2011) и ван де Ријт и сар. (2014) изводио експерименте који су проучавали процес људи који су потписали петицију. Упоредите и контраста дизајна и налаза ових студија.
[ ] Dwyer, Maki, and Rothman (2015) спровели два теренска експеримента о односу између друштвених норми и про-еколошког понашања. Ево апстракта њиховог рада:
"Како се психолошка наука може искористити за подстицање понашања у околини? У две студије, интервенције у циљу промовисања понашања у заштити енергије у јавним купатилима испитивале су утицај дескриптивних норми и личне одговорности. У студији 1, светлосни статус (тј. Укључивање или искључивање) је манипулисан пре него што је нетко ушао у ненасељено јавно купатило, што је сигнализирао описну норму за то подешавање. Учесници су знатно вероватније искључивали светла ако су отишли када су ушли. У студији 2 укључен је додатни услов у којем је норма искључивања светла показала конфедерација, али учесници нису били сами одговорни за укључивање. Лична одговорност модерирала је утицај друштвених норми на понашање; када учесници нису били одговорни за укључивање светлости, утицај норме је смањен. Ови резултати указују на то како описне норме и лична одговорност могу регулисати ефективност интервенције у околини. "
Прочитајте свој рад и дизајнирајте репликацију студије 1.
[ , ] Изградите на претходно питање, сада извршите свој дизајн.
[ ] Постојала је значајна дебата о експериментима помоћу учесника регрутованих из МТурк-а. Паралелно, постојала је и суштинска дебата о експериментима који су користили учесници који су регрутовани из студентског становништва. Напишите двоструку мемо листу упоређујући и контрастирати Туркерс и студенте као учеснике истраживања. Ваше поређење треба да укључује дискусију о научним и логистичким питањима.
[ ] Књига Јим Манзиа Унцонтроллед (2012) је диван увод у моћ експериментисања у послу. У књизи је пренио следећу причу:
"Био сам једном на састанку са истинским бизнис генијем, само-произведеним милијардером који је имао дубоку, интуитивну подвлачење моћи експеримената. Његова компанија је потрошила значајне ресурсе покушавајући да направи одличне прозоре који ће привући потрошаче и повећати продају, како су рекли конвенционална мудрост. Стручњаци пажљиво су тестирали дизајн након дизајна, а у појединачним тестним прегледима за период од неколико година не показују никакав значајан узрочни ефекат сваког новог дизајна екрана на продају. Виши маркетиншки и трговачки руководиоци су се састали са извршним директором за преглед ових историјских резултата тестирања у тото. После представљања свих експерименталних података, они су закључили да је конвенционална мудрост погрешна - приказ прозора не води продају. Њихова препоручена акција је била смањење трошкова и напора у овој области. Ово је драматично показало способност експеримента да обори конвенционалну мудрост. Одговор главног директора био је једноставан: "Мој закључак је да ваши дизајнери нису врло добри". Његово рјешење је било повећање напора у дизајну дизајна и (Manzi 2012, 158–9) нових људи. " (Manzi 2012, 158–9)
Која врста важности је забринутост извршног директора?
[ ] Изградите на претходном питању, замислите да сте били на састанку на коме се дискутовало о резултатима експеримената. Која су четири питања која бисте могли да поставите - по један за сваку врсту ваљаности (статистичке, конструктивне, интерне и екстерне)?
[ ] Bernedo, Ferraro, and Price (2014) проучавали седмогодишњи ефекат интервенција штедње воде описане у Ferraro, Miranda, and Price (2011) (види слику 4.11). У овом раду, Бернедо и колеге су такође покушали да разумеју механизам који стоји иза ефекта поређењем понашања домаћинстава која су се и нису померала након што је третман испоручен. То је грубо, покушали су да виде да ли је лечење утицало на дом или на кућу.
[ ] У наставку са Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) , Сцхултз и колеге су изводили серију три експеримента о утицају дескриптивних и одредбених норми на различито еколошко понашање (поновну употребу пешкира) у два контекста (хотел и (Schultz, Khazian, and Zaleski 2008) .
[ ] Као одговор на Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) водили серију лабораторијских експеримената за проучавање дизајна електричних рачуна. Ево како они описују у апстракту:
"У експерименту заснованом на истраживању, сваки учесник је видео хипотетички рачун за електричну енергију за породицу са релативно високом потрошњом електричне енергије, која покрива информације о (а) историјској употреби, (б) упоређивању суседа, и (ц) историјској употреби са сломом уређаја. Учесници су видјели све типове информација у једном од три формата, укључујући (а) табеле, (б) графиконе и (ц) иконе графикона. Пријављујемо се о три главна открића. Прво, потрошачи су највише схватили сваку врсту информација о електричној енергији када су представљени у табели, можда зато што табеле омогућавају једноставно читање тачака. Друго, преференције и намјере штедње електричне енергије биле су најјаче за историјску употребу, независно од формата. Треће, појединци са нижим енергетским писменостм разумели све информације мање. "
За разлику од осталих студија, главни исход интереса за Canfield, Bruin, and Wong-Parodi (2016) је пријављен понашање, а не стварно понашање. Које су предности и слабости ове врсте студија у ширем истраживачком програму који промовише уштеду енергије?
[ , Smith and Pell (2003) су представили сатирску мета-анализу студија које показују ефикасност падобрана. Закључили су:
"Као и код многих интервенција намењених спречавању лошег здравља, ефикасност падобранаца није била подвргнута ригорозној процени применом рандомизованих контролисаних испитивања. Заговорници лекова заснованих на доказима критиковали су усвајање интервенција процијењених кориштењем само података о опажању. Сматрамо да би свима могло бити од користи ако су најрадикалнији протагонисти лекова засновани на доказима организовали и учествовали у двоструком слепом, рандомизованом, с плацебом контролисаном унакрсном суђењу падобрану. "
Напишите оп-ед погодан за часопис за опште читаштво, као што је Нев Иорк Тимес , тврдећи се против фетишизације експерименталних доказа. Наведите конкретне и конкретне примере. Напомена: Види и Deaton (2010) и Bothwell et al. (2016) .
[ , , ] Оцјењивачи диференцијације у разликама ефекта третмана могу бити прецизнији од разлика у средњим проценама. Написите белешку инжењеру који је задужен за тестирање А / Б у старт-уп друштвеним медијским компанијама објашњавајући вриједност приступа разлика у разликама за покретање онлине експеримента. Меморандум треба да садржи изјаву о проблему, неку интуицију о условима под којима ће процена разлика између разлика у односу на разлику-у-средња процена и једноставну симулациону студију.
[ , ] Гери Ловеман је био професор на Харвард Бусинесс Сцхоол-у пре него што је постао директор Харрах'с, једне од највећих компанија у казину на свету. Када се преселио у Харрах'с, Ловеман је трансформисао компанију са програмом лојалности попут честих флиера који је прикупио огромне количине података о понашању клијената. Поред овог система за мерење времена, компанија је започела са експериментима. На пример, они могу покренути експеримент како би проценили ефекат купона за бесплатну хотелску ноћ за купце са посебним обрасцем коцкања. Ево како је Ловеман описао важност експериментисања Харрахове свакодневне пословне праксе:
"То је као да не узнемиравате жене, не крађете, а ви морате имати контролну групу. Ово је једна од ствари за коју можете изгубити свој посао у Харрах-у - без управљања контролном групом. " (Manzi 2012, 146)
Напишите е-пошту новом запосленику објашњавајући зашто Ловеман мисли да је тако важно имати контролну групу. Требали бисте покушати да укључите пример - или стварни или измишљени - да бисте илустрирали вашу тачку.
[ , ] Нови експеримент има за циљ да процени утицај примања подсетника о текстуалној поруци о узимању вакцинације. Стотину и педесет клиника, свака са 600 квалификованих пацијената, спремна су да учествују. Постоји фиксни трошак од 100 УСД за сваку клинику са којом желите радити, а кошта 1 долар за сваку текстуалну поруку коју желите послати. Даље, све клинике са којима радите мјериће исход (било да је неко примио вакцинацију) бесплатно. Претпоставите да имате буџет од 1.000 долара.
[ , ] Главни проблем са онлине курсевима је исцрпљивање: многи ученици који започињу курсеве на крају пада. Замислите да радите на платформи за учење на мрежи, а дизајнер на платформи је створио визуелни напредак који мисли да ће помоћи студентима да избаце из курса. Желите да тестирате ефекат напретка на студенте на великом рачунарском друштвеном курсу. После адресирања етичких питања која могу настати у експерименту ви и ваше колеге забринути сте да курс можда неће имати довољно студената да поуздано открију ефекте траке напретка. У следећим прорачунима, можете претпоставити да ће половина студената примити траку напретка и пола не. Надаље, можете претпоставити да нема сметњи. Другим речима, можете претпоставити да учесници утичу само на то да ли су примили лечење или контролу; они се не спроводе ако су други људи примили третман или контролу (за формалнију дефиницију, види поглавље 8 Gerber and Green (2012) ). Пратите све додатне претпоставке које сте направили.
[ , , ] Замислите да радите као научник података у технолошкој компанији. Неко из маркетиншког одељења тражи вашу помоћ у оцењивању експеримента који они планирају да би се мерило повраћај инвестиције (РОИ) за нову онлине кампању. РОИ се дефинише као нето добит из кампање подијељена на цену кампање. На пример, кампања која није имала ефекта на продају имала би РОИ од -100%; кампања у којој је остварена добит била једнака трошковима би имала РОИ од 0; и кампању у којој је остварен профит двоструко би трошак имао РОИ од 200%.
Пре покретања експеримента, одељење маркетинга пружа вам сљедеће информације на основу својих ранијих истраживања (у ствари, ове вриједности су типичне за праве онлине кампање кампање пријављене у Левис и Рао (2015) ):
Напишите белешку која процењује овај предложени експеримент. Ваш белешак треба да користи доказе из симулације коју креирате и треба да адресира две главна питања: (1) Да ли бисте препоручили покретање овог експеримента према плану? Ако је тако, зашто? Ако не, зашто не? Будите сигурни да сте јасно о критеријумима које користите за доношење ове одлуке. (2) Која величина узорка бисте препоручили за овај експеримент? Опет молим вас, будите сигурни да сте јасно о критеријумима које користите да бисте донели ову одлуку.
Добар меморандум ће се бавити овим конкретним случајем; бољи белешак ће се генерализовати из овог случаја на један начин (нпр. показати како се одлука мијења као функција величине ефекта кампање); и велики белешак ће представити потпуно генерализовани резултат. Ваша белешка треба да користи графиконе како би илустровао своје резултате.
Ево два упозорења. Прво, одељење маркетинга вам је можда пружило неке непотребне информације и можда вам нису пружиле неке потребне информације. Друго, ако користите Р, будите свесни да функција рлнорм () не функционише на начин који многи очекују.
Ова активност ће вам омогућити вежбање анализе моћи, стварање симулација и комуникацију резултата са речима и графиконима. Требало би вам помоћи да извршите анализу моћи за било коју врсту експеримента, а не само експерименте дизајниране да процијените РОИ. Ова активност претпоставља да имате искуство са статистичким испитивањем и анализом моћи. Ако нисте упознати са анализом моћи, препоручујем да прочитате "А Повер Пример" од Cohen (1992) .
Ова активност је инспирисана лепим радом RA Lewis and Rao (2015) , који живописно илуструје основно статистичко ограничење чак и масивних експеримената. Њихов чланак - који је изворно имао провокативну титулу "О блиској немогућности мерења повратка рекламирања" - показује колико је тешко мерити поврат инвестиција онлине огласа, чак и са дигиталним експериментима који укључују милионе купаца. Опћенито, RA Lewis and Rao (2015) илуструју основну статистичку чињеницу која је посебно важна за експерименте дигиталног доба: тешко је процијенити ефекте малог третмана усред бучних података о исходу.
[ , ] Урадите исто као претходно питање, али, умјесто симулације, требате користити аналитичке резултате.
[ , , ] Урадите исто као претходно питање, али користите симулацијске и аналитичке резултате.
[ , , ] Замислите да сте написали белешку описано горе, а неко из одјељења маркетинга обезбеди један нови податак: они очекују 0.4 корелације између продаје пре и после експеримента. Како ово мења препоруке у вашем белешку? (Сажетак: погледајте одељак 4.6.2 за више о процени разлика у средствима и процени разлика између разлика.)
[ , ] Да би се проценила ефикасност новог програма помоћи за запошљавање на мрежи, универзитет је спровео рандомизовано контролно испитивање међу 10.000 ученика који су ушли у последњу школску годину. Бесплатна претплата са јединственим пријављеним информацијама упућена је путем ексклузивног позива за е-пошту на 5.000 случајно одабраних студената, док је осталих 5.000 ученика било у контролној групи и није имало претплату. Дванаест месеци касније, накнадна анкета (без нерешеног одговора) показала је да иу оба лечења и контролне групе 70% ученика има осигурано пуно радно време у изабраној области (табела 4.6). Стога се чинило да интернет услуга није имала никаквог ефекта.
Међутим, паметан научник података на универзитету је пажљиво погледао податке и установио да се само 20% ученика у терапијској групи икада пријавило на рачун након пријема е-поште. Даље, и донекле изненађујуће, међу онима који су се пријавили на веб страницу, само 60% је осигурало запослење са пуним радним временом у свом изабраном пољу, што је ниже од стопе за људе који се нису пријавили и нижи од стопе за људе у контролном стању (табела 4.7).
Напомена: Ово питање превазилази материјале обухваћене у овом поглављу, али се бави проблемима уобичајеним у експериментима. Овај тип експерименталног дизајна понекад се назива дизајном охрабрења јер се учесници охрабрују да се ангажују у лечењу. Овај проблем је пример онога што се назива једнострано непоштовање (види поглавље 5 Gerber and Green (2012) ).
[ ] Након додатног испитивања испоставило се да је експеримент описан у претходном питању још компликованији. Испоставило се да је 10% људи у контролној групи платило приступ услугама и завршило са стопом запослености од 65% (табела 4.8).
Напомена: Ово питање превазилази материјале обухваћене у овом поглављу, али се бави проблемима уобичајеним у експериментима. Овај проблем је пример онога што се назива двостраном неусклађеношћу (видети поглавље 6 Gerber and Green (2012) ).
Група | Величина | Стопа запослености |
---|---|---|
Гранични приступ веб локацији | 5,000 | 70% |
Није одобрен приступ веб локацији | 5,000 | 70% |
Група | Величина | Стопа запослености |
---|---|---|
Гранични приступ веб локацији и пријављени | 1.000 | 60% |
Грант приступ веб локацији и никад није пријављен | 4,000 | 72.5% |
Није одобрен приступ веб локацији | 5,000 | 70% |
Група | Величина | Стопа запослености |
---|---|---|
Гранични приступ веб локацији и пријављени | 1.000 | 60% |
Грант приступ веб локацији и никад није пријављен | 4,000 | 72.5% |
Није добио приступ веб локацији и платио за то | 500 | 65% |
Није одобрен приступ интернету и није платио | 4.500 | 70.56% |