[ , ] Беринские і яго калегі (2012) ацэньвалі MTurk часткова тыражаванне тры класічных эксперыментаў. Рэплікацыя класічны азіяцкі эксперымент Disease апраўленне па Tversky and Kahneman (1981) . Зрабіце вашы вынікі матча Цвярской і Канеман-х? Ці супадаюць вашы вынікі тых Беринские і калега? Што-калі што-небудзь, гэта вучыць нас аб выкарыстанні MTurk для эксперыментаў абследавання?
[ , ] У артыкуле некалькі насмешлівы пад назвай «Мы павінны зламаць ўверх,» сацыяльны псіхолаг Роберт Чалдини, адзін з аўтараў Schultz et al. (2007) і Schultz et al. (2007) , пісаў , што ён сыходзіць у адстаўку рана з яго працы ў якасці прафесара, збольшага з - за праблемы , з якімі ён сутыкнуўся рабіць палявыя эксперыменты ў дысцыпліне (псіхалогія) , якія ў асноўным праводзяць лабараторныя эксперыменты (Cialdini 2009) . Прачытайце артыкул Чалдини, і напісаць яму ліст, які заклікае яго перагледзець сваю ломку ў святле магчымасцяў лічбавых эксперыментаў. Выкарыстоўвайце канкрэтныя прыклады даследаванняў, якія вырашыць свае праблемы.
[ ] Для таго , каб вызначыць , з'яўляецца Ці зафіксаваць невялікія першапачатковыя поспехі ці неўвядальнай, ван дэ Rijt і і яго калегі (2014) ўмяшалася ў чатырох розных сістэмах даруючы поспех на выпадкова выбраных удзельнікаў, а затым вымералі доўгатэрміновыя наступствы гэтага адвольнага поспеху. Вы можаце думаць пра іншых сістэмах, у якіх вы маглі б правесці падобныя эксперыменты? Ацэнка гэтых сістэм з пункту гледжання пытанняў, якія маюць навуковую каштоўнасць, алгарытмічны збянтэжыць (глядзі раздзел 2), і этыкі.
[ , ] Вынікі эксперыменту могуць залежаць ад удзельнікаў. Стварэнне эксперыменту, а затым запусціць яго на MTurk з выкарыстаннем двух розных стратэгій найму. Паспрабуйце выбраць стратэгіі эксперыменту і набору так , што вынікі будуць гэтак жа розныя , наколькі гэта магчыма. Напрыклад, вашыя стратэгіі па наборы персанала могуць быць вербаваць удзельнік раніцай і вечар ці кампенсаваць удзельнік з высокай і нізкай заработнай платай. Такія адрозненні ў стратэгіі набору можа прывесці да розных пулам удзельнікаў і розных эксперыментальных вынікаў. Чым адрозніваецца Ці вашы вынікі атрымліваюцца? Што гэта кажа нам аб правядзенні эксперыментаў на MTurk?
[ , , ] Уявіце , што вы планавалі эмацыйныя заразы эксперыменту (Kramer, Guillory, and Hancock 2014) . Выкарыстоўвайце вынікі з больш ранніх назіранняў даследаванні Kramer (2012) , каб вырашыць , колькасць удзельнікаў у кожным стане. Гэтыя два даследаванні не супадаюць цалкам, таму абавязкова відавочна пералічыць усе здагадкі, што вы робіце:
[ , , ] Адказ на папярэдняе пытанне зноў, але на гэты раз замест таго , каб выкарыстоўваць раней назіральнай даследаванне па Kramer (2012) , выкарыстоўваць вынікі з больш ранняга натуральнага эксперыменту Lorenzo Coviello et al. (2014) і Lorenzo Coviello et al. (2014) .
[ ] Абодва Margetts et al. (2011) і Margetts et al. (2011) і Ван дэ Rijt і інш. (2014) праводзілі эксперыменты па вывучэнню працэсу людзей , падпісаўшыся петыцыяй. Параўнайце і супастаўце канструкцыі і вынікі гэтых даследаванняў.
[ ] Dwyer, Maki, and Rothman (2015) правялі два палявых эксперыментаў , пра ўзаемасувязь паміж сацыяльнымі нормамі і пра-экалагічнага паводзінаў. Вось тэзісы свайго артыкула:
«Як можа псіхалагічную навуку можна выкарыстоўваць для стымулявання proenvironmental паводзін? У двух даследаваннях, мерапрыемства, накіраванае на заахвочванне паводзін па захаванні энергіі ў грамадскіх ванных даследавала ўплыў апісальных норм і асабістай адказнасці. У даследаванні 1, індыкатар стану (г.зн. уключаны або выключаны) маніпулявалі, перш чым нехта ўвайшоў незаняты грамадскую ванную пакой, сігналізуючы апісальную норму для гэтага параметру. Удзельнікі былі значна больш верагодна, каб уключыць святло, калі яны былі выключаны, калі яны ўвайшлі. У даследаванні 2, дадатковая ўмова было ўключана ў якім норма выключаючы святло быў прадэманстраваны супольнікам, але ўдзельнікі самі не былі адказныя за ператварэнне яго. Асабістая адказнасць Мадэратар ўплыву сацыяльных нормаў на паводзінах; калі ўдзельнікі не нясуць адказнасці за ўключэнне святла, уплыў нормы зменшыліся. Гэтыя вынікі паказваюць на тое, як апісальны нормы і асабістая адказнасць можа рэгуляваць эфектыўнасць proenvironmental ўмяшання «.
Прачытайце іх дакумент і распрацаваць тыражаванне даследаванні 1.
[ , ] Грунтуючыся на папярэдняе пытанне, у цяперашні час ажыццяўляе свой дызайн.
[ ] Там былі значныя дэбаты з нагоды эксперыментаў з выкарыстаннем удзельнікаў, набраных з MTurk. Паралельна з гэтым, назіраецца таксама істотная дыскусія пра эксперыменты з выкарыстаннем удзельнікаў, набраных са студэнтаў колькасці студэнтаў. Напісаць дзве старонкі памятку параўнання і супрацьпастаўлення Turkers і магістрантаў у якасці ўдзельнікаў даследавання. Ваша параўнанне павінна ўключаць абмеркаванне навуковых і тэхнічных пытанняў.
[ Кніга] Джым MANZI ў некантраляваных (2012) з'яўляецца выдатным увядзеннем у сілу эксперыментаў у бізнэсе. У кнізе ён перадаў наступную гісторыю:
«Я быў калі-то на сустрэчы з сапраўднай бізнес-геніем, самаробны мільярдэрам, які меў глыбокае, інтуітыўнае прыніжэнне магутнасці эксперыментаў. Яго кампанія выдаткавала значныя рэсурсы, спрабуючы стварыць вялікія вітрыны крамы, якія прыцягнуць спажыўцоў і рост продажаў, так як агульнапрынятая сказалі, што яны павінны. Эксперты старанна тэстуюцца дызайн пасля распрацоўкі, так і ў асобных сесій тэст агляд на працягу перыяду гадоў трымаў ня паказваючы ніякіх істотных прычынна-выніковую сувязь кожнага новага дызайну дысплея па продажах. Старэйшы маркетынг і мэрчэндайзінг кіраўнікі сустрэліся з генеральным дырэктарам, каб разгледзець гэтыя гістарычныя вынікі тэставання ў цэлым. Пасля прадстаўлення ўсiх Эксперыментальная інфармацыя, яны прыйшлі да высновы, што агульнапрынятая было няправільна, што акно адлюстроўвае ня павялічыць аб'ём продажаў. Рэкамендуецца Іх дзеянне складаецца ў скарачэнні выдаткаў і намаганняў у гэтай галіне. Гэта наглядна прадэманстравана здольнасць эксперыментаў перакуліць агульнапрынятыя. Адказ генеральнага дырэктара быў просты: «Мой вывад заключаецца ў тым, што вашы дызайнеры не вельмі добра.» Яго рашэнне павялічыць намаганні ў галіне дызайну крамы дысплея, і атрымаць новыя людзі , каб зрабіць гэта. » (Manzi 2012, 158–9)
Які тып дзеяння з'яўляецца клопат дырэктара?
[ ] Абапіраючыся на папярэдняе пытанне, уявіце, што вы былі на нарадзе, дзе абмяркоўваліся вынікі эксперыментаў. Якія чатыры пытанні, якія вы маглі б спытаць, па адным для кожнага тыпу дзеянні (статыстычны, сканструяваць, унутраны і вонкавы)?
[ ] Bernedo, Ferraro, and Price (2014) вывучала сем гадоў эфект эканоміі вады ўмяшання , апісанае ў Ferraro, Miranda, and Price (2011) (глядзіце малюнак 4.11). У гэтым артыкуле, Bernedo і яго калегі таксама спрабавалі зразумець механізм за эфектам, параўноўваючы паводзіны хатніх гаспадарак, якія маюць і ня ссунуліся пасля лячэння было дастаўлена. Гэта значыць, груба кажучы, яны спрабавалі ўбачыць ўплыў Ці лячэнне дома або домаўладальніка.
[ ] У наступных мерах па Schultz et al. (2007) і Schultz et al. (2007) , Шульц і яго калегі правялі серыю з трох эксперыментаў па ўплыву апісальнай і забеспячальніцкіх нормаў па розным экалагічнай паводзінам (паўторнае выкарыстанне ручнікоў) у двух кантэкстах (гасцініца і таймшеры кандамініюмаў) (Schultz, Khazian, and Zaleski 2008) ,
[ ] У адказ на Schultz et al. (2007) і Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) правялі серыю лабараторных падобных эксперыментаў па вывучэнні канструкцыі электрычных рахункаў. Вось як яны апісваюць яго ў рэфераце:
«У эксперыменце на аснове абследавання, кожны ўдзельнік ўбачыў гіпатэтычны кошт электрычнасці для сям'і з адносна высокім выкарыстаннем электраэнергіі, якія ахопліваюць інфармацыю аб (а) гістарычнага выкарыстання, (б) параўнанне з суседзямі, і (в) гістарычнае выкарыстанне з разбіўкай прыбора. Удзельнікі ўбачылі ўсе тыпы інфармацыі ў адзін з трох фарматаў, уключаючы (а) табліцы, (б) гістаграма, і (с) значком графікі. Мы паведамляем аб трох асноўных высновах. Па-першае, спажыўцы зразумелі кожны тып інфармацыі электрычнасці выкарыстоўваюць больш за ўсё, калі ён быў прадстаўлены ў табліцы, магчыма, таму, што табліцы палягчаюць простае чытанне кропкі. Па-другое, перавагі і намеры, каб зэканоміць электраэнергію былі самымі моцнымі за гістарычнай выкарыстаннем інфармацыі, незалежна ад фармату. Па-трэцяе, людзі з больш нізкай энергетычнай пісьменнасці разумелі ўсю інфармацыю менш «.
У адрозненні ад іншых наступных даследаванняў, галоўны вынік цікавасці Canfield, Bruin, and Wong-Parodi (2016) паведамляецца паводзіны, а ня рэальнае паводзіны. Якія моцныя і слабыя бакі такога роду даследаванняў у шырокай даследчай праграмы, якая спрыяе эканоміі энергіі?
[ , ] Smith and Pell (2003) прадставілі сатырычную мету-аналіз даследаванняў , якія дэманструюць эфектыўнасць парашутаў. Яны прыйшлі да высновы:
«Як і многія мерапрыемствы накіраваны на прадухіленне дрэннага стану здароўя, эфектыўнасць парашутамі ня былі падвергнуты стараннай ацэнцы з дапамогай рандомізірованный кантраляваных выпрабаванняў. Прыхільнікі доказнай медыцыны, заснаванай раскрытыкавалі прыняцце мер, ацэненых з выкарыстаннем толькі дадзеных назіранняў. Мы лічым, што кожны можа прынесці карысць, калі найбольш радыкальныя пратаганіста доказнай медыцыны, заснаванай арганізаваў і ўдзельнічаў у падвойным сляпым, кантраляванае рандомізірованное, плацебо, перакрыжаванае даследаванне парашута «.
Напісаць аглядных падыходзіць для агульнага чытацкага газеты, такія як Нью - Ёрк Таймс, выступаючы супраць фетышызацыя эксперыментальных дадзеных. Забяспечыць пэўныя, канкрэтныя прыклады. Падказка: Глядзіце таксама Deaton (2010) і Bothwell et al. (2016) і Bothwell et al. (2016) .
[ , , ] Розніца-в-адрозненняў ацэнкі эфекту лячэння могуць быць больш дакладнымі, чым розніца-в-сярэдніх ацэнкі. Напісаць запіску інжынера, адказнага за тэставанне A / B на пачатковым сацыяльных медыя кампаніі, тлумачачы значэнне падыходу розніца-в-адрозненнях для запуску онлайн-эксперымент. Памятка павінна ўключаць у сябе пастаноўку задачы, некаторыя інтуіцыі аб умовах, пры якіх адзнака розніцы в-рознасці перасягне ацэначную розніцу-в-сярэдняга і простае даследаванне мадэлявання.
[ , ] Гэры Loveman быў прафесарам у Гарвардскай школе бізнесу, перш чым стаць генеральны дырэктар Harrah, адзін з найбуйнейшых кампаній казіно ў свеце. Калі ён пераехаў у Harrah 's, Loveman ператварыў кампанію з частым лётчыкам, як праграмай лаяльнасці, якія сабраны велізарнымі аб'ёмамі дадзеных аб паводзінах кліента. Акрамя гэтага заўсёды на вымяральнай сістэме, кампанія пачала правядзення эксперыментаў. Напрыклад, яны маглі б правесці эксперымент, каб ацаніць уплыў купона на бясплатную ноч гатэля для кліентаў з вызначаным малюнкам ігральнага. Вось як Loveman апісаў важнасць эксперыментаў для паўсядзённых бізнес Харра практыкі:
«Гэта, як вы не турбаваць жанчын, вы не крадуць, і вы павінны мець кантрольную групу. Гэта адна з рэчаў , якія вы можаце страціць сваю працу , па меншай Harrah's-не працуе кантрольная група. » (Manzi 2012, 146)
Напісаць ліст да новага супрацоўніку, тлумачачы, чаму Loveman думае, што гэта так важна мець кантрольную групу. Вы павінны паспрабаваць ўключыць прыклад-небудзь рэальны або складзенага-праілюстраваць свой пункт гледжання.
[ , ] Новы эксперымент накіраваны на ацэнку ўплыву атрымання тэкставых паведамленняў нагадванні пра вакцынацыю супраць. Сто пяцьдзесят клінік, кожная з 600 пацыентаў, якія маюць права, жадаюць удзельнічаць. Існуе фіксаваная кошт $ 100 за кожную клініку вы хочаце працаваць, і гэта варта $ 1 для кожнага тэкставага паведамлення, якое вы хочаце адправіць. Акрамя таго, любыя клінікі, якія вы працуеце з памерае вынік (хто-то ці атрымаў прышчэпку) бясплатна. Выкажам здагадку, што ў вас ёсць бюджэт у памеры $ 1000.
[ , ] Асноўная праблема з онлайн-курсаў сціральнасць: многія студэнты, пачаткоўцы курсы ў канчатковым выніку адсеву. Уявіце, што вы працуеце ў інтэрнэт-платформы навучання, і дызайнер платформы стварыў візуальны індыкатар, што яна думае, што дапаможа прадухіліць студэнтаў адсеву курса. Вы хочаце, каб праверыць эфект прагрэс-бар на студэнтаў у вялікай вылічальнай сацыяльнай навукі, вядома. Пасля ліквідацыі любых этычных праблем, якія могуць паўстаць у ходзе эксперыменту, вы і вашы калегі хвалююцца, што, вядома, не можа мець дастаткова студэнтаў, каб надзейна выявіць эфекты індыкатара выканання. У наступных разліках, можна выказаць здагадку, што палова студэнтаў атрымаюць прагрэс бар і палову няма. Акрамя таго, можна выказаць здагадку, што няма ніякіх перашкод. Іншымі словамі, можна выказаць здагадку, што ўдзельнікі дзівяцца толькі ці атрымалі яны лячэнне або кантроль; яны не ажыццяўляюць , ці атрымалі іншыя людзі , лячэнне або кантроль (для больш фармальнага вызначэння, глядзіце раздзел 8 Gerber and Green (2012) ). Сачыце за якіх-небудзь дадатковых здагадак, якія вы робіце.
[ , , ] Уявіце, што вы працуеце ў якасці навукоўцаў дадзеных пры тэхнічнай кампаніі. Хтосьці з аддзела маркетынгу просіць вашай дапамогі ў ацэнцы эксперыменту, што яны плануюць, каб вымераць аддачу ад інвестыцый (ROI) для новай анлайнавай рэкламнай кампаніі. ROI вызначаецца як чысты прыбытак ад кампаніі, падзеленая на кошт кампаніі. Напрыклад, кампанія, якая не мела ніякага ўплыву на продажу будзе мець рэнтабельнасць інвестыцый -100%; кампанія, дзе прыбытак, атрыманая была роўная выдаткі будзе мець рэнтабельнасць ад 0; і кампанія, дзе генеруецца прыбытак была ў два разы даражэй будзе мець рэнтабельнасць 200%.
Перад пачаткам эксперыменту, аддзел маркетынгу дае Вам наступную інфармацыю , заснаваную на іх ранніх даследаваннях (на самай справе, гэтыя значэнні з'яўляюцца тыповымі для рэальных анлайнавых рэкламных кампаній , зарэгістраваных у Люіс і Рао (2015) ):
Напісаць запіску, ацэньваючы гэты прапанаваны эксперымент. Ваша запіска павінна выкарыстоўваць доказы з мадэлявання, які вы ствараеце, і яна павінна вырашыць дзве асноўныя праблемы: (1) Вы рэкамендавалі б запускаць гэты эксперымент, як планавалася? Калі так, то чаму? Калі няма, то чаму? Абавязкова мець дакладнае ўяўленне аб крытэрах, якія вы выкарыстоўваеце, каб прыняць гэтае рашэнне. (2) Які памер выбаркі вы рэкамендавалі б для гэтага эксперыменту? Зноў жа, калі ласка, абавязкова мець дакладнае ўяўленне аб крытэрах, якія вы выкарыстоўваеце, каб прыняць гэтае рашэнне.
Добрая памятка будзе разглядаць гэты канкрэтны выпадак; лепш памятка будзе абагульняць гэты выпадак у адну баку (напрыклад, паказаць, як змены рашэнні ў залежнасці ад памеру эфекту кампаніі); і вялікая памятка прадставіць цалкам абагульнены вынік. Ваша запіска павінна выкарыстоўваць графікі, каб праілюстраваць свае вынікі.
Вось дзве падказкі. Па-першае, аддзел маркетынгу, магчыма, падаў вам нейкую непатрэбную інфармацыю, і яны, магчыма, не ў стане даць вам некаторую неабходную інфармацыю. Па-другое, калі вы карыстаецеся R, майце на ўвазе, што функцыя rlnorm () не працуе так, што многія людзі чакаюць.
Гэтая дзейнасць дасць вам практыкавацца з аналізам магутнасці, ствараючы мадэлявання і перадачы вынікаў са словамі і графікамі. Гэта павінна дапамагчы вам правесці аналіз магутнасці для любога віду эксперыменту, а не толькі эксперыменты, для ацэнкі ROI. Гэтая дзейнасць мяркуе, што ў вас ёсць некаторы досвед працы з статыстычных тэсціраваннем і аналізам магутнасці. Калі вы не знаёмыя з аналізам харчавання, я рэкамендую вам прачытаць «спаважнаю Primer» па Cohen (1992) .
Гэтая актыўнасць была навеяная выдатнай працы RA Lewis and Rao (2015) , які наглядна ілюструе фундаментальную статыстычную абмежаванасць нават масіўных эксперыментаў. Іх паперы, якія першапачаткова мелі правакацыйная назва «Аб Пярэдняй-Impossibility вымярэння Вяртаецца ў рэкламе» мігоча, як цяжка вымераць аддачу ад інвестыцый у інтэрнэт-рэкламу, нават лічбавыя эксперыменты з удзелам мільёнаў кліентаў. У больш агульным сэнсе , RA Lewis and Rao (2015) ілюструюць фундаментальны статыстычны факт , што асабліва важна для лічбавага ўзросту эксперыментаў: цяжка ацаніць невялікія эфекты лячэння сярод зашумленность дадзеных вынікаў.
[ , ] Зрабіце тое ж самае, што і папярэдні пытанне, але, замест мадэлявання, вы павінны выкарыстоўваць аналітычныя вынікі.
[ , , ] Зрабіце тое ж самае, што і папярэдні пытанне, але і выкарыстоўваць як мадэляванне і аналітычныя вынікі.
[ , , ] Уявіце, што вы напісалі запіску, апісаную вышэй, і хто-небудзь з аддзела маркетынгу забяспечвае адзін кавалак новай інфармацыі: яны чакаюць 0,4 карэляцыі паміж продажамі да і пасля эксперыменту. Як гэта змяніць рэкамендацыі ў вашай запісцы? (Падказка: глядзіце раздзел 4.6.2 для атрымання дадатковай інфармацыі блока ацэнкі рознасныя з-сродкаў і ацэнкі рознасці-в-адрозненняў.)
[ , ] Для таго, каб ацаніць эфектыўнасць новай праграмы вэб-занятасць дапамогі, універсітэт правёў рандомізірованное даследаванне кантролю сярод 10000 студэнтаў, якія паступаюць у свой апошні год у школе. Бясплатная падпіска з унікальнай інфармацыяй часопіса ў прапускаўся праз эксклюзіўнае запрашэнне па электроннай пошце 5000 выпадкова выбраных студэнтаў, у той час як астатнія 5000 студэнтаў былі ў кантрольнай групе і не маюць падпіскі. Дванаццаць месяцаў праз, наступнае абследаванне (без неатрымання) паказала, што ў абодва лячэнні і кантрольных групах, 70% студэнтаў забяспечылі поўную занятасць у выбраных імі вобласці (табліца 4.6). Такім чынам, здавалася, што вэб-сэрвіс не мае ніякага эфекту.
Аднак, разумны навуковец дадзеных у універсітэце трохі больш уважліва паглядзеў на дадзеныя і выявілі, што толькі 20% студэнтаў у групе лячэння калі-небудзь увайсці ў ўліковы запіс пасля атрымання электроннага ліста. Акрамя таго, некалькі дзіўна, сярод тых, хто ўвайсьці на сайт, толькі 60% былі забяспечаны поўнай занятасцю ў абранай імі вобласці, якая была ніжэй, чым хуткасць для людзей, якія не ўвайсці ў сістэму і ніжэй, чым хуткасць для людзей ў стане кіравання (табліца 4.7).
Падказка: Гэтае пытанне выходзіць за рамкі матэрыялу, апісаны ў гэтай частцы, але разглядаюцца пытанні, агульныя ў эксперыментах. Гэты тып эксперыменту часам называюць дызайн падбадзёрваньне , таму што ўдзельнікам прапануецца прыняць удзел у лячэнні. Гэтая праблема з'яўляецца прыкладам таго , што завецца аднабаковым невыкананне (глядзіце раздзел 5 Gerber and Green (2012) ).
[ ] Пасля далейшага абследавання высветлілася, што эксперымент апісаны ў папярэднім пытаньні, быў яшчэ больш складаным. Аказалася, што 10% людзей у кантрольнай групе плацяць за доступ да паслугі, і яны скончылі з узроўнем занятасці 65% (табліца 4.8).
Падказка: Гэтае пытанне выходзіць за рамкі матэрыялу, апісаны ў гэтай частцы, але разглядаюцца пытанні, агульныя ў эксперыментах. Гэтая праблема з'яўляецца прыкладам таго , што называецца двухбаковым невыкананне (глядзіце главу 6 Gerber and Green (2012) ).
група | памер | узровень занятасці |
---|---|---|
Прадастаўлены доступ да вэб-сайт | 5000 | 70% |
Не прадстаўлены доступ да вэб-сайт | 5000 | 70% |
група | памер | узровень занятасці |
---|---|---|
Прадастаўлены доступ да вэб-сайт і ўвайсці ў сістэму | 1000 | 60% |
Прадастаўлены доступ да вэб-сайт і не ўвайшлі ў сістэму | 4000 | 72,5% |
Не прадстаўлены доступ да вэб-сайт | 5000 | 70% |
група | памер | узровень занятасці |
---|---|---|
Прадастаўлены доступ да вэб-сайт і ўвайсці ў сістэму | 1000 | 60% |
Прадастаўлены доступ да вэб-сайт і не ўвайшлі ў сістэму | 4000 | 72,5% |
Не прадстаўлены доступ да вэб-сайт і заплаціў за яго | 500 | 65% |
Не прадстаўлены доступ да вэб-сайт і не плаціць за яго | 4500 | 70,56% |