Ўмоўныя абазначэнні:
[ , ] Беринского і яго калегі (2012) ацэньвае Механічны турак часткова тыражаванне тры класічных эксперыментаў. Рэплікацыя класічны азіяцкі эксперымент па хваробе кадравання Tversky and Kahneman (1981) . Зрабіце вашы вынікі матча Цвярской і Канеман-х? Зрабіце вашы вынікі матча Беринского і яго калегі? Што-небудзь, калі-гэта вучыць нас аб выкарыстанні Mechanical Turk для эксперыментаў абследавання?
[ , ] У артыкуле некалькі няшчыры пад назвай "Мы павінны Break Up," сацыяльны псіхолаг Роберт Чалдини, адзін з аўтараў Schultz et al. (2007) і Schultz et al. (2007) , пісаў , што ён сыходзіць у адстаўку рана ад яго працы ў якасці прафесара, збольшага з - за праблем , з якімі ён сутыкнуўся рабіць палявыя эксперыменты ў дысцыпліне (псіхалогіі) , якія ў асноўным праводзіць лабараторныя эксперыменты (Cialdini 2009) . Прачытайце артыкул Чалдини, і напісаць яму ліст, які заклікае яго перагледзець сваю ломку ў святле магчымасцяў лічбавых эксперыментаў. Выкарыстоўвайце канкрэтныя прыклады даследаванняў, якія вырашыць свае праблемы.
[ ] Для таго , каб вызначыць , з'яўляецца Ці блакіроўка ў невялікія першапачатковыя поспехі ці неўвядальнай, ван дэ Rijt і і яго калегі (2014) ўмяшалася ў чатырох розных сістэм даруючы поспех на выпадкова выбраных удзельнікаў, а затым вымералі доўгатэрміновыя наступствы гэтага адвольнага поспеху. Вы можаце думаць пра іншых сістэмах, у якіх вы маглі б правесці падобныя эксперыменты? Ацаніць гэтыя сістэмы з пункту гледжання пытанняў навуковай каштоўнасці, алгарытмічны ўмешваецца (глядзіце Кіраўніка 2) і этыкі.
[ , ] Вынікі эксперыменту могуць залежаць ад удзельнікаў. Стварэнне эксперыменту, а затым запусціць яго на Amazon Механічны турак (MTurk) з выкарыстаннем двух розных стратэгій найму. Паспрабуйце выбраць стратэгіі эксперыменту і найму на працу , так што вынікі будуць гэтак жа розныя , наколькі гэта магчыма. Напрыклад, вашыя стратэгіі па наборы персанала могуць быць набіраць удзельнікаў раніцай і ўвечары, або кампенсаваць ўдзельнікам з высокай і нізкай заработнай платай. Такога роду адрозненні ў стратэгіі набору персаналу могуць прывесці да розных пулы удзельнікаў і розных эксперыментальных вынікаў. Наколькі адрозніваецца Ці вашы вынікі атрымліваюцца? Што азначае, што кажа нам аб правядзенні эксперыментаў на MTurk?
[ , , , ] Уявіце , што вы планавалі Эмацыянальнае даследаванне заразы (Kramer, Guillory, and Hancock 2014) . Выкарыстоўвайце вынікі з больш ранніх назіранняў даследаванні Kramer (2012) , каб вырашыць , колькасць удзельнікаў у кожным стане. Гэтыя два даследаванні не ідэальна адпавядаюць адзін аднаму, таму абавязкова відавочна пералічыць усе здагадкі, што вы робіце:
[ , , , ] Адкажыце на пытанне вышэй, але замест таго , каб выкарыстоўваць раней назіральнай даследаванне па Kramer (2012) выкарыстоўваць вынікі з больш ранняга натуральнага эксперыменту Coviello et al. (2014) і Coviello et al. (2014) .
[ ] Абодва Rijt et al. (2014) і Rijt et al. (2014) і Margetts et al. (2011) і Margetts et al. (2011) і праводзіць эксперыменты , якія вывучаюць працэс людзей , падпісаўшыся петыцыю. Параўнайце і дызайн і вынікі гэтых даследаванняў.
[ ] Dwyer, Maki, and Rothman (2015) правялі два палявых эксперыментаў па ўзаемасувязі паміж сацыяльнымі нормамі і proenvironmental паводзін. Вось тэзісы свайго артыкула:
"Як можа псіхалагічная навука выкарыстоўвацца, каб заахвоціць proenvironmental паводзіны? У двух даследаваннях, мерапрыемствы, накіраваныя на заахвочванне паводзін па захаванні энергіі ў грамадскіх ванных даследавалі ўплыў апісальных норм і асабістай адказнасці. У даследаванні 1, індыкатар стану (г.зн., уключаны або выключаны) маніпулявалі, перш чым нехта ўвайшоў незаняты грамадскую ванную пакой, сігналізуючы апісальную норму для гэтага параметру. Удзельнікі былі значна больш верагодна, уключыць святло, калі б яны былі выключаныя, калі яны ўвайшлі. У даследаванні 2, дадатковая ўмова было ўключана ў якім норма выключаючы святло быў прадэманстраваны супольнікам, але ўдзельнікі самі не былі адказныя за ператварэнне яго. Персанальная адказнасць мадэруецца ўплыў сацыяльных нормаў на паводзіны; калі ўдзельнікі не былі адказныя за запальваючы святла, уплыў нормы памяншалася. Гэтыя вынікі паказваюць на тое, як апісальны нормы і асабістая адказнасць можа рэгуляваць эфектыўнасць proenvironmental ўмяшання ".
Прачытайце іх дакумент і распрацаваць рэплікацыю даследаванні 1.
[ , ] Абапіраючыся на папярэдняе пытанне, у цяперашні час праводзяць свой дызайн.
[ ] Там было значнае дэбаты з нагоды эксперыментаў з выкарыстаннем удзельнікаў, набраных з Amazon Механічны турак. Паралельна з гэтым, назіраецца таксама істотная дыскусія пра эксперыменты з выкарыстаннем удзельнікаў, набраных са студэнтаў папуляцый студэнтаў. Напісаць дзве старонкі памяткі параўнання і супрацьпастаўлення ў Turkers і студэнтаў старэйшых курсаў у якасці ўдзельнікаў даследчыкаў. Ваша параўнанне павінна ўключаць абмеркаванне навуковых і тэхнічных пытанняў.
[ Кніга] Джыма MANZI ў Некантралюемы (2012) з'яўляецца выдатным увядзеннем ва ўладу эксперыментаў у бізнэсе. У кнізе ён перадаў гэтую гісторыю:
"Я быў калі-то на сустрэчы з сапраўдным бізнес-генія, самаробны мільярдэр які меў глыбокае, інтуітыўнае прыніжэнне магутнасці эксперыментаў. Яго кампанія выдаткавала значныя рэсурсы, спрабуючы стварыць вялікае магазін вітрын, якія прыцягнуць спажыўцоў і рост продажаў, так як здаровы сэнс кажа, што яны павінны. Спецыялісты старанна тэстуюцца дызайн пасля распрацоўкі, так і ў асобных сесій тэст па разглядзе на працягу пэўнага перыяду гадоў трымалі не паказваючы ніякіх істотных прычынна-следчае ўплыў кожнага новага дызайну дысплея па продажах. Старшы маркетынг і мэрчэндайзінг кіраўнікі сустрэліся з генеральным дырэктарам, каб разгледзець гэтыя гістарычныя вынікі выпрабаванняў у Toto. Пасля прадстаўлення ўсiх Эксперыментальная інфармацыя, яны прыйшлі да высновы, што традыцыйная мудрасць была няправільна, што акно адлюстроўвае ня павялічыць аб'ём продажаў. Рэкамендуецца Іх дзеянне складаецца ў скарачэнні выдаткаў і намаганняў у гэтай галіне. Гэта рэзка прадэманстравалі здольнасць эксперыментаў перакуліць агульнапрынятай пункце гледжання. Адказ генеральнага дырэктара быў просты: "Мая выснова заключаецца ў тым, што вашы дызайнеры не вельмі добра." Яго рашэнне было павелічэнне намаганняў у галіне дызайну крамы дысплея, а таксама, каб атрымаць новых людзей , каб зрабіць гэта. " (Manzi 2012, 158–9)
Які тып рэчаіснасці з'яўляецца клопат дырэктара?
[ ] Абапіраючыся на папярэдняе пытанне, уявіце, што вы былі на сустрэчы, дзе абмяркоўваліся вынікі эксперыментаў. Якія чатыры пытанні, якія вы маглі б спытаць, па адным для кожнага тыпу дзеянні (статыстычны, пабудовы, унутранага і вонкавага)?
[ ] Bernedo, Ferraro, and Price (2014) вывучае сямігадовы эфект ўмяшання водосбережения , апісанай у Ferraro, Miranda, and Price (2011) (гл Малюнак 4.10). У гэтым артыкуле, Bernedo і яго калегі таксама спрабуюць зразумець механізм за эфекту, параўноўваючы паводзіны хатніх гаспадарак, якія маюць і ня ссунуліся пасля лячэння быў дастаўлены. Гэта значыць, груба кажучы, яны спрабуюць ўбачыць ўплыў Ці лячэнне дома або домаўладальніка.
[ ] У наступнай дзейнасці па выніках Schultz et al. (2007) і Schultz et al. (2007) , Шульц і яго калегі выконваюць серыю з трох эксперыментаў па ўплыву апісальных і забеспячальніцкіх нормаў на іншым экалагічнага паводзінаў (паўторнае выкарыстанне ручнікоў) у двух кантэкстах (гасцініца і таймшеры кандамініюмаў) (Schultz, Khazian, and Zaleski 2008) ,
[ ] У адказ на Schultz et al. (2007) і Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) правялі серыю лабараторных падобных эксперыментаў па вывучэнні канструкцыі электрычных рахункаў. Вось як яны апісваюць яго абстрактна:
"У эксперыменце на аснове абследавання, кожны ўдзельнік ўбачыў гіпатэтычны кошт на электраэнергію для сям'і з адносна высокім выкарыстаннем электраэнергіі, якая ахоплівае інфармацыю пра (а) гістарычнага выкарыстання, (б) параўнанне з суседзямі, і (в) гістарычнае выкарыстанне з разбіўкай прыбора. Удзельнікі ўбачылі ўсе тыпы інфармацыі ў адным з трох фарматаў, уключаючы (а) табліц, (б) гістаграма, і (с) значок графікі. Мы паведамляем аб трох асноўных высновах. Па-першае, спажыўцы зразумелі кожны тып інфармацыі электрычнасці выкарыстоўваюць больш за ўсё, калі ён быў прадстаўлены ў табліцы, магчыма, таму што табліцы палягчаюць простае чытанне кропкі. Па-другое, перавагі і намеры, каб эканоміць электраэнергію былі самымі моцнымі за гістарычнай выкарыстаннем інфармацыі, незалежна ад фармату. Па-трэцяе, людзі з больш нізкай энергетычнай пісьменнасці разумелі ўсю інфармацыю менш ".
У адрозненне ад іншых наступных даследаванняў, асноўным вынікам цікавасці да Canfield, Bruin, and Wong-Parodi (2016) паведамляецца паводзіны не рэальнае паводзіны. Якія моцныя і слабыя бакі такога роду даследаванняў у больш шырокай даследчай праграмы, якая спрыяе эканоміі энергіі?
[ , ] Smith and Pell (2003) сатырычны мета-аналіз даследаванняў , якія дэманструюць эфектыўнасць парашутамі. Яны прыйшлі да высновы:
"Як і многія мерапрыемствы накіраваны на прадухіленне дрэннага стану здароўя, эфектыўнасць парашутамі ня была падвергнутая дбайнай ацэнкі з дапамогай рандомізірованный кантраляваных выпрабаванняў. Прыхільнікі доказнай медыцыны, заснаванай крытыкавалі прыняцце мер, ацэненых з выкарыстаннем толькі дадзеных назіранняў. Мы лічым, што кожны можа прынесці карысць, калі самыя радыкальныя галоўныя героі доказнай медыцыны, заснаванай арганізаваў і ўдзельнічаў у падвойным сляпым, кантраляванае рандомізірованное, плацебо, перакрыжаванае даследаванне парашута ".
Напісаць аглядных прыдатны для агульнай чытацкай аўдыторыі газеты, такія як The New York Times, выступаючы супраць фетышызацыя эксперыментальных доказаў. Забяспечыць пэўныя, канкрэтныя прыклады. Падказка: Глядзіце таксама, Bothwell et al. (2016) і Bothwell et al. (2016) і Deaton (2010)
[ , , ] Розніца ў рознасцяў ацэнках эфекту лячэння можа быць больш дакладным, чым розніца-в-сярэдніх ацэнак. Напісаць запіску інжынера, адказнага за тэставанне A / B на пачатковым сацыяльныя медыя-кампаніі, які тлумачыць значэнне падыходу дыферэнцыяльна-в-адрозненнях для запуску онлайн-эксперымент. Памятка павінна ўключаць у сябе пастаноўку задачы, некаторую інтуіцыю пра ўмовы, пры якіх ацэншчык рознасць-в-рознасці будзе пераўзыходзіць ацэншчык розніца-ў-сярэднім і простае даследаванне мадэлявання.
[ , ] Гэры Лавмен быў прафесарам у Гарвардскай школе бізнесу, перш чым стаць генеральны дырэктар Harrah, адной з найбуйнейшых кампаній казіно ў свеце. Калі ён пераехаў у Harrah 's, Лавмен ператварыў кампанію з часта лётчыкам падобныя праграмы лаяльнасці, якія сабраны велізарныя аб'ёмы дадзеных аб паводзінах кліента. Акрамя гэтага заўсёды на вымяральнай сістэме, кампанія пачала правядзення эксперыментаў. Напрыклад, яны маглі б правесці эксперымент, каб ацаніць уплыў купона на бясплатную ноч гатэль для кліентаў з вызначаным малюнкам гуляючы ў азартныя гульні. Вось як Лавмен апісаў важнасць эксперыментаў для паўсядзённых бізнес Харра практыкі:
"Гэта, як вы не чыніць крыўды жанчын, ты не крадзі, і вы павінны мець кантрольную групу. Гэта адна з рэчаў , якія вы можаце страціць сваю працу , па меншай Harrah's-не працуе кантрольная група. " (Manzi 2012, 146)
Напісаць ліст да новага супрацоўніку, які тлумачыць, чаму Лавмен думае, што гэта так важна мець кантрольную групу. Вы павінны паспрабаваць ўключыць прыклад-небудзь рэальнай або складзеную-ілюстраваць вашу пункт гледжання.
[ , ] Новы эксперымент накіраваны ацаніць эфект атрымання тэкставых паведамленняў нагадванні пра вакцынацыю супраць. 150 клінік, кожны з якіх з 600 падыходных пацыентаў, гатовы ўдзельнічаць. Існуе фіксаваная кошт 100 даляраў за кожную клініку вы хочаце працаваць, і гэта каштуе 1 даляр для кожнага тэкставага паведамлення, якое вы хочаце адправіць. Акрамя таго, любыя клінікі, што вы працуеце з будзе вымяраць вынік (хтосьці, ці атрымаў прышчэпку) бясплатна. Выкажам здагадку, што ў вас ёсць бюджэт у памеры 1000 долараў.
[ , ] Адна з асноўных праблем з онлайн-курсаў з'яўляецца знясіленне; многія студэнты, якія пачынаюцца курсы ў канчатковым выніку выпадзенне. Уявіце, што вы працуеце ў онлайн-платформы навучання, а таксама дызайнер на платформе стварыў візуальны індыкатар, што яна думае, што дапаможа прадухіліць студэнтаў адсеву курса. Вы хочаце, каб праверыць эфект індыкатара выканання на студэнтаў у вялікай вылічальнай сацыяльных навук вядома. Пасля ліквідацыі любых этычных праблем, якія могуць паўстаць у эксперыменце, вы і вашы калегі атрымліваюць занепакоеныя тым, што курс можа не мець дастатковай колькасці студэнтаў, каб надзейна выяўляць эфекты індыкатара выканання. У разліках ніжэй вы можаце выказаць здагадку, што палова студэнтаў атрымае прагрэс бар і палова няма. Акрамя таго, можна выказаць здагадку, што няма перашкод. Іншымі словамі, можна выказаць здагадку, што ўдзельнікі ўплываюць толькі ці атрымалі яны лячэнне або кантроль; яны не ажыццяўляюць , ці атрымалі іншыя людзі , лячэнне або кантроль (для больш фармальнага вызначэння, см Gerber and Green (2012) , гл. 8). Калі ласка, сачыць за якіх-небудзь дадатковых здагадак, якія вы робіце.
[ , ] У выдатнай паперы, Lewis and Rao (2015) ярка ілюструюць фундаментальнае статыстычнае абмежаванне нават масіўных эксперыментаў. Паперы, якія першапачаткова мелі правакацыйная назва «Аб Приконтинентальной немагчымасці вымярэння Зварот да рэкламы" мігоча, як цяжка вымераць аддачу ад інвестыцый у онлайн-рэкламы, нават лічбавыя эксперыменты з удзелам мільёнаў кліентаў. У больш агульным плане, папера ясна паказвае, што цяжка ацаніць невялікі эфект лячэння сярод зашумленность дадзеных вынікаў. Ці сказаў diffently, папера паказвае , што меркаваныя эфекты лячэння будуць мець вялікія даверныя інтэрвалы , калі ўздзеянне да стандартнае адхіленне (\ (\ гидроразрыва {\ Delta \ бар {ў}} {\ Sigma} \)) стаўленне мала. Важны агульны ўрок з гэтай працы з'яўляецца тое, што вынікі эксперыментаў з малым стаўленнем ударна-к-стандартнае адхіленне (напрыклад, ROI рэкламных кампаній) будуць нездавальняючымі. Ваша задача будзе складацца ў тым, каб напісаць нататку да каго-то ў аддзеле маркетынгу кампаніі evaluting планавы эксперымент па вымярэнні ROI ад рэкламнай кампаніі. Ваша запіска павінна падтрымлівацца з графікамі вынікаў камп'ютэрнага мадэлявання.
Вось некаторая інфармацыя, якая вам можа спатрэбіцца. Усе гэтыя лікавыя значэння характэрныя для рэальных эксперыментаў , прадстаўленых у Lewis and Rao (2015) :
ROI, ключавы паказчык для рэкламных кампаній у Інтэрнэце, вызначаецца як чысты прыбытак ад кампаніі (валавы прыбытку ад кампаніі за вылікам кошту кампаніі), дзелены на кошт кампаніі. Напрыклад, кампанія, якая не мела ніякага ўплыву на продажу будзе мець рэнтабельнасць інвестыцый -100% і кампанію, у якой прыбытак, атрыманая былі роўныя выдатках мелі б ROI 0.
сярэднія продажу на аднаго кліента складае $ 7 са стандартным адхіленнем ад $ 75.
кампанія, як чакаецца, павялічыць аб'ём продажаў на $ 0,35 на аднаго кліента, што адпавядае павелічэнню прыбытку ў памеры $ 0,175 на аднаго кліента. Іншымі словамі, валавы прыбытак складае 50%.
запланаваны памер эксперыменту складае 200000 чалавек, а палова ў групе лячэння і палова ў кантрольнай групе.
кошт кампаніі складае $ 0,14 за кожнага ўдзельніка.
Напісаць запіску evaluting гэты эксперымент. Вы рэкамендавалі б запускаць гэты эксперымент, як планавалася? Калі так, то чаму? Калі няма, то якія змены вы маглі б парэкамендаваць?
Добрая памятка будзе разглядаць гэты канкрэтны выпадак; лепш памятка будзе абагульняць з гэтага выпадку ў адзін бок (напрыклад, паказаць, як змены рашэнні ў залежнасці ад суадносін ударна-к-стандартнае адхіленне); і вялікая памятка прадставіць цалкам абагульнены вынік.
[ , ] Зрабіце тое ж самае, што і папярэдні пытанне, але замест мадэлявання вы павінны выкарыстоўваць аналітычныя вынікі.
[ , , ] Зрабіце тое ж самае, што і папярэдні пытанне, але выкарыстаць як мадэляванне і аналітычныя вынікі.
[ , , ] Уявіце, што вы напісалі запіску, апісаную вышэй, выкарыстоўваючы або мадэляванне, аналітычныя вынікі, або як-і хтосьці з аддзела маркетынгу рэкамендуе выкарыстоўваць дыферэнцыяльна-в-адрозненнях ацэншчык, а не розніца ў сродках ацэнкі (гл раздзел 4.6.2) , Напісаць новую кароткую запіску, якая тлумачыць, як 0,4 карэляцыя паміж продажамі перад эксперыментам і продажаў пасля эксперыменту зменіць ваш выснову.
[ , ] Для таго, каб ацаніць эфектыўнасць новага вэб-сэрвісу кар'еры, офіс універсітэта кар'еры службы правялі рандомізірованное кантрольнае даследаванне сярод 10000 студэнтаў, якія паступаюць у свой апошні год у школе. Бясплатная падпіска з унікальнай інфармацыяй ўваходу ў сістэму быў адпраўлены праз эксклюзіўную запрашэнне па электроннай пошце 5000 выпадкова выбраных студэнтаў, у той час як астатнія 5000 студэнтаў знаходзяцца ў кантрольнай групе і не маюць падпіску. Дванаццаць месяцаў праз, абследаванне наступных (без неответов) паказвае, што ў абодвух лячэння і кантрольных групах, 70% студэнтаў забяспечылі поўную занятасць у абранай імі вобласці (табліца 4.5). Такім чынам, ствараецца ўражанне, што вэб-сэрвіс не меў ніякага эфекту.
Тым не менш, разумны навуковец дадзеных у універсітэце трохі больш уважліва паглядзеў на дадзеныя і выявілі, што толькі 20% студэнтаў у групе лячэння калі-небудзь увайсці ў ўліковы запіс пасля атрымання электроннага ліста. Акрамя таго, і ў некаторай ступені дзіўна, што сярод тых, хто ўвайшлі ў сайт толькі 60% забяспечыў поўную занятасць у абранай імі вобласці, якая была ніжэй, чым стаўка для людзей, якія не выконвалі ўваход і ніжэй, чым хуткасць для людзей у ўмова кантролю (табліца 4.6).
Падказка: Гэтае пытанне выходзіць за рамкі матэрыялу, апісаны ў гэтай частцы, але разглядаюцца пытанні, якія найбольш часта сустракаюцца ў эксперыментах. Гэты тып эксперыментальнага праектавання часам называюць дызайн падбадзёрваньне , таму што ўдзельнікам прапануецца прыняць удзел у лячэнні. Гэтая праблема з'яўляецца прыкладам таго , што завецца аднабаковым невыкананнем (гл Gerber and Green (2012) , гл. 5)
[ ] Пасля далейшага абследавання, высвятляецца, што Эксперымент, апісаны ў папярэднім пытанні быў яшчэ больш складаным. Аказваецца, што 10% людзей у кантрольнай групе заплацілі за доступ да сэрвісу, і яны скончылі з узроўнем занятасці 65% (Табліца 4.7).
Падказка: Гэтае пытанне выходзіць за рамкі матэрыялу, апісаны ў гэтай частцы, але разглядаюцца пытанні, якія найбольш часта сустракаюцца ў эксперыментах. Гэтая праблема з'яўляецца прыкладам таго , што называецца двухбаковым невыкананнем (гл Gerber and Green (2012) , гл. 6)
група | памер | узровень занятасці |
---|---|---|
Прадастаўлены доступ да вэб-сайт | 5000 | 70% |
Не прадстаўлены доступ да вэб-сайт | 5000 | 70% |
група | памер | узровень занятасці |
---|---|---|
Прадастаўлены доступ да вэб-сайт і ўваходу ў сістэму | 1000 | 60% |
Прадастаўлены доступ да вэб-сайт і не ўвайшлі ў сістэму | 4000 | 85% |
Не прадстаўлены доступ да вэб-сайт | 5000 | 70% |
група | памер | узровень занятасці |
---|---|---|
Прадастаўлены доступ да вэб-сайт і ўваходу ў сістэму | 1000 | 60% |
Прадастаўлены доступ да вэб-сайт і не ўвайшлі ў сістэму | 4000 | 72,5% |
Не прадстаўлены доступ да вэб-сайт і заплаціў за яго | 500 | 65% |
Не прадстаўлены доступ да вэб-сайт і не плаціць за яго | 4.500 | 70,56% |