[ , ] Berinsky en kollega's (2012) evaluearre MTurk yn diel troch trije klassike eksperiminten te replikaasje. Replike it klassike Tversky and Kahneman (1981) eksperiment troch Tversky and Kahneman (1981) . Binne jo resultaten by Tversky en Kahneman's? Brûk jo resultaten oer dy Berinsky en kollega's? Wat - as wat - jout dit ús oer it brûken fan MTurk foar ûndersyk eksperiminten?
[ , ] Yn in wat lûd-yn-wite papier mei titel "Wy moatte ombrekke", is de sosjale psycholooch Robert Cialdini, ien fan de skriuwers fan Schultz et al. (2007) , skreau dat hy frjemd fan syn baan as professor ynkearde, om't er de útdagings fan 'e fjilden eksperiminten yn in discipline (psychology) dy't fral labor-eksperiminten hat (Cialdini 2009) . Lês Cialdini's papier, en skriuw him in e-mail dy't him oanbelanget om syn ferbrâning yn 'e ljocht fan' e mooglikheden fan digitale eksperiminten te begjinnen. Brûk spesifike foarbylden fan ûndersiik dy't syn soargen behannelje
[ ] Om te bepalen as lytse earste súksessen yn of of ferbliuw slaan, van de Rijt en kollega's (2014) ynfiere yn fjouwer ferskillende systemen dy't sukses op willekeurige dielnimmers fertsjintwurdigje en de lange termyn effekten fan dit willekeurige sukses meimakke. Kinst tinke oan oare systemen wêrmei jo ferlykbere eksperiminten útfiere kinne? Evaluearje dizze systeemen yn termen fan fraachstikken fan wittenskiplike wearde, algoritmyske ferfeling (sjoch haadstik 2), en etyk.
[ , ] De resultaten fan in eksperimint kinne ôfhinklik fan de dielnimmers. Meitsje in eksperimint oan en set dy dan op MTurk mei twa ferskillende opstellingsstrategyen. Besykje de eksperimint en opnegingsstrategy te selektearjen sadat de resultaten sa ferskillich mooglik wêze kinne. Jo kinne bygelyks jo ynstellingsstrategy wêze om de dielnimmers yn 'e moarn en de jûn wer te meitsjen of dielnimmers mei hege en lege beteljen te kompensearjen. Dizze soarten ferskillen yn 'e wervingstrategy kinne liede ta ferskate poolen fan dielnimmers en ferskate eksperimintele resultaten. Hoe oars hat jo resultaten útwreide? Wat betsjuttet dat dat oer eksperiminten oer MTurk ûntdekt?
[ , , ] Stel dizzen dat jo it eksperimint Emosjonele tsjinst bepale (Kramer, Guillory, and Hancock 2014) . Brûk de resultaten fan in earder observaasjeûndersyk troch Kramer (2012) om it tal dielnimmers te besluten yn elke betingst. Dizze twa stúdzjes passe net perfekt, sadat jo der wis fan wêze dat jo alle foarbylden dy't jo meitsje:
[ , , ] Reagearje de eardere fraach wer, mar dizze kear it brûken fan it eardere beoardielingsstúdzje troch Kramer (2012) , brûk de resultaten fan in earder natuerlik eksperiment fan Lorenzo Coviello et al. (2014) .
[ ] Both Margetts et al. (2011) en van de Rijt et al. (2014) hat eksperiminten ûndersocht fan it proses fan minsken dy't in petysje ûndertekenje. Fergelykje en kontrastje de ûntwerpen en befiningen fan dizze stúdzjes.
[ ] Dwyer, Maki, and Rothman (2015) hawwe twa fjilden eksperiminten útfierd oer de relaasje tusken sosjale normen en pro-miljeu-gedrach. Hjir is it abstrakt fan har papier:
"Hoe kin psychologyske wittenskip brûkt wurde om proe-omjouwende gedrach te stimulearjen? Yn twa stúdzjes binne yntervinsjes rjochte op it befoarderjen fan enerzjybesparring yn iepenbodike baden te ûndersiikjen fan ynfloeden fan beskriuwende normen en persoanlike ferantwurdlikens. Yn Studie 1 waard de ljochtstatus (dus, op of út) manipulearre foardat immen yn in unbeskaat publike badkeamer kaam, dat de beskriuwende norm foar dizze ynstelling soarget. Dielnimmers wiene sterk wierskynlik om de ljochten te kearen as se ôf binne doe't se ynfierden. Yn Studie 2 waard in ekstra betingst opnommen wêryn't de norm fan it ljocht fan 'e ljocht útsteld waard troch in konfederat, mar dielnimmers wienen net sels ferantwurdlik foar it drukjen. Persoanlike ferantwurdlikheid moderearre de ynfloed fan sosjale normen oer gedrach; Doe't dielnimmers gjin ferantwurdlikens wiene foar it ljochtsjen fan 'e ljocht, waard de ynfloed fan' e norm fermindere. Dizze resultaten jouwe oan hoe deskriptive normen en persoanlike ferantwurdlikens de effektiviteit fan pro-ambulative yntervinsjes regelje kinne. "
Lês har papier en ûntwerp in replikaasje fan stúdzje 1.
[ , ] Bouwe op 'e foarige fraach, no jo ûntwerp útfiere.
[ ] Der is in protte debat oer eksperiminten brûkt troch dielnimmers dy't rekrutearje fan MTurk. Parallel is der ek in substansjele diskusje oer eksperiminten dy't gebrûk meitsje fan dielnimmers dy't rekrutearje binne fan studinten populaasjes. Skriuw in twa-side-memo fergelykjen en kontraste Turkers en ûnderwizers as ûndersikers. Jo fergeliking soe in diskusje wêze fan sawol wittenskiplike as logistike problemen.
[ ] Jim Manzi's boek Unkontrolled (2012) is in prachtige ynlieding foar de krêft fan eksperimintearring yn bedriuw. Yn it boek ferhelle hy it folgjende ferhaal:
"Ik wie ien kear yn 'e gearkomste mei in echts business genius, in selsmakke biljertier dy't in djippe, yntuitive ûnderdiel fan' e krêft fan eksperiminten hie. Syn bedriuw brocht wichtige middels dy't besykje grutte spesjale finstermisken te meitsjen dy't konsumers oanlûke en ferkeap ferheegje, lykas konvinsjonele wiisheid sein dat se moatte. De eksperts sertifisearre sertifisearre neidat it ûntwerp beprate waard, en yn yndividuele testresessings oer in perioade fan jierren hâlden gjin wichtige kausale effekt fan elke nije display-ûntwerp op 'e ferkeap. Senior marketing en merchandising bestjoerden met de CEO om dizze histoaryske testresultaten te besjen yn toto. Nei it praten fan alle eksperimintele gegevens, hawwe se konkludearre dat de konvinsjonele wysheid ferkeard wie - dat finster-displays hawwe gjin ferkeapen. Har rekommandearre aksje wie om kosten en oplieding yn dit gebiet te ferleegjen. Dit dramatyske demonstraasje de kapasiteiten fan eksperimintearjen om konvinsjonele wiisheid te feroverjen. De reaksje fan it CEO wie ienfâldich: "Myn konklúzje is dat jo ûntwerper net goed binne." Syn oplossing wie om mjitte te stribjen yn (Manzi 2012, 158–9) ûntwerp, en om nije minsken te krijen om dit te dwaan. " (Manzi 2012, 158–9)
Hokker type fan jild is de soarch fan de direkteur?
[ ] Bouwen op 'e eardere fraach, foarkom dat jo op' e gearkomste wiene wêr't de resultaten fan 'e eksperiminten besprutsen waarden. Wat binne fjouwer fragen dy't jo kinne freegje foar elke type jildigens (statistysk, konstruksje, yntern en eksterne)?
[ ] Bernedo, Ferraro, and Price (2014) studearre de sânjierrige ynfloed fan 'e wettersparjende yntervinsje, beskreaun yn Ferraro, Miranda, and Price (2011) (sjoch figuer 4.11). Yn dit papier soene Bernedo en kollega's ek soene om it meganisme efter it effekt te begripen troch it fergelykjen fan it gedrach fan húshâldens dy't net hawwe foarkommen nei de behanneling waard levere. Dat is, rûch, besocht te sjen oft de behanneling de thús of de hûskeamer hat.
[ ] Yn in folgjende nei Schultz et al. (2007) , Schultz en kollega's útfierd in searje fan trije eksperiminten oer it effekt fan beskriuwende en yntinsivearjende normen op in oare omjouwingsgedrach (tweedebelied) yn twa kontexten (in hotel en in timeshare condominium) (Schultz, Khazian, and Zaleski 2008) .
[ ] As antwurd op Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) rûnen in searje fan laboratoarne eksperiminten om it ûntwerp fan elektryske reizen te studearjen. Hjir is hoe't se it beskriuwe yn 'e abstrakte:
"Yn in ûndersyk basearre eksperimint seagen elke dielnimmer in hypotetyske elektrisiteitsregel foar in húshâlding mei relatyf hege elektrisiteitsboarne, om ynformaasje oer (a) histoaryske gebrûk te meitsjen, (b) fergeliking foar buorlju, en (c) histoaryske gebrûk mei applikaasjeferbrûk. De dielnimmers sjogge alle ynformaasjetypen yn ien fan trije formaten, wêrûnder (a) tabellen, (b) bargraafs, en (c) byldkaartsjes. Wy rapportearje op trije wichtige fynsten. Earst begrepen de konsuminten elke soart elektryske ynformaasje as de measte as it yn in tafel presintearre is, miskien om't tabellen ienfâldige punten lêze. Twadden, foarkarren en yntinsjes om elektrisiteit te bewarjen wienen de sterkste foar de histoaryske gebrûkynformaasje, ûnôfhinklik fan formaat. Tredde persoanen mei legere enerzjy-literatuer begrepen alle ynformaasje minder. "
Yn tsjinstelling ta oare folgjende stúdzjes is it belangrykste resultaat fan belang fan Canfield, Bruin, and Wong-Parodi (2016) rapportearre gedrach, net eigentlik gedrach. Wat binne de sterkte en swakkens fan dizze soarte fan stúdzje yn in breedere ûndersyksprogramma foar it befoarderjen fan enerzjybesparjen?
[ , ] Smith and Pell (2003) presidearre in satiryske meta-analyze fan stúdzjes dy't de effektiviteit fan parachuten sjen litte. Se konklúzje:
"Krekt as mei in protte yntervinsjes dy't bedoeld binne om minne sûnens te behertigjen, is de effektiviteit fan parachuten net strangere evaluaasje ûndersteld troch it gebrûk fan randomisearre kontrolearjende problemen. Advokaten fan bewiis basearre genêskunde kritisearje de fêststelling fan yntervinsjes dy't evaluearre wurde troch allinich observative data te brûken. Wy tinke dat elkenien foardielje soe as de measte radikale protagnoaten fan bewiis basearre medisinen organisearre en meidwaan oan in dûbele bline, randomisearre, placebo-kontrôle, crossover-probleem fan 'e parachute. "
Skriuw in op-ed gaadlik foar in algemien-lêzer-krant, lykas de New York Times , tsjin 'e fetishaasje fan eksperiminteare bewiis. Provys spesifike, konkrete foarbylden. Tip: Sjoch ek Deaton (2010) en Bothwell et al. (2016) .
[ , , ] Difference-in-differences-estimators fan in behannelingseffekt kinne presiker wêze as differinsje-yn-betsjuttingsskansiers. Skriuw in oantinken oan in yngenieur dy't ferantwurdelik is fan A / B-testen yn in start-up sosjale media bedriuw dy't de wearde fan 'e ûnderskate yndividuele oanpak foar it útfieren fan in online eksperiment hat. It memo moat in ferklearring fan it probleem wêze, guon yntuysje oer de betingsten wêryn't de differins-yn-ferskilens-estimator de ferskil yn 'e betsjutting fan' e betsjutting útfiere en in ienfâldige simulaasje-stúdzje.
[ , ] Gary Loveman wie professor yn 'e Harvard Business School, ear't er de CEO fan Harrah waard, ien fan' e grutste kazino bedriuwen yn 'e wrâld. Doe't hy nei Harrah ferhuze, ferfear Loveman it bedriuw mei in faak-flier-like loyaltyprogramma dat geweldige bedragen fan gegevens oer klantgedrach sammele. Boppedat begûn it bedriuw oan 'e hân fan' e measte systeem. Sa kinne se bygelyks in eksperimint útfiere om de effekt fan in kûp te evaluearjen foar in frije hotelnacht foar klanten mei in spesifyk spultsjepatroan. Hjir is beskreaun hoe Loveman beskôge it belang fan eksperimintearjen oan Harrah's deistige saaklike praktiken:
"It is as jo gjin froulju oanlizze, jo stealje net, en jo moatte in kontrôtgroep ha. Dit is ien fan 'e dingen dy't jo wurksumens ferlieze kinne foar Harrah's - net in kontrôtgroep útfiere. " (Manzi 2012, 146)
Skriuw in e-post nei in nije meiwurker dy't ferklearret wêrom't Loveman tinkt dat it sa wichtich is om in kontrôlegroep te hawwen. Jo moatte besykje in foarbyld op te nimmen - sawol real as of makke - om jo punt te yllustrearjen.
[ , ] In nije eksperimint hat as doel om it effekt te meitsjen fan it ûntfangen fan berjochtferbetterings op 'e faksinaasje opnij. Hûndert en fyftich kliïnten, elk mei 600 ymportabel pasjinten, binne ree om mei te dwaan. Der is in fêste priis fan $ 100 foar elke klinyk dy't jo wurkje wolle, en it kostet $ 1 foar elke tekstmelding dy't jo stjoere wolle. Fierder binne alle kliïnten dy't jo wurkje mei it mjittingsmjittingen mjittigje (oft wa't in faksina krigen hat) fergees gratis. Tink derom dat jo in budzjet fan $ 1.000 hawwe.
[ , ] In wichtich probleem mei online-kursussen is attrition: in soad studinten dy't begjinne mei de kursussen opnimme. Stel dan ris dat jo wurkje oan in online learplak, en in ûntwerper op it platfoarm hat in fisuele foarstel bar makke dy't se tinkt dat helpmiddels wurde kinne fanôf de kursus ôf te fallen. Jo wolle de effekt fan 'e foarste bar op' e learlingen testje yn in grutte komputaasje sosjale wittenskip. Nei it behertigjen fan etale problemen dy't yn it eksperimint ûntstean kinne, krije jo en jo kollega's dúdlik dat de kursus net genôch learlingen hat om te foegjen de effekten fan 'e foarútgong bar. Yn 'e folgjende berekkeningen kinne jo der útnimme dat de helte fan' e learlingen de foarste bar en de heule net ûntfange sil. Fierder kinne jo derop betinke dat der gjin ynterferinsje is. Mei oare wurden, jo kinne ferwize dat dielnimmers allinich binne beynfloede troch oft se de behanneling of kontrôle krigen hawwe; se wurde net dien troch oft oare minsken de behanneling of kontrôle krigen (foar in mear formele definysje, sjoch haadstik 8 fan Gerber and Green (2012) ). Kontrolearje fan alle ekstra oanfragen dy't jo meitsje.
[ , , ] Stel dan ris dat jo wurkje as datawittenskipper yn in technysk bedriuw. Ien fan 'e marketingadministrje freget om jo help by it evaluearjen fan in eksperimint dat se planje om de weromreis op ynvestearring (ROI) te mjitten foar in nije online advertinsjekampanje. ROI is definiearre as it net-winst fan 'e kampanje dield troch de kosten fan de kampanje. Bygelyks, in kampanje dy't gjin effekt hat op 'e ferkeap soe in ROI fan -100% ha; In kampanje wêr't profiten generearje wiene lykwols de kosten foar in ROI fan 0; en in kampanje dêr't profiten generearje dûbele waarden de kosten in ROI fan 200% hawwe.
Foardat it eksperimint begjint, leveret de marketingôfdieling jo de folgjende ynformaasje op basis fan har eardere ûndersiken (feitlik binne dizze wearden typysk fan 'e echte online advertinsjes dy't rapporteare yn Lewis en Rao (2015) ):
Skriuw in memo fan 'e evaluaasje fan dit foarnommen eksperiment. Jo memo moat gebrûk meitsje fan in simulaasje dy't jo meitsje, en it moat twa grutte problemen oanpasse: (1) Wolle jo it oanfreegjen fan dizze eksperimint as plan? As dat sa, wêrom? As net, wêrom net? Wês der wis fan dat de kritearia is dy't jo brûke om dit beslút te meitsjen. (2) Hokfoar ôfbyldingsgrutte wolle jo oanrikkemandearje foar dit eksperiment? Werom moatte jo der wis fan wêze dat jo dúdlik binne oer de kritearia dy't jo brûke om dit beslút te meitsjen.
In goed memo sil dit spesifike saak oanpasse; in bettere memo sil fan dizze saak op ien manier fergrutisearje (bgl. lit sjen hoe't it beslút feroaret as funksje fan de grutte fan it effekt fan 'e kampanje); en in grutte memo prate in folslein generalisearre resultaat. Jo memo moat grafiken brûke om jo resultaten te ymportearjen.
Hjir binne twa tips. Earst kin de ôfdieling marketing marketing jo hawwe mei inkele net-nede ynformaasje, en jo hawwe miskien jo miskien net fereaske te kinnen. Twad, as jo R brûke, moatte jo bewust wêze dat de rlnorm () funksje net wurket op 'e wei dy't in soad minsken ferwachtsje.
Dizze aktiviteit sil jo praktykje mei macht analyse, simulaasjes meitsje, en jo resultaten kommunisearje mei wurden en grafiken. It moat helpe mei jo elektrisiteit foar elke eksperimint, net allinich eksperiminten dy't ûntwurpen binne om de ROI te beskriuwen. Dizze aktiviteit ferwachtet dat jo in soad ûnderfining hawwe mei statistyske toets- en krêftûndersyk. As jo net bekend binne mei mjitkundigens, dan ried ik oan dat jo "A Power Primer" fan Cohen (1992) lêze Cohen (1992) .
Dizze aktiviteit waard ynspirearre troch in moaie papier fan RA Lewis and Rao (2015) , dy't in folslein statistyske beheining fan sels massive eksperiminten folslein yllustreart. Har papier - dy't oarspronklik de provokative titel "Oer de Near-Impossibility of Measuring de Returns to Advertising" hie, lit sjen hoe it dreech is om de weromreis op ynvestearring fan Online-advertinsjes te mjitten, ek mei digitale eksperiminten dy't miljoenen klanten hawwe. Meast algemien, illustratearje RA Lewis and Rao (2015) in fundamintatyske feitlik feit dat wichtich is foar digitale-eksperiminten: it is dreech om lytse behannelingseffekten yn 'e lûdtege data te skatten.
[ , ] Hâld itselde as de foarige fraach, mar, as simulaasje, moatte jo analysearjende resultaten brûke.
[ , , ] Hâld itselde as de foarige fraach, mar brûke sawol simulaasjes as analysearjende resultaten.
[ , , ] Stel dizzen dat jo de hjirboppe beskreaune memo skreaun hawwe, en ien fan 'e depot marketing makket ien stik nije ynformaasje: se ferwachtsje in 0,4 korrelaasje tusken ferkeapjen foar en nei it eksperiment. Hoe feroaret it dat de oanbefellings yn jo memo? (Tink: sjoch ôfdieling 4.6.2 foar mear oer de ferskil fan betsjutting fan 'e betsjinning en de ferskillende ynderlike skatting.)
[ , ] Om de effektiviteit fan in nije web-basearre wurkprogramma-assistintprogramma te evaluearjen, hat in universiteit in randomisearre kontrôleproseduere ûnder 10.000 learlingen fêststeld yn har lêste skoallejier. In frije abonnemint mei unyk log-in-ynformaasje waard stjoerd troch in exklusive e-mail útnoeging nei 5.000 fan 'e willekeurige selektearre studinten, wylst de oare 5.000 studinten yn' e kontrôle en net in abonnemint hawwe. Tsien moannen letter, in follow-up survey (mei gjin nonresponse) die bliken dat yn 'e behanneling en kontrôlegroepen 70% fan' e studinten folsleine wurkgelegenheid yn har keazen fjild (tabel 4.6) befoardere hiene. It liket derom dat de web-basearre tsjinst gjin effekt hie.
Doch in wize datawittenskipper oan 'e universiteit seach de gegevens in bytsje nauwerder en fûn dat allinich 20% fan' e learlingen yn 'e behanningsgroep altyd yn' e akkount oanmeld hat nei it ûntfangen fan 'e e-post. Fierder en wat ferrassend, ûnder dejingen dy't yn 'e webside bylogge, hawwe allinich 60% de folsleine wurkgelegenheid yn har keazen fjild befêstige, dy't legere wie as it rapport foar minsken dy't net ynloggen en leger as de tarieding foar minsken yn 'e kontrôfrjocht (tabel 4.7).
Tip: Dizze fraach giet oer it materiaal dat yn dit haadstik behannele is, mar bepaalde problemen common yn eksperiminten. Dit soarte eksperiminteel ûntwerp wurdt soms in stimulearre ûntwerp neamd om't dielnimmers stimulearre wurde om yn 'e behanneling te kommen. Dit probleem is in foarbyld fan wat ien-sided net-kompensaasje neamt (sjoch haadstik 5 fan Gerber and Green (2012) ).
[ ] Nei fierdere ûndersyk kaam it út dat it eksperimint beskreaun is yn 'e foarige fraach noch hieltyd yngewikkeld. It die bliken dat 10% fan 'e minsken yn' e kontrôtgroep betelle hawwe foar tagong ta de tsjinst, en se kamen mei in wurkgelegenheid fan 65% (tabel 4.8).
Tip: Dizze fraach giet oer it materiaal dat yn dit haadstik behannele is, mar bepaalde problemen common yn eksperiminten. Dit probleem is in foarbyld fan wat wurdt twa-sided net-kompensaasje neamd (sjoch haadstik 6 fan Gerber and Green (2012) ).
Groep | Grutte | Beschikbare tarieding |
---|---|---|
Ferplichte tagong ta webside | 5.000 | 70% |
Net-tagonklik tagong ta webside | 5.000 | 70% |
Groep | Grutte | Beschikbare tarieding |
---|---|---|
Ferplichte tagong ta webside en oanmelde | 1.000 | 60% |
Ferplichte tagong ta webside en nea ynlogd | 4.000 | 72,5% |
Net-tagonklik tagong ta webside | 5.000 | 70% |
Groep | Grutte | Beschikbare tarieding |
---|---|---|
Ferplichte tagong ta webside en oanmelde | 1.000 | 60% |
Ferplichte tagong ta webside en nea ynlogd | 4.000 | 72,5% |
Net fergees tagong ta webside en betelle dêrfoar | 500 | 65% |
Nettsjinsteande tagong ta webside en net betelje | 4.500 | 70.56% |