Kaai:
[ , ] Berinsky en kollega (2012) evaluearret Mechanical Turk in part troch replicating trije klassike eksperiminten. Replicate de klassike Aziatyske Disease jongerenwerk eksperimint troch Tversky and Kahneman (1981) . Do jo resultaten wedstriid Tversky en Kahneman s? Do jo resultaten wedstriid Berinsky en kollega? Wat-as wat-docht dizze leare ús oer brûke Mechanical Turk foar ûndersyk eksperiminten?
[ , ] Yn in wat tonge-yn-wang papier titel "Wy Have te Break Up," de sosjale psycholooch Robert Cialdini, ien fan de skriuwers fan Schultz et al. (2007) , skreau dat er pinsjoenearring betiid út syn wurk as heechlearaar, foar in part om't fan de útdagings er tsjinoer dwaan fjild eksperiminten yn in dissipline (psychology) dy't benammen fiert lab eksperiminten (Cialdini 2009) . Lês Cialdini fan papier, en skriuw him in e-mail stiet him te heroverwegen syn break-up yn it ljocht fan 'e mooglikheden fan it digitale eksperiminten. Brûk spesifike foarbylden fan ûndersyk dat adres syn soargen.
[ ] Om te bepalen oft lytse earste súksessen lock-yn of fade wei, van de Rijt en en kollega (2014) tuskenbeide yn fjouwer ferskillende systemen skinkende sukses op willekeurich selektearre dielnimmers, en dan meat de lange-termyn effekten fan dizze willekeurige súkses. Kinne jo tinke oan oare systemen dêr't jo koe rinne sa'n eksperiminten? Evaluearje dizze systemen yn termen fan kwestjes fan wittenskiplike wearde, algorithmic confounding (sjoch Haadstik 2), en etyk.
[ , ] De resultaten fan in eksperimint kin ôfhinklik fan de dielnimmers. Meitsje in eksperimint en dan rinne it op Amazon Mechanical Turk (MTurk) mei help fan twa ferskillende werving strategyen. Besykje te heljen it eksperimint en werving strategyen sa dat de resultaten sille wêze as oars as mooglik. Bygelyks, jo werving strategyen koe wêze te winnen dielnimmers yn 'e moarn en de joun of te kompensearjen dielnimmers mei hege en lege lean. Dizze soarten fan ferskillen yn werving strategy kin liede ta ferskate swimbaden fan dielnimmers en ferskillende eksperimintele útkomsten. Hoe oars hat jimme resultaten keare út? Wat hat dat ferriede oer rinnende eksperiminten op MTurk?
[ , , , ] Imagine dat jo wienen fan doel de Emotional contagion stúdzje (Kramer, Guillory, and Hancock 2014) . Brûk de resultaten fan in earder waarnimming ûndersyk troch Kramer (2012) te besluten it tal dielnimmers yn elk tastân. Dy beide stúdzjes net oerien perfekt sa wêze wis te eksplisyt list al de útgongspunten, dy't jo meitsje:
[ , , , ] Antwurd de fraach hjirboppe, mar earder as mei help fan de earder waarnimming stúdzje fan Kramer (2012) brûke de útkomsten fan in earder natuerlike eksperimint troch Coviello et al. (2014) .
[ ] Beide Rijt et al. (2014) en Margetts et al. (2011) beide útfiere eksperiminten dy't bestudearje it proses fan minsken ûndertekenjen fan in petysje. Ferlykje en kontrast it ûntwerp en befinings fan dizze stúdzje.
[ ] Dwyer, Maki, and Rothman (2015) útfierd twa fjild eksperiminten op de relaasje tusken sosjale noarmen en proenvironmental gedrach. Hjir is it abstrakte fan harren papier:
"Hoe kin psychologyske wittenskip wurde benut te stimulearjen proenvironmental gedrach? Yn twa stúdzjes, yngrepen dy't rjochte binne op it befoarderjen fan enerzjybesparring gedrach yn it iepenbier badkeamers ûndersocht de ynfloeden fan beskriuwende noarmen en persoanlike ferantwurdlikens. Yn Study 1, it ljocht status (dat wol sizze, op of ôf) waard manipulearre foardat immen ynfierd in unoccupied iepenbiere badkamer, signaling de beskriuwende noarm foar dat ynstelling. Dielnimmers wienen gâns mear kâns om de lampen ôf as se wiene ôf doe't se ynfierd. Yn Study 2, in ekstra betingst waard opnaam yn dêr't de noarm fan draaien út it ljocht waard bewiisd troch in Konfederearre, mar dielnimmers wiene net sels ferantwurdlik foar keart him op. Persoanlike ferantwurdlikens bewurke de ynfloed fan maatskiplike noarmen op gedrach; doe't dielnimmers wiene net ferantwurdlik foar draaien op it ljocht, de ynfloed fan de noarm waard ferlytse. Dizze resultaten jouwe oan hoe't beskriuwende noarmen en persoanlike ferantwurdlikens kinne regelje de effektiviteit fan proenvironmental yntervinsjes. "
Lês harren papier en ûntwerp in witten fan stúdzje 1.
[ , ] Bouwe op de foarige fraach, no fiere jo ûntwerp.
[ ] Der is substansjele debat oer eksperiminten mei help fan dielnimmers rekrutearre út Amazon Mechanical Turk. Yn parallel, der hat ek west substansjele debat oer eksperiminten mei help fan dielnimmers rekrutearre út bachelor studint populaasjes. Skriuw in twa-side memo fergelykjen en kontrastearjende de Turkers en bachelor- as ûndersikers dielnimmers. Jo ferliking moat ûnder oaren in diskusje fan sawol wittenskiplike en logistike saken.
[ ] Jim Manzi syn boek Uncontrolled (2012) is in prachtige ynlieding yn 'e macht fan eksperimintearjen yn it bedriuwslibben. Yn it boek er relayed dit ferhaal:
"Ik wie ris yn in gearkomste mei in wiere bedriuw sjeny, in sels-makke miljardêr dy't in djippe, yntuïtyf understating fan 'e macht fan eksperiminten. Syn bedriuw brocht wichtige middels besykje te meitsjen grutte winkel finster byldskermen dat soe lûke konsuminten en grutter ferkeap, as konvinsjonele wysheid sei se moat. Eksperts sekuer hifke ûntwerp nei ûntwerp, en in yndividuele test review sesjes oer in perioade fan jierren hâlden sjocht gjin wichtige kausale effekt fan eltse nije werjefte ûntwerp op ferkeap. Senior marketing en Merchandising direkteuren met mei de direkteur om dizze histoaryske test resultaten yn toto. Nei presintearje al fan de eksperimintele gegevens, se konkludearre dat de konvinsjonele wysheid wie ferkeard-dat finster byldskermen net ride ferkeap. Harren oanrekommandearre aksje wie te ferminderjen kosten en ynspanning yn dit gebiet. Dit dramatysk bliken de mooglikheid fan eksperimintearjen te overturn konvinsjonele wiisheid. De CEO fan antwurd wie simpel: 'Myn konklúzje is dat jo ûntwerpers binne net hiel goed.' Syn oplossing wie te fergrutsjen ynspanning yn winkel werjefte ûntwerp, en om nije minsken te dwaan is. " (Manzi 2012, 158–9)
Hokker type fan jildichheid is de soarch fan de direkteur?
[ ] Bouwe op de foarige fraach, yntinke dat jo wienen by de gearkomste dêr't de resultaten fan de eksperiminten waarden besprutsen. Wat binne fjouwer fragen dy't jim koe freegje, ien foar elk type fan jildichheid (statistyske, bou, ynterne en eksterne)?
[ ] Bernedo, Ferraro, and Price (2014) bestudearret de sân-jier effekt fan it wetter besparring yntervinsje beskreaun yn Ferraro, Miranda, and Price (2011) (sjoch Figure 4.10). Yn dit papier, Bernedo en kollega ek besykje te begripen it meganisme efter it effekt troch fergelykjen it gedrach fan de húshâldens dy't hawwe en hawwe net ferhuze nei de behanneling waard ôflevere. Dat is, rûchwei, se besykje om te sjen oft de behanneling beynfloede it hûs of de homeowner.
[ ] Yn in follow-up nei Schultz et al. (2007) , Schultz en kollega útfiere in rige fan trije eksperiminten op it effekt fan beskriuwende en injunctive noarmen op in oar miljeu gedrach (handdoek werbrûken) yn twa kontekst (in hotel en in timeshare Farms) (Schultz, Khazian, and Zaleski 2008) .
[ ] Yn oanlieding fan Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) rûn in rige fan lab-lykas eksperiminten te bestudearjen it ûntwerp fan elektryske rekkens. Hjir is hoe't se beskriuwe it yn it abstrakt:
"Yn in ûndersyk-basearre eksperimint, eltse dielnimmer seach in hypotetysk elektrisiteit bill foar in húshâlding mei relatyf hege elektrisiteit gebrûk, covering ynformaasje oer (a) histoaryske gebrûk, (b) ferlikings oan buorlju, en (c) histoaryske gebrûk mei apparaat ôfbraak. Dielnimmers seach alle ynformaasje soarten yn ien fan de trije formaten wêrûnder (a) tafels, (b) bar grafiken, en (c) icon grafiken. Wy rapportearje op trije wichtichste befinings. Earst, konsuminten begrepen elk type fan elektrisiteit-gebrûk ynformaasje de measte doe't it waard presintearre yn in tabel, faaks om't tafels fasilitearjen ienfâldige punt lêzen. Twadde, foarkarren en bedoelingen te rêden elektrisiteit wienen de sterkste foar de histoaryske gebrûk ynformaasje, ûnôfhinklik fan formaat. Tredde, partikulieren mei legere enerzjy geletterdheid ferstien alle ynformaasje minder. "
Oars as oare follow-up stúdzjes, de wichtichste útkomsten fan belang yn Canfield, Bruin, and Wong-Parodi (2016) is rapportearre gedrach net feitlike gedrach. Wat binne de sterke en swakke punten fan dit type ûndersyk yn in breder ûndersyk programma befoarderjen fan enerzjybesparring?
[ , ] Smith and Pell (2003) is in satiryske meta-analyse fan stúdzjes oantoande de effektiviteit fan parachutes. Se konkludearje:
"Lykas mei in soad yntervinsjes bedoeld om te foarkommen siik sûnens, de effektiviteit fan parachutes is net ûnderwurpen oan strang evaluaasje troch mei help fan willekeurich regele kearen besykje. Foarfjochters fan bewiis basearre genêskunde hawwe krityk de fêststelling fan yntervinsjes evaluearre troch mei help fan allinnich feiten 't waarnimming. Wy tinke dat elkenien kin profitearje as de meast radikale haadpersoanen fan bewiis basearre genêskunde organisearre en die mei oan in dûbele blyn, willekeurich, Placebo kontrolearren, Crossover trial fan de parachute. "
Skriuw in op-ed geskikt foar in algemiene lêzerspublyk krante, sa as The New York Times, argumint tsjin de fetishization fan eksperimentele bewiis. Soargje foar spesifike, konkrete foarbylden. Tip: Sjoch ek, Bothwell et al. (2016) en Deaton (2010)
[ , , ] Ferskil-yn-ferskillen estimators fan in behanneling effekt kin wêze mear krekt as ferskil-yn-gemiddelde estimators. Skriuw in memo om in yngenieur yn wacht fen A / B testen by in begjin-up sosjale media bedriuw útlis fan de wearde fan de ferskil-yn-ferskillen oanpak foar it útfieren fan in online eksperimint. De memo moat ûnder in ferklearring fan it probleem, wat yntuysje oer de betingsten dêr't de ferskil-yn-ferskil estimator sil outperform it ferskil-yn-mean estimator, en in ienfâldige simulaasje stúdzje.
[ , ] Gary Loveman wie in heechlearaar oan Harvard Business School foardat waard de direkteur von Mart syn, ien fan 'e grutste casino bedriuwen yn' e wrâld. Doe't er ferhuze nei Mart fan, Loveman feroare it bedriuw mei in faak flier-lykas loyaliteit programma dat sammele grutte bedraggen fan gegevens oer klant gedrach. Op top fan dit altyd-op mjitting systeem, it bedriuw begûn rinnende eksperiminten. Bygelyks, se kinne rinne in eksperimint om evaluearje it effekt fan in bon foar in frije hotel nacht foar klanten mei in spesifike gokken patroan. Hjir is hoe't Loveman beskreaun it belang fan eksperimintearjen nei Mart syn deistich bedriuw praktiken:
"It is krekt as jo net lestich froulju, jim net stelle, en jimme ha om in kontrôle groep. Dit is ien fan de dingen dy't je kinne ferlieze jo wurk foar by Harrah's-net rint in kontrôle groep. " (Manzi 2012, 146)
Skriuw in e-mail nei in nije meiwurker ferklearje wêrom Loveman tinkt is it sa wichtich om in kontrôle groep. Jo moatte besykje om ûnder oaren in foarbyld-of echte of makke up-te yllustrearjen jo punt.
[ , ] In nije eksperimint hat as doel om te skatten it effekt fan ûntfangst tekst berjocht herinnerings op yninting oergong. 150 kliniken, elk mei 600 yn oanmerking komt pasjinten, binne ree om mei te dwaan. Der is in fêste kosten fan 100 dollar foar eltse klinyk jo wolle wurkje mei, en it kostet 1 dollar foar elke tekst berjocht dat jo wolle stjoere. Fierder, eltse kliniken dat jo wurkje mei sil mjitten de útkomst (oft immen krige in yninting) fergees. Der fan út dat jo hawwe in budzjet fan 1000 dollar.
[ , ] In grutte probleem mei online kursussen is attrition; in soad studinten dy't begjinne kursussen end up dropping-out. Yntinke dat jo wurkje op in online learen platfoarm, en in ûntwerper by it platfoarm hat makke in byldzjende foarútgong bar, dat se tinkt sil helpe te kommen studinten út stjoer út fan de kursus. Jo wolle testen it effekt fan 'e foarútgong bar op learlingen yn in grutte kompjûtasjonele sosjale wittenskip fansels. Nei de oanpak fan alle etyske kwestjes, dy't fuortkomme yn 'e eksperimint, jo en jo kollega krije soargen dat de kursus mocht net genôch studinten te betrouber detect de effekten fan' e foarútgong bar. Yn de berekkeningen hjirûnder kinne jo oannimme dat de helte fan de learlingen krije de fuortgong bar en de helte net. Fierder, jo kinne der fan út dat der gjin hinderjen. Yn oare wurden, kinne jo oannimme dat dielnimmers wurde allinne beynfloede troch de fraach oft se krigen de behanneling of kontrôle; se wurde net bart troch oft oare minsken krigen de behanneling of kontrôle (foar in mear formele definysje, sjoch Gerber and Green (2012) , Ch. 8). Please keep track fan eventuele oanfoljende útgongspunten dy't jo meitsje.
[ , ] Yn in moaie papier, Lewis and Rao (2015) tsjerkeried útlizze yllustrearjen in fûnemintele statistyske beheining fan sels massive eksperiminten. It papier-dy't oarspronklik hie it provocative titel "Op 'e Near-ûnmooglikheid fan Measuring de Returns nei Advertearje" -shows hoe dreech it is om te mjitten it weromkommen op ynvestearrings oanmelden advertinsjes, sels mei digitale eksperiminten wêrby't miljoenen fan klanten. Mear algemien, it papier dúdlik sjen dat it is dreech yn te skatten lytse behanneling effekt amidst lawaaierige útkomst gegevens. Of steld diffently, it papier docht bliken dat estimated behanneling effekten sille hawwe grutte betrouwen yntervallen doe't de ynfloed-nei-standert-ôfwiking (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) ratio is lyts. De wichtige algemiene les út dit papier is dat resultaten fan eksperiminten mei lytse ynfloed-nei-standert-ôfwiking ratio (bygelyks, ROI fan advertinsje kampanjes) sil wêze unsatisfying. Jo útdaging sil wêze te skriuwen in memo om immen yn 'e marketing ôfdieling fan jo bedriuw evaluting in plande eksperimint om te mjitten it ROI fan in advertinsje kampanje. Jo memo moatte stipe wurde mei grafiken fan de resultaten fan de kompjûter simulaasjes.
Hjir is wat eftergrûn ynformaasje dy't jo miskien nedich. Alle fan dy numerike wearden binne typysk fan de echte eksperiminten rapportearre yn Lewis and Rao (2015) :
ROI, in kaai Metryske foar online advertinsje kampanjes, wurdt definiearre as de netto winst fan de kampanje (bruto winst út kampanje minus kosten fan kampanje) ferdield troch de kosten fan 'e kampanje. Bygelyks in kampanje dy't hie gjin effekt op de ferkeap soe hawwe in ROI fan -100% en in kampanje dêr't winst generated wienen gelyk oan kosten soe hawwe in ROI fan 0.
de mean ferkeap per klant is $ 7 mei in standertdeviaasje fan $ 75.
de kampanje wurdt ferwachte te ferheegjen ferkeap troch $ 0.35 per klant dy't oerienkomt mei in ferheging yn winst fan $ 0,175 per klant. Yn oare wurden, it bruto marzje is 50%.
de plande grutte fan it eksperimint is 200.000 minsken, de helte yn 'e behanneling groep en de helte yn' e kontrôle groep.
de kosten fan de kampanje is $ 0,14 per participant.
Skriuw in memo evaluting dit eksperimint. Wolle jo riede launching dit eksperimint as plan? As sa, wêrom? As net, wat feroarings soene jo recommend?
In goede memo sil yngean op dizze spesifike gefal; in bettere memo sil generalisearje út dit gefal yn ien wei (bygelyks, sjen hoe't it beslút feroarings as in funksje fan de gefolgen-nei-standert-ôfwiking ratio); en in grutte memo sil presintearje in folslein generalisearre resultaat.
[ , ] Doch itselde as de foarige fraach, mar earder as simulaasje jo moatte brûke analytyske resultaten.
[ , , ] Doch itselde as de foarige fraach, mar brûk beide simulaasje en analytyske resultaten.
[ , , ] Imagine dat jo skreaun hawwe de memo beskreaun boppe-mei help fan beide simulaasje, analytyske resultaten, of beide-en immen út 'e marketing ôfdieling advisearret mei help fan in ferskil-yn-ferskillen estimator earder as in ferskil yn middel estimator (sjoch paragraaf 4.6.2) . Skriuw in nije koartere memo útlis hoe't in 0,4 korrelaasje tusken de ferkeap foar it eksperimint en ferkeap nei it eksperimint soe feroarje jo konklúzje.
[ , ] Om te evaluearje de effektiviteit fan in nij web-basearre karriêre tsjinst, in universiteit karriêre tsjinsten kantoar útfierd in willekeurich kontrôle proses ûnder 10.000 studinten it ynfieren fan harren lêste jier fan skoalle. In frije abonnemint mei unike log-yn ynformaasje waard stjoerd troch in eksklusive e útnoeging foar 5000 fan de willekeurich selektearre learlingen, wylst de oare 5.000 learlingen binne yn de kontrôle groep en net hawwe in abonnemint. Tolve moannen letter, in follow-up ûndersyk (mei gjin net-respons) docht bliken dat yn sawol de behanneling en kontrôle groepen, 70% fan 'e learlingen hawwe befeilige folsleine-time wurkgelegenheid yn har keazen fjild (Tabel 4.5). Sa, liket it derop dat de web-basearre tsjinst hie gjin effekt.
Mar, in tûke gegevens wittenskipper oan de universiteit seach by de gegevens in bytsje mear nau en fûn dat mar 20% fan de learlingen yn de behanneling groep ea oanmeld yn de rekken nei ûntfangst fan de e-mail. Fierder, en wat ferrassend, ûnder dyjingen dy't oanmeld yn de webside mar 60% hie befeilige folsleine-time wurkgelegenheid yn har keazen fjild, dat wie leger as it taryf foar minsken dy't net oanmeld yn en leger as it taryf foar minsken yn de kontrôle betingst (Tabel 4.6).
Hint: Dy fraach giet fierder as it materiaal bedekt yn dit haadstik, mar adressen saken mienskiplik yn eksperiminten. Dit soarte fan eksperimintele ûntwerp wurdt soms neamd in bemoediging ûntwerp omdat dielnimmers wurde stimulearre te setten yn 'e behanneling. Dit probleem is in foarbyld fan wat neamd wurdt iensidige net-neikommen (sjoch Gerber and Green (2012) , Ch. 5)
[ ] Nei fierder ûndersyk, it die bliken dat it eksperimint beskreaun yn de foarige fraach wie noch wat yngewikkelder. It docht bliken dat 10% fan de minsken yn 'e kontrôle groep betelle foar tagong ta de tsjinst, en hja bedarre mei in wurkgelegenheid taryf fan 65% (Tabel 4.7).
Hint: Dy fraach giet fierder as it materiaal bedekt yn dit haadstik, mar adressen saken mienskiplik yn eksperiminten. Dit probleem is in foarbyld fan wat neamd wurdt twa-sided net-neikommen (sjoch Gerber and Green (2012) , Ch. 6)
Groep | Grutte | wurkgelegenheid rate |
---|---|---|
Ferliende tagong ta webside | 5.000 | 70% |
Net ferliende tagong ta webside | 5.000 | 70% |
Groep | Grutte | wurkgelegenheid rate |
---|---|---|
Ferliende tagong ta webside en oanmeld yn | 1.000 | 60% |
Ferliende tagong ta webside en nea oanmeld yn | 4000 | 85% |
Net ferliende tagong ta webside | 5.000 | 70% |
Groep | Grutte | wurkgelegenheid rate |
---|---|---|
Ferliende tagong ta webside en oanmeld yn | 1.000 | 60% |
Ferliende tagong ta webside en nea oanmeld yn | 4000 | 72.5% |
Net ferliende tagong ta website en betelle foar it | 500 | 65% |
Net ferliende tagong ta webside en net betelje foar it | 4.500 | 70,56% |