Nyckel:
[ , ] Berinsky och kollegor (2012) utvärderar Mechanical Turk delvis genom att replikera tre klassiska experiment. Replikera klassisk asiatisk Disease inramning experiment av Tversky and Kahneman (1981) . Gör dina resultat match Tversky och Kahneman s? Gör dina resultat match Berinsky och kollegor? Vad händer om något-lär oss detta om att använda Mechanical Turk för undersökningsexperiment?
[ , ] I en något tunga-i-kinden papper med titeln "Vi måste bryta upp", den socialpsykolog Robert Cialdini, en av författarna till Schultz et al. (2007) , skrev att han avgick i förtid från sitt jobb som en professor, delvis på grund av de utmaningar han ställs inför gör fältförsök i en disciplin (psykologi) som huvudsakligen utför laboratorieexperiment (Cialdini 2009) . Läs Cialdini papper och skriva honom ett mail uppmanade honom att ompröva sin break-up i ljuset av möjligheter som den digitala experiment. Använd specifika exempel på forskning som adress hans bekymmer.
[ ] För att avgöra om små initiala framgångar låsa in eller försvinna, van de Rijt och och kollegor (2014) ingrep i fyra olika system skänka framgång på slumpmässigt utvalda deltagare, och sedan mätte långsiktiga effekterna av denna godtyckliga framgång. Kan du komma på andra system där du kunde köra liknande experiment? Utvärdera dessa system när det gäller frågor om vetenskapligt värde, algoritmisk confounding (se kapitel 2), och etik.
[ , ] Resultaten av ett experiment kan lita på deltagarna. Skapa ett experiment och sedan köra den på Amazon Mechanical Turk (MTurk) med hjälp av två olika strategier rekrytering. Försök att plocka de strategier experiment och rekrytering så att resultaten kommer att vara så olika som möjligt. Till exempel kan din rekryteringsstrategier vara att rekrytera deltagare på morgonen och på kvällen eller att kompensera deltagare med hög och låg lön. Dessa typer av skillnader i rekryteringsstrategi kan leda till olika pooler av deltagare och olika experimentella resultat. Hur annorlunda hade resultaten visar sig? Vad betyder det avslöjar om att köra experiment på MTurk?
[ , , , ] Föreställ dig att du planerar emotionell smitta studien (Kramer, Guillory, and Hancock 2014) . Använda resultaten från en tidigare observationsstudie av Kramer (2012) för att bestämma antalet deltagare i varje tillstånd. Dessa två studier inte matchar perfekt så se till att uttryckligen räkna upp alla de antaganden som du gör:
[ , , , ] Svara på frågan ovan, men i stället för att använda den tidigare observationsstudie av Kramer (2012) använda resultaten från en tidigare naturlig experiment av Coviello et al. (2014) .
[ ] Båda Rijt et al. (2014) och Margetts et al. (2011) båda utföra experiment som studerar processen människor undertecknar en petition. Jämföra och kontrastera design och resultaten av dessa studier.
[ ] Dwyer, Maki, and Rothman (2015) genomfört två fältförsök på förhållandet mellan sociala normer och proenvironmental beteende. Här är utdrag ur deras papper:
"Hur kan psykologisk vetenskap användas för att uppmuntra proenvironmental beteende? I två studier, insatser som syftar till att främja energibesparing beteende i offentliga toaletter undersökte påverkan av beskrivande normer och personligt ansvar. I studie 1, ljuset status (dvs på eller av) manipuleras innan någon in en ledig offentlig toalett, signalerar beskrivande normen för den inställningen. Deltagarna var betydligt mer benägna att släcka om de var av när de kom in. I studie 2 var ett ytterligare villkor som ingår i vilken normen för att stänga av ljuset visades av en förbundsmedlem, men deltagarna själva inte ansvariga för att slå på den. Personligt ansvar modere påverkan av sociala normer om beteende, när deltagarna inte var ansvariga för att slå på ljuset, var påverkad av normen minskat. Dessa resultat visar hur beskrivande normer och personligt ansvar kan reglera effekten av proenvironmental insatser. "
Läs deras papper och utforma en replikering av studie 1.
[ , ] Bygga på föregående fråga, nu utföra din design.
[ ] Det har förekommit omfattande debatt om experiment med användning av deltagarna rekryterats från Amazon Mechanical Turk. Parallellt har det också varit omfattande debatt om experiment med användning av deltagarna rekryterats från doktorand populationer. Skriv ett tvåsidigt memo jämföra och kontrastera de Turkers och studenter som forskare deltagare. Din jämförelse bör innehålla en diskussion om både vetenskapliga och logistiska problem.
[ ] Jim Manzi bok Okontrollerad (2012) är en utmärkt introduktion till kraften i experiment i näringslivet. I boken förmedlas han denna berättelse:
"Jag var en gång i ett möte med ett riktigt företag geni, en self-made miljardären som hade en djup, intuitiv underskattningar kraften i experiment. Hans företag tillbringade betydande resurser försöker skapa stora butik skyltfönster som skulle locka konsumenterna och ökar försäljningen, som konventionell visdom sade att de borde. Experter noggrant testade konstruktion efter utformning, och i enskilda prov omdöme sessioner under en period av år hålls visar ingen signifikant kausal effekt av varje ny visa design på försäljningen. Senior marknadsföring och merchandising chefer träffade VD att granska dessa historiska testresultat i sin helhet. Efter det alla experimentella data, drog de slutsatsen att konventionell visdom var fel-det skyltfönster inte driva försäljning. Deras rekommenderad åtgärd var att minska kostnader och insatser på detta område. Detta visade dramatiskt förmåga experiment att välta konventionell visdom. VD: s svar var enkelt: "Min slutsats är att dina designers är inte så bra." Hans lösning var att öka ansträngning i butiken visa design, och för att få nya människor att göra det. " (Manzi 2012, 158–9)
Vilken typ av giltighet är en angelägenhet för VD?
[ ] Bygga på föregående fråga, tänk dig att du var på möte där resultaten från experimenten diskuterades. Vilka fyra frågor som du kan önska, en för varje typ av giltighets (statistik, konstruera, intern och extern)?
[ ] Bernedo, Ferraro, and Price (2014) studerar sju år effekten av vattenbesparing ingripande beskrivs i Ferraro, Miranda, and Price (2011) (se figur 4.10). I detta papper, Bernedo och kollegor också försöka förstå mekanismen bakom effekten genom att jämföra beteendet hos hushåll som har och inte har flyttat efter behandlingen levererades. Det vill säga, ungefär, de försöker att se om behandlingen påverkade hemmet eller husägare.
[ ] I en uppföljning av Schultz et al. (2007) , Schultz och kollegor utför en serie av tre experiment på effekten av beskrivande och förbudsföreläggande normer på en annan miljöbeteende (handduk återanvändning) i två kontext (ett hotell och en timeshare bostadsrätt) (Schultz, Khazian, and Zaleski 2008) .
[ ] Som svar på Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) genomförde en serie av lab-liknande experiment för att studera utformningen av elektriska räkningar. Här är hur de beskriver det abstrakt:
"I en undersökning baserad experiment, varje deltagare fick en hypotetisk elräkningen för en familj med relativt hög elanvändning, som omfattar information om (a) historisk användning (b) jämförelser med grannar och (c) historisk användning med apparaten uppdelning. Deltagarna såg alla informationstyper i ett av tre format, inklusive (a) tabeller, (b) stapeldiagram, och (c) ikon grafer. Vi rapporterar om tre viktigaste resultaten. Först konsumenterna förstod varje typ av el använda information mest när det presenterades i en tabell, kanske på grund av tabeller underlättar enkel punkt läsning. För det andra, preferenser och avsikter att spara elektricitet var starkast för historisk användning informationen, oberoende av format. För det tredje, personer med lägre energi och skrivkunnighet förstått all information mindre. "
Till skillnad från andra uppföljningsstudier, det viktigaste resultatet av intresse i Canfield, Bruin, and Wong-Parodi (2016) redovisas beteende inte faktiska beteende. Vilka är styrkorna och svagheterna i den här typen av studier i ett bredare forskning för att främja energibesparingar?
[ , ] Smith and Pell (2003) är en satirisk metaanalys av studier som visar effektiviteten av fallskärmar. De sammanfattar:
"I likhet med många insatser syftar till att förebygga ohälsa, effektivitet fallskärmar har inte varit föremål för noggrann utvärdering med hjälp av randomiserade kontrollerade studier. Förespråkarna för evidensbaserad medicin har kritiserat införandet av insatser utvärderas genom att använda endast observationsdata. Vi tror att alla kan dra nytta om de mest radikala huvudpersonerna i evidensbaserad medicin organiserat och deltagit i en dubbelblind, randomiserad, placebokontrollerad, crossover studie av fallskärmen. "
Skriv en op-ed lämpar sig för en allmän läsekrets tidningen som The New York Times, argumenterar mot fetische av experimentella bevis. Tillhandahålla särskilt konkreta exempel. Tips: Se även, Bothwell et al. (2016) och Deaton (2010)
[ , , ] Skillnad-i-skillnader estimatorer av behandlingseffekten kan vara mer exakt än skillnaden-i-medelvärde estimatorer. Skriv ett memo till en ingenjör som ansvarar för A / B-testning vid en start-up sociala medier företag som förklarar värdet av skillnaden-i-skillnader strategi för att köra en online-experiment. I promemorian bör innehålla en förklaring av problemet, några intuition om de förhållanden under vilka skillnaden-i-skillnad estimatorn kommer att överträffa skillnaden-i-medel estimator, och en enkel simuleringsstudie.
[ , ] Gary Loveman var professor vid Harvard Business School innan han blev VD för Harrahs, en av de största kasinoföretag i världen. När han flyttade till Harrahs, Loveman transformerade bolaget med en frequent flyer-liknande lojalitetsprogram som samlat enorma mängder data om kundernas beteende. Ovanpå detta alltid-på mätsystemet, började företaget kör experiment. Till exempel kan de köra ett experiment för att utvärdera effekten av en kupong för en gratis hotellnatt för kunder med ett specifikt spel mönster. Här är hur Loveman beskrev vikten av experimenterande för att Harrahs dagliga affärsmetoder:
"Det är som om du inte trakassera kvinnor, behöver du inte stjäla, och du måste ha en kontrollgrupp. Detta är en av de saker som du kan förlora ditt jobb under Harrah's, inte köra en kontrollgrupp. " (Manzi 2012, 146)
Skriv ett e-postmeddelande till en ny medarbetare som förklarar varför Loveman tycker att det är så viktigt att ha en kontrollgrupp. Du bör försöka att ta ett exempel, antingen verklig eller består till illustrera din punkt.
[ , ] Ett nytt experiment syftar till att uppskatta effekten av att ta emot textmeddelanden påminnelser om vaccinering upptag. 150 kliniker, var och en med 600 lämpliga patienter, är villiga att delta. Det finns en fast kostnad på 100 dollar för varje klinik du vill arbeta med, och det kostar en dollar för varje textmeddelande som du vill skicka. Vidare kommer alla kliniker som du arbetar med mäta resultatet (om någon fått en vaccination) gratis. Anta att du har en budget på 1000 dollar.
[ , ] Ett stort problem med onlinekurser är avgången; många studenter som börjar kurser sluta släppa ut. Föreställ dig att du arbetar på ett online lärplattform, och en designer på plattformen har skapat en visuell förloppsindikator som hon tror kommer att bidra till att förhindra elever från att falla ut ur kurs. Du vill testa effekten av förloppsindikator på studenter i en stor beräkningssamhällsvetenskaplig kurs. Efter att ta itu med några etiska problem som kan uppstå i experimentet, du och dina kollegor bli orolig att kursen kanske inte har tillräckligt med studenter att tillförlitligt upptäcka effekterna av förloppsindikator. I nedanstående beräkningar du kan anta att hälften av eleverna kommer att få förloppsindikator och halv inte. Vidare kan du utgå från att det inte finns någon störning. Med andra ord, kan du anta att deltagarna endast påverkas av om de fick behandling eller kontroll; de inte påverkas av om andra personer fick behandling eller kontroll (för en mer formell definition, se Gerber and Green (2012) , kap. 8). Vänligen hålla reda på eventuella ytterligare antaganden som du gör.
[ , ] I en vacker papper, Lewis and Rao (2015) visar tydligt en grundläggande statistisk begränsning av ens massiva försök. Den pappers som ursprungligen hade den provokativa titeln "On Near-omöjligheten att mäta Återgår till reklam" -shows hur svårt det är att mäta avkastningen på investeringen av online-annonser, även med digitala experiment som involverar miljontals kunder. Mer allmänt visar tydligt det papper som det är svårt att uppskatta små behandlingseffekt bland bullriga utfallsdata. Eller anges diffently visar papper som uppskattade behandlingseffekter kommer att ha stora konfidensintervall när effekten till standardavvikelsen (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) förhållandet är liten. Den viktiga allmänna lärdom av detta papper är att resultat från experiment med liten effekt till standardavvikelsen förhållande (t.ex. ROI av annonskampanjer) kommer att vara otillfredsställande. Din utmaning blir att skriva ett memo till någon på marknadsavdelningen på ditt företag evaluting en planerad experiment för att mäta ROI av en annonskampanj. Din PM bör stödjas med grafer över resultaten av datorsimuleringar.
Här är lite bakgrundsinformation som du kan behöva. Alla dessa numeriska värden är typiska för de verkliga experiment som rapporteras i Lewis and Rao (2015) :
ROI, en viktig variabel för online annonskampanjer, definieras som nettovinsten från kampanjen (bruttoresultat från kampanj minus kostnaden för kampanjen) dividerat med kostnaden för kampanjen. Till exempel en kampanj som inte hade någon effekt på försäljningen skulle ha en ROI på -100% och en kampanj där vinster var lika med kostnaderna skulle ha en ROI på 0.
medel försäljningen per kund är $ 7 med en standardavvikelse på $ 75.
kampanjen förväntas öka försäljningen av $ 0,35 per kund vilket motsvarar en ökning av vinst på $ 0,175 per kund. Med andra ord, är bruttomarginalen 50%.
den planerade storleken av experimentet är 200.000 människor, halv i behandlingsgruppen och hälften i kontrollgruppen.
kostnaden för kampanjen är $ 0,14 per deltagare.
Skriv ett memo evaluting detta experiment. Skulle du rekommendera att lansera detta experiment som planerat? Om så är fallet, varför? Om inte, vilka förändringar skulle du rekommendera?
En bra PM kommer att behandla detta specifika fall; en bättre memo kommer generalisera från detta fall på ett sätt (t ex visa hur besluts ändras som en funktion av effekten till standardavvikelsen förhållande); och en stor PM kommer att presentera ett helt gener resultat.
[ , ] Gör på samma sätt som den föregående frågan, men i stället för simulering bör du använda analytiska resultat.
[ , , ] Gör på samma sätt som den föregående frågan, men använda både simulering och analytiska resultat.
[ , , ] Föreställ dig att du har skrivit PM beskrivits ovan med antingen simulering, analytiska resultat, eller båda, och någon från marknadsavdelningen rekommenderar att man använder en skillnad-i-skillnader estimator snarare än en skillnad i medel estimatorn (se avsnitt 4.6.2) . Skriv en ny kortare PM som förklarar hur en 0,4 korrelation mellan försäljning före försöket och försäljning efter experimentet skulle ändra din slutsats.
[ , ] För att utvärdera effektiviteten av en ny webbaserad karriärservice, ett universitet karriär kontorsservice genomförde en randomiserad studie kontroll bland 10.000 studenter in sin sista året i skolan. En gratis abonnemang med unika inloggningsuppgifter sändes via en exklusiv e-postinbjudan till 5000 av de slumpmässigt utvalda studenter, medan de övriga 5000 studenter i kontrollgruppen och inte har ett abonnemang. Tolv månader senare, en uppföljande undersökning (utan bortfall) visar att både behandlings- och kontrollgrupper, har 70% av studenterna säkrade heltid inom det valda området (Tabell 4.5). Således verkar det som den webbaserade tjänsten inte hade någon effekt.
Men en smart uppgifter forskare på universitetet såg vid data lite närmare och fann att endast 20% av eleverna i behandlingsgruppen någonsin loggat in på kontot efter att ha mottagit e-post. Vidare, och något överraskande, bland dem som har loggat in på webbplatsen endast 60% hade säkrat heltid inom det valda området, vilket var lägre än den som gäller för personer som inte logga in och lägre än den kurs för personer i kontroll tillstånd (tabell 4.6).
Tips: Denna fråga går utöver det material som omfattas i detta kapitel, men tar upp frågor som är gemensamma i experiment. Denna typ av experimentell design kallas ibland en uppmuntran design eftersom deltagarna uppmuntras att delta i behandlingen. Detta problem är ett exempel på vad som kallas ensidig bristande överensstämmelse (se Gerber and Green (2012) , kap. 5)
[ ] Efter ytterligare undersökning visar det sig att experimentet som beskrivs i föregående fråga var ännu mer komplicerat. Det visar sig att 10% av befolkningen i kontrollgruppen betalat för att få tillgång till tjänsten, och de slutade med en sysselsättningsgrad på 65% (tabell 4.7).
Tips: Denna fråga går utöver det material som omfattas i detta kapitel, men tar upp frågor som är gemensamma i experiment. Detta problem är ett exempel på vad som kallas dubbelsidig bristande överensstämmelse (se Gerber and Green (2012) , kap. 6)
Grupp | Storlek | sysselsättningsgrad |
---|---|---|
Ges tillgång till hemsidan | 5000 | 70% |
Inte beviljats tillgång till hemsidan | 5000 | 70% |
Grupp | Storlek | sysselsättningsgrad |
---|---|---|
Ges tillgång till hemsidan och logga in | 1000 | 60% |
Ges tillgång till hemsidan och aldrig loggat in | 4000 | 85% |
Inte beviljats tillgång till hemsidan | 5000 | 70% |
Grupp | Storlek | sysselsättningsgrad |
---|---|---|
Ges tillgång till hemsidan och logga in | 1000 | 60% |
Ges tillgång till hemsidan och aldrig loggat in | 4000 | 72,5% |
Inte få tillgång till webbplatsen och betalat för det | 500 | 65% |
Inte få tillgång till webbplatsen och inte betala för det | 4500 | 70,56% |