aktiviteter

  • svårighetsgrad: lätt lätt , medium medium , hård hård , väldigt hårt väldigt hårt
  • kräver matte ( kräver matte )
  • kräver kodning ( kräver kodning )
  • datainsamling ( datainsamling )
  • mina favoriter ( min favorit )
  1. [ medium , datainsamling ] Berinsky och kollegor (2012) utvärderade MTurk delvis genom att kopiera tre klassiska experiment. Replikera det klassiska asiatiska sjukdomsramningsexperimentet av Tversky and Kahneman (1981) . Matchar dina resultat Tversky och Kahnemans? Matchar dina resultat de Berinsky och kollegorna? Vad-om något-lär vi oss om att använda MTurk för undersökningsexperiment?

  2. [ medium , min favorit ] I en något tung-i-kind papper med titeln "Vi måste bryta upp", socialpsykologen Robert Cialdini, en av författarna till Schultz et al. (2007) skrev att han avbröts tidigt från sitt jobb som professor, delvis på grund av de utmaningar han ställde inför fältförsök i en disciplin (psykologi) som huvudsakligen utför laboratorieförsök (Cialdini 2009) . Läs Cialdinis papper och skriv honom ett mail som uppmanar honom att ompröva hans uppbrytning mot bakgrund av möjligheterna till digitala experiment. Använd specifika exempel på forskning som behandlar hans oro.

  3. [ medium ] För att bestämma huruvida små initiala framgångar låser in eller bleknar, inblandade van de Rijt och kollegor (2014) i fyra olika system som gav framgång till slumpmässigt utvalda deltagare och mätt sedan de långsiktiga effekterna av denna godtyckliga framgång. Kan du tänka på andra system där du kan köra liknande experiment? Utvärdera dessa system när det gäller frågor om vetenskapligt värde, algoritmisk förvirring (se kapitel 2) och etik.

  4. [ medium , datainsamling ] Resultaten av ett experiment kan bero på deltagarna. Skapa ett experiment och kör det på MTurk med två olika rekryteringsstrategier. Försök att välja experiment och rekryteringsstrategier så att resultaten blir så olika som möjligt. Till exempel kan dina rekryteringsstrategier vara att rekrytera deltagare på morgonen och kvällen eller för att kompensera deltagare med hög och låg lön. Sådana skillnader i rekryteringsstrategi kan leda till olika pooler av deltagare och olika experimentella resultat. Hur olika har dina resultat visat sig? Vad avslöjar det om att köra experiment på MTurk?

  5. [ väldigt hårt , kräver matte , kräver kodning ] Föreställ dig att du planerade experimentet Emotional Contagion (Kramer, Guillory, and Hancock 2014) . Använd resultaten från en tidigare observationsstudie av Kramer (2012) att bestämma antalet deltagare i varje tillstånd. Dessa två studier passar inte perfekt, så var noga med att uttryckligen ange alla antaganden som du gör:

    1. Kör en simulering som bestämmer hur många deltagare som skulle ha behövts för att upptäcka en effekt så stor som effekten i Kramer (2012) med \(\alpha = 0.05\) och \(1 - \beta = 0.8\) .
    2. Gör samma beräkning analytiskt.
    3. Med tanke på resultaten från Kramer (2012) var Emotional Contagion (Kramer, Guillory, and Hancock 2014) överdrivna (dvs. hade det fler deltagare än behövs)?
    4. Av de antaganden som du har gjort, vilka har störst effekt på din beräkning?
  6. [ väldigt hårt , kräver matte , kräver kodning ] Besvara den föregående frågan igen, men denna gång istället för att använda den tidigare observationsstudien av Kramer (2012) , använd resultaten från ett tidigare naturligt experiment av Lorenzo Coviello et al. (2014) .

  7. [ lätt ] Både Margetts et al. (2011) och van de Rijt et al. (2014) utförde experiment som studerar processen för personer som undertecknar en framställan. Jämför och kontrastera designen och resultaten av dessa studier.

  8. [ lätt ] Dwyer, Maki, and Rothman (2015) genomförde två fältförsök om förhållandet mellan sociala normer och miljöproblem. Här är abstraktet av deras papper:

    "Hur kan psykologisk vetenskap utnyttjas för att uppmuntra miljömässigt beteende? I två studier granskade interventioner som syftar till att främja energibesparande beteende i offentliga badrum influenser av beskrivande normer och personligt ansvar. I studie 1 manipulerades ljusstatusen (dvs. på eller av) innan någon kom in i ett ledigt offentligt badrum som signaliserar den beskrivande normen för den inställningen. Deltagarna var betydligt mer benägna att stänga av lamporna om de var avstängd när de kom in. I Studie 2 inkluderades ett ytterligare villkor där normalen för att stänga av ljuset visades av en konfederat, men deltagarna var inte själva ansvariga för att sätta på det. Personligt ansvar modererade inverkan av sociala normer på beteende; när deltagarna inte var ansvariga för att sätta på ljuset, minskade normernas inflytande. Dessa resultat indikerar hur beskrivande normer och personligt ansvar kan reglera effektiviteten av miljömiljöinterventioner. "

    Läs deras papper och utforma en replikering av studie 1.

  9. [ medium , datainsamling ] Bygg på den tidigare frågan, utför nu din design.

    1. Hur jämför resultaten?
    2. Vad kan förklara dessa skillnader?
  10. [ medium ] Det har skett en betydande debatt om experiment med deltagare som rekryterats från MTurk. Parallellt har det också förekommit en omfattande debatt om experiment med deltagare som rekryterats från grundstudiepopulationer. Skriv ett två siders memo som jämför och kontrasterar turkers och doktorander som forskningsdeltagare. Din jämförelse bör innehålla en diskussion om både vetenskapliga och logistiska frågor.

  11. [ lätt ] Jim Manzis bok Uncontrolled (2012) är en underbar introduktion till kraften i experimentering i affärer. I boken vidarebefordrade han följande historia:

    "Jag var en gång i ett möte med ett sant affärsmiljö, en självgjord miljardär som hade en djup intuitiv underskrift av experimentens makt. Hans företag spenderade stora resurser som försökte skapa stora butiksfönster som skulle locka konsumenterna och öka försäljningen, som konventionell visdom sa att de borde. Experter noggrant testad design efter design, och i enskilda testbedömningar över en period av år behölls ingen signifikant orsakssamband av varje ny displaydesign på försäljning. Senior marknadsföring och merchandising chefer träffades med VD för att granska dessa historiska testresultat i toto. Efter att ha presenterat alla försöksdata kom de fram till att den konventionella visdomen var fel - att fönsterfönster inte kör försäljning. Deras rekommenderade åtgärder var att minska kostnader och ansträngningar på detta område. Detta demonstrerade dramatiskt förmågan att experimentera för att omvandla konventionell visdom. VD: s svar var enkelt: "Min slutsats är att dina konstruktörer inte är så bra." Hans lösning var att öka ansträngningen i butikskonstruktion och att få nya människor att göra det. " (Manzi 2012, 158–9)

    Vilken typ av giltighet är VD: s angelägenhet?

  12. [ lätt ] Bygg på den tidigare frågan, föreställ dig att du var på mötet där resultaten av experimenten diskuterades. Vilka är fyra frågor du kan fråga-en för varje typ av validitet (statistisk, konstruktiv, intern och extern)?

  13. [ lätt ] Bernedo, Ferraro, and Price (2014) studerade den sjuåriga effekten av det vattenbesparande ingreppet som beskrivs i Ferraro, Miranda, and Price (2011) (se figur 4.11). I detta dokument försökte Bernedo och kollegor också förstå mekanismen bakom effekten genom att jämföra beteendet hos hushåll som har och inte flyttat efter behandlingen levererades. Det är ungefär de försökte se om behandlingen påverkade hemmet eller husägaren.

    1. Läs papper, beskriv deras design och sammanfatta deras resultat.
    2. Har deras resultat påverkat hur du ska bedöma kostnadseffektiviteten hos liknande insatser? Om så är fallet, varför? Om inte, varför inte?
  14. [ lätt ] I en uppföljning till Schultz et al. (2007) utförde Schultz och kollegor en serie av tre experiment om effekten av beskrivande och injunktiva normer på ett annat miljöbeteende (handdukåtervinning) i två sammanhang (ett hotell och en timeshare-villa) (Schultz, Khazian, and Zaleski 2008) .

    1. Sammanfattar utformningen och resultaten av dessa tre experiment.
    2. Hur, om de ändå ändrar din tolkning av Schultz et al. (2007) ?
  15. [ lätt ] Som svar på Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) körde en serie lab-liknande experiment för att studera utformningen av elräkningar. Så här beskriver de det i abstrakt:

    "I ett undersökningsexperiment såg varje deltagare en hypotetisk elräkning för en familj med relativt hög elanvändning, som täckte information om (a) historisk användning, (b) jämförelser med grannar, och (c) historisk användning med brytning av apparater. Deltagarna såg alla typer av information i ett av tre format inklusive (a) tabeller, (b) stapeldiagram och (c) ikongrafer. Vi rapporterar om tre huvudfynd. Först förstod konsumenterna varje typ av elanvändningsinformation mest när den presenterades i ett bord, kanske för att tabeller underlättar enkel punktläsning. För det andra, preferenser och avsikter att spara el var den starkaste för historisk användningsinformation, oberoende av format. För det tredje förstod individer med lägre energikompetens all information mindre. "

    Till skillnad från andra uppföljningsstudier rapporteras det huvudsakliga resultatet av intresse i Canfield, Bruin, and Wong-Parodi (2016) beteende, inte verkligt beteende. Vad är styrkan och svagheterna i denna typ av studie i ett bredare forskningsprogram som främjar energibesparingar?

  16. [ medium , min favorit ] Smith and Pell (2003) presenterade en satirisk meta-analys av studier som demonstrerade effektiviteten av fallskärmar. De drog slutsatsen:

    "Som med många insatser som syftar till att förebygga ohälsosamhet, har fallskärmens effektivitet inte genomgått en noggrann utvärdering genom att använda randomiserade kontrollerade försök. Förespråkare av bevisbaserad medicin har kritiserat antagandet av interventioner som utvärderats genom att endast använda observationsdata. Vi tror att alla kan dra nytta om de mest radikala huvudpersonerna i bevisbaserad medicin organiserades och deltog i en dubbelblind, randomiserad, placebokontrollerad, crossover-prövning av fallskärmen. "

    Skriv en op-ed som är lämplig för en allmän läsningstidning, till exempel New York Times , som argumenterar mot fetischisering av experimentella bevis. Ge konkreta konkreta exempel. Hint: Se även Deaton (2010) och Bothwell et al. (2016) .

  17. [ medium , kräver kodning , min favorit ] Skillnads-i-skillnader estimatorer av en behandlingseffekt kan vara mer exakta än skillnad-i-medel estimatorer. Skriv ett memo till en ingenjör som ansvarar för A / B-testning hos ett socialt företag som startar förklaringen av värdet av skillnaden i skillnaderna för att driva ett online-experiment. Anteckningen bör innehålla en uppgift om problemet, en del intuition om de förhållanden under vilka skillnaden i skillnaden uppskattaren kommer att överträffa skillnaden mellan medelvärdet och en enkel simuleringsstudie.

  18. [ lätt , min favorit ] Gary Loveman var professor vid Harvard Business School innan han blev VD för Harrahs, ett av världens största kasinobolag. När han flyttade till Harrah, omvandlade Loveman företaget med ett frekvent-flierliknande lojalitetsprogram som samlade enorma mängder data om kundbeteende. Utöver detta kontinuerliga mätsystem började företaget springa experiment. Till exempel kan de köra ett experiment för att utvärdera effekten av en kupong för en gratis hotellnatt för kunder med ett specifikt spelmönster. Så här beskriver Loveman hur viktigt det är att experimentera med Harrahs vardagliga affärspraxis:

    "Det är som att du inte trakasserar kvinnor, du stjäl inte, och du måste få en kontrollgrupp. Detta är en av de saker som du kan förlora ditt jobb för att Harrah's-inte kör en kontrollgrupp ". (Manzi 2012, 146)

    Skriv ett mail till en ny anställd som förklarar varför Loveman tycker att det är så viktigt att ha en kontrollgrupp. Du bör försöka att inkludera ett exempel - antingen riktigt eller färdigt - för att illustrera din punkt.

  19. [ hård , kräver matte ] Ett nytt experiment syftar till att uppskatta effekten av att ta emot textmeddelanden på vaccinationsupptagning. Ett hundra femtio kliniker, var och en med 600 behöriga patienter, är villiga att delta. Det finns en fast kostnad på $ 100 för varje klinik du vill arbeta med, och det kostar $ 1 för varje textmeddelande som du vill skicka. Vidare, alla kliniker som du jobbar med kommer att mäta utfallet (om någon fick vaccination) gratis. Antag att du har en budget på $ 1000.

    1. Under vilka förutsättningar kan det vara bättre att fokusera dina resurser på ett litet antal kliniker och under vilka förutsättningar kan det vara bättre att sprida dem bredare?
    2. Vilka faktorer skulle bestämma den minsta effektstorleken som du kommer att kunna på ett tillförlitligt sätt upptäcka med din budget?
    3. Skriv ett notat som förklarar dessa kompromisser till en potentiell grundare.
  20. [ hård , kräver matte ] Ett stort problem med online-kurser är attrition: många studenter som börjar kurser hamnar sluta. Tänk dig att du arbetar på en online-lärplattform, och en formgivare på plattformen har skapat en visuell framstegsbar som hon tycker kommer att hjälpa till att förhindra att eleverna släpper ut kursen. Du vill testa effekten av framdriftsfältet på eleverna i en stor datorvetenskaplig kurs. Efter att ha tagit upp några etiska problem som kan uppstå i försöket, blir du och dina kollegor oroliga över att kursen kanske inte har tillräckligt med studenter för att på ett tillförlitligt sätt kunna upptäcka effekterna av framdriftsfältet. I följande beräkningar kan du anta att hälften av eleverna kommer att få framdriftsfältet och hälften inte. Vidare kan du anta att det inte finns några störningar. Med andra ord kan man anta att deltagarna endast påverkas av huruvida de fick behandlingen eller kontrollen. De påverkas inte av om andra personer har fått behandling eller kontroll (för en mer formell definition, se kapitel 8 i Gerber and Green (2012) ). Håll reda på eventuella ytterligare antaganden som du gör.

    1. Antag att framdriftsfältet förväntas öka andelen studenter som slutar klassen med 1 procentenhet; Vad är den samplingsstorlek som krävs för att på ett tillförlitligt sätt kunna upptäcka effekten?
    2. Antag att framdriftsfältet förväntas öka andelen studenter som slutar klassen med 10 procentenheter; Vad är den samplingsstorlek som krävs för att på ett tillförlitligt sätt kunna upptäcka effekten?
    3. Föreställ dig nu att du har kört experimentet, och studenter som har slutfört alla kursmaterial har tagit slutprov. När du jämför de slutliga tentamenpoängen för elever som fick framstegsfältet med poängen av de som inte gjorde det, så finner du mycket till din förvåning att studenter som inte fick framstegsfältet faktiskt gjorde högre poäng. Betyr detta att framdriftsfältet gjorde att eleverna lärde sig mindre? Vad kan du lära av dessa resultatdata? (Hint: Se kapitel 7 i Gerber and Green (2012) )
  21. [ väldigt hårt , kräver kodning , min favorit ] Föreställ dig att du arbetar som datavetenskapare vid ett tekniskt företag. Någon från marknadsavdelningen frågar din hjälp för att utvärdera ett experiment som de planerar för att mäta avkastningen på investeringar (ROI) för en ny online annonskampanj. Avkastning definieras som nettovinsten från kampanjen dividerad med kostnaden för kampanjen. En kampanj som inte hade någon effekt på försäljningen skulle till exempel ha en avkastning på -100%; en kampanj där vinst som genererades var lika med kostnader skulle ha en avkastning på 0; och en kampanj där vinsten genereras var dubbelt så skulle kostnaden ha 200% avkastning.

    Innan du startar experimentet, ger marknadsavdelningen dig följande information utifrån deras tidigare forskning (i själva verket är dessa värden typiska för de verkliga annonsannonserna som rapporterats i Lewis och Rao (2015) ):

    • Den genomsnittliga försäljningen per kund följer en logg normal distribution med ett medelvärde på $ 7 och en standardavvikelse på $ 75.
    • Kampanjen förväntas öka försäljningen med 0,35 USD per kund, vilket motsvarar en ökning av vinsten på $ 0,175 per kund.
    • Projektets planerade storlek är 200 000 personer: hälften i behandlingsgruppen och hälften i kontrollgruppen.
    • Kostnaden för kampanjen är $ 0,14 per deltagare.
    • Den förväntade avkastningen för kampanjen är 25% [ \((0.175 - 0.14)/0.14\) ]. Med andra ord, marknadsavdelningen tror att för varje 100 dollar som spenderas på marknadsföring, kommer företaget att tjäna ytterligare 25 dollar i vinst.

    Skriv ett memo som utvärderar det här föreslagna experimentet. Ditt memo ska använda bevis från en simulering som du skapar, och den bör ta itu med två viktiga problem: (1) Skulle du rekommendera att starta detta experiment som planerat? Om så är fallet, varför? Om inte, varför inte? Var noga med att vara tydlig om de kriterier du använder för att fatta detta beslut. (2) Vilken provstorlek skulle du rekommendera för detta experiment? Återigen, var noga med att vara tydlig om de kriterier du använder för att fatta detta beslut.

    Ett bra memo kommer att behandla detta specifika fall; Ett bättre memo kommer att generaliseras från det här fallet på ett sätt (t ex visa hur beslutet ändras som en funktion av storleken på kampanjens effekt); och ett bra memo kommer att presentera ett helt generaliserat resultat. Ditt memo ska använda grafer för att illustrera dina resultat.

    Här är två tips. För det första kan marknadsavdelningen ha försett dig med lite onödig information, och de kanske inte har lämnat några nödvändiga uppgifter. För det andra, om du använder R, var medveten om att funktionen rlnorm () inte fungerar som många människor förväntar sig.

    Denna aktivitet kommer att ge dig övning med strömanalys, skapa simuleringar och kommunicera dina resultat med ord och grafer. Det ska hjälpa dig att utföra energianalys för alla typer av experiment, inte bara experiment som är utformade för att uppskatta avkastning. Denna aktivitet förutsätter att du har viss erfarenhet av statistisk provning och effektanalys. Om du inte känner till strömanalys rekommenderar jag att du läser "En Power Primer" av Cohen (1992) .

    Denna aktivitet inspirerades av ett underbart papper av RA Lewis and Rao (2015) , vilket illustrerar en grundläggande statistisk begränsning av jämna massiva experiment. Deras papper - som ursprungligen hade den provocerande titeln "Om det omöjliga att mäta avkastningen till reklam" - visar hur svårt det är att mäta avkastningen på onlineannonser, även med digitala experiment som involverar miljontals kunder. Mer generellt illustrerar RA Lewis and Rao (2015) ett grundläggande statistiskt faktum som är särskilt viktigt för digitala åldersexperiment: det är svårt att uppskatta små behandlingseffekter bland bullriga resultatdata.

  22. [ väldigt hårt , kräver matte ] Gör detsamma som föregående fråga, men snarare än simulering, ska du använda analytiska resultat.

  23. [ väldigt hårt , kräver matte , kräver kodning ] Gör detsamma som föregående fråga, men använd både simulerings- och analysresultat.

  24. [ väldigt hårt , kräver matte , kräver kodning ] Föreställ dig att du har skrivit notebrevet ovan och någon från marknadsavdelningen ger en ny information: de förväntar sig en 0,4 korrelation mellan försäljningen före och efter experimentet. Hur ändrar det rekommendationerna i ditt memo? (Hint: se avsnitt 4.6.2 för mer om estimatskillnaden mellan medel och estimat för skillnad i skillnader.)

  25. [ hård , kräver matte ] För att utvärdera effektiviteten av ett nytt webbaserat sysselsättningsassistentprogram genomförde ett universitet en randomiserad kontrollprov bland 10 000 studenter som gick in i sitt sista skolår. En gratis prenumeration med unik inloggningsinformation skickades via en exklusiv e-postinbjudan till 5.000 av de slumpmässigt valda studenterna, medan de övriga 5000 studenterna var i kontrollgruppen och inte hade någon prenumeration. Tolv månader senare visade 70% av eleverna heltidsanställda på sitt valda område (tabell 4.6) i uppföljningsundersökningen (utan någon respons) att i både behandlings- och kontrollgrupperna. Således verkade det som att den webbaserade tjänsten inte hade någon effekt.

    En smart datavetenskapare vid universitetet tittade dock lite mer på data och fann att endast 20% av eleverna i behandlingsgruppen någonsin loggade in på kontot efter att ha fått e-postmeddelandet. Vidare och något överraskande bland de som loggade in på webbplatsen hade endast 60% säkerställt heltidsanställning inom sitt valda område, vilket var lägre än priset för personer som inte loggade in och lägre än priset för människor i kontrollförhållandet (tabell 4.7).

    1. Ge en förklaring till vad som kan ha hänt.
    2. Vad är två olika sätt att beräkna effekten av behandlingen i detta experiment?
    3. Med tanke på detta resultat borde de tillhandahålla denna tjänst till alla elever? Bara för att vara tydlig, det här är inte en fråga med ett enkelt svar.
    4. Vad ska de göra nästa?

    Tips: Denna fråga går utöver det material som beskrivs i detta kapitel, men tar upp problem som är vanliga vid experiment. Denna typ av experimentell design kallas ibland en uppmuntrande design eftersom deltagarna uppmuntras att delta i behandlingen. Detta problem är ett exempel på vad som kallas ensidig icke-överensstämmelse (se kapitel 5 i Gerber and Green (2012) ).

  26. [ hård ] Efter ytterligare undersökning visade det sig att experimentet som beskrivits i den föregående frågan var ännu mer komplicerat. Det visade sig att 10% av befolkningen i kontrollgruppen betalade för tillgång till tjänsten, och de slutade med en sysselsättningsgrad på 65% (tabell 4.8).

    1. Skriv ett email som sammanfattar vad du tycker händer och rekommenderar en åtgärd.

    Tips: Denna fråga går utöver det material som beskrivs i detta kapitel, men tar upp problem som är vanliga vid experiment. Detta problem är ett exempel på vad som kallas tvåsidig icke-överensstämmelse (se kapitel 6 i Gerber and Green (2012) ).

Tabell 4.6: Enkel visning av data från karriärtjänstförsöket
Grupp Storlek Sysselsättningsgrad
Beviljad tillgång till webbplatsen 5000 70%
Ej beviljad tillgång till webbplatsen 5000 70%
Tabell 4.7: Mer fullständig visning av data från karriärtjänstförsöket
Grupp Storlek Sysselsättningsgrad
Beviljad tillgång till webbplats och inloggad 1000 60%
Beviljad tillgång till hemsida och aldrig inloggad 4000 72,5%
Ej beviljad tillgång till webbplatsen 5000 70%
Tabell 4.8: Fullständig bild av data från karriärtjänstförsöket
Grupp Storlek Sysselsättningsgrad
Beviljad tillgång till webbplats och inloggad 1000 60%
Beviljad tillgång till hemsida och aldrig inloggad 4000 72,5%
Tilldelas inte tillgång till webbplats och betalas för den 500 65%
Ej beviljad tillgång till webbplats och betalade inte för den 4500 70,56%