Nøgle:
[ , ] Berinsky og kolleger (2012) vurderer Mechanical Turk delvist ved at gentage tre klassiske eksperimenter. Repliker den klassiske asiatiske Sygdom indramning eksperiment ved Tversky and Kahneman (1981) . Har dine resultater match Tversky og Kahneman s? Har dine resultater match Berinsky og kolleger? Hvad-hvis noget-går dette lære os om at bruge Mekanisk Turk for undersøgelsens eksperimenter?
[ , ] I en noget tongue-in-kind papir med titlen "Vi nødt til at bryde op," den sociale psykolog Robert Cialdini, en af forfatterne til Schultz et al. (2007) , skrev, at han var på pension tidligt fra sit job som professor, dels på grund af de udfordringer, han står over for at gøre markforsøg i en disciplin (psykologi), der primært udfører lab forsøg (Cialdini 2009) . Læs Cialdini papir, og skriv ham en e-mail opfordrede ham til at genoverveje sin break-up i lyset af mulighederne for digitale eksperimenter. Brug konkrete eksempler på forskning, der løse hans bekymringer.
[ ] For at afgøre, om små indledende succeser lock-in eller forsvinde, van de Rijt og og kolleger (2014) intervenerede i fire forskellige systemer skænke succes på tilfældigt udvalgte deltagere, og derefter målte de langsigtede virkninger af denne vilkårlige succes. Kan du tænke på andre systemer, hvor man kunne køre tilsvarende forsøg? Vurdere disse systemer i form af spørgsmål af videnskabelig værdi, algoritmisk confounding (se kapitel 2), og etik.
[ , ] Resultaterne af et eksperiment kan stole på deltagerne. Opret et eksperiment, og derefter køre den på Amazon Mechanical Turk (MTurk) ved hjælp af to forskellige rekrutteringsstrategier. Prøv at vælge de strategier eksperiment og rekruttering således at resultaterne vil være så forskellige som muligt. For eksempel kan dine rekrutteringsstrategier være at rekruttere deltagere i morgen og om aftenen eller at kompensere deltagere med høj og lav løn. Disse former for forskelle i rekrutteringsstrategi kan føre til forskellige puljer af deltagere og forskellige eksperimentelle resultater. Hvor anderledes gjorde dine resultater vise sig? Hvad der afslører om at køre eksperimenter på MTurk?
[ , , , ] Forestil dig, at du havde planer den Emotional Contagion studiet (Kramer, Guillory, and Hancock 2014) . Brug resultaterne fra en tidligere observationsstudie af Kramer (2012) til at afgøre antallet af deltagere i hver tilstand. Disse to undersøgelser ikke passer perfekt, så sørg for at eksplicit liste over alle de antagelser, du foretager:
[ , , , ] Svar på spørgsmålet ovenfor, men i stedet for at bruge den tidligere observationsstudie af Kramer (2012) bruge resultaterne fra en tidligere naturlig eksperiment ved Coviello et al. (2014) .
[ ] Både Rijt et al. (2014) og Margetts et al. (2011) begge udfører eksperimenter, der studerer processen med folk underskriver et andragende. Sammenligne og kontrast design og resultaterne af disse undersøgelser.
[ ] Dwyer, Maki, and Rothman (2015) gennemførte to markforsøg på forholdet mellem sociale normer og proenvironmental adfærd. Her er uddrag af deres papir:
"Hvordan kan psykologisk videnskab udnyttes til at fremme proenvironmental adfærd? I to undersøgelser, interventioner til formål at fremme energibesparelser adfærd i offentlige badeværelser undersøgte påvirkninger af beskrivende normer og personligt ansvar. I studie 1 blev lyset status (dvs. tændt eller slukket) manipuleret før nogen indtastet en ledig offentlig badeværelse, signalerer beskrivende normen for denne indstilling. Deltagerne var signifikant mere tilbøjelige til at slukke lyset, hvis de var fra, når de kom ind. I studie 2 blev en yderligere betingelse medtaget, hvor normen for at slukke lyset blev påvist ved en konfødererede, men deltagerne var ikke selv er ansvarlige for at dreje den på. Personligt ansvar modereret indflydelse sociale normer på adfærd; når deltagerne ikke var ansvarlige for at tænde for lyset, blev indflydelsen af normen formindsket. Disse resultater indikerer, hvordan beskrivende normer og personligt ansvar kan regulere effektiviteten af proenvironmental interventioner. "
Læs deres papir og designe en replikering af undersøgelse 1.
[ , ] Med udgangspunkt i det foregående spørgsmål, nu udføre dit design.
[ ] Der har været en betydelig debat om forsøg med deltagere rekrutteret fra Amazon Mechanical Turk. Samtidig har der også været en betydelig debat om forsøg med deltagere rekrutteret fra bachelor studerende befolkninger. Skriv en to-siders notat sammenligner de Turkers og bachelorer som forskere deltagere. Din sammenligning bør indeholde en diskussion af både videnskabelige og logistiske problemer.
[ ] Jim Manzi bog Ukontrolleret (2012) er en vidunderlig introduktion til magt eksperimenter i erhvervslivet. I bogen videreformidles han denne historie:
"Jeg var engang i et møde med en ægte business geni, en self-made milliardær, der havde en dyb, intuitiv underdrive af magt eksperimenter. Hans firma har brugt betydelige ressourcer forsøger at skabe store butik vinduesudstillinger, der ville tiltrække forbrugere og øger salg, som konventionelle visdom sagde de burde. Eksperter omhyggeligt testet design efter design, og i de enkelte test anmeldelse sessioner over en årrække holdes viser nogen signifikant kausal effekt af hvert nyt display design på salget. Senior marketing og merchandising ledere mødtes med den administrerende direktør til at gennemgå disse historiske testresultater i toto. Efter fremlæggelsen alle de eksperimentelle data, konkluderede de, at den konventionelle visdom var forkert-at vinduesudstillinger ikke drive salget. Deres anbefalede handling var at reducere omkostningerne og indsats på dette område. Dette dramatisk demonstreret evne eksperimenter at vælte konventionelle visdom. Den administrerende direktør svar var enkel: "Min konklusion er, at dine designere er ikke særlig god.« Hans løsning var at øge indsatsen i butikken display design, og for at få nye folk til at gøre det. " (Manzi 2012, 158–9)
Hvilken type gyldighed er bekymring for den administrerende direktør?
[ ] Med udgangspunkt i det foregående spørgsmål, forestille sig, at du var på det møde, hvor resultaterne af forsøgene blev drøftet. Hvad er fire spørgsmål, som du kunne bede, en for hver type af gyldighed (statistisk, konstruere, indvendige og udvendigt)?
[ ] Bernedo, Ferraro, and Price (2014) studerer den syvårige effekten af vandbesparende indgreb beskrevet i Ferraro, Miranda, and Price (2011) (se figur 4.10). I dette papir, Bernedo og kolleger også søge at forstå mekanismen bag effekten ved at sammenligne adfærden af husstande, der har og ikke har flyttet efter behandlingen blev leveret. Det vil sige, groft, de forsøger at se, om behandlingen påvirket hjemmet eller boligejer.
[ ] I en opfølgning på Schultz et al. (2007) , Schultz og kolleger udfører en serie af tre eksperimenter på effekten af beskrivende og påbud normer på en anden miljømæssig adfærd (håndklæde genbrug) i to sammenhænge (hotel og timeshare ejerlejlighed) (Schultz, Khazian, and Zaleski 2008) .
[ ] Som svar på Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) kørte en serie af lab-lignende eksperimenter for at studere design af el-regninger. Her er hvordan de beskriver det i abstrakt:
"I en undersøgelse baseret eksperiment, hver deltager oplevede en hypotetisk elregning for en familie med relativt høj elforbrug, der dækker information om (a) historisk anvendelse, (b) sammenligninger til naboer og (c) historisk brug med apparatet opdeling. Deltagerne oplevede alle oplysningstyper i en af tre formater, herunder (a) tabeller, (b) søjlediagrammer, og (c) ikon grafer. Vi rapporterer om tre vigtigste resultater. Først forbrugerne forstod hver type el-brug oplysninger mest, når det blev præsenteret i en tabel, måske fordi tabeller letter enkelt punkt læsning. For det andet, præferencer og intentioner om at spare elektricitet var den stærkeste af historiske oplysninger brugen, uafhængigt af format. For det tredje, personer med lavere energi læsefærdigheder forstået al information mindre. "
I modsætning til andre opfølgende undersøgelser var det primære resultat af interesse i Canfield, Bruin, and Wong-Parodi (2016) er rapporteret adfærd ikke faktiske adfærd. Hvad er de stærke og svage sider ved denne type undersøgelse i en bredere forskningsprogram fremme energibesparelser?
[ , ] Smith and Pell (2003) er en satirisk meta-analyse af undersøgelser, der viser effektiviteten af faldskærme. De konkluderer:
"Som med mange interventioner til formål at forhindre dårligt helbred, effektiviteten af faldskærme har ikke været udsat for streng evaluering ved hjælp af randomiserede, kontrollerede forsøg. Fortalere for evidensbaseret medicin har kritiseret vedtagelsen af interventioner evalueret ved kun at observationsdata. Vi tror, at alle kan drage fordel, hvis de mest radikale hovedpersoner i evidensbaseret medicin organiseret og deltaget i en dobbeltblind, randomiseret, placebokontrolleret, crossover forsøg med faldskærm. "
Skriv en op-ed egnet til en generel læserskare avis, såsom The New York Times, argumenterer imod fetichisering af eksperimentelle beviser. Giv konkrete, konkrete eksempler. Tip: Se også, Bothwell et al. (2016) og Deaton (2010)
[ , , ] Forskel-i-forskelle estimatorer af en behandling effekt kan være mere præcis end forskel-in-middelværdi estimatorer. Skriv et notat til en ingeniør med ansvar for A / B-test på en opstart sociale medier selskab forklarer værdien af forskellen-in-forskelle tilgang for at køre en online eksperiment. Notatet skal indeholde en redegørelse for problemet, nogle intuition om de betingelser, hvorunder forskellen-in-forskel estimator vil outperforme forskellen-in-middelværdi estimator, og en enkel simulering undersøgelse.
[ , ] Gary Loveman var professor ved Harvard Business School, før han blev administrerende direktør for Harrahs, en af de største casino i verden. Da han flyttede til Harrahs, Loveman forvandlede virksomheden med en frequent flyer-lignende loyalitetsprogram, der har indsamlet enorme mængder af data om kundernes adfærd. Oven i dette altid-on målesystem, selskabet begyndte at køre eksperimenter. For eksempel kan de køre et eksperiment for at vurdere effekten af en kupon til en gratis hotel nat for kunder med en bestemt gambling mønster. Her er hvordan Loveman beskrev betydningen af eksperimenter til Harrahs daglige forretningsmetoder:
"Det er ligesom du ikke chikanere kvinder, behøver du ikke stjæle, og du nødt til at have en kontrolgruppe. Det er en af de ting, du kan tabe dit job i Harrah's-ikke kører en kontrolgruppe. " (Manzi 2012, 146)
Skriv en e-mail til en ny medarbejder at forklare, hvorfor Loveman mener, at det er så vigtigt at have en kontrolgruppe. Du bør forsøge at inkludere et eksempel-enten reelle eller gjort op-for at illustrere din pointe.
[ , ] En ny eksperiment har til formål at vurdere effekten af at modtage sms-påmindelser på optagelse vaccination. 150 klinikker, hver med 600 egnede patienter, er villige til at deltage. Der er en fast pris på 100 dollars for hver klinik du ønsker at arbejde med, og det koster en dollar for hver sms, som du vil sende. Endvidere vil alle klinikker, du arbejder med måle resultatet (om nogen fået en vaccination) gratis. Antag, at du har et budget på 1000 dollars.
[ , ] Et stort problem med online-kurser er nedslidning; mange studerende, der starter kurser ender slippe ud. Forestil dig, at du arbejder på et online læringsplatform, og en designer på platformen har skabt en visuel statuslinje, som hun mener vil hjælpe med at forhindre eleverne i at falde ud af kurset. Du ønsker at teste effekten af statuslinjen på de studerende i en stor beregningsmæssige samfundsvidenskab kursus. Efter løsning af eventuelle etiske spørgsmål, der måtte opstå i eksperimentet, du og dine kolleger får bekymret for, at kurset måske ikke har nok studerende til pålideligt registrerer effekten af statuslinjen. I beregningerne nedenfor du kan antage, at halvdelen af de studerende vil modtage statuslinjen og halvdelen ikke. Desuden kan du antage, at der ikke er interferens. Med andre ord, kan du antage, at deltagerne kun er berørt af, om de har modtaget behandling eller kontrol; de er ikke påvirket af, om andre mennesker modtog behandling eller bekæmpelse (for en mere formel definition, se Gerber and Green (2012) , Ch. 8). Venligst holde styr på eventuelle yderligere forudsætninger, som du foretager.
[ , ] I en dejlig papir, Lewis and Rao (2015) levende illustrerer en grundlæggende statistisk begrænsning af selv massive eksperimenter. Papiret-som oprindeligt havde provokerende titel "På den Near-umuligt at Måling af Vender tilbage til reklame" -viser hvor svært det er at måle afkastet af investeringen af online annoncer, selv med digitale eksperimenter, der involverer millioner af kunder. Mere generelt viser papiret tydeligt, at det er svært at estimere lille behandlingseffekt midt støjende resultatdata. Eller erklærede diffently, papiret viser, at estimerede behandlingseffekt vil have store konfidensintervaller når virkningen-til-standard-afvigelsen (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) forholdet er lille. Den vigtige generelle lektie fra dette papir er, at resultater fra forsøg med små indvirkning-til-standard-afvigelsen forhold (f.eks ROI af annoncekampagner) vil være utilfredsstillende. Din udfordring bliver at skrive et notat til en person i marketingafdelingen i din virksomhed evaluting et planlagt eksperiment for at måle ROI af en annoncekampagne. Din memo bør støttes med grafer af resultaterne af computersimuleringer.
Her er nogle baggrundsoplysninger, som du måske har brug for. Alle disse numeriske værdier er typiske for de virkelige forsøg rapporteret i Lewis and Rao (2015) :
ROI, en vigtig parameter for online annoncekampagner, er defineret til at være nettooverskuddet fra kampagnen (bruttoavance fra kampagnen minus udgifter til kampagnen) divideret med prisen for kampagnen. For eksempel en kampagne, der ikke havde nogen effekt på salget ville have en ROI på -100% og en kampagne, hvor overskud var lig med omkostningerne ville have en ROI på 0.
de gennemsnitlige salg pr kunde er $ 7 med en standardafvigelse på $ 75.
kampagnen forventes at øge salget ved $ 0,35 per kunde, hvilket svarer til en stigning i overskud på $ ,175 per kunde. Med andre ord, bruttomarginen er 50%.
den planlagte størrelse af eksperimentet er 200.000 mennesker, halvdelen i behandlingsgruppen og halvdelen i kontrolgruppen.
prisen for kampagnen er $ 0,14 pr deltager.
Skriv et notat evaluting dette eksperiment. Vil du anbefale lancere dette eksperiment som planlagt? Hvis ja, hvorfor? Hvis ikke, hvilke ændringer ville du anbefale?
En god memo vil behandle dette specifikke tilfælde; en bedre notat vil generalisere fra denne sag på én måde (f.eks vise, hvordan beslutningsprocesserne ændrer sig som funktion af virkningen-til-standard-afvigelsen forhold); og en stor notat vil præsentere en fuldt generaliseret resultat.
[ , ] Gør det samme som det foregående spørgsmål, men i stedet for simulering du skal bruge analytiske resultater.
[ , , ] Gør det samme som det foregående spørgsmål, men bruger både simulering og analytiske resultater.
[ , , ] Forestil dig, at du har skrevet det notat beskrevet ovenfor ved hjælp af enten simulering, analytiske resultater, eller begge-og en person fra marketingafdelingen anbefaler brug en forskel-in-forskelle estimatoren snarere end en forskel i middel estimator (se afsnit 4.6.2) . Skriv en ny kortere memo forklare, hvordan en 0,4 korrelation mellem salg inden forsøget og salg efter eksperimentet ville ændre din konklusion.
[ , ] For at vurdere effektiviteten af en ny web-baseret karriere service, et universitet karriere tjenester kontor gennemført en randomiseret kontrol forsøg blandt 10.000 studerende ind deres sidste år skole. En gratis abonnement med unikke log-in oplysninger blev sendt via en eksklusiv email invitation til 5.000 af de tilfældigt udvalgte studerende, mens de øvrige 5.000 studerende er i kontrolgruppen og ikke har et abonnement. Tolv måneder senere, en opfølgende undersøgelse (med ingen ikke-svar) viser, at i både behandlings- og kontrolgrupper, har 70% af de studerende sikret fuldtidsbeskæftigelse i deres valgte område (tabel 4.5). Det synes således, at den webbaserede tjeneste havde ingen effekt.
Men en klog data forsker på universitetet kiggede på data lidt nærmere og fandt, at kun 20% af de studerende i behandlingsgruppen nogensinde logget ind på kontoen efter at have modtaget e-mail. Endvidere og noget overraskende, blandt dem, der har logget ind på hjemmesiden kun 60% havde sikret fuldtidsbeskæftigelse i deres valgte område, hvilket var lavere end den sats for folk, der ikke logge på og lavere end den sats for mennesker i kontrol tilstand (tabel 4.6).
Tip: Dette spørgsmål går ud over det materiale, der er omfattet i dette kapitel, men løser problemer fælles i forsøg. Denne type af eksperimentel design kaldes undertiden en opmuntring design, fordi deltagerne opfordres til at deltage i behandlingen. Dette problem er et eksempel på det, der kaldes ensidig manglende overholdelse (se Gerber and Green (2012) , Ch. 5)
[ ] Efter nærmere undersøgelse viser det sig, at det er beskrevet i det foregående spørgsmål eksperimentet var endnu mere kompliceret. Det viser sig, at 10% af befolkningen i kontrolgruppen betalt for adgang til tjenesten, og de endte med en beskæftigelsesfrekvens på 65% (tabel 4.7).
Tip: Dette spørgsmål går ud over det materiale, der er omfattet i dette kapitel, men løser problemer fælles i forsøg. Dette problem er et eksempel på det, der kaldes to-sidet manglende overholdelse (se Gerber and Green (2012) , Ch. 6)
Gruppe | Størrelse | beskæftigelsesfrekvens |
---|---|---|
Indrømmet adgang til hjemmesiden | 5.000 | 70% |
Ikke adgang til hjemmesiden | 5.000 | 70% |
Gruppe | Størrelse | beskæftigelsesfrekvens |
---|---|---|
Indrømmet adgang til hjemmesiden og logget ind | 1.000 | 60% |
Indrømmet adgang til hjemmesiden og aldrig logget ind | 4.000 | 85% |
Ikke adgang til hjemmesiden | 5.000 | 70% |
Gruppe | Størrelse | beskæftigelsesfrekvens |
---|---|---|
Indrømmet adgang til hjemmesiden og logget ind | 1.000 | 60% |
Indrømmet adgang til hjemmesiden og aldrig logget ind | 4.000 | 72,5% |
Ikke adgang til hjemmesiden og betalt for det | 500 | 65% |
Ikke adgang til hjemmesiden og ikke betale for det | 4500 | 70,56% |