Nøkkel:
[ , ] Berinsky og kolleger (2012) evaluerer Mekanisk Turk delvis ved å kopiere tre klassiske eksperimenter. Replikere klassisk asiatisk sykdom rammer eksperiment ved Tversky and Kahneman (1981) . Gjør resultatene kamp Tversky og Kahneman s? Gjør resultatene kamp Berinsky og kolleger? Hva-hvis noe-lærer dette oss om å bruke Mechanical Turk for undersøkelsen eksperimenter?
[ , ] I en noe tongue-in-cheek papir med tittelen "Vi må bryte opp," den sosialpsykologen Robert Cialdini, en av forfatterne av Schultz et al. (2007) , skrev at han var pensjonere seg tidlig fra jobben som professor, delvis på grunn av de utfordringene han står overfor gjør feltforsøk i en disiplin (psykologi) som i hovedsak utfører laboratorieeksperimenter (Cialdini 2009) . Les Cialdini papir og skrive ham en e-post oppfordret ham til å revurdere sin break-up i lys av mulighetene for digitale eksperimenter. Bruk konkrete eksempler på forskning som løse sine bekymringer.
[ ] For å avgjøre hvorvidt små innledende suksesser lock-in eller visne bort, van de Rijt og og kolleger (2014) grep inn i fire forskjellige systemer skjenke suksess på tilfeldig utvalgte deltakere, og deretter målt de langsiktige konsekvensene av vilkårlig suksess. Kan du tenke på andre systemer der du kan kjøre lignende eksperimenter? Vurdere disse systemene når det gjelder saker av vitenskapelig verdi, algoritmisk confounding (se kapittel 2), og etikk.
[ , ] Resultatene av et eksperiment kan avhenge av deltakerne. Opprett et eksperiment, og deretter kjøre den på Amazon Mechanical Turk (MTurk) ved hjelp av to ulike rekrutteringsstrategier. Prøv å plukke eksperimentet og rekrutteringsstrategier slik at resultatene vil være så forskjellige som mulig. For eksempel kan rekrutteringsstrategier være å rekruttere deltakere i morgen og kveld, eller for å kompensere deltakere med høy og lav lønn. Slike forskjeller i rekrutteringsstrategi kan føre til ulike bassenger av deltakere og ulike eksperimentelle resultater. Hvor annerledes ville resultatene slår ut? Hva betyr det avslører om å kjøre eksperimenter på MTurk?
[ , , , ] Tenk deg at du var planlegging Emotional Contagion studien (Kramer, Guillory, and Hancock 2014) . Bruk resultatene fra en tidligere observasjonsstudie av Kramer (2012) for å bestemme antall deltakere i hver tilstand. Disse to studiene samsvarer ikke helt så sørg for å eksplisitt liste alle forutsetninger som du gjør:
[ , , , ] Svar på spørsmålet ovenfor, men i stedet for å bruke det tidligere observasjonsstudie av Kramer (2012) bruker resultatene fra en tidligere naturlig eksperiment ved Coviello et al. (2014) .
[ ] Både Rijt et al. (2014) og Margetts et al. (2011) begge utføre eksperimenter som studerer prosessen med mennesker å registrere en underskriftskampanje. Sammenligne og kontrast design og resultatene av disse studiene.
[ ] Dwyer, Maki, and Rothman (2015) gjennomført to feltforsøk på forholdet mellom sosiale normer og proenvironmental atferd. Her er utdrag fra sine papir:
"Hvordan kan psykologisk vitenskap brukes til å oppmuntre proenvironmental atferd? I to studier, tiltak rettet mot å fremme energisparing atferd i offentlige bad undersøkt påvirkning av beskrivende normer og personlig ansvar. I studie 1, ble lyset status (dvs. på eller av) manipulert før noen kom inn en ledig offentlig bad, signaliserer beskrivende norm for den innstillingen. Deltakerne var betydelig større sannsynlighet for å slå på lyset om de var av når de kom inn. I studie 2 ble en ekstra condition inkludert der normen for å slå av lyset ble demonstrert av en confederate, men deltakerne var ikke selv ansvar for å slå den på. Personlig ansvar moderert påvirkning av sosiale normer på atferd; når deltagerne ikke var ansvarlige for å slå på lyset, ble innflytelsen av normen redusert. Disse resultatene indikerer hvordan beskrivende normer og personlig ansvar kan regulere effekten av proenvironmental intervensjoner. "
Les deres papir og utforme en replikering av studie 1.
[ , ] Bygger på forrige spørsmål, nå utføre design.
[ ] Det har vært stor debatt om eksperimenter med deltakere rekruttert fra Amazon Mechanical Turk. Parallelt har det også vært stor debatt om eksperimenter med deltakere rekruttert fra lavere student bestander. Skriv en to-siders notat sammenligne og kontrastere de Turkers og studenter som forskere deltakere. Din sammenligning bør omfatte en drøfting av både vitenskapelige og logistiske problemer.
[ ] Jim Manzi bok Ukontrollert (2012) er en flott introduksjon til kraften av eksperimentering i næringslivet. I boken formidles han denne historien:
"Jeg var en gang i et møte med en ekte business geni, en self-made milliardær som hadde en dyp, intuitiv understating av kraften i eksperimenter. Hans selskap har brukt betydelige ressurser å prøve å lage flotte butikken vindusutstillinger som vil tiltrekke forbrukere og øker salget, som konvensjonell visdom sa de burde. Eksperter nøye testet utforming etter design, og i enkelte test gjennomgang økter over en periode på flere år holdt viser ingen signifikant årsaks effekten av hver ny utstillingsdesign på salg. Senior markedsføring og varehandel ledere møtte administrerende direktør til å gjennomgå disse historiske testresultater i toto. Etter å presentere alle de eksperimentelle data, konkluderte de at den konvensjonelle visdommen var galt, at vindusutstillinger ikke øke salget. Deres anbefalte tiltak var å redusere kostnader og innsats på dette området. Dette viste dramatisk evne eksperimentering for å velte konvensjonell visdom. Konsernsjefen svar var enkelt: "Min konklusjon er at designere er ikke veldig bra." Hans løsning var å øke innsatsen i butikken utstillingsdesign, og for å få nye folk til å gjøre det. " (Manzi 2012, 158–9)
Hvilken type validitet er opptatt av administrerende direktør?
[ ] Bygger på forrige spørsmål, forestill deg at du var på møtet der resultatene av forsøkene ble diskutert. Hva er fire spørsmål som du kan be, en for hver type gyldighet (statistisk, konstruere, intern og ekstern)?
[ ] Bernedo, Ferraro, and Price (2014) studerer sju år effekten av vannsparende tiltak beskrevet i Ferraro, Miranda, and Price (2011) (se figur 4.10). I denne utredningen, Bernedo og kolleger også søke å forstå mekanismen bak effekten ved å sammenligne oppførselen til husholdninger som har og ikke har flyttet etter at behandlingen ble levert. Det er, grovt, prøver de å se om behandlingen påvirket hjemmet eller hus.
[ ] I en oppfølging av Schultz et al. (2007) , Schultz og kolleger utføre en serie på tre forsøk på effekten av beskrivende og forføyninger normer på en annen miljøatferd (håndkle gjenbruk) i to sammenhenger (hotell og en timeshare condominium) (Schultz, Khazian, and Zaleski 2008) .
[ ] Som svar på Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) kjørte en rekke lab-lignende eksperimenter for å studere design av elektriske regninger. Her er hvordan de beskriver det i det abstrakte:
"I en undersøkelse basert eksperiment, hver deltaker så en hypotetisk strømregningen for en familie med relativt høy bruk av elektrisitet, som dekker informasjon om (a) historisk bruk, (b) sammenligninger til naboer, og (c) historisk bruk med apparatet sammenbrudd. Deltakerne så alle informasjonstyper i ett av tre formater, inkludert (a) tabeller, (b) søylediagrammer, og (c) ikon grafer. Vi rapporterer om tre hovedfunn. Først forbrukere forstått hver type elektrisitet bruke informasjonen mest når det ble presentert i en tabell, kanskje fordi tabellene lette enkel pek lesing. For det andre, preferanser og intensjoner om å spare strøm var sterkest for den historiske bruken informasjon, uavhengig av format. Tredje, personer med lavere energi leseferdighet forstått all informasjon mindre. "
I motsetning til andre oppfølgingsstudier, det viktigste resultatet av interesse i Canfield, Bruin, and Wong-Parodi (2016) er rapportert oppførsel ikke faktiske atferd. Hva er styrkene og svakhetene til denne typen studier i et bredere forskningsprogram fremme energisparing?
[ , ] Smith and Pell (2003) er en satirisk meta-analyse av studier som viser effekten av fallskjermer. De konkluderer:
"Som med mange tiltak skal hindre at dårlig helse, effektiviteten av fallskjermer har ikke vært utsatt for grundig evaluering ved hjelp av randomiserte kontrollerte studier. Tilhengerne av evidensbasert medisin har kritisert innføringen av tiltakene evalueres ved hjelp av bare observasjonsdata. Vi tror at alle kan ha nytte hvis de mest radikale protagonistene i evidensbasert medisin organisert og deltatt i en dobbeltblind, randomisert, placebokontrollert, crossover studie av fallskjerm. "
Skriv en kronikk egnet for en generell lesere avis, som The New York Times, og hevder mot fetishization av eksperimentelle bevis. Gi spesifikke, konkrete eksempler. Hint: Se også Bothwell et al. (2016) og Deaton (2010)
[ , , ] Forskjell-i-forskjeller estimatorer av en behandlingseffekt kan være mer presis enn forskjell-i-gjennomsnittet estimatorer. Skriv et notat til en ingeniør med ansvar for A / B-testing ved en oppstart sosiale medier selskapet forklare verdien av forskjellen-i-forskjeller tilnærming for å kjøre en online eksperiment. Notatet bør inneholde en erklæring av problemet, noen intuisjon om hvilke vilkår forskjellen-i-forskjell estimator vil utkonkurrere forskjellen-in-middel estimator, og en enkel simulering studie.
[ , ] Gary Loveman var professor ved Harvard Business School før han ble administrerende direktør i Harrahs, en av de største casino selskaper i verden. Da han flyttet til Harrahs, Loveman forvandlet selskapet med en hyppige flyger-lignende lojalitetsprogram som samlet enorme mengder data om kundeatferd. På toppen av dette alltid-på målesystem, selskapet begynte å kjøre eksperimenter. For eksempel kan de kjøre et eksperiment for å evaluere effekten av en kupong for en gratis natt for kunder med en bestemt gambling mønster. Slik Loveman beskrev betydningen av eksperimentering til Harrahs daglige forretningsdrift:
"Det er som du ikke trakassere kvinner, trenger du ikke stjele, og du er nødt til å ha en kontrollgruppe. Dette er en av de tingene som du kan miste jobben etter at Harrah's-ikke kjører en kontrollgruppe. " (Manzi 2012, 146)
Skriv en e-post til en ny medarbeider som forklarer hvorfor Loveman mener det er så viktig å ha en kontrollgruppe. Du bør prøve å ta med et eksempel, enten ekte eller gjort opp-å illustrere poenget.
[ , ] Et nytt eksperiment som mål å anslå effekten av å motta beskjed påminnelser tekst på vaksinering opptak. 150 klinikker, hver med 600 kvalifiserte pasienter, er villige til å delta. Det er en fast kostnad på 100 dollar for hver klinikk du ønsker å jobbe med, og det koster en dollar for hver tekstmelding som du vil sende. Videre vil noen klinikker som du arbeider med å måle resultatet (om noen fikk vaksine) gratis. Anta at du har et budsjett på 1000 dollar.
[ , ] Et stort problem med online kurs er slitasje; mange studenter som starter kurs ende opp slippe ut. Tenk deg at du jobber på en online læringsplattform, og en designer på plattformen har skapt en visuell fremdriftslinje som hun mener vil bidra til å forhindre elever fra å droppe ut av kurset. Du ønsker å teste effekten av fremdriftslinjen på studenter i et stort beregnings samfunnsvitenskap kurs. Etter adressering eventuelle etiske problemstillinger som kan oppstå i forsøket, du og dine kolleger få bekymret for at kurset ikke kan ha nok studenter til å oppdage pålitelig effekten av fremdriftslinjen. I beregningene nedenfor kan du anta at halvparten av studentene får fremdriftslinjen og halvparten ikke. Videre kan du gå ut fra at det ikke er forstyrrelser. Med andre ord, kan du anta at deltakerne er bare påvirket av om de fikk behandling eller kontroll; de er ikke berørt av om andre mennesker fikk behandling eller kontroll (for en mer formell definisjon, se Gerber and Green (2012) , kap. 8). Vennligst holde oversikt over eventuelle andre forutsetninger som du gjør.
[ , ] I en nydelig papir, Lewis and Rao (2015) levende illustrerer en grunnleggende statistisk begrensning av selv massive eksperimenter. Den papir som opprinnelig hadde provoserende tittelen "On the Near-umulighet å måle Går tilbake til reklame" -Viser hvor vanskelig det er å måle avkastningen på investeringen av nettannonser, selv med digitale eksperimenter som involverer millioner av kunder. Mer generelt, viser papiret klart at det er vanskelig å anslå liten behandlingseffekt midt støyutfallsdata. Eller uttalte diffently, viser avisen at estimerte behandlingseffekter vil ha store konfidensintervall når virkningen til standard-avvik (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) forholdet er liten. Det viktige generell lærdom fra denne artikkelen er at resultater fra forsøk med liten effekt-til-standard-avvik-forhold (for eksempel avkastningen av annonsekampanjer) vil være utilfredsstillende. Din utfordring blir å skrive et notat til noen i markedsavdelingen i et selskap evaluting en planlagt eksperiment for å måle avkastningen av en annonsekampanje. Din memo bør støttes med grafer av resultatene av datasimuleringer.
Her er litt bakgrunnsinformasjon som du kanskje trenger. Alle disse numeriske verdiene er typiske for de virkelige eksperimenter rapportert i Lewis and Rao (2015) :
ROI, et sentralt nøkkeltall for online annonsekampanjer, er definert som netto overskudd fra kampanjen (bruttofortjeneste fra kampanjen minus kostnadene ved kampanje) delt på kostnaden av kampanjen. For eksempel en kampanje som ikke hadde noen effekt på salget ville ha en avkastning på -100% og en kampanje der inntjeningen var lik kostnadene ville ha en avkastning på 0.
gjennomsnitts salg per kunde er $ 7 med et standardavvik på $ 75.
kampanjen er forventet å øke salget med $ 0,35 per kunde som tilsvarer en resultatøkning på $ 0,175 per kunde. Med andre ord, er dekningsgraden 50%.
den planlagte størrelsen av forsøket er 200.000 mennesker, halvparten i behandlingsgruppen, og halvparten i kontrollgruppen.
kostnaden for kampanjen er $ 0,14 per deltaker.
Skriv et notat evaluting dette eksperimentet. Vil du anbefale å lansere dette eksperimentet som planlagt? Hvis ja, hvorfor? Hvis ikke, hvilke endringer ville du anbefale?
En god huske vil løse dette konkrete tilfellet; en bedre memo vil generalisere fra dette tilfellet på en måte (som viser hvordan beslutnings endrer seg som en funksjon av virkningen til standard-avvik-forhold); og en stor memo vil presentere et fullt generalisert resultat.
[ , ] Gjør det samme som forrige spørsmål, men snarere enn simulering du bør bruke analytiske resultater.
[ , , ] Gjør det samme som forrige spørsmål, men bruker både simulering og analyseresultater.
[ , , ] Tenk deg at du har skrevet notatet beskrevet ovenfor ved hjelp av enten simulering, analytiske resultater, eller både-og noen fra markedsavdelingen anbefaler å bruke en forskjell-i-forskjeller estimator snarere enn en forskjell i middel estimator (se avsnitt 4.6.2) . Skriv en ny kortere notat som forklarer hvordan en 0,4 sammenheng mellom salg før forsøket og salg etter forsøket vil endre din konklusjon.
[ , ] For å evaluere effekten av en ny web-baserte karriere service, et universitet karriere tjenester kontoret gjennomførte en randomisert kontroll studie blant 10.000 studenter inn sitt siste år på skolen. En gratis abonnement med unike innloggingsinformasjon ble sendt gjennom en eksklusiv e-postinvitasjon til 5000 av de tilfeldig utvalgte studenter, mens de andre 5000 studenter er i kontrollgruppen og ikke har et abonnement. Tolv måneder senere, viser en oppfølgingsundersøkelse (uten frafall) som i både behandlings- og kontrollgrupper, har 70% av studentene sikret heltidsarbeid i utvalgte felt (tabell 4.5). Dermed ser det ut til at web-basert tjeneste hadde ingen effekt.
Men en smart data forsker ved universitetet sett på data litt nærmere og fant at bare 20% av elevene i behandlingsgruppen noensinne logget inn på kontoen etter å ha mottatt e-posten. Videre og noe overraskende, blant dem som har logget inn på nettsiden bare 60% hadde sikret heltidsarbeid i utvalgte felt, som var lavere enn satsen for folk som ikke logger inn, og lavere enn satsen for folk i kontroll tilstand (tabell 4.6).
Hint: Dette spørsmålet går utover materialet dekket i dette kapitlet, men løser problemer som er vanlige i eksperimenter. Denne type eksperimentell design kalles en oppmuntring utforming fordi deltakerne oppfordres til å engasjere seg i behandlingen. Dette problemet er et eksempel på det som kalles ensidig avvik (se Gerber and Green (2012) , kap. 5)
[ ] Etter nærmere undersøkelse viser det seg at forsøket beskrevet i forrige spørsmål var enda mer komplisert. Det viser seg at 10% av personene i kontrollgruppen betalt for tilgang til tjenesten, og de endte opp med en beskjeftigelsesgrad på 65% (tabell 4.7).
Hint: Dette spørsmålet går utover materialet dekket i dette kapitlet, men løser problemer som er vanlige i eksperimenter. Dette problemet er et eksempel på det som kalles tosidig avvik (se Gerber and Green (2012) , kap. 6)
Gruppe | Størrelse | sysselsetting |
---|---|---|
Gitt tilgang til nettstedet | 5000 | 70% |
Ikke gitt tilgang til nettstedet | 5000 | 70% |
Gruppe | Størrelse | sysselsetting |
---|---|---|
Gitt tilgang til nettstedet og logget inn | 1000 | 60% |
Gitt tilgang til nettstedet og aldri logget inn | 4000 | 85% |
Ikke gitt tilgang til nettstedet | 5000 | 70% |
Gruppe | Størrelse | sysselsetting |
---|---|---|
Gitt tilgang til nettstedet og logget inn | 1000 | 60% |
Gitt tilgang til nettstedet og aldri logget inn | 4000 | 72,5% |
Ikke gitt tilgang til nettstedet og betalt for det | 500 | 65% |
Ikke gitt tilgang til nettstedet og ikke betale for det | 4500 | 70,56% |