[ , ] Berinsky og kolleger (2012) evaluerte MTurk delvis ved å kopiere tre klassiske eksperimenter. Replikere det klassiske asiatiske sykdomsrammeeksperimentet av Tversky and Kahneman (1981) . Trenger du resultatene Tversky og Kahneman? Stemmer resultatene dine sammen med Berinsky og kollegaene? Hva-om noe-lærer dette oss om å bruke MTurk til undersøkelseseksperimenter?
[ , ] I en noe tung-i-kinnpapir med tittelen "Vi må bryte opp", sosialpsykologen Robert Cialdini, en av forfatterne til Schultz et al. (2007) skrev at han tidlig ble pensjonert fra sin jobb som professor, delvis på grunn av utfordringene han stod for å gjøre felteksperimenter i en disiplin (psykologi) som hovedsakelig utfører laboratorieforsøk (Cialdini 2009) . Les Cialdinis papir, og skriv ham en epost som oppfordrer ham til å revurdere sin oppbrytelse i lys av mulighetene for digitale eksperimenter. Bruk spesifikke eksempler på forskning som adresserer hans bekymringer.
[ ] For å avgjøre om små innledende suksesser låser seg eller visner bort, har van de Rijt og kolleger (2014) intervenert i fire forskjellige systemer som gir suksess på tilfeldig utvalgte deltakere, og deretter målte de langsiktige konsekvensene av denne vilkårlig suksess. Kan du tenke på andre systemer der du kan kjøre lignende eksperimenter? Evaluer disse systemene når det gjelder problemstillinger av vitenskapelig verdi, algoritmisk confounding (se kapittel 2) og etikk.
[ , ] Resultatene av et eksperiment kan avhenge av deltakerne. Opprett et eksperiment og kjør det på MTurk ved hjelp av to forskjellige rekrutteringsstrategier. Prøv å velge eksperiment og rekrutteringsstrategier slik at resultatene blir så forskjellige som mulig. For eksempel kan rekrutteringsstrategiene være å rekruttere deltakere om morgenen og kvelden eller for å kompensere deltagere med høy og lav lønn. Disse forskjellene i rekrutteringsstrategi kan føre til forskjellige bassenger av deltakere og ulike eksperimentelle resultater. Hvor forskjellige ble resultatene dine? Hva avslører det om å kjøre eksperimenter på MTurk?
[ , , ] Tenk deg at du planla eksperimentet Emosjonelle Forstyrrelser (Kramer, Guillory, and Hancock 2014) . Bruk resultatene fra en tidligere observasjonsstudie av Kramer (2012) å bestemme antall deltakere i hver tilstand. Disse to studiene samsvarer ikke perfekt, så vær sikker på å eksplisitt oppgi alle antagelsene du gjør:
[ , , ] Svar på det forrige spørsmålet igjen, men denne gangen i stedet for å bruke den tidligere observasjonsstudien av Kramer (2012) , bruk resultatene fra et tidligere naturlig eksperiment av Lorenzo Coviello et al. (2014) .
[ ] Både Margetts et al. (2011) og van de Rijt et al. (2014) utførte eksperimenter som studerte prosessen med mennesker som signerte en petisjon. Sammenlign og kontrast design og funn av disse studiene.
[ ] Dwyer, Maki, and Rothman (2015) gjennomførte to felteksperimenter om forholdet mellom sosiale normer og miljøproblemer. Her er abstraktet av deres papir:
"Hvordan kan psykologisk vitenskap utnyttes for å oppmuntre til miljømessig atferd? I to studier undersøkte tiltak for å fremme energibesparelsesadferd i offentlige bad påvirkningen av beskrivende normer og personlig ansvar. I studie 1 ble lysstatusen (dvs. på eller av) manipulert før noen kom inn i et ubebodd offentlig bad, som signaliserte den beskrivende norm for den innstillingen. Deltakerne var betydelig større sannsynlighet for å slå av lysene hvis de var ute da de kom inn. I Studie 2 ble det lagt til en ekstra betingelse hvor normen for å slå av lyset ble demonstrert av en konføderal, men deltakere var ikke selv ansvarlige for å slå på den. Personlig ansvar modererte innflytelsen av sosiale normer på atferd; da deltakerne ikke var ansvarlige for å slå på lyset, ble innflytelsen av normen redusert. Disse resultatene indikerer hvordan beskrivende normer og personlig ansvar kan regulere effektiviteten av miljømiljøintervensjonene. "
Les deres papir og designe en replikering av studie 1.
[ , ] Bygg på det forrige spørsmålet, utfør nå designet.
[ ] Det har vært betydelig diskusjon om eksperimenter ved hjelp av deltakerne rekruttert fra MTurk. Parallelt har det vært en betydelig debatt om eksperimenter ved hjelp av deltakere som er rekruttert fra studenterstudenter. Skriv et tosiders notat som sammenligner og kontrasterer tyrkere og undergraduates som forskningsdeltakere. Din sammenligning bør inneholde en diskusjon av både vitenskapelige og logistiske problemer.
[ ] Jim Manzis bok Ukontrollert (2012) er en fantastisk introduksjon til kraften i eksperimentering i virksomheten. I boka relayed han følgende historie:
"Jeg var en gang i et møte med et sant forretningsmiljø, en selvbetjent milliardær som hadde en dyp, intuitiv understating av kraften i eksperimenter. Hans firma brukte betydelige ressurser som forsøkte å skape store butikkvinduer som ville tiltrekke seg forbrukere og øker salget, slik konvensjonell visdom sa de burde. Eksperter nøye testet design etter design, og i enkelte test gjennomgang sessioner over en periode på år holdt fortsatt ingen signifikant årsakseffekt av hver ny display design på salg. Senior markedsføring og merchandising ledere møtte administrerende direktør for å se gjennom disse historiske testresultatene i toto. Etter å ha presentert alle eksperimentelle data konkluderte de at den konvensjonelle visdommen var feil - at vinduet viser ikke kjøre salg. Deres anbefalte tiltak var å redusere kostnader og innsats i dette området. Dette demonstrerte dramatisk evnen til å eksperimentere å reversere konvensjonell visdom. Konsernsjefens svar var enkelt: "Min konklusjon er at designerne ikke er veldig gode." Hans løsning var å øke innsatsen i butikkskjermdesign, og å få nye mennesker til å gjøre det. " (Manzi 2012, 158–9)
Hvilken type gyldighet er konsernsjefens bekymring?
[ ] Bygg på det forrige spørsmålet, forestill deg at du var på møtet der resultatene av forsøkene ble diskutert. Hva er fire spørsmål du kan spørre-en for hver type gyldighet (statistisk, konstruktiv, intern og ekstern)?
[ ] Bernedo, Ferraro, and Price (2014) studerte den syvårige effekten av vannbesparende inngrep beskrevet i Ferraro, Miranda, and Price (2011) (se figur 4.11). I dette papiret søkte Bernedo og kollegaer også å forstå mekanismen bak effekten ved å sammenligne oppførselen til husholdninger som har og ikke har flyttet etter at behandlingen ble levert. Det er grovt, de prøvde å se om behandlingen påvirket hjemmet eller huset.
[ ] I en oppfølging av Schultz et al. (2007) har Schultz og kollegaer utført en serie med tre eksperimenter om effekten av beskrivende og injunctive normer på en annen miljøbetegnelse (håndklegenbruk) i to sammenhenger (et hotell og en timeshare-villa) (Schultz, Khazian, and Zaleski 2008) .
[ ] Som svar på Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) kjørte en serie laboratorie-lignende eksperimenter for å studere utformingen av elektriske regninger. Slik beskriver de det abstrakt:
"I et undersøkelsesbasert eksperiment så hver deltaker en hypotetisk strømregning for en familie med relativt høy strømforbruk, som dekker informasjon om (a) historisk bruk, (b) sammenligninger med naboer, og (c) historisk bruk med nedbryting av apparatet. Deltakerne så alle informasjonstyper i ett av tre formater, inkludert (a) tabeller, (b) bargrafer og (c) ikongrafer. Vi rapporterer om tre hovedfunn. For det første forstod forbrukerne hver type strømforbruket informasjon mest når det ble presentert i et bord, kanskje fordi bordene letter enkle punktavlesning. For det andre, preferanser og intensjoner for å spare strøm var den sterkeste for historisk bruk, uavhengig av format. For det tredje forstod enkeltpersoner med lavere energikompetanse all informasjon mindre. "
I motsetning til andre oppfølgingsstudier, er hovedresultatet av interesse for Canfield, Bruin, and Wong-Parodi (2016) rapportert atferd, ikke egentlig oppførsel. Hva er styrken og svakhetene i denne typen studie i et bredere forskningsprogram som fremmer energibesparelser?
[ , ] Smith and Pell (2003) presenterte en satirisk meta-analyse av studier som demonstrerte effektiviteten av fallskjermhopping. De konkluderte med:
"Som med mange tiltak som er ment å forebygge dårlig helse, har effekten av parachutes ikke blitt underlagt streng evaluering ved bruk av randomiserte kontrollerte studier. Advokater av bevisbasert medisin har kritisert vedtaket av inngrep evaluert ved å bruke bare observasjonsdata. Vi tror at alle kan ha nytte dersom de mest radikale hovedpersonene i bevisbasert medisin organiserte og deltok i en dobbeltblind, randomisert, placebokontrollert, crossover-prøve på fallskjermen. "
Skriv en op-ed som er egnet for en generell leser avis, for eksempel New York Times , som krangler mot fetishisering av eksperimentelle bevis. Gi konkrete konkrete eksempler. Hint: Se også Deaton (2010) og Bothwell et al. (2016) .
[ , , ] Forskjeller i forskjeller estimatorer av en behandlingseffekt kan være mer presis enn forskjell i gjennomsnitt estimatorer. Skriv et notat til en ingeniør med ansvar for A / B-testing hos et oppstartssosialt mediefirma som forklarer verdien av forskjellen i forskjeller tilnærming for å kjøre et online-eksperiment. Notatet skal inneholde en oppgave av problemet, noe intuisjon om forholdene der forskjellen i forskjell estimatoren vil overgå forskjellen i gjennomsnitt estimatoren, og en enkel simuleringsstudie.
[ , ] Gary Loveman var professor ved Harvard Business School før han ble administrerende direktør i Harrahs, en av verdens største kasinobedrifter. Da han flyttet til Harrah, forvandlet Loveman selskapet med et hyppig-flier-lignende lojalitetsprogram som samlet enorme mengder data om kundeadferd. På toppen av dette kontinuerlige målesystemet begynte selskapet å kjøre eksperimenter. For eksempel kan de kjøre et eksperiment for å evaluere effekten av en kupong for en gratis hotellnatt for kunder med et bestemt spillmønster. Slik beskriver Loveman viktigheten av å eksperimentere med Harrahs dagligdags forretningspraksis:
"Det er som om du ikke plager kvinner, du stjeler ikke, og du må ha en kontrollgruppe. Dette er en av de tingene du kan miste jobben din for at Harrahs ikke kjører en kontrollgruppe. " (Manzi 2012, 146)
Skriv en epost til en ny medarbeider som forklarer hvorfor Loveman mener det er så viktig å ha en kontrollgruppe. Du bør prøve å inkludere et eksempel - enten ekte eller opprettet - for å illustrere poenget ditt.
[ , ] Et nytt eksperiment tar sikte på å estimere effekten av å motta tekstmelding påminnelser om vaksinasjonsopptak. Ett hundre og femti klinikker, hver med 600 kvalifiserte pasienter, er villige til å delta. Det er en fast kostnad på $ 100 for hver klinikk du vil jobbe med, og det koster $ 1 for hver tekstmelding du vil sende. Videre vil eventuelle klinikker du jobber med, måle utfallet (om noen har fått en vaksinasjon) gratis. Anta at du har et budsjett på $ 1000.
[ , ] Et stort problem med online kurs er avslapping: mange studenter som starter kurs slutter å slippe ut. Tenk deg at du jobber på en nettbasert læringsplattform, og en designer på plattformen har opprettet en visuell fremdriftslinje som hun mener vil bidra til å forhindre at elevene faller ut av kurset. Du vil teste effekten av fremdriftslinjen på studenter i et stort beregningsfag for samfunnsvitenskap. Etter å ha adressert ethiske problemer som kan oppstå i forsøket, blir du og dine kolleger bekymret for at kurset kanskje ikke har nok studenter til å påvise pålidelig effekten av fremdriftslinjen. I de følgende beregningene kan du anta at halvparten av studentene vil få fremdriftslinjen og halvparten ikke. Videre kan du anta at det ikke er noen forstyrrelser. Med andre ord kan du anta at deltakerne bare er påvirket av om de har mottatt behandlingen eller kontrollen; De blir ikke påvirket av om andre har fått behandling eller kontroll (for en mer formell definisjon, se kapittel 8 i Gerber and Green (2012) ). Hold styr på eventuelle tilleggsforutsetninger du gjør.
[ , , ] Tenk deg at du jobber som datavitenskapsmann ved et teknisk firma. Noen fra markedsavdelingen ber om hjelp til å evaluere et eksperiment de planlegger for å måle avkastningen på investering (ROI) for en ny online annonsekampanje. Avkastning er definert som nettoresultatet fra kampanjen delt på kostnaden av kampanjen. En kampanje som ikke har noen effekt på salget vil for eksempel ha et avkastning på -100%; en kampanje hvor overskudd generert var lik kostnadene ville ha en avkastning på 0; og en kampanje der overskuddet ble doblet ville kostnadene ha 200% avkastning.
Før du starter eksperimentet, gir markedsavdelingen deg følgende informasjon basert på deres tidligere forskning (faktisk er disse verdiene typiske for de virkelige nettannonsekampanjene som rapporteres i Lewis og Rao (2015) ):
Skriv et notat som evaluerer dette foreslåtte eksperimentet. Ditt notat skal bruke bevis fra en simulering du oppretter, og den bør adressere to hovedproblemer: (1) Vil du anbefale å starte dette eksperimentet som planlagt? Hvis ja, hvorfor? Hvis ikke, hvorfor ikke? Sørg for å være klar over kriteriene du bruker for å ta denne avgjørelsen. (2) Hvilken prøvestørrelse vil du anbefale for dette eksperimentet? Igjen, vær så snill å være klar over kriteriene du bruker for å ta denne avgjørelsen.
Et godt notat vil adressere dette spesielle tilfellet; et bedre notat vil generalisere fra denne saken på en måte (for eksempel vise hvordan avgjørelsen endres som en funksjon av størrelsen på effekten av kampanjen); og et godt notat vil presentere et helt generalisert resultat. Ditt notat skal bruke grafer for å illustrere resultatene dine.
Her er to tips. Først kan markedsavdelingen ha gitt deg litt unødvendig informasjon, og de har kanskje ikke klart å gi deg noen nødvendig informasjon. For det andre, hvis du bruker R, vær oppmerksom på at funksjonen rlnorm () ikke fungerer som mange mennesker forventer.
Denne aktiviteten vil gi deg øvelse med strømanalyse, skape simuleringer og formidle resultatene dine med ord og grafer. Det skal hjelpe deg med å utføre strømanalyse for alle typer eksperimenter, ikke bare eksperimenter som er utformet for å estimere avkastning. Denne aktiviteten utgjør at du har erfaring med statistisk testing og effektanalyse. Hvis du ikke er kjent med strømanalyse, anbefaler jeg at du leser "En Power Primer" av Cohen (1992) .
Denne aktiviteten ble inspirert av et nydelig papir av RA Lewis and Rao (2015) , som levende illustrerer en grunnleggende statistisk begrensning av selv massive eksperimenter. Deres papir - som opprinnelig hadde den provokerende tittelen "På det umulige å måle returene til annonsering" - viser hvor vanskelig det er å måle avkastningen på Internett-annonser, selv med digitale eksperimenter som involverer millioner av kunder. Mer generelt illustrerer RA Lewis and Rao (2015) et grunnleggende statistisk faktum som er spesielt viktig for digitale alderseksperimenter. Det er vanskelig å estimere små behandlingseffekter blant støyende utfallsdata.
[ , ] Gjør det samme som forrige spørsmål, men i stedet for simulering, bør du bruke analytiske resultater.
[ , , ] Gjør det samme som det forrige spørsmålet, men bruk både simulerings- og analyseresultater.
[ , , ] Tenk deg at du har skrevet notatet som er beskrevet ovenfor, og noen fra markedsavdelingen gir en del ny informasjon: de forventer en 0,4 korrelasjon mellom salg før og etter forsøket. Hvordan endrer anbefalingene i notatet ditt? (Hint: se avsnitt 4.6.2 for mer om forskjellen i middel estimator og forskjellen i forskjeller estimator.)
[ , ] For å evaluere effektiviteten av et nytt nettbasert sysselsettingstilbud, gjennomførte et universitet en randomisert kontrollprosedyre blant 10 000 studenter inn i sitt siste skoleår. Et gratis abonnement med unik innloggingsinformasjon ble sendt via en eksklusiv e-post invitasjon til 5000 av tilfeldig valgte studenter, mens de andre 5000 studentene var i kontrollgruppen og ikke hadde abonnement. Tolv måneder senere viste en oppfølgingsundersøkelse (med ikke-respons) at i begge behandlings- og kontrollgruppene hadde 70% av studentene sikret heltid ansettelse på sitt valgte felt (tabell 4.6). Det virket som om den nettbaserte tjenesten ikke hadde noen effekt.
En smart dataforsker ved universitetet så imidlertid nærmere på dataene, og fant at bare 20% av elevene i behandlingsgruppen noensinne logget inn på kontoen etter å ha mottatt e-posten. Videre, og noe overraskende, blant de som logget inn på nettsiden, hadde bare 60% sikret heltidsansatte i sitt valgte felt, noe som var lavere enn prisen for personer som ikke loggte inn og var lavere enn prisen for folk i kontrolltilstanden (tabell 4.7).
Tips: Dette spørsmålet går utover materialet som er omtalt i dette kapitlet, men adresserer problemer som er felles i eksperimenter. Denne type eksperimentell design kalles noen ganger en oppfordringsdesign fordi deltakerne oppfordres til å delta i behandlingen. Dette problemet er et eksempel på det som kalles ensidig ikke-samsvar (se kapittel 5 i Gerber and Green (2012) ).
[ ] Etter ytterligere undersøkelse viste det seg at forsøket beskrevet i det forrige spørsmålet var enda mer komplisert. Det viste seg at 10% av befolkningen i kontrollgruppen betalte for tilgang til tjenesten, og de endte med en sysselsettingsgrad på 65% (tabell 4.8).
Tips: Dette spørsmålet går utover materialet som er omtalt i dette kapitlet, men adresserer problemer som er felles i eksperimenter. Dette problemet er et eksempel på det som kalles tosidig ikke-samsvar (se kapittel 6 i Gerber and Green (2012) ).
Gruppe | Størrelse | Sysselsettingsgrad |
---|---|---|
Gitt tilgang til nettsiden | 5000 | 70% |
Ikke gitt tilgang til nettsiden | 5000 | 70% |
Gruppe | Størrelse | Sysselsettingsgrad |
---|---|---|
Gitt tilgang til nettside og logget inn | 1000 | 60% |
Gitt tilgang til nettside og aldri logget inn | 4000 | 72,5% |
Ikke gitt tilgang til nettsiden | 5000 | 70% |
Gruppe | Størrelse | Sysselsettingsgrad |
---|---|---|
Gitt tilgang til nettside og logget inn | 1000 | 60% |
Gitt tilgang til nettside og aldri logget inn | 4000 | 72,5% |
Ikke gitt tilgang til nettstedet og betalt for det | 500 | 65% |
Ikke gitt tilgang til nettstedet og betalte ikke for det | 4500 | 70,56% |