La oss gå utover enkle eksperimenter. Tre begreper er nyttige for rike eksperimenter: validitet, heterogenitet av behandlingseffekter og mekanisme.
Forskere som er nye eksperimenter ofte fokus på en helt bestemt, smale Spørsmål: Har denne behandlingen "arbeid"? For eksempel, gjør en telefon fra en frivillig oppfordre noen til å stemme? Betyr endre en nettside knappen fra blå til grønn vekst klikkfrekvens? Dessverre, løs frasering om hva "virker" tilslører det faktum at innskrenkede eksperimentene ikke egentlig fortelle deg om en behandling "fungerer" i en generell forstand. Snarere snevert fokusert eksperimenter svare på et mye mer spesifikt spørsmål: hva er den gjennomsnittlige effekten av denne spesifikke behandling med dette spesifikke implementasjonen for denne populasjonen av deltakere på denne tiden? Jeg ringer eksperimenter som fokuserer på denne smale spørsmåls enkle eksperimenter.
Enkle eksperimenter kan gi verdifull informasjon, men de ikke klarer å svare på mange spørsmål som er både viktig og interessant eksempel: er det noen mennesker for hvem behandling hadde en større eller mindre effekt ?; er det en annen behandling som ville være mer effektivt ?; og hvordan dette eksperimentet forholde seg til bredere sosiale teorier?
For å vise verdien av å gå utover enkle forsøk, la oss vurdere en av mine favoritt analoge feltforsøk, en studie av P. Wesley Schultz og kolleger på forholdet mellom sosiale normer og energiforbruk (Schultz et al. 2007) . Schultz og kolleger hengt doorhangers på 300 husstander i San Marcos, California, og disse doorhangers levert ulike meldinger designet for å oppmuntre til energisparing. Deretter Schultz og kolleger målte effekten av disse meldingene om strømforbruket, både etter en uke og tre uker; se figur 4.3 for en mer detaljert beskrivelse av den eksperimentelle design.
Forsøket hadde to forhold. I den første betingelsen, husholdninger mottok generell energisparing tips (for eksempel bruke vifter i stedet for klimaanlegg) og informasjon om deres husholdningens energiforbruk sammenlignet med gjennomsnittet av energiforbruket i deres nabolag. Schultz og kolleger kalte dette den beskrivende normative tilstand fordi informasjonen om energibruken i deres nabolag gitt informasjon om typisk oppførsel (dvs. en beskrivende norm). Når Schultz og kolleger sett på den resulterende energibruken i denne gruppen, behandling syntes å ha noen effekt, enten på kort sikt eller lang sikt; med andre ord, gjorde behandlingen ikke ser ut til å "arbeide" (figur 4.4).
Men, heldigvis, Schultz et al. (2007) gjorde ikke betale for denne forenklede analyse. Før eksperimentet begynte de begrunnet at tunge brukere av elektrisitet-folk over middel kan redusere sitt forbruk, og at lys brukere av elektrisitet-folk under gjennomsnittet-kan faktisk øke sitt forbruk. Når de så på data, er det akkurat det de fant (figur 4.4). Dermed, det så ut som en behandling som hadde noen effekt var faktisk en behandling som hadde to motvirkende effekter. Forskerne kalte dette kontraproduktivt økning blant småbrukere en boomerang effekt.
Videre, Schultz og medarbeidere forventet denne mulighet, og i den andre tilstand de utplassert en litt annen behandling, en eksplisitt konstruert for å eliminere Bumerangeffekten. Husholdningene i andre betingelsen fått nøyaktig samme behandlings generell energisparing tips og informasjon om deres husholdningens energiforbruk i forhold til deres nabolag-med en liten tillegg: for personer med under middels forbruk, forskerne lagt en :) og for mennesker med over gjennomsnittet forbruket de lagt en :(. Disse emoticons ble utformet for å utløse det forskerne kalte forføyninger normer. påleggs normer refererer til oppfatninger av hva som er allment godkjent (og godkjent), mens beskrivende normer refererer til oppfatninger av hva som er allment gjort (Reno, Cialdini, and Kallgren 1993) .
Ved å legge denne lille uttrykksikon, forskerne dramatisk redusert boomerang effekt (figur 4.4). Ved å gjøre dette en enkel endring-en endring som var motivert av et abstrakt sosialpsykologisk teori (Cialdini, Kallgren, and Reno 1991) -De var forskerne i stand til å slå et program fra en som ikke synes å fungere til en som arbeidet, og samtidig var de i stand til å bidra til generell forståelse av hvordan sosiale normer påvirker menneskelig atferd.
På dette punktet, men kan du legge merke til at noe er litt annerledes om dette eksperimentet. Spesielt er det ingen eksperimentet av Schultz og medarbeidere ikke egentlig har en kontrollgruppe på samme måte som randomiserte kontrollerte eksperimenter gjør. Sammenligningen mellom denne design og utforming av Restivo og van de Rijt illustrerer forskjellene mellom to store design som brukes av forskere. I mellom-fag design, for eksempel Restivo og van de Rijt, er det en behandlingsgruppe og en kontrollgruppe, og i løpet av-fag design oppførselen til deltakerne blir sammenlignet før og etter behandlingen (Greenwald 1976; Charness, Gneezy, and Kuhn 2012) . I en innen-faget eksperiment er det som om hver deltaker opptrer som sin egen kontrollgruppe. Styrken i mellom-fagene design er at det gir beskyttelse mot confounders (som jeg beskrev tidligere), og styrken av innenfor-fagene eksperimenter er økt presisjon i estimatene. Når hver deltaker fungerer som sin egen kontroll, er mellom-deltaker variasjon eliminert (se Teknisk vedlegg). Å forbilde en som vil komme senere når jeg gir råd om å designe digitale eksperimenter, er det en endelige utformingen, kalles en blandet design, som kombinerer forbedret presisjonen innenfor-fagene design og beskyttelse mot confounding på mellom-fagene design.
Samlet, design og resultatene av Schultz et al. (2007) viser verdien av å gå utover enkle eksperimenter. Heldigvis trenger du ikke å være et geni for å lage eksperimenter som dette. Samfunnsvitere har utviklet tre konsepter som vil veilede deg mot rikere og mer kreative eksperimenter: 1) validitet, 2) heterogenitet av behandlingseffekter, og 3) mekanismer. Det vil si, hvis du holder disse tre ideer i bakhodet mens du utformer eksperimentet, vil du naturligvis lage mer interessante og nyttige eksperimenter. For å illustrere disse tre begrepene i aksjon, vil jeg beskrive en rekke oppfølgings delvis digitale feltforsøk som bygget på den elegante design og spennende resultater i Schultz et al. (2007) . Som du vil se, gjennom mer forsiktig design, implementering, analyse og tolkning, du kan også gå utover enkle eksperimenter.