Spørsmål om årsakssammenheng i samfunnsforskning er ofte komplekse og intrikate. For en grunnleggende tilnærming til årsakssammenheng basert på kausal grafer, se Pearl (2009) , og for en grunnleggende tilnærming basert på potensielle resultater, se Imbens and Rubin (2015) . For en sammenligning mellom disse to tilnærmingene, se Morgan and Winship (2014) . For en formell tilnærming til å definere en confounder, se VanderWeele and Shpitser (2013) .
I dette kapittelet har jeg opprettet det som virket som en lys linje mellom vår evne til å lage årsaksoverslag fra eksperimentelle og ikke-eksperimentdata. Imidlertid tror jeg at i virkeligheten er forskjellen mer sløret. For eksempel aksepterer alle at røyking forårsaker kreft, selv om det ikke er gjort noen randomisert kontrollert eksperiment som tvinger folk til å røyke. For fremragende boklengdsbehandlinger på Shadish, Cook, and Campbell (2001) årsakssammenheng fra ikke-eksperimentelle data, se Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) og Dunning (2012) .
Kapittel 1 og 2 i Freedman, Pisani, and Purves (2007) gir en klar introduksjon til forskjellene mellom eksperimenter, kontrollerte eksperimenter og randomiserte kontrollerte eksperimenter.
Manzi (2012) gir en fascinerende og lesbar introduksjon til de filosofiske og statistiske grunnlaget for randomiserte kontrollerte eksperimenter. Det gir også interessante virkelige eksempler på eksperimenteringsevne i virksomheten. Issenberg (2012) gir en fascinerende introduksjon til bruk av eksperimenter i politiske kampanjer.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, og Athey and Imbens (2016b) gir gode introduksjoner til de statistiske aspektene av eksperimentell design og analyse. Videre, det er gode behandlinger av bruk av eksperimenter i mange ulike felt: økonomi (Bardsley et al. 2009) , Sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psykologi (Aronson et al. 1989) , Statsvitenskap (Morton and Williams 2010) og sosialpolitikk (Glennerster and Takavarasha 2013) .
Betydningen av deltakerrekruttering (f.eks. Prøvetaking) blir ofte undervurdert i eksperimentell forskning. Men hvis effekten av behandlingen er heterogen i befolkningen, er prøvetaking avgjørende. Longford (1999) gjør dette poeng tydelig når han fortaler for forskere som tenker på eksperimenter som en befolkningsundersøkelse med tilfeldig prøvetaking.
Jeg har antydet at det er et kontinuum mellom laboratorie- og felteksperimenter, og andre forskere har foreslått mer detaljerte typologier, spesielt de som skiller de forskjellige (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
En rekke papirer har sammenliknet laboratorie- og felteksperimenter i abstrakt (Falk and Heckman 2009; Cialdini 2009) og når det gjelder resultater av spesifikke eksperimenter i statsvitenskap (Coppock and Green 2015) , økonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , og psykologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) tilbyr et fint forskningsprosjekt for å sammenligne resultater fra laboratorie- og felteksperimenter. Parigi, Santana, and Cook (2017) beskriver hvordan nettfelteksperimenter kan kombinere noen av egenskapene til laboratorie- og felteksperimenter.
Bekymringer om at deltakerne endrer sin oppførsel fordi de vet at de blir nøye observert, kalles ofte etterspørselseffekter , og de har blitt studert i psykologi (Orne 1962) og økonomi (Zizzo 2010) . Selv om det for det meste er forbundet med laboratorieeksperimenter, kan disse samme problemene også føre til problemer for felteksperimenter. Faktisk er etterspørselseffekter også kalt Hawthorne-effekter , et begrep som kommer fra de berømte belysningseksperimenter som startet 1924 på Hawthorne Works i Western Electric Company (Adair 1984; Levitt and List 2011) . Både etterspørselseffekter og Hawthorne-effekter er nært relatert til ideen om reaktiv måling som diskuteres i kapittel 2 (se også Webb et al. (1966) ).
Felteksperimenter har en lang historie innen økonomi (Levitt and List 2009) , statsvitenskap (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologi (Shadish 2002) og offentlig politikk (Shadish and Cook 2009) . Ett samfunnsvitenskapsområde hvor felteksperimenter raskt ble fremtredende, er internasjonal utvikling. For en positiv gjennomgang av det arbeidet innen økonomi, se Banerjee and Duflo (2009) , og for en kritisk vurdering, se Deaton (2010) . For en gjennomgang av dette arbeidet i statsvitenskapen, se Humphreys and Weinstein (2009) . Til slutt har de etiske utfordringene som oppstår fra felteksperimenter blitt utforsket innen politisk vitenskap (Humphreys 2015; Desposato 2016b) og utviklingsøkonomi (Baele 2013) .
I denne delen foreslo jeg at forhåndsinformasjon kan brukes til å forbedre presisjonen av estimerte behandlingseffekter, men det er en del debatt om denne tilnærmingen; se Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , og Bloniarz et al. (2016) for mer informasjon.
Til slutt er det to andre typer eksperimenter utført av sosialforskere som ikke passer pent inn i labfeltdimensjonen: undersøkelseseksperimenter og sosiale eksperimenter. Undersøkelseseksperimenter er eksperimenter som bruker infrastrukturen i eksisterende undersøkelser og sammenligner svar på alternative versjoner av de samme spørsmålene (noen undersøkelseseksperimenter er presentert i kapittel 3); For mer om undersøkelseseksperimenter, se Mutz (2011) . Sosialforsøk er eksperimenter der behandlingen er en sosial politikk som kun kan implementeres av en regjering. Sosialforsøk er nært knyttet til programevaluering. For mer om politiske eksperimenter, se Heckman and Smith (1995) , Orr (1998) , og @ glennerster_running_2013.
Jeg har valgt å fokusere på tre begreper: validitet, heterogenitet av behandlingseffekter og mekanismer. Disse begrepene har forskjellige navn i forskjellige felt. For eksempel har psykologer en tendens til å bevege seg utover enkle eksperimenter ved å fokusere på mediatorer og moderatorer (Baron and Kenny 1986) . Ideen om mediatorer er fanget av det jeg kaller mekanismer, og ideen om moderatorer er fanget av det jeg kaller ekstern validitet (f.eks. Vil resultatene av eksperimentet være annerledes dersom det kjøres i forskjellige situasjoner) og heterogenitet av behandlingseffekter ( for eksempel er effektene større for noen mennesker enn for andre).
Forsøket av Schultz et al. (2007) viser hvordan sosiale teorier kan brukes til å utforme effektive tiltak. For et mer generelt argument om teorienes rolle i utformingen av effektive tiltak, se Walton (2014) .
Begrepene intern og ekstern validitet ble først introdusert av Campbell (1957) . Se Shadish, Cook, and Campbell (2001) for en mer detaljert historie og en nøye utarbeidelse av statistisk konklusjon gyldighet, intern validitet, konstruksjon gyldighet og ekstern gyldighet.
For en oversikt over problemstillinger knyttet til statistisk konklusjonsgyldighet i eksperimenter, se Gerber and Green (2012) (fra et samfunnsvitenskapelig perspektiv) og Imbens and Rubin (2015) (fra et statistisk perspektiv). Noen utgaver av statistisk konklusjonsgyldighet som oppstår spesifikt i eksperimenter i (Bakshy and Eckles 2013) inkluderer problemer som beregningsmessige effektive metoder for å skape konfidensintervaller med avhengige data (Bakshy and Eckles 2013) .
Intern validitet kan være vanskelig å sikre i komplekse felteksperimenter. Se for eksempel Gerber and Green (2000) , Imai (2005) , og Gerber and Green (2005) for debatt om implementering av et komplekst felteksperiment om avstemning. Kohavi et al. (2012) og Kohavi et al. (2013) gir en innføring i utfordringene med intervallgyldighet i feltfelteksperimenter.
En stor trussel mot intern validitet er muligheten for mislykket randomisering. En potensiell måte å oppdage problemer med randomiseringen er å sammenligne behandlings- og kontrollgruppene med observerbare egenskaper. Denne typen sammenligning kalles en balansekontroll . Se Hansen and Bowers (2008) for en statistisk tilnærming for å balansere kontrollene Mutz and Pemantle (2015) for bekymringer om balansekontroll. For eksempel, ved hjelp av en balansekontroll, Allcott (2011) noe bevis på at randomisering ikke ble implementert korrekt i tre av Opower-eksperimentene (se tabell 2, seter 2, 6 og 8). For andre tilnærminger, se kapittel 21 i Imbens and Rubin (2015) .
Andre viktige bekymringer knyttet til intern validitet er: (1) ensidig ikke-samsvar, hvor ikke alle i behandlingsgruppen faktisk mottok behandlingen, (2) tosidig manglende overholdelse, hvor ikke alle i behandlingsgruppen mottar behandlingen og noen mennesker i kontrollgruppen mottar behandlingen, (3) slitasje, hvor resultatene ikke måles for noen deltakere, og (4) forstyrrelser, hvor behandlingen spilles over fra personer i behandlingstilstanden til personer i kontrolltilstanden. Se kapitlene 5, 6, 7 og 8 i Gerber and Green (2012) for mer om hvert av disse problemene.
For mer om konstruksjonsgyldighet, se Westen and Rosenthal (2003) , og for mer om konstruksjonsgyldighet i store datakilder, Lazer (2015) og kapittel 2 i denne boken.
Et aspekt av ekstern validitet er innstillingen der et inngrep testes. Allcott (2015) gir en nøye teoretisk og empirisk behandling av nettstedvalgsperspektiv. Dette problemet er også omtalt av Deaton (2010) . Et annet aspekt av ekstern validitet er om alternative operasjoner av samme inngrep vil ha lignende effekter. I dette tilfellet er en sammenligning mellom Schultz et al. (2007) og Allcott (2011) viser at Opower-eksperimenter hadde en mindre estimert behandlet effekt enn de opprinnelige forsøkene av Schultz og kollegaer (1,7% mot 5%). Allcott (2011) spekulerte på at oppfølgingseksperimentene hadde en mindre effekt på grunn av hvordan behandlingen var forskjellig: et håndskrevet uttrykksikon som en del av en studie sponset av et universitet sammenlignet med et trykt uttrykksikon som en del av en masseprodukt rapporter fra et kraftselskap.
For en utmerket oversikt over heterogeniteten av behandlingseffekter i felteksperimenter, se kapittel 12 i Gerber and Green (2012) . For introduksjoner til heterogenitet av behandlingseffekter i medisinske studier, se Kent and Hayward (2007) , Longford (1999) , og Kravitz, Duan, and Braslow (2004) . Betraktninger av heterogenitet av behandlingseffekter fokuserer generelt på forskjeller basert på forbehandlingskarakteristikker. Hvis du er interessert i heterogenitet basert på resultater etter behandling, er det behov for mer komplekse tilnærminger, for eksempel (Frangakis and Rubin 2002) ; se Page et al. (2015) for en anmeldelse.
Mange forskere estimerer heterogeniteten av behandlingseffekter ved hjelp av lineær regresjon, men nyere metoder stole på maskinlæring; se for eksempel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) og Athey and Imbens (2016a) .
Det er noen skepsis om funn av heterogenitet av effekter på grunn av flere sammenligningsproblemer og "fiske." Det finnes en rekke statistiske tilnærminger som kan bidra til å ta hensyn til bekymringer for flere sammenligninger (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . En tilnærming til bekymringer om "fiske" er (Nosek and Lakens 2014) , som blir stadig mer vanlig i psykologi (Nosek and Lakens 2014) , statsvitenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , og økonomi (Olken 2015) .
I studien av Costa and Kahn (2013) bare omtrent halvparten av husstandene i forsøket knyttes til demografiske opplysninger. Lesere som er interessert i disse detaljene, bør referere til det originale papiret.
Mekanismer er utrolig viktige, men de viser seg å være svært vanskelig å studere. Forskning om mekanismer er nært knyttet til studiet av mediatorer i psykologi (men se også VanderWeele (2009) for en nøyaktig sammenligning mellom de to ideene). Statistiske tilnærminger til å finne mekanismer, som tilnærming utviklet i Baron and Kenny (1986) , er ganske vanlige. Dessverre viser det seg at disse prosedyrene er avhengige av noen sterke forutsetninger (Bullock, Green, and Ha 2010) og lider når det er flere mekanismer, som man kan forvente i mange situasjoner (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) og Imai and Yamamoto (2013) tilbyr noen forbedrede statistiske metoder. Videre tilbyr VanderWeele (2015) en boklengdsbehandling med en rekke viktige resultater, inkludert en omfattende tilnærming til sensitivitetsanalyse.
En egen tilnærming fokuserer på eksperimenter som forsøker å manipulere mekanismen direkte (f.eks. Gi sjømenn vitamin C). Dessverre, i mange samfunnsvitenskapelige innstillinger, er det ofte flere mekanismer, og det er vanskelig å designe behandlinger som forandrer seg uten å forandre de andre. Noen tilnærminger til eksperimentelt endringsmekanismer er beskrevet av Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) og Pirlott and MacKinnon (2016) .
Forskere som kjører fullt factorial eksperimenter må være bekymret for flere hypotesetesting; se Fink, McConnell, and Vollmer (2014) og List, Shaikh, and Xu (2016) for mer informasjon.
Endelig har mekanismene en lang historie i vitenskapsfilosofien som beskrevet av Hedström and Ylikoski (2010) .
For mer om bruken av korrespondanse og revisjonsstudier for å måle diskriminering, se Pager (2007) .
Den vanligste måten å rekruttere deltakerne til eksperimenter du bygger er Amazon Mechanical Turk (MTurk). Fordi MTurk etterligner aspekter ved tradisjonelle laboratorieeksperimenter som betaler folk for å fullføre oppgaver som de ikke ville gjøre gratis, har mange forskere allerede begynt å bruke tyrkere (arbeidstakere på MTurk) som eksperimentelle deltakere, noe som resulterer i raskere og billigere datainnsamling enn det som kan oppnås i tradisjonelle laboratoriumforsøk på campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Vanligvis er de største fordelene ved å bruke deltakerne rekruttert fra MTurk logistikk. Mens laboratorieforsøk kan ta uker å løpe og felteksperimenter kan ta måneder å sette opp, kan eksperimenter med deltakerne som rekrutteres fra MTurk, kjøres om dager. For eksempel var Berinsky, Huber, and Lenz (2012) i stand til å rekruttere 400 fag på en enkelt dag for å delta i et 8-minutters eksperiment. Videre kan disse deltakerne rekrutteres i praktisk talt alle formål (inkludert spørreundersøkelser og massesamarbeid, som omtalt i kapittel 3 og 5). Denne enkle rekruttering betyr at forskere kan løse sekvenser av relaterte eksperimenter i rask rekkefølge.
Før du rekrutterer deltakere fra MTurk til dine egne eksperimenter, er det fire viktige ting du trenger å vite. For det første har mange forskere en uspesifikk skepsis av eksperimenter som involverer tyrkere. Fordi denne skepsis ikke er spesifikk, er det vanskelig å motvirke bevis. Men etter flere års studier med tyrkere, kan vi nå konkludere med at denne skepsis ikke er særlig begrunnet. Det har vært mange studier som sammenligner de turkiske befolkningers demografi med de andre populasjonene og mange studier som sammenligner resultatene av eksperimenter med tyrkere med dem fra andre populasjoner. Gitt alt dette arbeidet, tror jeg at den beste måten å tenke på det er at tyrkere er et rimelig bekvemmelighetsprøve, som studenter, men litt mer varierte (Berinsky, Huber, and Lenz 2012) . Dermed, akkurat som studenter er en rimelig befolkning for noen, men ikke alle, forskning, er tyrkere en rimelig befolkning for noen, men ikke alle, forskning. Hvis du skal jobbe med tyrkere, så er det fornuftig å lese mange av disse komparative studiene og forstå deres nyanser.
For det andre har forskere utviklet gode metoder for å øke den interne gyldigheten av MTurk-eksperimenter, og du bør lære om og følge disse beste praksisene (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . For eksempel oppfordres forskere som bruker tyrkere til å bruke screenere for å fjerne uoppmerksom deltakere (Berinsky, Margolis, and Sances 2014, 2016) (men se også DJ Hauser and Schwarz (2015b) og DJ Hauser and Schwarz (2015a) ). Hvis du ikke fjerner uoppmerksom deltakere, kan en hvilken som helst effekt av behandlingen bli vasket ut av den støyen de introduserer, og i praksis kan antallet uoppmerksom deltakere være betydelig. I eksperimentet fra Huber og kolleger (2012) sviktet omtrent 30% av deltakerne grunnleggende oppmerksomhetsskjermere. Andre problemer som ofte oppstår når tyrkere brukes, er ikke-naive deltakere (Chandler et al. 2015) og slitasje (Zhou and Fishbach 2016) .
For det tredje, i forhold til noen andre former for digitale eksperimenter, kan MTurk-eksperimenter ikke skalere; Stewart et al. (2015) anslår at det til enhver tid bare er rundt 7.000 mennesker på MTurk.
Til slutt bør du vite at MTurk er et fellesskap med egne regler og normer (Mason and Suri 2012) . På samme måte som du ville prøve å finne ut om kulturen i et land hvor du skulle kjøre dine eksperimenter, bør du prøve å finne ut mer om kulturen og normer for tyrkere (Salehi et al. 2015) . Og du bør vite at tyrkere vil snakke om eksperimentet ditt hvis du gjør noe upassende eller uetisk (Gray et al. 2016) .
MTurk er en utrolig praktisk måte å rekruttere deltakere på dine eksperimenter, enten de er lab-lignende, som Huber, Hill, and Lenz (2012) , eller mer feltlignende, som for eksempel Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) og Mao et al. (2016) .
Hvis du tenker på å prøve å lage ditt eget produkt, anbefaler jeg at du leser rådene som tilbys av MovieLens-gruppen i Harper and Konstan (2015) . En viktig innsikt fra erfaringen er at for hvert vellykket prosjekt er det mange, mange feil. For eksempel lanserte MovieLens-gruppen andre produkter, for eksempel GopherAnswers, som var fullstendige feil (Harper and Konstan 2015) . Et annet eksempel på at en forsker feiler under forsøk på å bygge et produkt, er Edward Castronovas forsøk på å bygge et online spill kalt Arden. Til tross for $ 250.000 i finansiering, var prosjektet en flop (Baker 2008) . Prosjekter som GopherAnswers og Arden er dessverre mye mer vanlige enn prosjekter som MovieLens.
Jeg har hørt ideen om Pasteurs kvadrant diskutert ofte hos teknologibedrifter, og det bidrar til å organisere forskningsinnsats hos Google (Spector, Norvig, and Petrov 2012) .
Bond- og kollegers studie (2012) forsøker også å oppdage effekten av disse behandlingene på vennene til de som mottok dem. På grunn av utformingen av forsøket er disse spilloversikten vanskelig å oppdage rent; interesserte lesere bør se Bond et al. (2012) for en grundigere diskusjon. Jones og kolleger (2017) gjennomførte også et meget lignende eksperiment i løpet av valget i 2012. Disse forsøkene er en del av en lang tradisjon for eksperimenter i statsvitenskap om innsats for å oppmuntre til å stemme (Green and Gerber 2015) . Disse eksperimentene med ut-av-stemme-stemmer er vanlige, delvis fordi de er i Pasteurs kvadrant. Det vil si at det er mange som er motivert for å øke avstemningen og stemme, kan være en interessant oppførsel for å teste mer generelle teorier om atferdsendring og sosial innflytelse.
For råd om å kjøre felteksperimenter med partnerorganisasjoner som politiske partier, frivillige organisasjoner og bedrifter, se Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) og Gueron (2002) . For tanker om hvordan partnerskap med organisasjoner kan påvirke forskningsdesign, se King et al. (2007) og Green, Calfano, and Aronow (2014) . Partnerskap kan også føre til etiske spørsmål, som diskutert av Humphreys (2015) og Nickerson and Hyde (2016) .
Hvis du skal lage en analyseplan før du kjører eksperimentet, foreslår jeg at du begynner å lese rapporteringsretningslinjer. Retningslinjer for konsort (konsolidert standardrapportering av forsøk) ble utviklet i medisin (Schulz et al. 2010) og modifisert for sosial forskning (Mayo-Wilson et al. 2013) . Et relatert sett med retningslinjer er utviklet av redaktørene av Journal of Experimental Political Science (Gerber et al. 2014) (se også Mutz and Pemantle (2015) og Gerber et al. (2015) ). Endelig har rapporteringsretningslinjer blitt utviklet i psykologi (APA Working Group 2008) , og se også Simmons, Nelson, and Simonsohn (2011) .
Hvis du oppretter en analyseplan, bør du vurdere å forhåndsregistrere den fordi forhåndsregistrering vil øke tilliten til at andre har i resultatene dine. Videre, hvis du jobber med en partner, vil det begrense partnerens evne til å endre analysen etter å ha sett resultatene. (Nosek and Lakens 2014) blir stadig mer vanlig i psykologi (Nosek and Lakens 2014) , statsvitenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) og økonomi (Olken 2015) .
Designrådgivning spesielt for Konstan and Chen (2007) presenteres også i Konstan and Chen (2007) og Chen and Konstan (2015) .
Hva jeg har kalt armada-strategien, kalles noen ganger programmatisk forskning ; se Wilson, Aronson, and Carlsmith (2010) .
For mer om MusicLab-eksperimentene, se Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) og Salganik (2007) . For mer om vinner-ta-alle markeder, se Frank and Cook (1996) . For mer om untangling flaks og ferdigheter generelt, se Mauboussin (2012) , Watts (2012) og Frank (2016) .
Det er en annen tilnærming til å eliminere deltakerbetalinger som forskere bør bruke med forsiktighet: conscription. I mange eksperiment på nettet er deltakerne i utgangspunktet utarbeidet i eksperimenter og aldri kompensert. Eksempler på denne tilnærmingen er Restivo og van de Rijts (2012) eksperiment på belønninger i Wikipedia og Bond og kollegaens (2012) eksperiment for å oppmuntre folk til å stemme. Disse forsøkene har egentlig ikke null variable kostnader, men de har ingen variabel kostnad for forskere . I slike eksperimenter, selv om kostnaden for hver deltaker er ekstremt liten, kan den totale kostnaden være ganske stor. Forskere som driver massive onlineeksperimenter, begrunner ofte betydningen av små estimerte behandlingseffekter ved å si at disse små effektene kan bli viktige når de brukes på mange mennesker. Nøyaktig samme tenkning gjelder kostnader som forskere pålegger deltakerne på. Hvis eksperimentet ditt forårsaker en million mennesker å kaste bort ett minutt, er eksperimentet ikke veldig skadelig for noen bestemt person, men samlet sett har det gått bort i nesten to år.
En annen tilnærming til å skape null variable kostnader til deltakerne er å bruke et lotteri, en tilnærming som også har blitt brukt i undersøkelsesforskning (Halpern et al. 2011) . For mer om utforming av hyggelige brukeropplevelser, se Toomim et al. (2011) . For mer om bruk av bots for å opprette null variable eksperimenter, se ( ??? ) .
De tre R er som opprinnelig foreslått av Russell and Burch (1959) som følger:
"Replacement betyr erstatning for bevisste levende høyerestående dyr av insentient materiale. Reduksjonen innebærer reduksjon i antall dyr benyttet for å innhente informasjon fra et gitt beløp og presisjon. Avgrensning betyr enhver reduksjon i forekomst eller alvorlighetsgrad av inhumane prosedyrer anvendt på de dyr som fortsatt må bli brukt. "
De tre R som jeg foreslår, tilsidesetter ikke de etiske prinsippene som er beskrevet i kapittel 6. I stedet er de en mer utarbeidet versjon, en av disse prinsippene-beneficence-spesifikt i innstillingen av menneskelige eksperimenter.
Når det gjelder den første R ("erstatning"), sammenligner det følelsesmessige smitteeksperimentet (Kramer, Guillory, and Hancock 2014) og det naturlige følelsesmessige smitteforekomsten (Lorenzo Coviello et al. 2014) noen generelle erfaringer om involverte involverte i å flytte fra eksperimenter til naturlige eksperimenter (og andre tilnærminger som matcher det forsøket på å tilnærme eksperimenter i ikke-eksperimentelle data, se kapittel 2). I tillegg til de etiske fordelene gjør det også mulig for forskere å studere behandlinger som de logistisk ikke kan distribuere, fra bytte til eksperimentelle studier. Disse etiske og logistiske fordelene kommer imidlertid til en pris. Med naturlige eksperimenter har forskere mindre kontroll over ting som rekruttering av deltakere, randomisering og arten av behandlingen. For eksempel er en begrensning av nedbør som en behandling at det både øker positiviteten og reduserer negativiteten. I den eksperimentelle studien var imidlertid Kramer og kolleger i stand til å justere positivitet og negativitet uavhengig. Den spesielle tilnærmingen som ble brukt av Lorenzo Coviello et al. (2014) ble videreutviklet av L. Coviello, Fowler, and Franceschetti (2014) . For en introduksjon til instrumentelle variabler, som er tilnærmingen brukt av Lorenzo Coviello et al. (2014) , se Angrist and Pischke (2009) (mindre formelle) eller Angrist, Imbens, and Rubin (1996) (mer formell). For en skeptisk vurdering av instrumentelle variabler, se Deaton (2010) , og for en introduksjon til instrumentelle variabler med svake instrumenter (regn er et svakt instrument), se Murray (2006) . Mer generelt er en god introduksjon til naturlige eksperimenter gitt av Dunning (2012) , mens Rosenbaum (2002) , ( ??? ) , og Shadish, Cook, and Campbell (2001) gir gode ideer om estimering av årsaksvirkninger uten eksperimenter.
Når det gjelder den andre R ("raffinement"), er det vitenskapelige og logistiske avveier når man vurderer å endre utformingen av følelsesmessig smitte fra å blokkere innlegg for å øke stillingene. For eksempel kan det være tilfelle at den tekniske implementeringen av nyhetsstrømmen gjør at det er vesentlig lettere å utføre et eksperiment der innleggene er blokkert i stedet for en der de blir forsterket (merk at et eksperiment med blokkering av innlegg kunne implementeres som et lag på toppen av News Feed-systemet uten behov for endringer av det underliggende systemet). Vitenskapelig har imidlertid ikke den teorien som ble behandlet av forsøket, tydeligvis foreslått et design over det andre. Dessverre er jeg ikke klar over betydelig tidligere forskning om de relative fordelene ved å blokkere og øke innholdet i nyhetsflaten. Også, jeg har ikke sett mye forskning om raffinering av behandlinger for å gjøre dem mindre skadelige; Ett unntak er B. Jones and Feamster (2015) , som vurderer målet med måling av internettcensur (et tema jeg diskuterer i kapittel 6 i forhold til Encore-studien (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Når det gjelder den tredje R ("reduksjon"), er gode introduksjoner til tradisjonell strømanalyse gitt av Cohen (1988) (bok) og Cohen (1992) (artikkel), mens Gelman and Carlin (2014) gir et litt annet perspektiv. Forbehandlingskovariater kan inngå i design- og analysefasen av eksperimenter; Kapittel 4 i Gerber and Green (2012) gir en god introduksjon til begge tilnærmingene, og Casella (2008) gir en mer grundig behandling. Teknikker som bruker denne forhåndsbehandlingsinformasjonen i randomiseringen kalles vanligvis enten blokkert eksperimentell design eller stratifisert eksperimentell design (terminologien brukes ikke konsistent på tvers av lokalsamfunn); Disse teknikkene er nært relatert til stratifiserte prøvetakingsteknikker som er omtalt i kapittel 3. Se Higgins, Sävje, and Sekhon (2016) for mer om bruk av disse designene i massive eksperimenter. Forbehandlingskovariater kan også inkluderes i analysestadiet. McKenzie (2012) utforsker forskjellen i forskjeller tilnærming til å analysere felteksperimenter i større detalj. Se Carneiro, Lee, and Wilhelm (2016) for mer om avvik mellom ulike tilnærminger for å øke presisjonen i estimater av behandlingseffekter. Til slutt, når man bestemmer seg for å prøve å inkludere forbehandlingskovariater i design- eller analysefasen (eller begge deler), er det noen faktorer å vurdere. I en innstilling hvor forskere vil vise at de ikke er "fiske" (Humphreys, Sierra, and Windt 2013) , kan det være nyttig å bruke pre-treatment-kovariater i designstadiet (Higgins, Sävje, and Sekhon 2016) . I situasjoner hvor deltakerne kommer i rekkefølge, spesielt onlinefelteksperimenter, kan bruk av forhåndsbehandlingsinformasjon i designfasen være vanskelig logistisk; se for eksempel Xie and Aurisset (2016) .
Det er verdt å legge til litt intuisjon om hvorfor en forskjell i forskjeller tilnærming kan være så mye mer effektiv enn en forskjell i en måte. Mange nettbaserte utfall har svært høy varians (se f.eks. RA Lewis and Rao (2015) og Lamb et al. (2015) ) og er relativt stabile over tid. I dette tilfellet vil endringspoenget ha betydelig mindre varians, noe som øker effekten av den statistiske testen. En grunn til at denne tilnærmingen ikke blir brukt oftere, er at før digital alder var det ikke vanlig å ha forbehandlingsresultat. En mer konkret måte å tenke på dette er å forestille seg et eksperiment for å måle om en bestemt treningsrutine forårsaker vekttap. Hvis du vedtar en forskjell i metode tilnærming, vil ditt estimat ha variabilitet som følge av variasjonen i vekter i befolkningen. Hvis du gjør en forskjell i forskjellstilnærming, fjernes imidlertid den naturlig forekommende variasjonen i vekter, og du kan lettere oppdage en forskjell forårsaket av behandlingen.
Til slutt vurderte jeg å legge til en fjerde R: "repurpose". Det vil si at hvis forskere finner seg med flere eksperimentelle data enn de trenger for å ta opp sitt opprinnelige forskningsspørsmål, bør de gjenopprette dataene for å stille nye spørsmål. For eksempel, tenk at Kramer og kollegaer hadde brukt en forskjell i forskjeller estimator og funnet seg med flere data enn de trengte for å ta opp sitt forskningsspørsmål. I stedet for ikke å bruke dataene i størst mulig grad, kunne de ha studert effektens størrelse som en funksjon av forbehandlingens følelsesmessige uttrykk. Akkurat som Schultz et al. (2007) fant at effekten av behandlingen var forskjellig for lette og tunge brukere, kanskje effekten av News Feed var forskjellig for folk som allerede hadde en tendens til å legge inn lykke (eller triste) meldinger. Repurposing kan føre til "fiske" (Humphreys, Sierra, and Windt 2013) og "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , men disse er i stor grad adresserbare med en kombinasjon av ærlig rapportering (Simmons, Nelson, and Simonsohn 2011) , forhåndsregistrering (Humphreys, Sierra, and Windt 2013) , og maskinlæringsmetoder som forsøker å unngå overmontering.