Spørgsmål om årsagssammenhæng i social forskning er ofte komplekse og indviklede. For en grundlæggende tilgang til årsagssammenhæng baseret på kausal grafer, se Pearl (2009) , og for en grundlæggende tilgang baseret på potentielle resultater, se Imbens and Rubin (2015) . For en sammenligning mellem disse to tilgange, se Morgan and Winship (2014) . For en formel tilgang til at definere en confounder, se VanderWeele and Shpitser (2013) .
I dette kapitel har jeg skabt, hvad der syntes at være en klar linje mellem vores evne til at fremstille kausal estimater fra eksperimentelle data og ikke-eksperimentdata. Jeg tror imidlertid, at sondringen i virkeligheden er mere sløret. For eksempel accepterer alle, at rygning forårsager kræft, selvom intet randomiseret kontrolleret eksperiment, der tvinger folk til at ryge, nogensinde er blevet gjort. For fremragende Shadish, Cook, and Campbell (2001) til at fremstille kausal estimater fra ikke-eksperimentelle data, se Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) og Dunning (2012) .
Kapitel 1 og 2 fra Freedman, Pisani, and Purves (2007) giver en klar introduktion til forskellene mellem eksperimenter, kontrollerede eksperimenter og randomiserede kontrollerede eksperimenter.
Manzi (2012) giver en fascinerende og læselig introduktion til de filosofiske og statistiske underlag for randomiserede, kontrollerede forsøg. Det giver også interessante virkelige eksempler på ekspertise i erhvervslivet. Issenberg (2012) giver en fascinerende introduktion til brugen af eksperimenter i politiske kampagner.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, og Athey and Imbens (2016b) giver gode introduktioner til de statistiske aspekter af eksperimentelt design og analyse. Endvidere er der gode behandlinger af brugen af eksperimenter i mange forskellige områder: økonomi (Bardsley et al. 2009) , Sociologi (Willer and Walker 2007; Jackson and Cox 2013) , psykologi (Aronson et al. 1989) , Statskundskab (Morton and Williams 2010) og socialpolitik (Glennerster and Takavarasha 2013) .
Vigtigheden af deltagernes rekruttering (f.eks. Prøveudtagning) er ofte undervurderet i eksperimentel forskning. Men hvis virkningen af behandlingen er heterogen i befolkningen, så er prøveudtagning kritisk. Longford (1999) gør dette punkt klart, når han taler for forskere, der tænker på eksperimenter som en befolkningsundersøgelse med tilfældig prøveudtagning.
Jeg har foreslået, at der er et kontinuum mellem laboratorie- og felteksperimenter, og andre forskere har foreslået mere detaljerede typologier, især dem der adskiller de forskellige former for feltforsøg (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
En række papirer har sammenlignet laboratorie- og felteksperimenter i abstrakt (Falk and Heckman 2009; Cialdini 2009) og hvad angår resultater af specifikke eksperimenter inden for statsvidenskab (Coppock and Green 2015) , økonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) og psykologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) tilbyder et flot forskningsdesign til sammenligning af resultater fra laboratorie- og Jerit, Barabas, and Clifford (2013) . Parigi, Santana, and Cook (2017) beskriver, hvordan onlinefelteksperimenter kan kombinere nogle af karakteristikaene for laboratorie- og felteksperimenter.
Bekymringer om deltagere, der ændrer deres adfærd, fordi de ved, at de bliver nøje overholdt, kaldes undertiden efterspørgselseffekter , og de er blevet studeret i psykologi (Orne 1962) og økonomi (Zizzo 2010) . Selvom det for det meste er forbundet med laboratorieforsøg, kan de samme problemer også medføre problemer for felteksperimenter. Faktisk er efterspørgselsvirkninger også nogle gange kaldt Hawthorne-effekter , et udtryk der hidrører fra de berømte belysningsforsøg, der startede i 1924 på Hawthorne Works i Western Electric Company (Adair 1984; Levitt and List 2011) . Både efterspørgselseffekter og Hawthorne-effekter er tæt knyttet til tanken om reaktiv måling, der er diskuteret i kapitel 2 (se også Webb et al. (1966) ).
Felteksperimenter har en lang historie inden for økonomi (Levitt and List 2009) , statsvidenskab (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologi (Shadish 2002) og offentlig politik (Shadish and Cook 2009) . Et område af samfundsvidenskab, hvor felteksperimenter hurtigt blev fremtrædende, er international udvikling. For en positiv gennemgang af dette arbejde inden for økonomi se Banerjee and Duflo (2009) , og for en kritisk vurdering se Deaton (2010) . For en gennemgang af dette arbejde inden for statsvidenskab, se Humphreys and Weinstein (2009) . Endelig er de etiske udfordringer fra feltforsøg udforsket inden for politisk videnskab (Humphreys 2015; Desposato 2016b) og udviklingsøkonomi (Baele 2013) .
I dette afsnit foreslog jeg, at forbehandlingsinformation kan bruges til at forbedre præcisionen af estimerede behandlingseffekter, men der er en debat om denne tilgang; se Freedman (2008) , W. Lin (2013) , Berk et al. (2013) og Bloniarz et al. (2016) for mere information.
Endelig er der to andre typer eksperimenter udført af samfundsvidenskabelige eksperter, der ikke passer fint ind i laboratoriefeltet: undersøgelseseksperimenter og sociale eksperimenter. Undersøgelseseksperimenter er eksperimenter ved hjælp af infrastrukturen i eksisterende undersøgelser og sammenligner svar på alternative versioner af de samme spørgsmål (nogle undersøgelseseksperimenter præsenteres i kapitel 3); For mere om undersøgelsesforsøg se Mutz (2011) . Sociale eksperimenter er eksperimenter, hvor behandlingen er en socialpolitik, der kun kan gennemføres af en regering. Sociale eksperimenter er tæt knyttet til programevaluering. For mere om politiske forsøg, se Heckman and Smith (1995) , Orr (1998) , og @ glennerster_running_2013.
Jeg har valgt at fokusere på tre begreber: validitet, heterogenitet af behandlingseffekter og mekanismer. Disse begreber har forskellige navne i forskellige felter. For eksempel har psykologer en tendens til at bevæge sig ud over enkle eksperimenter ved at fokusere på mediatorer og moderatorer (Baron and Kenny 1986) . Ideen om mediatorer er fanget af det, jeg kalder mekanismer, og ideen om moderatorer er fanget af det, jeg kalder ekstern validitet (fx ville resultaterne af eksperimentet være forskellige, hvis det blev kørt i forskellige situationer) og heterogenitet af behandlingseffekter ( fx er virkningerne større for nogle mennesker end for andre).
Eksperimentet af Schultz et al. (2007) viser, hvordan sociale teorier kan bruges til at designe effektive interventioner. For et mere generelt argument om teoriens rolle i udformningen af effektive interventioner, se Walton (2014) .
Begreberne intern og ekstern validitet blev først introduceret af Campbell (1957) . Se Shadish, Cook, and Campbell (2001) for en mere detaljeret historie og en omhyggelig udarbejdelse af statistisk konklusionsgyldighed, intern validitet, konstruktiv validitet og ekstern validitet.
For en oversigt over spørgsmål relateret til statistisk konklusionsgyldighed i forsøg, se Gerber and Green (2012) (fra et samfundsvidenskabeligt perspektiv) og Imbens and Rubin (2015) (fra et statistisk perspektiv). Nogle spørgsmål vedrørende statistisk konklusionsgyldighed, der opstår specifikt i (Bakshy and Eckles 2013) omfatter spørgsmål som computationally effektive metoder til at skabe (Bakshy and Eckles 2013) med afhængige data (Bakshy and Eckles 2013) .
Intern validitet kan være svært at sikre i komplekse feltforsøg. Se for eksempel Gerber and Green (2000) , Imai (2005) og Gerber and Green (2005) til debat om gennemførelsen af et komplekst felteksperiment om afstemning. Kohavi et al. (2012) og Kohavi et al. (2013) giver en introduktion til udfordringerne med intervalgyldighed i onlinefelteksperimenter.
En stor trussel mod intern validitet er muligheden for mislykket randomisering. En potentiel måde at opdage problemer med randomiseringen på er at sammenligne behandlings- og kontrolgrupper på observerbare træk. Denne form for sammenligning kaldes en balance check . Se Hansen and Bowers (2008) for en statistisk tilgang til balance af checks og Mutz and Pemantle (2015) for bekymringer om balancekontrol. For eksempel fandt Allcott (2011) noget bevis for, at randomisering ikke blev implementeret korrekt i tre af Opower-eksperimenterne (se tabel 2, websteder 2, 6 og 8). For andre tilgange se kapitel 21 i Imbens and Rubin (2015) .
Andre vigtige bekymringer vedrørende intern validitet er: 1) ensidig manglende overensstemmelse, hvor ikke alle i behandlingsgruppen faktisk modtog behandlingen, 2) tosidet manglende overensstemmelse, hvor ikke alle i behandlingsgruppen modtager behandlingen og nogle mennesker i kontrolgruppen modtager behandlingen, (3) udslettning, hvor resultaterne ikke måles for nogle deltagere, og (4) interferens, hvor behandlingen spildes fra personer i behandlingsbetingelsen til personer i kontroltilstanden. Se kapitel 5, 6, 7 og 8 i Gerber and Green (2012) for mere om hvert af disse spørgsmål.
For mere om konstruktiv validitet, se Westen and Rosenthal (2003) og for mere om konstruktiv validitet i store datakilder, Lazer (2015) og kapitel 2 i denne bog.
Et aspekt af ekstern validitet er den indstilling, hvor en intervention er testet. Allcott (2015) giver en omhyggelig teoretisk og empirisk behandling af Allcott (2015) . Dette problem er også drøftet af Deaton (2010) . Et andet aspekt af ekstern validitet er, om alternative operationer af samme indgriben vil have lignende virkninger. I dette tilfælde er en sammenligning mellem Schultz et al. (2007) og Allcott (2011) viser, at Opower-forsøgene havde en mindre estimeret behandlet virkning end Schultz og kollegernes oprindelige forsøg (1,7% mod 5%). Allcott (2011) spekulerede på, at opfølgningsforsøgene havde en mindre effekt på grund af de forskellige måder, hvorpå behandlingen var forskellig: et håndskrevet humør som en del af en studie sponsoreret af et universitet sammenlignet med et trykt emoticon som en del af en masseproduceret rapport fra et energiselskab.
For et glimrende overblik over heterogenitet af behandlingseffekter i feltforsøg, se kapitel 12 i Gerber and Green (2012) . For introduktioner til heterogenitet af behandlingseffekter i medicinske forsøg, se Kent and Hayward (2007) , Longford (1999) og Kravitz, Duan, and Braslow (2004) . Overvejelser om heterogenitet af behandlingseffekter fokuserer generelt på forskelle baseret på forbehandlingskarakteristika. Hvis du er interesseret i heterogenitet baseret på resultater efter behandling, er der behov for mere komplekse tilgange, såsom primær stratifikation (Frangakis and Rubin 2002) ; se Page et al. (2015) til en anmeldelse.
Mange forskere vurderer heterogeniteten af behandlingseffekter ved hjælp af lineær regression, men nyere metoder er afhængige af maskinindlæring; se for eksempel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) og Athey and Imbens (2016a) .
Der er en vis skepsis over resultater af heterogenitet af virkninger på grund af flere sammenligningsproblemer og "fiskeri." Der findes en række statistiske metoder, der kan hjælpe med at løse problemer med flere sammenligninger (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . En tilgang til bekymringer om "fiskeri" er (Nosek and Lakens 2014) , som bliver mere og mere almindelig inden for psykologi (Nosek and Lakens 2014) , statsvidenskab (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , og økonomi (Olken 2015) .
I undersøgelsen af Costa and Kahn (2013) kun omkring halvdelen af husstandene i eksperimentet være knyttet til demografiske oplysninger. Læsere, der er interesseret i disse detaljer, bør henvise til det originale papir.
Mekanismer er utroligt vigtige, men de viser sig at være meget vanskelige at studere. Forskning om mekanismer er tæt knyttet til undersøgelsen af mediatorer i psykologi (men også VanderWeele (2009) for en præcis sammenligning mellem de to ideer). Statistiske metoder til at finde mekanismer, som den fremgangsmåde, der blev udviklet i Baron and Kenny (1986) , er ret almindelige. Desværre viser det sig, at disse procedurer er afhængige af nogle stærke antagelser (Bullock, Green, and Ha 2010) og lider, når der er flere mekanismer, som man kunne forvente i mange situationer (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) og Imai and Yamamoto (2013) tilbyder nogle forbedrede statistiske metoder. Endvidere tilbyder VanderWeele (2015) en VanderWeele (2015) med en række vigtige resultater, herunder en omfattende tilgang til følsomhedsanalyse.
En separat tilgang fokuserer på eksperimenter, der forsøger at manipulere mekanismen direkte (fx at give søfolk vitamin C). Desværre er der i mange samfundsvidenskabsindstillinger ofte flere mekanismer, og det er svært at designe behandlinger, der ændrer en uden at ændre de andre. Nogle tilgange til eksperimentelt ændrende mekanismer er beskrevet af Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) og Pirlott and MacKinnon (2016) .
Forskere, der kører fuldt factorial eksperimenter, skal bekymre sig om multiple hypotesetest; se Fink, McConnell, and Vollmer (2014) og List, Shaikh, and Xu (2016) for mere information.
Endelig har mekanismer også en lang historie i videnskabens filosofi som beskrevet af Hedström and Ylikoski (2010) .
For mere om brugen af korrespondanceundersøgelser og revisionsstudier til måling af forskelsbehandling, se Pager (2007) .
Den mest almindelige måde at rekruttere deltagere på eksperimenter, som du opbygger, er Amazon Mechanical Turk (MTurk). Fordi MTurk efterligner aspekter af traditionelle laboratorieeksperimenter, der betaler folk for at udføre opgaver, som de ikke ville gøre gratis, har mange forskere allerede begyndt at bruge tyrkere (arbejderne på MTurk) som eksperimentelle deltagere, hvilket resulterer i hurtigere og billigere dataindsamling, end der kan opnås i traditionelle laboratorieforsøg på campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Generelt er de største fordele ved at bruge deltagerne rekrutteret fra MTurk logistiske. Mens laboratorieforsøg kan tage uger for at løbe, og feltforsøg kan tage måneder til opsætning, kan eksperimenter med deltagere, der rekrutteres fra MTurk, køres i dage. For eksempel kunne Berinsky, Huber, and Lenz (2012) rekruttere 400 fag på en enkelt dag for at deltage i et 8 minutters eksperiment. Desuden kan disse deltagere rekrutteres til praktisk talt ethvert formål (herunder undersøgelser og massesamarbejde som beskrevet i kapitel 3 og 5). Denne lette rekruttering betyder, at forskere kan køre sekvenser af relaterede eksperimenter i hurtig rækkefølge.
Inden du rekrutterer deltagere fra MTurk til dine egne eksperimenter, er der fire vigtige ting, du skal vide. For det første har mange forskere en uspecifik skepsis af eksperimenter, der involverer tyrkere. Fordi denne skepsis ikke er specifik, er det svært at modsætte sig bevis. Men efter flere års studier med tyrkere kan vi nu konkludere, at denne skepsis ikke er særlig berettiget. Der har været mange undersøgelser, der sammenligner de tyrkers demografi med andre befolkningsgrupper og mange undersøgelser, der sammenligner resultaterne af eksperimenter med tyrkere med dem fra andre populationer. I betragtning af alt dette arbejde mener jeg, at den bedste måde for dig at tænke på er, at tyrkere er en rimelig bekvemmelighedsprøve, ligesom eleverne, men lidt mere forskelligartede (Berinsky, Huber, and Lenz 2012) . Således, ligesom studerende er en rimelig befolkning for nogle, men ikke alle, forskning, er tyrkere en rimelig befolkning for nogle, men ikke alle, forskning. Hvis du skal arbejde med tyrkere, så er det fornuftigt at læse mange af disse komparative studier og forstå deres nuancer.
For det andet har forskere udviklet bedste praksis til at øge den interne validitet af MTurk eksperimenter, og du bør lære om og følge disse bedste praksis (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . For eksempel opfordres forskere, der bruger tyrkere, til at bruge screenere til at fjerne uopmærksom deltagere (Berinsky, Margolis, and Sances 2014, 2016) (men se også DJ Hauser and Schwarz (2015b) og DJ Hauser and Schwarz (2015a) ). Hvis du ikke fjerner uopmærksomme deltagere, kan enhver virkning af behandlingen blive skyllet ud af den støj, de introducerer, og i praksis kan antallet af uopmærksomme deltagere være betydelig. I eksperimentet fra Huber og kolleger (2012) mislykkedes omkring 30% af deltagerne grundlæggende opmærksomheds screenere. Andre problemer, der ofte opstår, når tyrkere anvendes, er ikke-naive deltagere (Chandler et al. 2015) og nedslidning (Zhou and Fishbach 2016) .
For det tredje, i forhold til nogle andre former for digitale eksperimenter kan MTurk eksperimenter ikke skala Stewart et al. (2015) anslår, at der til enhver tid kun er omkring 7.000 mennesker på MTurk.
Endelig bør du vide, at MTurk er et fællesskab med egne regler og normer (Mason and Suri 2012) . På samme måde som du ville forsøge at finde ud af om kulturen i et land, hvor du skulle køre dine eksperimenter, bør du prøve at finde ud af mere om kulturen og normerne for tyrkere (Salehi et al. 2015) . Og du bør vide, at tyrkere skal tale om dit eksperiment, hvis du gør noget upassende eller uetisk (Gray et al. 2016) .
MTurk er en utrolig bekvem måde at rekruttere deltagere på dine eksperimenter, uanset om de er lab-lignende, som Huber, Hill, and Lenz (2012) eller mere feltlignende, som Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) og Mao et al. (2016) .
Hvis du overvejer at forsøge at lave dit eget produkt, anbefaler jeg at du læser de råd, der tilbydes af MovieLens-gruppen i Harper and Konstan (2015) . En vigtig indsigt fra deres erfaring er, at for hvert succesfuldt projekt er der mange, mange fejl. For eksempel lancerede MovieLens-gruppen andre produkter, som GopherAnswers, der var komplette fejl (Harper and Konstan 2015) . Et andet eksempel på en forsker, der fejler under forsøget på at bygge et produkt, er Edward Castronovas forsøg på at opbygge et online spil kaldet Arden. Trods $ 250.000 i finansiering var projektet en flop (Baker 2008) . Projekter som GopherAnswers og Arden er desværre meget mere almindelige end projekter som MovieLens.
Jeg har hørt ideen om Pasteurs kvadrant diskuteret ofte hos tech virksomheder, og det hjælper med at organisere forskningsindsats hos Google (Spector, Norvig, and Petrov 2012) .
Bond og kollegers studie (2012) forsøger også at opdage effekten af disse behandlinger på vennerne hos dem, der har modtaget dem. På grund af udformningen af eksperimentet er disse udslip vanskelige at opdage, interesserede læsere bør se Bond et al. (2012) til en mere grundig diskussion. Jones og kolleger (2017) gennemførte også et meget lignende eksperiment under valget i 2012. Disse eksperimenter er en del af en lang tradition for eksperimenter inden for statskundskab om bestræbelser på at fremme afstemning (Green and Gerber 2015) . Disse udprøvede eksperimenter er almindelige, dels fordi de er i Pasteurs kvadrant. Det vil sige, at der er mange mennesker, der er motiveret til at øge afstemningen og afstemningen, kan være en interessant adfærd for at teste mere generelle teorier om adfærdsændring og social indflydelse.
For råd om løbende feltforsøg med partnerorganisationer som politiske partier, ngo'er og virksomheder, se Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) og Gueron (2002) . For tanker om, hvordan partnerskaber med organisationer kan påvirke forskningsdesign, se King et al. (2007) og Green, Calfano, and Aronow (2014) . Partnerskab kan også føre til etiske spørgsmål, som diskuteret af Humphreys (2015) og Nickerson and Hyde (2016) .
Hvis du skal lave en analyseplan, før du kører dit eksperiment, foreslår jeg, at du begynder at læse rapporteringsretningslinjer. CONSORT (Konsolideret Standard Reporting of Trials) retningslinjer blev udviklet inden for medicin (Schulz et al. 2010) og modificeret til social forskning (Mayo-Wilson et al. 2013) . Et relateret sæt retningslinjer er udviklet af redaktørerne for Journal of Experimental Political Science (Gerber et al. 2014) (se også Mutz and Pemantle (2015) og Gerber et al. (2015) ). Endelig er rapporteringsretningslinjer blevet udviklet i psykologi (APA Working Group 2008) og se også Simmons, Nelson, and Simonsohn (2011) .
Hvis du opretter en analyseplan, bør du overveje at registrere det, fordi præregistrering vil øge den tillid, som andre har i dine resultater. Yderligere, hvis du arbejder med en partner, vil det begrænse din partner evne til at ændre analysen efter at have set resultaterne. Præregistrering bliver stadig mere almindelig inden for psykologi (Nosek and Lakens 2014) , statsvidenskab (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) og økonomi (Olken 2015) .
Design rådgivning specifikt til online felt eksperimenter er også præsenteret i Konstan and Chen (2007) og Chen and Konstan (2015) .
Hvad jeg har kaldt armada-strategien kaldes undertiden programmatisk forskning ; se Wilson, Aronson, and Carlsmith (2010) .
For mere om MusicLab-eksperimenterne, se Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) og Salganik (2007) . For mere om vinder-tage-alle markeder, se Frank and Cook (1996) . For mere om untangling held og dygtighed mere generelt, se Mauboussin (2012) , Watts (2012) og Frank (2016) .
Der er en anden tilgang til at eliminere deltagerbetalinger, som forskere skal bruge med forsigtighed: conscription. I mange online felt eksperimenter deltager deltagerne grundlæggende i eksperimenter og kompenseres aldrig. Eksempler på denne tilgang er Restivo og van de Rijts (2012) eksperiment med belønninger i Wikipedia og Bond og kollegaens (2012) eksperiment om at opmuntre folk til at stemme. Disse eksperimenter har egentlig ikke nul variable omkostninger-snarere, at de har nul variable omkostninger til forskere. I sådanne eksperimenter, selv om prisen for hver deltager er ekstremt lille, kan den samlede omkostning være ganske stor. Forskere, der kører massive onlineforsøg, begrunder ofte betydningen af små estimerede behandlingseffekter ved at sige, at disse små effekter kan blive vigtige, når de anvendes på mange mennesker. Den nøjagtige samme tænkning gælder for omkostninger, som forskere pålægger deltagere. Hvis dit eksperiment får en million mennesker til at spilde et minut, er eksperimentet ikke meget skadeligt for nogen bestemt person, men samlet set har det gået bort i næsten to år.
En anden tilgang til at skabe nul variable omkostninger til deltagerne er at bruge et lotteri, en tilgang, der også er blevet anvendt i undersøgelser (Halpern et al. 2011) . For mere om udformning af behagelige brugeroplevelser, se Toomim et al. (2011) . For mere om brugen af robotter til at oprette nul variable omkostninger eksperimenter se ( ??? ) .
De tre R'er som oprindeligt foreslået af Russell and Burch (1959) er som følger:
"Udskiftning betyder substitution for bevidste levende højere dyr af insentient materiale. Reduktion betyder reduktion i antallet af dyr, der anvendes til at indhente oplysninger om en given mængde og præcision. Refinement: ethvert fald i hyppigheden eller sværhedsgraden af inhumane procedurer, der anvendes til de dyr, som stadig skal bruges. "
De tre R'er, som jeg foreslår, tilsidesætter ikke de etiske principper, der er beskrevet i kapitel 6. I stedet er de en mere uddybende version en af disse principper-fordelagtighed - specifikt i forbindelse med menneskelige eksperimenter.
Med hensyn til den første R ("erstatning") giver sammenligning af det følelsesmæssige smitteeksperiment (Kramer, Guillory, and Hancock 2014) og det naturlige eksperiment for følelsesmæssig smitte (Lorenzo Coviello et al. 2014) nogle generelle erfaringer om de involverede kompromiser i at flytte fra eksperimenter til naturlige eksperimenter (og andre tilgange som at matche det forsøg på at tilnærme eksperimenter i ikke-eksperimentelle data, se kapitel 2). Ud over de etiske fordele gør det også muligt for forskere at studere behandlinger, som de logistisk ikke er i stand til at skifte fra eksperimentelle til ikke-eksperimentelle undersøgelser. Disse etiske og logistiske fordele kommer dog til en pris. Med naturlige forsøg har forskere mindre kontrol over ting som rekruttering af deltagere, randomisering og arten af behandlingen. For eksempel er en begrænsning af nedbør som en behandling, at det både øger positiviteten og mindsker negativiteten. I eksperimentel undersøgelse kunne Kramer og kolleger imidlertid selvstændigt tilpasse positivitet og negativitet. Den særlige fremgangsmåde anvendt af Lorenzo Coviello et al. (2014) blev yderligere uddybet af L. Coviello, Fowler, and Franceschetti (2014) . For en introduktion til instrumentelle variabler, som er den tilgang, der anvendes af Lorenzo Coviello et al. (2014) , se Angrist and Pischke (2009) (mindre formelle) eller Angrist, Imbens, and Rubin (1996) (mere formelle). For en skeptisk vurdering af instrumentelle variabler, se Deaton (2010) , og for en introduktion til instrumentelle variabler med svage instrumenter (regn er et svagt instrument), se Murray (2006) . Mere generelt gives en god introduktion til naturlige eksperimenter af Dunning (2012) , mens Rosenbaum (2002) , ( ??? ) og Shadish, Cook, and Campbell (2001) giver gode ideer om estimering af Shadish, Cook, and Campbell (2001) uden forsøg.
Med hensyn til den anden R ("raffinement") er der videnskabelige og logistiske afvejninger, når man overvejer at ændre designen af følelsesmæssig smitte fra blokering af stillinger for at øge stillingerne. For eksempel kan det være tilfældet, at den tekniske implementering af nyhedsfeeden gør det væsentligt lettere at lave et eksperiment, hvor indlæg er blokeret snarere end en, hvor de bliver forstærket (bemærk at et forsøg med blokering af indlæg kunne implementeres som et lag oven på News Feed-systemet uden behov for ændringer af det underliggende system). Videnskabeligt set tyder den teori, der blev behandlet af eksperimentet, ikke klart på et design over det andet. Desværre er jeg ikke opmærksom på væsentlig forudgående forskning om de relative fordele ved at blokere og øge indholdet i nyhedsfeeden. Jeg har heller ikke set meget forskning om raffinering af behandlinger for at gøre dem mindre skadelige; En undtagelse er B. Jones and Feamster (2015) , der tager højde for måling af internetcensur (et emne jeg diskuterer i kapitel 6 i forhold til Encore-undersøgelsen (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Med hensyn til den tredje R ("reduktion") gives gode introduktioner til traditionel strømanalyse af Cohen (1988) (bog) og Cohen (1992) (artikel), mens Gelman and Carlin (2014) tilbyder et lidt anderledes perspektiv. Forbehandlingskovariater kan inddrages i design- og analysefasen af forsøg; Kapitel 4 i Gerber and Green (2012) giver en god introduktion til begge tilgange, og Casella (2008) giver en mere dybtgående behandling. Teknikker, der bruger denne forbehandling information i randomiseringen, kaldes typisk enten blokerede eksperimentelle mønstre eller stratificerede eksperimentelle designs (terminologien bruges ikke konsistent på tværs af fællesskaber); Disse teknikker er tæt relateret til de stratificerede prøvetagningsteknikker, der er omtalt i kapitel 3. Se Higgins, Sävje, and Sekhon (2016) for mere om brugen af disse designs i massive eksperimenter. Forbehandlingskovariater kan også indgå i analysestadiet. McKenzie (2012) udforsker forskellen i forskelle tilgang til at analysere felt eksperimenter mere detaljeret. Se Carneiro, Lee, and Wilhelm (2016) for mere om afvejningen mellem forskellige metoder til at øge præcisionen i skøn over behandlingseffekter. Endelig er der nogle faktorer, der skal overvejes, når man beslutter, om man skal forsøge at inkludere forbehandlingskovariater på design- eller analysestadiet (eller begge dele). I en indstilling, hvor forskere ønsker at vise, at de ikke er "fisket" (Humphreys, Sierra, and Windt 2013) , kan der ved hjælp af forbehandlingskovariater i designfasen være nyttigt (Higgins, Sävje, and Sekhon 2016) . I situationer, hvor deltagerne ankommer i rækkefølge, især onlinefelteksperimenter, kan det være vanskeligt at anvende information om forbehandling i designfasen. se for eksempel Xie and Aurisset (2016) .
Det er værd at tilføje en smule intuition om, hvorfor en forskel i forskel tilgang kan være så meget mere effektiv end en forskel-i-middel en. Mange online-resultater har meget høj varians (se f.eks. RA Lewis and Rao (2015) og Lamb et al. (2015) ) og er relativt stabile over tid. I dette tilfælde vil ændringsscoren have væsentlig mindre varians, hvilket øger effekten af den statistiske test. En af grundene til, at denne tilgang ikke bliver brugt oftere, er, at før den digitale tidsalder var det ikke almindeligt at have præ-behandlingsresultater. En mere konkret måde at tænke over dette er at forestille sig et eksperiment til at måle om en bestemt øvelsesrutine forårsager vægttab. Hvis du vedtager en forskel-i-middel tilgang, vil dit skøn have variationer som følge af variabiliteten i vægte i befolkningen. Hvis du gør en forskel i forskelle, fjernes den naturligt forekommende variation i vægten, og du kan lettere opdage en forskel forårsaget af behandlingen.
Endelig overvejede jeg at tilføje en fjerde R: "repurpose". Det vil sige, at hvis forskere befinder sig i flere eksperimentelle data, end de har brug for til at løse deres oprindelige forskningsspørgsmål, bør de omformulere dataene for at stille nye spørgsmål. For eksempel forestille sig, at Kramer og kolleger havde brugt en forskel i forskel estimator og fundet sig med flere data, end de havde brug for til at løse deres forskningsspørgsmål. I stedet for ikke at bruge dataene i størst mulig grad, kunne de have studeret effektens størrelse som en funktion af forbehandlingens følelsesmæssige udtryk. Ligesom Schultz et al. (2007) konstaterede, at effekten af behandlingen var forskellig for lette og tunge brugere, måske var nyhedsfeeds virkninger forskellige for folk, der allerede havde tendens til at sende lykkelige (eller triste) meddelelser. Repurposing kan føre til "fiskeri" (Humphreys, Sierra, and Windt 2013) og "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , men disse er i høj grad adresserbare med en kombination af ærlig rapportering (Simmons, Nelson, and Simonsohn 2011) , forudregistrering (Humphreys, Sierra, and Windt 2013) og maskinindlæringsmetoder, der forsøger at undgå overmontering.