Frågor om orsakssamband i social forskning är ofta komplicerade och invecklade. För en grundlig metod för orsakssamband baserat på kausala grafer, se Pearl (2009) , och för ett grundbaserat tillvägagångssätt baserat på potentiella resultat, se Imbens and Rubin (2015) . För en jämförelse mellan dessa två tillvägagångssätt, se Morgan and Winship (2014) . För ett formellt tillvägagångssätt för att definiera en confounder, se VanderWeele and Shpitser (2013) .
I det här kapitlet har jag skapat det som verkade som en klar linje mellan vår förmåga att göra kausala uppskattningar från experimentella och icke-experimentella data. Men jag tror att skillnaden i verkligheten är mer suddig. Till exempel accepterar alla att rökning orsakar cancer, även om inget randomiserat kontrollerat experiment som tvingar folk att röka någonsin har gjorts. För utmärkta boklängdsbehandlingar för att göra kausala uppskattningar från icke-experimentella data, se Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) och Dunning (2012) .
Kapitel 1 och 2 i Freedman, Pisani, and Purves (2007) ger en tydlig introduktion till skillnaderna mellan experiment, kontrollerade experiment och randomiserade kontrollerade experiment.
Manzi (2012) ger en fascinerande och läsbar introduktion till de filosofiska och statistiska grundvalarna av randomiserade kontrollerade experiment. Det ger också intressanta verkliga exempel på kraften i experiment i verksamheten. Issenberg (2012) ger en fascinerande introduktion till användningen av experiment i politiska kampanjer.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, och Athey and Imbens (2016b) ger goda introduktioner till de statistiska aspekterna av experimentell design och analys. Vidare finns det utmärkta behandlingar av användningen av experiment i många olika områden: ekonomi (Bardsley et al. 2009) , Sociologi (Willer and Walker 2007; Jackson and Cox 2013) , psykologi (Aronson et al. 1989) , Statsvetenskap (Morton and Williams 2010) och socialpolitik (Glennerster and Takavarasha 2013) .
Betydelsen av deltagarrekrytering (t.ex. provtagning) är ofta undervärderad i experimentell forskning. Om effekten av behandlingen är heterogen i befolkningen är provtagningen emellertid kritisk. Longford (1999) gör denna punkt tydlig när han förespråkar för forskare som tänker på experiment som en befolkningsundersökning med slumpmässig provtagning.
Jag har föreslagit att det finns ett kontinuum mellan laboratorie- och fältförsök, och andra forskare har föreslagit mer detaljerade typologier, särskilt de som skiljer olika former av fältförsök (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Ett antal papper har jämfört laboratorie- och fältförsök i abstrakt (Falk and Heckman 2009; Cialdini 2009) och i termer av resultat av specifika experiment inom statsvetenskap (Coppock and Green 2015) , ekonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) och psykologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) erbjuder en bra forskningsdesign för att jämföra resultat från laboratorie- och fältförsök. Parigi, Santana, and Cook (2017) beskriver hur onlinefältförsök kan kombinera några av egenskaperna hos laboratorie- och fältförsök.
Bekymmer om deltagare som ändrar sitt beteende eftersom de vet att de följs noga kallas ibland efterfråganeffekter , och de har studerats i psykologi (Orne 1962) och ekonomi (Zizzo 2010) . Även om de flesta är förknippade med laboratorieförsök kan dessa samma problem orsaka problem för fältförsök. I själva verket är efterfrågeeffekter också ibland kallade Hawthorne-effekter , en term som härstammar från de berömda belysningsförsök som inleddes 1924 vid Hawthorne Works i Western Electric Company (Adair 1984; Levitt and List 2011) . Både efterfrågeeffekter och Hawthorne-effekter är nära relaterade till tanken på reaktiv mätning som diskuteras i kapitel 2 (se även Webb et al. (1966) ).
Fältförsök har en lång historia i ekonomi (Levitt and List 2009) , statsvetenskap (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologi (Shadish 2002) och allmän ordning (Shadish and Cook 2009) . Ett område av samhällsvetenskap där fältförsök snabbt blev framträdande är internationell utveckling. För en positiv översyn av det arbetet inom ekonomi se Banerjee and Duflo (2009) , och för en kritisk bedömning se Deaton (2010) . För en översyn av detta arbete inom statskunskapen, se Humphreys and Weinstein (2009) . Slutligen har de etiska utmaningarna från fältförsök utforskats inom ramen för statsvetenskap (Humphreys 2015; Desposato 2016b) och utvecklingsekonomi (Baele 2013) .
I det här avsnittet föreslog jag att förbehandlingsinformation kan användas för att förbättra precisionen av beräknade behandlingseffekter, men det finns en del debatt om detta tillvägagångssätt. se Freedman (2008) , W. Lin (2013) , Berk et al. (2013) och Bloniarz et al. (2016) för mer information.
Slutligen finns det två andra typer av experiment som utförs av socialvetenskapsmän som inte passar väl ihop med labfältets dimension: undersökningsexperiment och sociala experiment. Undersökningsexperiment är experiment som använder infrastrukturen i befintliga undersökningar och jämför svar på alternativa versioner av samma frågor (vissa undersökningsexperiment presenteras i kapitel 3). För mer om undersökningsexperiment, se Mutz (2011) . Sociala experiment är experiment där behandlingen är en del socialpolitik som endast kan genomföras av en regering. Sociala experiment är nära relaterade till programutvärdering. För mer om politiska experiment, se Heckman and Smith (1995) , Orr (1998) och @ glennerster_running_2013.
Jag har valt att fokusera på tre begrepp: validitet, heterogenitet av behandlingseffekter och mekanismer. Dessa begrepp har olika namn i olika fält. Till exempel tenderar psykologer att gå utöver enkla experiment genom att fokusera på medlare och moderatorer (Baron and Kenny 1986) . Idén om medlare är fångad av vad jag kallar mekanismer, och tanken på moderatorer fångas av vad jag kallar extern validitet (t.ex. skulle resultaten av experimentet vara annorlunda om det kördes i olika situationer) och heterogenitet av behandlingseffekter ( t ex är effekterna större för vissa människor än för andra).
Experimentet av Schultz et al. (2007) visar hur sociala teorier kan användas för att utforma effektiva insatser. För ett mer allmänt argument om teorins roll vid utformning av effektiva ingrepp, se Walton (2014) .
Begreppen intern och extern validitet introducerades först av Campbell (1957) . Se Shadish, Cook, and Campbell (2001) för en mer detaljerad historia och en noggrann utarbetande av statistisk slutgiltighet, intern validitet, konstruktiv validitet och extern validitet.
För en översikt över frågor relaterade till statistisk slutsatsgiltighet i experiment, se Gerber and Green (2012) (ur ett samhällsvetenskapligt perspektiv) och Imbens and Rubin (2015) (ur ett statistiskt perspektiv). Några problem med statistisk slutsatsgiltighet som uppkommer specifikt i fältförsök inkluderar frågor som beräkningsmässigt effektiva metoder för att skapa konfidensintervaller med beroende data (Bakshy and Eckles 2013) .
Intern validitet kan vara svår att säkerställa i komplexa fältförsök. Se till exempel Gerber and Green (2000) , Imai (2005) och Gerber and Green (2005) för debatt om genomförandet av ett komplext fältexperiment om omröstning. Kohavi et al. (2012) och Kohavi et al. (2013) ger en introduktion till utmaningarna av intervallgiltighet i fältförsök.
Ett stort hot mot intern validitet är möjligheten till misslyckad randomisering. Ett potentiellt sätt att upptäcka problem med randomiseringen är att jämföra behandlings- och kontrollgrupperna med observerbara egenskaper. Denna typ av jämförelse kallas en balansräkning . Se Hansen and Bowers (2008) för ett statistiskt tillvägagångssätt för att balansera kontroller och Mutz and Pemantle (2015) för oro över balanskontroller. Till exempel, genom att använda en balansräkning, Allcott (2011) några bevis på att randomisering inte genomfördes korrekt i tre av Opower-experimenten (se tabell 2, sidorna 2, 6 och 8). För andra tillvägagångssätt, se kapitel 21 i Imbens and Rubin (2015) .
Andra viktiga farhågor relaterade till intern validitet är: (1) ensidig icke-överensstämmelse, där inte alla i behandlingsgruppen faktiskt fick behandlingen, (2) tvåsidig bristande överensstämmelse, där inte alla i behandlingsgruppen tar emot behandlingen och vissa personer i kontrollgruppen tar emot behandlingen, 3) utmattning, där resultaten inte mäts för vissa deltagare, och (4) störningar, där behandlingen slår över från personer i behandlingsförhållandet till personer i kontrollläget. Se kapitel 5, 6, 7 och 8 i Gerber and Green (2012) för mer om var och en av dessa frågor.
För mer om konstruktionsgiltighet, se Westen and Rosenthal (2003) och för mer om konstruktiv validitet i stora datakällor, Lazer (2015) och kapitel 2 i denna bok.
En aspekt av extern validitet är den inställning där ett ingrepp testas. Allcott (2015) ger en noggrann teoretisk och empirisk behandling av biosyntesen. Denna fråga diskuteras också av Deaton (2010) . En annan aspekt av extern validitet är huruvida alternativa operationer av samma ingrepp kommer att ha liknande effekter. I detta fall är en jämförelse mellan Schultz et al. (2007) och Allcott (2011) visar att Opower-experimenten hade en mindre beräknad behandlad effekt än de ursprungliga experimenten av Schultz och kollegor (1,7% mot 5%). Allcott (2011) spekulerade på att uppföljningsexperimenten hade en mindre effekt på grund av hur behandlingen skilde sig: ett handskriven uttryckssymbol som en del av en studie sponsrad av ett universitet jämfört med ett tryckt uttryckssymbol som en del av en massproducerad rapport från ett kraftbolag.
För en utmärkt överblick över heterogenitet av behandlingseffekter i fältförsök, se kapitel 12 i Gerber and Green (2012) . För introduktioner till heterogenitet av behandlingseffekter i medicinska prövningar, se Kent and Hayward (2007) , Longford (1999) och Kravitz, Duan, and Braslow (2004) . Överväganden om heterogenitet av behandlingseffekter inriktar sig i allmänhet på skillnader baserade på förbehandlingsegenskaper. Om du är intresserad av heterogenitet baserat på resultat efter behandling, behövs mer komplexa tillvägagångssätt, till exempel (Frangakis and Rubin 2002) ; se Page et al. (2015) för en översyn.
Många forskare uppskattar heterogeniteten av behandlingseffekter med linjär regression, men nyare metoder är beroende av maskininlärning. se till exempel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) och Athey and Imbens (2016a) .
Det finns viss skepsis om resultaten av heterogenitet av effekter på grund av flera jämförelseproblem och "fiske". Det finns en mängd olika statistiska metoder som kan hjälpa till att ta itu med oro för flera jämförelser (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ett tillvägagångssätt för bekymmer om "fiske" är förregistrering, som blir allt vanligare i psykologi (Nosek and Lakens 2014) , statsvetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , och ekonomi (Olken 2015) .
I studien av Costa and Kahn (2013) endast ungefär hälften av hushållen i experimentet kopplas till demografiska uppgifter. Läsare som är intresserade av dessa uppgifter bör referera till originalet.
Mekanismer är otroligt viktiga, men de visar sig vara mycket svåra att studera. Forskning om mekanismer är nära relaterad till studien av medlare i psykologi (men se även VanderWeele (2009) för en exakt jämförelse mellan de två idéerna). Statistiska metoder för att hitta mekanismer, såsom den metod som utvecklats i Baron and Kenny (1986) , är ganska vanliga. Tyvärr visar det sig att dessa förfaranden beror på vissa starka antaganden (Bullock, Green, and Ha 2010) och lider när det finns flera mekanismer, vilket man kan förvänta sig i många situationer (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) och Imai and Yamamoto (2013) erbjuder några förbättrade statistiska metoder. Vidare VanderWeele (2015) en boklängdsbehandling med ett antal viktiga resultat, inklusive ett omfattande tillvägagångssätt för känslighetsanalys.
Ett separat tillvägagångssätt fokuserar på experiment som försöker manipulera mekanismen direkt (t.ex. att ge seglare C-vitamin). Tyvärr finns det ofta flera mekanismer i många samhällsvetenskapliga inställningar och det är svårt att utforma behandlingar som förändrar en utan att ändra de andra. Vissa metoder för experimentellt förändrande mekanismer beskrivs av Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) och Pirlott and MacKinnon (2016) .
Forskare som kör fullständiga factorialexperiment kommer att behöva vara oroade över flera hypotesprovningar. se Fink, McConnell, and Vollmer (2014) och List, Shaikh, and Xu (2016) för mer information.
Slutligen har mekanismerna en lång historia i vetenskapsfilosofin som beskrivs av Hedström and Ylikoski (2010) .
För mer om användningen av korrespondensstudier och revisionsstudier för att mäta diskriminering, se Pager (2007) .
Det vanligaste sättet att rekrytera deltagare till experiment som du bygger är Amazon Mechanical Turk (MTurk). Eftersom MTurk efterliknar aspekter av traditionella laboratorieexperiment som betalar människor för att slutföra uppgifter som de inte skulle göra gratis, har många forskare redan börjat använda turkare (arbetarna på MTurk) som experimentella deltagare, vilket resulterar i snabbare och billigare datainsamling än vad som kan uppnås i traditionella laboratoriumförsök på campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Vanligtvis är de största fördelarna med att använda deltagare som rekryterats från MTurk logistiska. Labbförsök kan ta veckor att springa och fältförsök kan ta månader för inrättandet. Experiment med deltagare som rekryteras från MTurk kan köras på dagar. Till exempel kunde Berinsky, Huber, and Lenz (2012) rekrytera 400 ämnen på en enda dag för att delta i ett 8-minuters experiment. Vidare kan dessa deltagare rekryteras i praktiskt taget alla ändamål (inklusive undersökningar och masssamarbete, som diskuteras i kapitel 3 och 5). Denna enkla rekrytering innebär att forskare kan springa sekvenser av relaterade experiment i snabb följd.
Innan du rekryterar deltagare från MTurk för dina egna experiment finns det fyra viktiga saker som du behöver veta. För det första har många forskare en ospecifik skepsis av experiment som involverar turkare. Eftersom denna skepsis inte är specifik är det svårt att motverka bevis. Men efter flera års studier med turker kan vi nu dra slutsatsen att denna skepsis inte är särskilt berättigad. Det har funnits många studier som jämförde turkiska demografiska förhållanden med andra befolkningsgrupper och många studier som jämförde resultaten av experiment med turker med de från andra populationer. Med tanke på allt detta arbete tycker jag att det bästa sättet att tänka på det är att turker är ett rimligt bekvämlighetsprov, ungefär som studenter men lite mer mångsidiga (Berinsky, Huber, and Lenz 2012) . Såsom precis som eleverna är en rimlig befolkning för vissa, men inte alla, forskning, är turker en rimlig befolkning för vissa, men inte alla, forskning. Om du ska arbeta med turker, så är det meningsfullt att läsa många av dessa jämförande studier och förstå deras nyanser.
För det andra har forskare utvecklat bästa metoder för att öka den interna validiteten av MTurk-experiment, och du bör lära dig om och följa dessa bästa metoder (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Forskare som använder turkare uppmanas till exempel att använda skärmar för att ta bort ouppmärksamma deltagare (Berinsky, Margolis, and Sances 2014, 2016) (men se även DJ Hauser and Schwarz (2015b) och DJ Hauser and Schwarz (2015a) ). Om du inte tar bort ouppmärksamma deltagare, kan alla effekter av behandlingen sköljas ut av det buller som de introducerar, och i praktiken kan antalet ouppmärksamma deltagare vara betydande. I experimentet av Huber och kollegor (2012) misslyckades cirka 30% av deltagarna grundläggande uppmärksammare. Andra problem som vanligtvis uppstår när turkare används är icke-naiva deltagare (Chandler et al. 2015) och slitning (Zhou and Fishbach 2016) .
För det tredje, i förhållande till vissa andra former av digitala experiment, kan MTurk-experiment inte skala; Stewart et al. (2015) uppskattar att vid varje given tillfälle finns det bara cirka 7 000 personer på MTurk.
Slutligen bör du veta att MTurk är ett samhälle med egna regler och normer (Mason and Suri 2012) . På samma sätt som du skulle försöka hitta om kulturen i ett land där du skulle driva dina experiment, bör du försöka lära dig mer om turkers kultur och normer (Salehi et al. 2015) . Och du borde veta att turkerna kommer att prata om ditt experiment om du gör något olämpligt eller oetiskt (Gray et al. 2016) .
MTurk är ett otroligt bekvämt sätt att rekrytera deltagare till dina experiment, oavsett om de är lablika, som Huber, Hill, and Lenz (2012) eller mer fältliknande, till exempel Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) och Mao et al. (2016) .
Om du tänker försöka skapa din egen produkt rekommenderar jag att du läser de råd som erbjuds av MovieLens-gruppen i Harper and Konstan (2015) . En viktig inblick i deras erfarenhet är att för varje framgångsrikt projekt finns det många, många misslyckanden. Till exempel lanserade MovieLens-gruppen andra produkter, till exempel GopherAnswers, som var fullständiga fel (Harper and Konstan 2015) . Ett annat exempel på en forskare som misslyckas när man försöker bygga en produkt är Edward Castronovas försök att bygga ett onlinespel som heter Arden. Trots $ 250.000 i finansiering var projektet en flopp (Baker 2008) . Projekt som GopherAnswers och Arden är tyvärr mycket vanligare än projekt som MovieLens.
Jag har hört tanken på Pasteurs kvadrant diskuterade ofta hos teknikföretag, och det hjälper till att organisera forskningsinsatser hos Google (Spector, Norvig, and Petrov 2012) .
Bond- och kollegors studie (2012) försöker också upptäcka effekten av dessa behandlingar på vännerna hos dem som fått dem. På grund av experimentets utformning är dessa spillover svårt att detektera rent; intresserade läsare bör se Bond et al. (2012) för en noggrannare diskussion. Jones och kollegor (2017) genomförde också ett mycket liknande experiment under valet 2012. Dessa experiment är en del av en lång tradition av experiment inom statsvetenskap om ansträngningar för att uppmuntra att rösta (Green and Gerber 2015) . Dessa utkörningsexperiment är vanliga, delvis för att de är i Pasteurs kvadrant. Det vill säga att det finns många människor som är motiverade att öka röstningen och rösta kan vara ett intressant beteende för att testa mer allmänna teorier om beteendeförändringar och socialt inflytande.
För råd om fältförsök med partnerorganisationer som politiska partier, icke-statliga organisationer och företag, se Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) och Gueron (2002) . För tankar om hur partnerskap med organisationer kan påverka forskningsdesign, se King et al. (2007) och Green, Calfano, and Aronow (2014) . Partnerskap kan också leda till etiska frågor, som diskuteras av Humphreys (2015) och Nickerson and Hyde (2016) .
Om du ska skapa en analysplan innan du kör ditt experiment, föreslår jag att du börjar med att läsa rapporteringsriktlinjer. Riktlinjerna för konsort (konsoliderad standardrapportering av försök) utvecklades i medicin (Schulz et al. 2010) och modifierades för social forskning (Mayo-Wilson et al. 2013) . En relaterad uppsättning riktlinjer har utvecklats av redaktörerna för Journal of Experimental Political Science (Gerber et al. 2014) (se även Mutz and Pemantle (2015) och Gerber et al. (2015) ). Slutligen har rapporteringsriktlinjer utvecklats i psykologi (APA Working Group 2008) och se även Simmons, Nelson, and Simonsohn (2011) .
Om du skapar en analysplan, bör du överväga att registrera den, eftersom förregistrering ökar det förtroende som andra har i dina resultat. Vidare, om du arbetar med en partner, kommer det att begränsa din partner förmåga att ändra analysen efter att ha sett resultaten. Förregistrering blir allt vanligare i psykologi (Nosek and Lakens 2014) , statsvetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) och ekonomi (Olken 2015) .
Designrådgivning specifikt för Konstan and Chen (2007) presenteras också i Konstan and Chen (2007) och Chen and Konstan (2015) .
Vad jag kallade armadastrategin kallas ibland programmatisk forskning ; se Wilson, Aronson, and Carlsmith (2010) .
För mer om MusicLab-experimenten, se Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) och Salganik (2007) . För mer på vinnare-ta-alla marknader, se Frank and Cook (1996) . För mer om untangling lycka och skicklighet mer allmänt, se Mauboussin (2012) , Watts (2012) och Frank (2016) .
Det finns ett annat tillvägagångssätt för att eliminera deltagarbetalningar som forskare ska använda med försiktighet: conscription. I många onlinefältförsök är deltagarna i princip utarbetade experiment och kompenseras aldrig. Exempel på detta tillvägagångssätt är Restivo och van de Rijts (2012) experiment på belöningar i Wikipedia och Bond och kollegas (2012) -experiment för att uppmuntra människor att rösta. Dessa experiment har egentligen ingen nollvariabel kostnad - snarare har de nollvariabelkostnad för forskare . I sådana experiment, även om kostnaden för varje deltagare är extremt liten, kan den totala kostnaden vara ganska stor. Forskare som driver massiva onlineexperimenter motiverar ofta vikten av små beräknade behandlingseffekter genom att säga att dessa små effekter kan bli viktiga när de tillämpas på många människor. Exakt samma tänkande gäller för kostnader som forskare ålägger deltagarna. Om ditt experiment får en miljon människor att slösa bort en minut är experimentet inte särskilt skadligt för någon viss person, men totalt sett har den gått i spill nästan två år.
Ett annat tillvägagångssätt för att skapa nollvariabel kostnad till deltagarna är att använda ett lotteri, ett tillvägagångssätt som också har använts i undersökningsforskningen (Halpern et al. 2011) . För mer om att utforma roliga användarupplevelser, se Toomim et al. (2011) . För mer om att använda bots för att skapa nollvariabelkostnadsexperiment, se ( ??? ) .
De tre R som ursprungligen föreslagits av Russell and Burch (1959) är följande:
"Ersättning innebär att ersättning för medvetna levande högre djur LIVLÖS material. Reduktion innebär minskning av antalet djur som används för att få information om en viss mängd och precision. Förädling varje minskning av incidensen eller svårighetsgraden av omänskliga förfarande som tillämpas på de djur som fortfarande måste användas. "
De tre R: erna som jag föreslår bryter inte mot de etiska principerna som beskrivs i kapitel 6. Snarare är de en mer utarbetad version en av dessa principer-fördelar - specifikt vid inställningen av mänskliga experiment.
När det gäller den första R ("ersättning"), jämförs det emotionella smitta experimentet (Kramer, Guillory, and Hancock 2014) och det naturliga experimentet emotionella smitta (Lorenzo Coviello et al. 2014) några allmänna lärdomar om de involverade kompromisserna i att flytta från experiment till naturliga experiment (och andra metoder som matchar det försöket att approximera experiment i icke-experimentella data, se kapitel 2). Förutom de etiska fördelarna gör det också möjligt för forskare att studera behandlingar som de logistiskt inte kan distribuera från experiment till icke-experimentella studier. Dessa etiska och logistiska fördelar kommer dock till en kostnad. Med naturliga experiment har forskare mindre kontroll över saker som rekrytering av deltagare, randomisering och arten av behandlingen. Till exempel är en begränsning av nederbörd som en behandling att det både ökar positiviteten och minskar negativiteten. I experimentstudien kunde Kramer och kollegor dock självständigt anpassa positivitet och negativitet. Den speciella metod som användes av Lorenzo Coviello et al. (2014) utarbetades vidare av L. Coviello, Fowler, and Franceschetti (2014) . För en introduktion till instrumentvariabler, vilket är den metod som används av Lorenzo Coviello et al. (2014) , se Angrist and Pischke (2009) (mindre formell) eller Angrist, Imbens, and Rubin (1996) (mer formell). För en skeptisk bedömning av instrumentvariabler, se Deaton (2010) och för en introduktion till instrumentvariabler med svaga instrument (regn är ett svagt instrument), se Murray (2006) . Mer allmänt ges en bra introduktion till naturliga experiment av Dunning (2012) , medan Rosenbaum (2002) , ( ??? ) och Shadish, Cook, and Campbell (2001) erbjuder bra idéer om att uppskatta orsakseffekter utan experiment.
När det gäller den andra R ("förfining") finns det vetenskapliga och logistiska avvägningar när man överväger att ändra utformningen av känslomässig förslitning från att blockera inlägg för att öka inlägg. Det kan till exempel vara så att det tekniska genomförandet av nyhetsflödet gör det väsentligt lättare att göra ett experiment där inlägg blockeras snarare än en där de förstärks (observera att ett försök med blockering av inlägg kan genomföras som ett lager ovanpå News Feed-systemet utan att behöva ändras av det underliggande systemet). Vetenskapligt sett föreslog emellertid inte teorin som försöktes av försöket en design över den andra. Tyvärr är jag inte medveten om betydande tidigare forskning om de relativa fördelarna med att blockera och öka innehållet i nyhetsflödet. Jag har inte sett mycket forskning om att förädla behandlingar för att göra dem mindre skadliga. Ett undantag är B. Jones and Feamster (2015) , som beaktar målet med mätning av Internetcensur (ett ämne jag diskuterar i kapitel 6 i samband med Encore-studien (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
När det gäller den tredje R ("reduktion") ges goda introduktioner till traditionell effektanalys av Cohen (1988) (bok) och Cohen (1992) (artikel), medan Gelman and Carlin (2014) erbjuder ett något annat perspektiv. Förbehandlingskovariater kan inkluderas i experimentens design och analysstadium. Kapitel 4 i Gerber and Green (2012) ger en bra introduktion till båda metoderna, och Casella (2008) ger en djupare behandling. Tekniker som använder denna förbehandlingsinformation i randomiseringen kallas typiskt antingen blockerade experimentella mönster eller stratifierade experimentella mönster (terminologin används inte konsekvent över samhällen); Dessa tekniker är nära relaterade till de stratifierade provtagningstekniker som diskuteras i kapitel 3. Se Higgins, Sävje, and Sekhon (2016) för mer om att använda dessa mönster i massiva experiment. Förbehandlingskovariater kan också ingå i analyssteget. McKenzie (2012) utforskar skillnaden i skillnader tillvägagångssätt för att analysera fältförsök i större detalj. Se Carneiro, Lee, and Wilhelm (2016) för mer om avvägningarna mellan olika metoder för att öka precisionen i beräkningar av behandlingseffekter. Slutligen, när man bestämmer sig för att försöka inkludera förbehandlingskovariater vid design- eller analysstadiet (eller båda), finns det några faktorer att överväga. I en miljö där forskare vill visa att de inte är "fiskar" (Humphreys, Sierra, and Windt 2013) , kan användningen av förbehandlingskvariater i designfasen vara till hjälp (Higgins, Sävje, and Sekhon 2016) . I situationer där deltagare anländer i följd, särskilt onlinefältförsök, kan det vara svårt att använda förbehandlingsinformation i designfasen. se till exempel Xie and Aurisset (2016) .
Det är värt att lägga till lite intuition om varför en skillnad mellan skillnader kan vara så mycket effektivare än en skillnad i medel. Många online-resultat har mycket hög varians (se t.ex. RA Lewis and Rao (2015) och Lamb et al. (2015) ) och är relativt stabila över tiden. I detta fall kommer förändringspoängen att ha betydligt mindre varians, vilket ökar kraften i det statistiska testet. En anledning till att detta tillvägagångssätt inte används oftare är att det före den digitala tidsåldern inte var vanligt att ha förbehandlingsresultat. Ett mer konkret sätt att tänka på detta är att föreställa sig ett experiment för att mäta huruvida en viss träningsrutin orsakar viktminskning. Om du antar en differentierad metod kommer din uppskattning att bero på variationer i vikten i befolkningen. Om du gör ett skillnad i skillnadstillträde tas den naturligt förekommande variationen i vikter bort, och du kan lättare upptäcka en skillnad som orsakas av behandlingen.
Slutligen övervägde jag att lägga till en fjärde R: "repurpose". Det vill säga om forskare befinner sig i mer experimentella data än vad de behöver för att ta itu med sin ursprungliga forskningsfråga, bör de ompröva uppgifterna för att ställa nya frågor. Tänk för exempel att Kramer och kollegor hade använt en skillnad i skillnader estimator och fann sig med mer data än de behövde för att ta itu med sin forskningsfråga. I stället för att inte använda uppgifterna i största möjliga utsträckning kunde de ha studerat effektens storlek som en funktion av förbehandlingens emotionella uttryck. Precis som Schultz et al. (2007) fann att effekten av behandlingen var annorlunda för lätta och tunga användare, kanske effekterna av nyhetsflödet var annorlunda för personer som redan tenderade att skicka glada (eller ledsna) meddelanden. Repurposing kan leda till "fiske" (Humphreys, Sierra, and Windt 2013) och "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , men dessa är till stor del adresserbara med en kombination av ärlig rapportering (Simmons, Nelson, and Simonsohn 2011) , förregistrering (Humphreys, Sierra, and Windt 2013) och maskininlärningsmetoder som försöker undvika övermontering.