Detta avsnitt är utformat för att användas som en referens, i stället för att läsas som en berättelse.
Frågor om kausalitet i social forskning är ofta komplexa och intrikata. För en grundläggande strategi för orsaks baserat på orsaks grafer, se Pearl (2009) , och för en grundläggande strategi som bygger på potentiella resultat, se Imbens and Rubin (2015) (och den tekniska bilagan i det här kapitlet). För en jämförelse mellan dessa två synsätt, se Morgan and Winship (2014) . För en formell metod för att definiera en confounder, se VanderWeele and Shpitser (2013) .
I kapitlet skapade jag vad som verkade som en klar linje mellan vår förmåga att göra kausala uppskattningar från experimentella och icke-experimentdata. I själva verket tror jag att skillnaden är blurrier. Till exempel, accepterar alla att rökning orsakar cancer, även om vi aldrig har gjort en randomiserad kontrollerad experiment som tvingar folk att röka. För utmärkta bok längd behandlingar på att göra kausala uppskattningar från icke-experimentella data se Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , och Dunning (2012) .
Kapitlen 1 och 2 i Freedman, Pisani, and Purves (2007) ger en tydlig introduktion till skillnaderna mellan experiment, kontrollerade experiment, och randomiserade kontrollerade experiment.
Manzi (2012) ger en fascinerande och läsbar införande i de filosofiska och statistiska grunderna för randomiserade kontrollerade experiment. Det ger också intressanta verkliga exempel på kraften i experiment i näringslivet.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) ger goda introduktioner till de statistiska aspekter av experimentell design och analys. Vidare finns utmärkta behandlingar av användningen av experiment inom många olika områden: ekonomi (Bardsley et al. 2009) , Sociologi (Willer and Walker 2007; Jackson and Cox 2013) , psykologi (Aronson et al. 1989) , Statsvetenskap (Morton and Williams 2010) , och socialpolitik (Glennerster and Takavarasha 2013) .
Vikten av deltagare rekrytering (t.ex. provtagning) är ofta underskattat i experimentell forskning. Men om effekten av behandlingen är heterogen i befolkningen, då provtagning är kritisk. Longford (1999) gör detta klart när han förespråkar för forskare tänker på experiment som en befolkningsundersökning med slumpartat provtagning.
Dikotomin som jag presenterade mellan labb och fältförsök är lite förenklat. I själva verket har andra forskare föreslagit mer detaljerade typologier, i synnerhet de som skiljer de olika formerna av fältförsök (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Vidare finns två andra typer av experiment som utförs av samhällsvetare som inte passar väl in i labbet och fält dikotomi:. Undersökningsexperiment och sociala experiment Survey experiment experiment använder infrastrukturen av befintliga undersökningar och jämföra svaren på alternativa versioner av samma frågor (vissa undersöknings experiment presenteras i kapitel 3); För mer information om undersökningsexperiment se Mutz (2011) . Sociala experiment är experiment där behandlingen är några socialpolitik som endast kan genomföras av en regering. Sociala experiment är nära besläktade med programutvärdering. För mer information om politiska experiment, se Orr (1998) , Glennerster and Takavarasha (2013) , och Heckman and Smith (1995) .
Ett antal artiklar har jämfört lab och fältförsök i sammandraget (Falk and Heckman 2009; Cialdini 2009) och i fråga om resultaten av specifika experiment i statsvetenskap (Coppock and Green 2015) , ekonomi (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) och psykologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) erbjuder en trevlig forskningsdesign för att jämföra resultat från lab och fältförsök.
Oron deltagarna ändra sitt beteende eftersom de vet att de är noga observeras ibland kallas efterfrågeeffekter, och de har studerats i psykologi (Orne 1962) och ekonomi (Zizzo 2009) . Även om det mesta i samband med laboratorieförsök, kan dessa samma frågor orsaka problem för fältförsök samt. I själva verket är efterfrågeeffekterna också ibland kallas hawthorneeffekt, en term som härrör från ett fältexperiment, särskilt de berömda belysning experiment som inleddes 1924 på Hawthorne Works av Western Electric Company (Adair 1984; Levitt and List 2011) . Både efterfrågeeffekter och Hawthorn effekter hänger nära samman med tanken på reaktiv mätning diskuteras i kapitel 2 (se även Webb et al. (1966) ).
Historien om fältförsök har beskrivits i ekonomi (Levitt and List 2009) , statsvetenskap (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologi (Shadish 2002) , och den allmänna ordningen (Shadish and Cook 2009) . Ett område av samhällsvetenskaplig där fältförsök blev snabbt framträdande är den internationella utvecklingen. För en positiv recension av detta arbete inom ekonomi se Banerjee and Duflo (2009) , och för en kritisk granskning se Deaton (2010) . För en översikt av detta arbete i statsvetenskap se Humphreys and Weinstein (2009) . Slutligen har de etiska utmaningar som med fältförsök undersökts i statsvetenskap (Humphreys 2015; Desposato 2016b) och utvecklingsekonomi (Baele 2013) .
I kapitlet, föreslog jag att förbehandling information kan användas för att förbättra precisionen i beräknade behandlingseffekter, men det finns en viss debatt om detta tillvägagångssätt: Freedman (2008) , Lin (2013) , och Berk et al. (2013) ; se Bloniarz et al. (2016) för mer information.
Jag har valt att fokusera på tre begrepp: giltighet, heterogenitet behandlingseffekter, och mekanismer. Dessa begrepp har olika namn i olika områden. Till exempel, psykologer tenderar att röra sig bortom enkla experiment genom att fokusera på medlare och moderatorer (Baron and Kenny 1986) . Idén om medlare fångas upp av vad jag kallar mekanismer, och tanken på moderatorer fångas upp av vad jag kallar extern validitet (t.ex. skulle resultaten av försöket vara annorlunda om det kördes i olika situationer) och heterogenitet av behandlingseffekter ( t.ex. är effekterna större för vissa människor än andra människor).
Experimentet i Schultz et al. (2007) visar hur sociala teorier kan användas för att utforma effektiva åtgärder. För en mer allmän argument om betydelsen av teori utforma effektiva åtgärder, se Walton (2014) .
Begreppen intern och extern validitet infördes först i Campbell (1957) . Se Shadish, Cook, and Campbell (2001) för en mer detaljerad historia och en noggrann utarbetandet av statistisk slutsats giltighet, intern validitet, konstruera giltighet och extern validitet.
För en översikt över frågor som rör statistisk slutsats giltighet i experiment se Gerber and Green (2012) (för ett samhällsvetenskapligt perspektiv) och Imbens and Rubin (2015) (för ett statistiskt perspektiv). Några frågor om statistisk slutsats giltighet som uppstår särskilt i online fältförsök omfattar frågor som beräknings effektiva metoder för att skapa konfidensintervall med beroende data (Bakshy and Eckles 2013) .
Intern validitet kan vara svårt att se i komplexa fältförsök. Se till exempel, Gerber and Green (2000) , Imai (2005) , och Gerber and Green (2005) för debatt om genomförandet av ett komplext område experiment om röstning. Kohavi et al. (2012) och Kohavi et al. (2013) ger en introduktion till de utmaningar som intervall giltighet i nätet fältförsök.
Ett stort problem med intern validitet är problem med randomisering. Ett sätt att potentiellt upptäcka problem med randomisering är att jämföra behandlings- och kontrollgrupper på observerbara egenskaper. Denna typ av jämförelse kallas en täckningskontroll. Se Hansen and Bowers (2008) för en statistisk metod för att balansera kontroller och se Mutz and Pemantle (2015) för oro balanskontroller. Till exempel med hjälp av en balans kontrollera Allcott (2011) funnit att det finns vissa belägg för att randomiseringen inte genomfördes korrekt i tre av försöken i vissa OPower experimenten (se tabell 2, platser 2, 6 och 8). För andra metoder, se Imbens and Rubin (2015) , kapitel 21.
Andra viktiga frågor som rör intern validitet är: 1) ensidig bristande efterlevnad, där inte alla i behandlingsgruppen faktiskt fått behandling, 2) dubbelsidigt bristande efterlevnad, där inte alla i behandlingsgruppen får behandling och några personer i kontrollgruppen får behandling, 3) avgång, där resultaten inte mäts för vissa deltagare, och 4) störningar, där behandlingen spiller över från människor i behandlings tillstånd till människor i kontrollgrupp. Se Gerber and Green (2012) kapitel 5, 6, 7, och 8 för mer information om var och en av dessa frågor.
För mer information om konstruktionen giltighet, se Westen and Rosenthal (2003) , och för mer information om konstruktion giltighet i stora datakällor, Lazer (2015) och kapitel 2 i denna bok.
En aspekt av extern validitet är inställningen där ett ingripande testas. Allcott (2015) ger en noggrann teoretisk och empirisk behandling av platsval partiskhet. Denna fråga diskuteras också i Deaton (2010) . Förutom att replikeras i många platser, Home Energy Report ingripande har också oberoende studerats av flera forskargrupper (t.ex. Ayres, Raseman, and Shih (2013) ).
För en utmärkt översikt av heterogenitet av behandlingseffekter i fältförsök, se kapitel 12 i Gerber and Green (2012) . För introduktioner till heterogenitet av behandlingseffekter i medicinska försök, se Kent and Hayward (2007) , Longford (1999) , och Kravitz, Duan, and Braslow (2004) . Heterogenitet behandlingseffekter generellt inriktas på skillnader baserat på förbehandlings egenskaper. Om du är intresserad av heterogenitet baserat på post-behandlingsresultat, sedan behövs mer komplexa approachs såsom huvud skiktning (Frangakis and Rubin 2002) ; se Page et al. (2015) för en översikt.
Många forskare uppskattar heterogenitet av behandlingseffekter med hjälp av linjär regression, men nyare metoder bygger på maskininlärning, till exempel Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , och Athey and Imbens (2016a) .
Det finns en viss skepsis resultaten av heterogenitet effekter på grund av flera jämförelseproblem och "fiske". Det finns en mängd olika statistiska metoder som kan bidra till att lösa frågor om multipeljämförelse (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ett sätt att oro "fiske" är förhandsregistrering, som blir allt vanligare i psykologi (Nosek and Lakens 2014) , statsvetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) och ekonomi (Olken 2015) .
I studien av Costa and Kahn (2013) var endast omkring hälften av hushållen i försöket kunna kopplas till demografisk information. Läsare som är intresserade av detaljerna och eventuella problem med denna analys hänvisas till den ursprungliga papper.
Mekanismer är oerhört viktigt, men de visar sig vara mycket svårt att studera. Forskning om mekanismer nära relaterade till studiet av medlare i psykologi (men se även VanderWeele (2009) för en noggrann jämförelse mellan de två idéerna). Statistiska metoder för att hitta mekanismer, såsom den metod som utvecklats i Baron and Kenny (1986) , är ganska vanligt. Tyvärr visar det sig att dessa förfaranden är beroende av några starka antaganden (Bullock, Green, and Ha 2010) och lida när det finns flera mekanismer, som man kan förvänta sig i många situationer (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) och Imai and Yamamoto (2013) erbjuder några förbättrade statistiska metoder. Vidare, VanderWeele (2015) erbjuder en bok längd behandling med ett antal viktiga resultat, inklusive en övergripande strategi för känslighetsanalys.
En separat tillvägagångssätt fokuserar på experiment som försöker manipulera mekanismen direkt (t.ex. ger seglare vitamin C). Tyvärr i många samhällsvetenskapliga inställningar finns ofta flera mekanismer och det är svårt att utforma behandlingar som förändrar en utan att ändra de andra. Vissa metoder för att experimentellt förändrar mekanismer beskrivs i Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , och Pirlott and MacKinnon (2016) .
Slutligen mekanismer har också en lång historia i vetenskapsteori som beskrivs av Hedström and Ylikoski (2010) .
För mer information om användning av korrespondensstudier och revisions studier för att mäta diskriminering se Pager (2007) .
Det vanligaste sättet att rekrytera deltagare till experiment som du bygger är Amazon Mechanical Turk (MTurk). Eftersom MTurk härmar aspekter av traditionella labbexperiment-betala folk för att utföra uppgifter som de inte skulle göra för fritt många forskare har redan börjat använda Turkers (arbetarna på MTurk) som deltagare i humanpatienter experiment resulterar i snabbare och billigare datainsamling än traditionella på campus laborationer (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Den största styrkan i experiment med deltagarna rekryterats från MTurk är logistiskt: de tillåter forskare att snabbt och vid behov rekrytera deltagare. Medan lab experiment kan ta veckor att köra och fältförsök kan ta månader att installera, kan experiment med deltagare rekryteras från MTurk köras i dagar. Till exempel, Berinsky, Huber, and Lenz (2012) kunde rekrytera 400 patienter i en enda dag för att delta i en åtta minuters experiment. Vidare kan dessa deltagare rekryteras för praktiskt taget alla ändamål (inbegripet undersökningar och mass samarbete, vilket diskuteras i kapitel 3 och 5). Denna enkla rekrytering innebär att forskarna kan köra sekvenser av relaterade experiment i snabb följd.
Innan rekrytera deltagare från MTurk för dina egna experiment, det finns fyra viktiga saker att veta. Först många forskare har en icke-specifik skepsis av experiment med Turkers. Eftersom denna skepsis är inte specifikt, är det svårt att motverka med bevis. Men efter flera års studier med Turkers, vi kan nu konstatera att denna skepsis är inte särskilt viktigt. Det har gjorts många studier som jämför demografin i Turkers till andra populationer och många studier som jämförde resultaten av experiment med Turkers till resultaten från andra populationer. Med tanke på allt detta arbete, jag tror att det bästa sättet för dig att tänka på det är att Turkers är en rimlig bekvämlighet prov, ungefär som studenter men något mer varierande (Berinsky, Huber, and Lenz 2012) . Således, precis som studenter är en rimlig befolkning för vissa men inte alla experimentell forskning, Turkers är en rimlig befolkning för vissa men inte alla forskning. Om du ska arbeta med Turkers, då är det logiskt att läsa många av dessa jämförande studier och förstå sina nyanser.
För det andra, har forskare utvecklat bästa praxis för att öka den interna giltighet Turk experiment, och du bör lära om och följa dessa bästa praxis (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Till exempel forskare som använder Turkers uppmuntras att använda verk för att avlägsna ouppmärksam deltagare (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (men se även DJ Hauser and Schwarz (2015b) och DJ Hauser and Schwarz (2015a) ). Om du inte tar bort ouppmärksam deltagarna, då någon effekt av behandlingen kan tvättas ut av buller infördes från ouppmärksam deltagare och i praktiken antalet ouppmärksam deltagarna kan vara betydande. I experimentet i Huber och kollegor (2012) ca 30% av deltagarna misslyckades grundläggande uppmärksamhetsverk. Ett annat vanligt problem med Turkers är icke-naiva deltagare (Chandler et al. 2015) .
För det tredje, i förhållande till vissa andra former av digitala experiment MTurk experiment kan inte skala, Stewart et al. (2015) uppskattar att vid varje given tidpunkt finns det bara cirka 7000 personer på MTurk.
Slutligen bör du veta att MTurk är en gemenskap med sina egna regler och normer (Mason and Suri 2012) . På samma sätt som du skulle försöka ta reda på om kulturen i ett land där du skulle köra dina experiment, bör du försöka ta reda på mer om kulturen och normer Turkers (Salehi et al. 2015) . Och, bör du veta att Turkers kommer att tala om experimentet om du gör något olämpligt eller oetiskt (Gray et al. 2016) .
MTurk är ett otroligt bra sätt att rekrytera deltagare till dina experiment, om de är labb liknande, såsom Huber, Hill, and Lenz (2012) , eller mer fält liknande, såsom Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , och Mao et al. (2016) .
Om du funderar på att försöka skapa en egen produkt, rekommenderar jag att du läser råd som erbjuds av MovieLens grupp i Harper and Konstan (2015) . En viktig insikt från deras erfarenhet är att för varje lyckat projekt finns det många, många misslyckanden. Till exempel lanserade MovieLens grupp andra produkter såsom GopherAnswers som var funktionsbortfall (Harper and Konstan 2015) . Ett annat exempel på en forskare inte samtidigt som man försöker bygga en produkt är Edward Castronova försök att bygga en online-spel som heter Arden. Trots $ 250.000 i finansiering, projektet var en flopp (Baker 2008) . Projekt som GopherAnswers och Arden är tyvärr mycket vanligare än projekt som MovieLens. Slutligen, när jag sa att jag inte känner till något andra forskare som framgångsrikt hade byggt produkter för upprepad experiment här är mina kriterier: 1) deltagarna använder produkten på grund av vad det ger dem (t.ex. de inte betalt och de är inte volontärer hjälper vetenskap) och 2) produkten har använts i mer än en distinkt experiment (dvs inte samma experiment flera gånger med olika deltagare pooler). Om du känner till andra exempel, please let me know.
Jag har hört tanken på Pasteurs Quadrant diskuteras ofta på teknikföretag, och det hjälper till att organisera forskningen på Google (Spector, Norvig, and Petrov 2012) .
Bond och kollegors studie (2012) försöker också att detektera effekten av dessa behandlingar på vänner till dem som fick dem. På grund av utformningen av experimentet, dessa spridningseffekter är svåra att upptäcka rent; intresserade läsare bör se Bond et al. (2012) för en mer ingående diskussion. Detta experiment är en del av en lång tradition av experiment i statsvetenskap på insatser för att uppmuntra att rösta (Green and Gerber 2015) . Dessa get-out-the-röst experiment är vanliga delvis eftersom de är i Pasteurs kvadrant. Det vill säga, det finns många människor som är motiverade att öka röstning och röstning kan vara ett intressant beteende för att testa mer generella teorier om beteendeförändringar och social påverkan.
Andra forskare har gett råd om att köra fältförsök med partnerorganisationer såsom politiska partier, icke-statliga organisationer och företag (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Andra har erbjudit råd om hur partnerskap med organisationer kan påverka forskningsdesign (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerskap kan också leda till etiska frågor (Humphreys 2015; Nickerson and Hyde 2016) .
Om du ska skapa en analysplan innan du kör experimentet, föreslår jag att du börjar med att läsa riktlinjer för rapportering. Maka (Consolidated Standard rapporteringen av försöken) riktlinjer utvecklades i medicin (Schulz et al. 2010) och ändras för social forskning (Mayo-Wilson et al. 2013) . En besläktad uppsättning riktlinjer har tagits fram av redaktörerna för Journal of Experimental statsvetenskap (Gerber et al. 2014) (se även Mutz and Pemantle (2015) och Gerber et al. (2015) ). Slutligen har riktlinjer för rapportering utvecklats i psykologi (Group 2008) , och se även Simmons, Nelson, and Simonsohn (2011) .
Om du skapar en analysplan bör du överväga förhandsregistreringen det eftersom förhandsregistreringen kommer att öka det förtroende som andra har i dina resultat. Vidare, om du arbetar med en partner, kommer det att begränsa din partners förmåga att förändra analysen efter att ha sett resultaten. Föranmälan blir allt vanligare i psykologi (Nosek and Lakens 2014) , statsvetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , och ekonomi (Olken 2015) .
När du skapar din föranalys planen bör du vara medveten om att vissa forskare använder också regression och relaterade metoder för att förbättra precisionen i den beräknade behandlingseffekten, och det finns en viss debatt om detta tillvägagångssätt: Freedman (2008) , Lin (2013) , och Berk et al. (2013) ; se Bloniarz et al. (2016) för mer information.
Design råd speciellt för online-fältförsök presenteras också i Konstan and Chen (2007) och Chen and Konstan (2015) .
För mer information om de MusicLab experiment se Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , och Salganik (2007) . För mer information om vinnaren tar alla marknader, se Frank and Cook (1996) . För mer information om untangling tur och skicklighet i allmänhet, se Mauboussin (2012) , Watts (2012) , och Frank (2016) .
Det finns en annan metod för att eliminera deltagande betalningar som forskare bör använda med försiktighet: värnplikt. I många online fältförsök deltagarna i princip utarbetas i experiment och aldrig kompenseras. Exempel på detta tillvägagångssätt inkluderar Restivo och van de Rijt s (2012) experiment på belöningar i Wikipedia och Bond och kollega (2012) experiment på att uppmuntra människor att rösta. Dessa experiment har egentligen inte noll rörliga kostnaden, de har noll rörlig kostnad för forskare. Även om kostnaden för många av dessa experiment är extremt liten för alla deltagare, små kostnader införde ett enormt antal deltagare kan lägga upp snabbt. Forskare kör massiva online-experiment motiverar ofta betydelsen av små uppskattade behandlingseffekter genom att säga att dessa små effekter kan bli viktigt när tillämpas på många människor. Exakt samma tänkande gäller kostnader som forskarna ställer på deltagarna. Om dina experiment orsakar en miljon människor att slösa en minut, är experimentet inte mycket skadligt för en viss person, men sammanlagt har slösat bort nästan två års tid.
Ett annat tillvägagångssätt för att skapa noll rörliga kostnaden betalning till deltagarna är att använda ett lotteri, en metod som också har använts i undersökningen forskning (Halpern et al. 2011) . Slutligen, för mer om att utforma njutbara användar erfarenheter se Toomim et al. (2011) .
Här är de ursprungliga definitionerna av de tre R, från Russell and Burch (1959) :
"Ersättning innebär att ersättning för medvetna levande högre djur LIVLÖS material. Reduktion innebär minskning av antalet djur som används för att få information om en viss mängd och precision. Förädling varje minskning av incidensen eller svårighetsgraden av omänskliga förfarande som tillämpas på de djur som fortfarande måste användas. "
De tre R: s som jag föreslår inte åsidosätta de etiska principer som beskrivs i kapitel 6. De är snarare en utförligare version en av dessa principer-välgörenhet specifikt för fastställandet av mänskliga experiment.
När man överväger Emotionell smitta, finns det tre icke-etiska frågor att tänka på när man tolkar detta experiment. För det första är det inte klart hur de faktiska detaljerna av försöket att ansluta till de teoretiska kraven; Med andra ord, det finns frågor om konstruktion giltighet. Det är inte klart att de positiva och negativa ord räknas är faktiskt en bra indikator på emotionella tillstånd deltagare eftersom 1) det är inte klart att de ord som folk lägger upp är en bra indikator på sina känslor och 2) det är inte klart att den speciella känsla analys teknik som forskarna använt kan tillförlitligt härleda känslor (Beasley and Mason 2015; Panger 2016) . Med andra ord kan det finnas en dålig mått på en förspänd signal. För det andra, design och analys av experiment säger oss ingenting om vem som mest påverkade (dvs det finns ingen analys av heterogenitet av behandlingseffekter) och vad mekanismen kan vara. I detta fall, forskarna hade massor av information om deltagarna, men de var i huvudsak behandlas som widgets i analysen. För det tredje, effektstorleken i detta experiment var mycket liten; skillnaden mellan behandlings- och kontrollförhållanden är ungefär 1 på 1000 ord. I sina papper, Kramer och kollegor göra så att en effekt av denna storlek är viktigt eftersom hundratals miljoner människor tillgång till deras News Feed varje dag. Med andra ord, de hävdar att även effekter som är små för varje person de är stora i aggregat. Även om du skulle acceptera detta argument, är det fortfarande oklart om en effekt av den här storleken är viktig när det gäller den mer allmänna vetenskapliga frågor om emotionell smitta. För mer information om de situationer där små effekter är viktiga se Prentice and Miller (1992) .
När det gäller den första R (Replacement), att jämföra Emotionell smitta experiment (Kramer, Guillory, and Hancock 2014) och den emotionella smitta naturligt experiment (Coviello et al. 2014) erbjuder några generella lärdomar om kompromisser som arbetar med att flytta från experiment för naturliga experiment (och andra metoder som matchar detta försök att närma experiment i icke-experimentella data, se kapitel 2). Förutom de etiska fördelar, byta från experimentell till icke-experimentella studier gör det också möjligt för forskare att studera behandlingar som de är logistiskt inte kan distribuera. Dessa etiska och logistiska fördelar kommer till en kostnad dock. Med naturliga experiment forskare har mindre kontroll över saker som rekrytering av deltagare, randomisering, och vilken typ av behandling. Till exempel, är en begränsning av nederbörd som en behandling att den både ökar positivitet och minskar negativitet. I den experimentella studien, dock Kramer och kollegor kunde justera positivitet och negativitet självständigt.
Den speciella metod som används av Coviello et al. (2014) utvecklades vidare i Coviello, Fowler, and Franceschetti (2014) . En introduktion till instrumentella variabler se Angrist and Pischke (2009) (mindre formell) eller Angrist, Imbens, and Rubin (1996) (mer formell). För en skeptisk syn på instrumentala variabler se Deaton (2010) , och för en introduktion till instrumentella variabler med svaga instrument (regn är en svag instrument), se Murray (2006) .
Mer allmänt är en bra introduktion till naturliga experiment Dunning (2012) , och Rosenbaum (2002) , Rosenbaum (2009) , och Shadish, Cook, and Campbell (2001) erbjuder goda idéer om att uppskatta kausala effekter utan experiment.
När det gäller den andra R (Refinement), finns det vetenskapliga och logistiska avvägningar när de överväger att ändra utformningen av emotionell smitta från att blockera tjänster till öka inlägg. Till exempel kan det vara så att det tekniska genomförandet av News Feed gör det är betydligt lättare att göra ett experiment med att blockera inlägg snarare än ett experiment med att öka inlägg (observera att ett experiment med att blockera tjänster kan implementeras som ett skikt på toppen av News Matningssystem utan något behov av ändringar i det underliggande systemet). Vetenskapligt dock teorin upp av experimentet inte klart föreslå en konstruktion över den andra.
Tyvärr är jag inte medveten om betydande tidigare forskning om de relativa fördelarna med att blockera och öka innehållet i nyhetsflödet. Dessutom har jag inte sett mycket forskning om raffinering behandlingar för att göra dem mindre skadliga; ett undantag är Jones and Feamster (2015) , som tar hänsyn till vid mätning av internetcensur (ett ämne jag diskuterar i kapitel 6 i förhållande till Encore studien (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
När det gäller den tredje R (Reduction), är en bra introduktion till traditionella maktanalys Cohen (1988) . Förbehandlings variablerna kan ingå i konstruktionsstadiet och analysen skede av experiment; Kapitel 4 i Gerber and Green (2012) ger en bra introduktion till båda tillvägagångssätten, och Casella (2008) ger en mer djupgående behandling. Tekniker som använder denna förbehandling information i randomisering vanligtvis kallas antingen blockerad experimentella mönster eller skiktade experimentell design (terminologin används inte konsekvent mellan olika grupper); dessa tekniker är djupt relaterade till stratifierad sampling tekniker som diskuteras i kapitel 3. Se Higgins, Sävje, and Sekhon (2016) för mer om hur du använder dessa mönster i stora experiment. Förbehandlings covariates kan också inkluderas i analysen stadiet. McKenzie (2012) undersöker skillnaden-i-skillnader tillvägagångssätt för att analysera fältförsök i större detalj. Se Carneiro, Lee, and Wilhelm (2016) för mer om avvägningar mellan olika metoder för att öka precisionen i beräkningarna av behandlingseffekter. Slutligen, när man beslutar om att försöka inkludera förbehandlings kovariater på design eller analyssteget (eller båda), finns det några faktorer att tänka på. I en miljö där forskare vill visa att de inte är "fiske" (Humphreys, Sierra, and Windt 2013) , med användning av förbehandlings covariates i konstruktionsstadiet kan vara till hjälp (Higgins, Sävje, and Sekhon 2016) . I situationer där deltagarna anländer sekventiellt, särskilt online-fältexperiment, med hjälp av förbehandlings informationen i planeringsstadiet kan vara svårt logistiskt, se till exempel Xie and Aurisset (2016) .
Det är värt att lägga lite intuition om varför skillnaden-i-skillnader kan vara så mycket mer effektiv än skillnaden-i-medel. Många online resultat har mycket hög varians (se t ex Lewis and Rao (2015) och Lamb et al. (2015) ) och är relativt stabila över tiden. I detta fall kommer förändringen poäng har betydligt mindre varians, vilket ökar kraften i statistiska test. En anledning detta kontaktade inte används oftare är att före den digitala tidsåldern det var inte vanligt att ha pre-behandlingsresultat. Ett mer konkret sätt att tänka på det är att föreställa sig ett experiment för att mäta om en specifik övning rutin orsakar viktminskning. Om du gör en skillnad-i-medel tillvägagångssätt kommer din uppskattning har variationer som kommer från variationen i vikt i befolkningen. Om du gör en skillnad-i-skillnad tillvägagångssätt dock blir det naturligt förekommande variation i vikter bort och du kan lättare upptäcka en skillnad som orsakas av behandling.
Ett viktigt sätt att minska antalet deltagare i experimentet är att göra en maktanalys, som Kramer och kollegor kunde ha gjort baserat på effektstorlekar som observerats från naturliga experimentet genom Coviello et al. (2014) eller tidigare icke-experimentell forskning av Kramer (2012) (i själva verket är dessa aktiviteter i slutet av detta kapitel). Lägg märke till att denna användning av maktanalys är lite annorlunda än vanligt. I den analoga ålder, forskare gjorde i allmänhet maktanalys för att se till att deras studie var inte alltför liten (dvs under-powered). Men nu ska forskarna göra maktanalys för att se till att deras studie inte är för stor (dvs överdriven).
Slutligen ansåg jag att lägga ett fjärde R: Återanvänd. Det vill säga om forskarna befinner sig med mer experimentella data än de måste ta itu med sin egen forskning fråga, bör de återanvända data att ställa nya frågor. Tänk dig till exempel att Kramer och kollegor hade använt en skillnad-i-skillnader estimator och befann sig med mer data än vad som behövs för att ta itu med sin forskning fråga. Snarare än att inte använda uppgifterna till den utsträckning, kunde de ha studerat storleken på effekten som en funktion för förbehandling känslomässiga uttryck. Precis som Schultz et al. (2007) fann att effekten av behandlingen var annorlunda för lätta och tunga användare, kanske effekterna av News Feed var annorlunda för personer som redan tenderade att lägga lyckliga (eller ledsen) meddelanden. Återanvända kan leda till "fiske" (Humphreys, Sierra, and Windt 2013) och "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , men dessa är i stort sett adresserbara med en kombination av ärlig reporting (Simmons, Nelson, and Simonsohn 2011) , förhandsregistrering (Humphreys, Sierra, and Windt 2013) , och maskininlärningsmetoder som försöker att undvika över montering.