Vragen over causaliteit in sociaal onderzoek zijn vaak complex en ingewikkeld. Voor een fundamentele benadering van causaliteit op basis van causale grafieken, zie Pearl (2009) en voor een fundamentele benadering op basis van potentiële uitkomsten, zie Imbens and Rubin (2015) . Voor een vergelijking tussen deze twee benaderingen, zie Morgan and Winship (2014) . Zie VanderWeele and Shpitser (2013) voor een formele benadering van het definiëren van een confounder.
In dit hoofdstuk heb ik een helder onderscheid gemaakt tussen ons vermogen om causale schattingen te maken op basis van experimentele en niet-experimentele gegevens. Ik denk echter dat het onderscheid in werkelijkheid eerder vaag is. Iedereen accepteert bijvoorbeeld dat roken kanker veroorzaakt, hoewel er nog nooit een willekeurig, gecontroleerd experiment is geweest dat mensen dwingt te roken. Zie Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) en Dunning (2012) voor uitstekende bewerkingen van boeken over het maken van causale schattingen van niet-experimentele gegevens.
Hoofdstukken 1 en 2 van Freedman, Pisani, and Purves (2007) bieden een duidelijke inleiding tot de verschillen tussen experimenten, gecontroleerde experimenten en gerandomiseerde gecontroleerde experimenten.
Manzi (2012) biedt een fascinerende en leesbare inleiding tot de filosofische en statistische onderbouwing van gerandomiseerde, gecontroleerde experimenten. Het biedt ook interessante real-world voorbeelden van de kracht van experimenteren in het bedrijfsleven. Issenberg (2012) biedt een fascinerende introductie in het gebruik van experimenten in politieke campagnes.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, en Athey and Imbens (2016b) bieden goede inleidingen op de statistische aspecten van experimenteel ontwerp en analyse. Verder zijn er uitstekende behandelingen van het gebruik van experimenten op veel verschillende gebieden: economie (Bardsley et al. 2009) , sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psychologie (Aronson et al. 1989) , politicologie (Morton and Williams 2010) en sociaal beleid (Glennerster and Takavarasha 2013) .
Het belang van het werven van deelnemers (bijvoorbeeld steekproeven) wordt vaak onderschat in experimenteel onderzoek. Als het effect van de behandeling echter heterogeen is in de populatie, is het nemen van monsters van cruciaal belang. Longford (1999) maakt dit duidelijk wanneer hij pleit voor onderzoekers die aan experimenten denken als een bevolkingsonderzoek met lukrake bemonstering.
Ik heb gesuggereerd dat er een continuüm is tussen laboratorium- en veldexperimenten, en andere onderzoekers hebben gedetailleerdere typologieën voorgesteld, in het bijzonder die welke de verschillende vormen van veldexperimenten scheiden (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
In een aantal artikelen zijn laboratorium- en veldexperimenten in abstracto vergeleken (Falk and Heckman 2009; Cialdini 2009) en in termen van uitkomsten van specifieke experimenten in politicologie (Coppock and Green 2015) , economie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) en psychologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) bieden een mooi onderzoeksontwerp voor het vergelijken van resultaten van laboratorium- en praktijkexperimenten. Parigi, Santana, and Cook (2017) beschrijven hoe online veldexperimenten enkele van de kenmerken van laboratorium- en veldexperimenten kunnen combineren.
Zorgen over de deelnemers hun gedrag te veranderen, omdat ze weten dat ze worden nauwlettend geobserveerd worden soms vraageffecten, en ze zijn onderzocht in de psychologie (Orne 1962) en economie (Zizzo 2010) . Hoewel ze meestal worden geassocieerd met laboratoriumexperimenten, kunnen dezelfde problemen ook problemen opleveren voor veldexperimenten. In feite zijn vraageffecten ook wel Hawthorne effecten, een term die de beroemde verlichting experimenten die begon in 1924 bij de Hawthorne Works van de Western Electric Company ontleent (Adair 1984; Levitt and List 2011) . Beide vraageffecten en Hawthorne-effecten hangen nauw samen met het idee van reactieve meting besproken in hoofdstuk 2 (zie ook Webb et al. (1966) ).
Veldexperimenten hebben een lange geschiedenis in de economie (Levitt and List 2009) , politieke wetenschappen (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ; psychologie (Shadish 2002) ; en openbaar beleid (Shadish and Cook 2009) . Een gebied van de sociale wetenschappen waar veldexperimenten snel prominent werden, is internationale ontwikkeling. Voor een positieve beoordeling van dat werk binnen de economie, zie Banerjee and Duflo (2009) , en voor een kritische beoordeling, zie Deaton (2010) . Zie Humphreys and Weinstein (2009) voor een overzicht van dit werk in de politieke wetenschappen. Ten slotte zijn de ethische uitdagingen die voortkomen uit veldexperimenten onderzocht in de context van politieke wetenschappen (Humphreys 2015; Desposato 2016b) en ontwikkelingseconomie (Baele 2013) .
In deze sectie stelde ik voor dat pre-treatment-informatie kan worden gebruikt om de nauwkeurigheid van geschatte behandeleffecten te verbeteren, maar er is enige discussie over deze aanpak; zie Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , en Bloniarz et al. (2016) voor meer informatie.
Ten slotte zijn er nog twee andere soorten experimenten uitgevoerd door sociale wetenschappers die niet precies passen in de dimensie van het laboratoriumveld: survey-experimenten en sociale experimenten. Enquête-experimenten zijn experimenten waarbij de infrastructuur van bestaande enquêtes wordt gebruikt en antwoorden op alternatieve versies van dezelfde vragen worden vergeleken (sommige onderzoeksexperimenten worden gepresenteerd in hoofdstuk 3); voor meer informatie over survey-experimenten, zie Mutz (2011) . Sociale experimenten zijn experimenten waarbij de behandeling een sociaal beleid is dat alleen door een overheid kan worden uitgevoerd. Sociale experimenten hangen nauw samen met programma-evaluatie. Zie voor meer informatie over beleidsexperimenten Heckman and Smith (1995) , Orr (1998) en @ glennerster_running_2013.
Ik heb ervoor gekozen om me te concentreren op drie concepten: validiteit, heterogeniteit van behandeleffecten en mechanismen. Deze concepten hebben verschillende namen in verschillende velden. Psychologen neigen bijvoorbeeld verder te gaan dan eenvoudige experimenten door zich te richten op mediators en moderators (Baron and Kenny 1986) . Het idee van bemiddelaars wordt vastgelegd door wat ik mechanismen noem, en het idee van moderators wordt gevangen door wat ik externe validiteit noem (bijvoorbeeld, zouden de resultaten van het experiment anders zijn als het in verschillende situaties zou worden uitgevoerd) en heterogeniteit van behandeleffecten ( bijvoorbeeld, zijn de effecten groter voor sommige mensen dan voor anderen).
Het experiment van Schultz et al. (2007) laat zien hoe sociale theorieën kunnen worden gebruikt om effectieve interventies te ontwerpen. Zie Walton (2014) voor een algemener argument over de rol van theorie bij het ontwerpen van effectieve interventies.
De concepten van interne en externe validiteit werden voor het eerst geïntroduceerd door Campbell (1957) . Zie Shadish, Cook, and Campbell (2001) voor een meer gedetailleerde geschiedenis en een zorgvuldige uitwerking van statistische conclusiegeldigheid, interne validiteit, constructvaliditeit en externe validiteit.
Zie Gerber and Green (2012) (vanuit een sociaalwetenschappelijk perspectief) en Imbens and Rubin (2015) voor een overzicht van kwesties gerelateerd aan statistische conclusiegeldigheid in experimenten (vanuit een statistisch perspectief). Bepaalde kwesties met betrekking tot statistische conclusiegeldigheid die specifiek in online veldexperimenten tot stand komen, omvatten kwesties zoals computationeel efficiënte methoden voor het creëren van betrouwbaarheidsintervallen met afhankelijke gegevens (Bakshy and Eckles 2013) .
Interne validiteit kan moeilijk zijn om te verzekeren in complexe veldexperimenten. Zie bijvoorbeeld Gerber and Green (2000) , Imai (2005) en Gerber and Green (2005) voor discussie over de implementatie van een complex veldexperiment over stemmen. Kohavi et al. (2012) en Kohavi et al. (2013) bieden een inleiding in de uitdagingen van intervalvaliditeit in online veldexperimenten.
Een grote bedreiging voor de interne validiteit is de mogelijkheid van mislukte randomisatie. Een mogelijke manier om problemen met de randomisatie op te sporen, is door de behandelings- en controlegroepen te vergelijken op waarneembare kenmerken. Dit soort vergelijking wordt een balanscontrole genoemd . Zie Hansen and Bowers (2008) voor een statistische benadering van balanscontroles en Mutz and Pemantle (2015) voor bezorgdheid over balanscontroles. Bij een balanscontrole vond Allcott (2011) bijvoorbeeld enig bewijs dat randomisatie bij drie van de Opower-experimenten niet correct was geïmplementeerd (zie tabel 2, sites 2, 6 en 8). Voor andere benaderingen, zie hoofdstuk 21 van Imbens and Rubin (2015) .
Andere belangrijke punten van zorg met betrekking tot de interne validiteit zijn: (1) eenzijdige niet-naleving, waarbij niet iedereen in de behandelgroep de behandeling daadwerkelijk heeft ontvangen, (2) tweezijdige niet-naleving, waarbij niet iedereen in de behandelgroep de behandeling krijgt en sommige mensen in de behandeling de controlegroep ontvangt de behandeling, (3) uitputtingsslag, waarbij de uitkomsten voor sommige deelnemers niet worden gemeten, en (4) interferentie, waarbij de behandeling overloopt van mensen in de behandelingsconditie naar mensen in de controleconditie. Zie hoofdstuk 5, 6, 7 en 8 van Gerber and Green (2012) voor meer informatie over elk van deze problemen.
Zie Westen and Rosenthal (2003) voor meer informatie over constructvaliditeit en meer over constructvaliditeit in big data-bronnen, Lazer (2015) en hoofdstuk 2 van dit boek.
Een aspect van externe validiteit is de setting waarin een interventie wordt getest. Allcott (2015) biedt een zorgvuldige theoretische en empirische behandeling van bias van de Allcott (2015) . Dit probleem wordt ook besproken door Deaton (2010) . Een ander aspect van externe validiteit is of alternatieve operationalisaties van dezelfde interventie vergelijkbare effecten zullen hebben. In dit geval, een vergelijking tussen Schultz et al. (2007) en Allcott (2011) zien dat de Opower-experimenten een kleiner geschatte behandeld effect hadden dan de originele experimenten van Schultz en collega's (1,7% versus 5%). Allcott (2011) speculeerde dat de follow-up experimenten een kleiner effect hadden vanwege de manieren waarop de behandeling verschilde: een handgeschreven emoticon als onderdeel van een studie gesponsord door een universiteit, vergeleken met een gedrukte emoticon als onderdeel van een massaproductie rapport van een energiebedrijf.
Zie hoofdstuk 12 van Gerber and Green (2012) voor een uitstekend overzicht van de heterogeniteit van behandelingseffecten in veldexperimenten. Voor de inleiding tot heterogeniteit van behandeleffecten in medische onderzoeken, zie Kent and Hayward (2007) , Longford (1999) en Kravitz, Duan, and Braslow (2004) . Overwegingen van heterogeniteit van behandelingseffecten zijn over het algemeen gericht op verschillen op basis van kenmerken van vóór de behandeling. Als u geïnteresseerd bent in heterogeniteit op basis van de resultaten na de behandeling, dan zijn complexere benaderingen nodig, zoals hoofdstratificatie (Frangakis and Rubin 2002) ; zie Page et al. (2015) voor een beoordeling.
Veel onderzoekers schatten de heterogeniteit van de behandelingseffecten met behulp van lineaire regressie, maar nieuwere methoden zijn afhankelijk van machine learning; zie, bijvoorbeeld, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) Athey and Imbens (2016a) .
Er is enige scepsis over bevindingen van heterogeniteit van effecten vanwege meerdere vergelijkingsproblemen en 'vissen'. Er zijn verschillende statistische benaderingen die kunnen helpen zorgen over meerdere vergelijkingen weg te nemen (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Eén benadering van bezorgdheid over "vissen" is preregistratie, die steeds gebruikelijker wordt in de psychologie (Nosek and Lakens 2014) , politieke wetenschappen (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) en economie (Olken 2015) .
In de studie van Costa and Kahn (2013) slechts ongeveer de helft van de huishoudens in het experiment aan de demografische informatie worden gekoppeld. Lezers die geïnteresseerd zijn in deze details moeten verwijzen naar het originele artikel.
Mechanismen zijn ongelooflijk belangrijk, maar het blijkt heel moeilijk om te studeren. Onderzoek naar mechanismen hangt nauw samen met de studie van bemiddelaars in de psychologie (maar zie ook VanderWeele (2009) voor een nauwkeurige vergelijking tussen de twee ideeën). Statistische benaderingen voor het vinden van mechanismen, zoals de benadering die is ontwikkeld in Baron and Kenny (1986) , zijn tamelijk gewoon. Helaas bleken die procedures afhankelijk van een aantal sterke aannames (Bullock, Green, and Ha 2010) en lijden ze wanneer er meerdere mechanismen zijn, zoals je in veel situaties zou verwachten (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) en Imai and Yamamoto (2013) bieden enkele verbeterde statistische methoden. Verder biedt VanderWeele (2015) een boek-lengtebehandeling met een aantal belangrijke resultaten, waaronder een alomvattende benadering van gevoeligheidsanalyse.
Een aparte benadering richt zich op experimenten die proberen het mechanisme direct te manipuleren (bijv. Het geven van zeelieden vitamine C). Helaas zijn er in veel sociale wetenschappenomgevingen vaak meerdere mechanismen en het is moeilijk om behandelingen te ontwerpen die de ene veranderen zonder de andere te veranderen. Sommige benaderingen voor het experimenteel wijzigen van mechanismen worden beschreven door Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) en Pirlott and MacKinnon (2016) .
Onderzoekers die volledig faculteitiële experimenten uitvoeren, moeten zich zorgen maken over meerdere hypothesetests; zie Fink, McConnell, and Vollmer (2014) en List, Shaikh, and Xu (2016) voor meer informatie.
Ten slotte hebben mechanismen ook een lange geschiedenis in de wetenschapsfilosofie zoals beschreven door Hedström and Ylikoski (2010) .
Zie Pager (2007) voor meer informatie over het gebruik van correspondentiestudies en auditstudies om discriminatie te meten.
De meest gebruikelijke manier om deelnemers te werven voor experimenten die je bouwt, is Amazon Mechanical Turk (MTurk). Omdat MTurk aspecten van traditionele laboratoriumexperimenten nabootst - mensen betalen om taken te voltooien die ze niet gratis zouden doen - zijn veel onderzoekers al begonnen met het gebruik van Turkers (de werknemers op MTurk) als experimentele deelnemers, wat resulteert in snellere en goedkopere gegevensverzameling dan kan worden bereikt in traditionele laboratoriumexperimenten op de campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Over het algemeen zijn de grootste voordelen van het gebruik van deelnemers uit MTurk logistiek. Terwijl labexperimenten weken in beslag kunnen nemen en veldexperimenten maanden in beslag kunnen nemen, kunnen experimenten met deelnemers uit MTurk in dagen worden uitgevoerd. Berinsky, Huber, and Lenz (2012) konden bijvoorbeeld 400 proefpersonen op één dag rekruteren om deel te nemen aan een experiment van 8 minuten. Verder kunnen deze deelnemers worden gerekruteerd voor vrijwel elk doel (inclusief enquêtes en massale samenwerking, zoals besproken in hoofdstuk 3 en 5). Dit gemak van rekruteren betekent dat onderzoekers opeenvolgende opeenvolgende experimenten achter elkaar kunnen uitvoeren.
Voordat je deelnemers uit MTurk werven voor je eigen experimenten, zijn er vier belangrijke dingen die je moet weten. Ten eerste hebben veel onderzoekers een niet-specifieke scepsis van experimenten met Turkers. Omdat deze scepsis niet specifiek is, is het moeilijk om dit te weerleggen met bewijs. Na enkele jaren van studies met Turkers kunnen we nu echter concluderen dat deze scepsis niet bijzonder gerechtvaardigd is. Er zijn veel studies geweest die de demografie van Turkers vergeleken met die van andere populaties en veel studies die de resultaten van experimenten met Turkers vergelijken met die van andere populaties. Gezien al dit werk, denk ik dat de beste manier voor jou om erover na te denken is dat Turkers een redelijk gemaksmonster zijn, net zoals studenten, maar iets meer divers (Berinsky, Huber, and Lenz 2012) . Dus, net zoals studenten een redelijke populatie zijn voor sommige, maar niet voor alle, onderzoek, zijn Turkers een redelijke populatie voor sommige, maar niet voor alle, onderzoek. Als je met Turkers gaat werken, is het logisch om veel van deze vergelijkende studies te lezen en hun nuances te begrijpen.
Ten tweede hebben onderzoekers best practices ontwikkeld om de interne validiteit van MTurk-experimenten te vergroten, en je moet deze best-practices leren kennen en volgen (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Onderzoekers die Turkers gebruiken, worden bijvoorbeeld aangemoedigd screeners te gebruiken om niet- (Berinsky, Margolis, and Sances 2014, 2016) deelnemers te verwijderen (Berinsky, Margolis, and Sances 2014, 2016) (maar zie ook DJ Hauser and Schwarz (2015b) en DJ Hauser and Schwarz (2015a) ). Als u niet onoplettende deelnemers verwijdert, kan elk effect van de behandeling worden weggevaagd door het geluid dat zij veroorzaken, en in de praktijk kan het aantal onoplettende deelnemers aanzienlijk zijn. In het experiment van Huber en collega's (2012) mislukte ongeveer 30% van de deelnemers aan basisscreenscreeners. Andere problemen die vaak optreden bij het gebruik van Turkers zijn niet-naïeve deelnemers (Chandler et al. 2015) en natuurlijk verloop (Zhou and Fishbach 2016) .
Ten derde, in vergelijking met sommige andere vormen van digitale experimenten, kunnen experimenten met MTurk niet worden geschaald; Stewart et al. (2015) schatten dat er op enig moment slechts ongeveer 7.000 mensen op MTurk zijn.
Ten slotte zou je moeten weten dat MTurk een gemeenschap is met zijn eigen regels en normen (Mason and Suri 2012) . Op dezelfde manier als je zou proberen te weten te komen over de cultuur van een land waar je je experimenten zou uitvoeren, zou je moeten proberen meer te weten te komen over de cultuur en normen van Turkers (Salehi et al. 2015) . En je moet weten dat de Turkers het over je experiment hebben als je iets ongepasts of onethischs doet (Gray et al. 2016) .
MTurk is een ongelooflijk handige manier om deelnemers aan je experimenten te werven, of ze nu labachtig zijn, zoals die van Huber, Hill, and Lenz (2012) , of meer veldachtig, zoals die van Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) en Mao et al. (2016) .
Als u erover denkt om een eigen product te maken, raad ik u aan het advies te lezen dat de MovieLens-groep in Harper and Konstan (2015) . Een belangrijk inzicht uit hun ervaring is dat er voor elk succesvol project vele, vele mislukkingen zijn. De MovieLens-groep lanceerde bijvoorbeeld andere producten, zoals GopherAnswers, die complete mislukkingen waren (Harper and Konstan 2015) . Een ander voorbeeld van een onderzoeker die faalt bij het bouwen van een product is de poging van Edward Castronova om een online spel te bouwen met de naam Arden. Ondanks $ 250.000 aan financiering, was het project een flop (Baker 2008) . Projecten zoals GopherAnswers en Arden zijn helaas veel vaker voor dan projecten zoals MovieLens.
Ik heb gehoord dat het idee van Pasteur's Quadrant vaak werd besproken bij technologiebedrijven, en het helpt bij het organiseren van onderzoeksinspanningen bij Google (Spector, Norvig, and Petrov 2012) .
De studie van Bond en collega's (2012) probeert ook het effect van deze behandelingen op de vrienden van degenen die ze hebben ontvangen te detecteren. Vanwege het ontwerp van het experiment zijn deze spillovers moeilijk schoon te detecteren; geïnteresseerde lezers moeten Bond et al. (2012) voor een grondiger bespreking. Jones en collega's (2017) voerden ook een zeer vergelijkbaar experiment uit tijdens de verkiezingen van 2012. Deze experimenten maken deel uit van een lange traditie van experimenten in de politieke wetenschappen over inspanningen om stemmen te stimuleren (Green and Gerber 2015) . Deze experimenten om uit te gaan stemmen zijn gebruikelijk, deels omdat ze zich in het Pastor-kwadrant bevinden. Dat wil zeggen, er zijn veel mensen die gemotiveerd zijn om meer te stemmen en stemmen kan een interessant gedrag zijn om meer algemene theorieën over gedragsverandering en sociale invloed te testen.
Zie Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) en Gueron (2002) voor advies over Loewen, Rubenson, and Wantchekon (2010) met partnerorganisaties zoals politieke partijen, ngo's en bedrijven. Voor gedachten over hoe partnerschappen met organisaties van invloed kunnen zijn op onderzoeksontwerpen, zie King et al. (2007) en Green, Calfano, and Aronow (2014) . Partnerschap kan ook leiden tot ethische vragen, zoals besproken door Humphreys (2015) en Nickerson and Hyde (2016) .
Als u een analyseplan gaat maken voordat u uw experiment uitvoert, stel ik voor dat u begint met het lezen van rapportagerichtlijnen. De CONSORT (Consolidated Standard Reporting of Trials) -richtlijnen zijn ontwikkeld in de geneeskunde (Schulz et al. 2010) en aangepast voor sociaal onderzoek (Mayo-Wilson et al. 2013) . Een bijbehorende reeks richtlijnen is ontwikkeld door de redactie van het Journal of Experimental Political Science (Gerber et al. 2014) (zie ook Mutz and Pemantle (2015) en Gerber et al. (2015) ). Ten slotte zijn in de psychologie rapportagerichtlijnen ontwikkeld (APA Working Group 2008) en zie ook Simmons, Nelson, and Simonsohn (2011) .
Als u een analyseplan maakt, moet u overwegen om het vooraf te registreren omdat pre-registratie het vertrouwen dat anderen in uw resultaten hebben verhoogt. Verder, als u met een partner werkt, zal dit het vermogen van uw partner om de analyse te veranderen na het bekijken van de resultaten beperken. Pre-registratie wordt steeds gebruikelijker in de psychologie (Nosek and Lakens 2014) , politieke wetenschappen (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) en economie (Olken 2015) .
Ontwerpadvies specifiek voor online veldexperimenten wordt ook gepresenteerd in Konstan and Chen (2007) en Chen and Konstan (2015) .
Wat ik de armada-strategie heb genoemd, wordt ook wel programmatisch onderzoek genoemd ; zie Wilson, Aronson, and Carlsmith (2010) .
Zie Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) en Salganik (2007) voor meer informatie over de MusicLab-experimenten. Zie Frank and Cook (1996) voor meer informatie over markten waar alles wordt Frank and Cook (1996) . Zie Mauboussin (2012) , Watts (2012) en Frank (2016) voor meer informatie over het ontwarren van geluk en vaardigheid in het algemeen.
Er is nog een andere aanpak voor het elimineren van deelnemersbetalingen die onderzoekers met voorzichtigheid moeten gebruiken: dienstplicht. In veel online veldexperimenten worden deelnemers in principe opgeroepen tot experimenten en nooit gecompenseerd. Voorbeelden van deze aanpak zijn het experiment van Restivo en van de Rijt (2012) over beloningen in Wikipedia en Bond en het experiment van collega's (2012) over het aanmoedigen van mensen om te stemmen. Deze experimenten hebben niet echt geen variabele kosten, maar ze hebben geen variabele kosten voor onderzoekers . In dergelijke experimenten, zelfs als de kosten voor elke deelnemer extreem klein zijn, kunnen de totale kosten behoorlijk groot zijn. Onderzoekers die massale online experimenten uitvoeren, rechtvaardigen vaak het belang van kleine geschatte behandeleffecten door te stellen dat deze kleine effecten belangrijk kunnen worden wanneer ze op veel mensen worden toegepast. Hetzelfde geldt voor de kosten die onderzoekers aan deelnemers opleggen. Als uw experiment ervoor zorgt dat één miljoen mensen één minuut verspillen, is het experiment niet erg schadelijk voor een bepaalde persoon, maar in totaal is het bijna twee jaar verspild.
Een andere benadering om nul variabele kosten te betalen aan deelnemers is om een loterij te gebruiken, een benadering die ook is gebruikt in survey-onderzoek (Halpern et al. 2011) . Zie Toomim et al. (2011) Voor meer informatie over het ontwerpen van plezierige gebruikerservaringen Toomim et al. (2011) . Zie ( ??? ) voor meer informatie over het gebruik van bots om experimenten met nul-variabele kosten te maken.
De drie R's zoals oorspronkelijk voorgesteld door Russell and Burch (1959) zijn als volgt:
"Vervanging betekent dat de vervanging van bewuste levende hogere dieren van Insentient materiaal. Reductiemiddelen vermindering van het aantal dieren dat om informatie van een bepaald bedrag en precisie te verkrijgen. Verfijning: een afname in de incidentie of de ernst van onmenselijke procedures toegepast voor die dieren die nog moeten worden gebruikt. "
De drie R's die ik voorstel, prevaleren niet op de ethische principes beschreven in hoofdstuk 6. Het is veeleer een meer uitgewerkte versie van een van die principes - weldadigheid - specifiek in de setting van menselijke experimenten.
In termen van de eerste R ("vervanging"), vergelijkt het emotionele besmettingsexperiment (Kramer, Guillory, and Hancock 2014) en het natuurlijke experiment met emotionele besmetting (Lorenzo Coviello et al. 2014) enkele algemene lessen over de betrokken compromissen bij het overschakelen van experimenten naar natuurlijke experimenten (en andere benaderingen zoals het matchen van die poging tot het benaderen van experimenten in niet-experimentele gegevens, zie hoofdstuk 2). Naast de ethische voordelen biedt het overschakelen van experimenteel naar niet-experimenteel onderzoek onderzoekers ook de mogelijkheid om behandelingen te bestuderen die ze logistisch niet kunnen inzetten. Deze ethische en logistieke voordelen brengen echter kosten met zich mee. Met natuurlijke experimenten hebben onderzoekers minder controle over zaken als rekrutering van deelnemers, randomisatie en de aard van de behandeling. Een beperking van regenval als een behandeling is bijvoorbeeld dat het zowel de positiviteit verhoogt als de negativiteit verlaagt. In het experimentele onderzoek waren Kramer en zijn collega's echter in staat om positiviteit en negativiteit onafhankelijk aan te passen. De specifieke benadering gebruikt door Lorenzo Coviello et al. (2014) werd verder uitgewerkt door L. Coviello, Fowler, and Franceschetti (2014) . Voor een inleiding tot instrumentele variabelen, wat de benadering is die wordt gebruikt door Lorenzo Coviello et al. (2014) , zie Angrist and Pischke (2009) (minder formeel) of Angrist, Imbens, and Rubin (1996) (meer formeel). Voor een sceptische beoordeling van instrumentele variabelen, zie Deaton (2010) , en voor een inleiding tot instrumentele variabelen met zwakke instrumenten (regen is een zwak instrument), zie Murray (2006) . Meer in het algemeen is een goede introductie tot de natuurlijke experimenten gegeven door Dunning (2012) , terwijl Rosenbaum (2002) , ( ??? ) , en Shadish, Cook, and Campbell (2001) bieden een goede ideeën over het schatten van causale effecten zonder experimenten.
In termen van de tweede R ("verfijning"), zijn er wetenschappelijke en logistieke afwegingen bij het overwegen om het ontwerp van Emotionele Besmetting te veranderen van het blokkeren van berichten naar het stimuleren van berichten. Het kan bijvoorbeeld zijn dat de technische implementatie van de nieuwsfeed het aanzienlijk eenvoudiger maakt om een experiment uit te voeren waarbij posten worden geblokkeerd in plaats van een waarin ze worden gestimuleerd (merk op dat een experiment met blokkering van posten kan worden geïmplementeerd) als een laag bovenop het News Feed-systeem zonder dat het onderliggende systeem hoeft te worden gewijzigd). Wetenschappelijk gezien suggereerde de theorie waarop het experiment betrekking had echter niet duidelijk het ene ontwerp boven het andere. Helaas ben ik niet op de hoogte van substantieel voorafgaand onderzoek naar de relatieve voordelen van het blokkeren en stimuleren van inhoud in de nieuwsfeed. Ik heb ook niet veel onderzoek gedaan naar het verfijnen van behandelingen om ze minder schadelijk te maken; een uitzondering is B. Jones and Feamster (2015) , die de meting van internetcensuur overwegen (een onderwerp dat ik in hoofdstuk 6 bespreek in relatie tot de Encore-studie (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
In termen van de derde R ("verlaging") worden goede inleidingen op traditionele vermogensanalyse gegeven door Cohen (1988) (boek) en Cohen (1992) (artikel), terwijl Gelman and Carlin (2014) een enigszins ander perspectief bieden. Covariaten vóór de behandeling kunnen worden opgenomen in de ontwerp- en analysefase van experimenten; hoofdstuk 4 van Gerber and Green (2012) geeft een goede inleiding tot beide benaderingen en Casella (2008) biedt een meer diepgaande behandeling. Technieken die deze voorbehandelingsinformatie bij de randomisatie gebruiken, worden meestal geblokkeerde experimentele ontwerpen of gestratificeerde experimentele ontwerpen genoemd (de terminologie wordt niet consistent gebruikt in alle gemeenschappen); deze technieken zijn nauw verwant aan de gelaagde samplingtechnieken die worden besproken in hoofdstuk 3. Zie Higgins, Sävje, and Sekhon (2016) voor meer informatie over het gebruik van deze ontwerpen in enorme experimenten. Covariaten voorafgaand aan de behandeling kunnen ook in de analysefase worden opgenomen. McKenzie (2012) onderzoekt de verschillen-in-verschillen benadering van het analyseren van veldexperimenten in meer detail. Zie Carneiro, Lee, and Wilhelm (2016) voor meer informatie over de wisselwerking tussen verschillende benaderingen om de precisie in schattingen van behandelingseffecten te vergroten. Bij de beslissing of covariaten vóór de behandeling in de ontwerp- of analysefase (of beide) moeten worden opgenomen, zijn er ten slotte enkele factoren waarmee rekening moet worden gehouden. In een omgeving waar onderzoekers willen laten zien dat ze niet "vissen" (Humphreys, Sierra, and Windt 2013) , kan het nuttig zijn om covariabelen vóór de behandeling in de ontwerpfase te gebruiken (Higgins, Sävje, and Sekhon 2016) . In situaties waarin deelnemers sequentieel arriveren, met name online-veldexperimenten, kan het gebruik van voorbehandelingsinformatie in de ontwerpfase logistiek lastig zijn; zie bijvoorbeeld Xie and Aurisset (2016) .
Het is de moeite waard om een beetje intuïtie toe te voegen waarom een verschil-in-verschillen benadering zo veel effectiever kan zijn dan een verschil-in-middel-benadering. Veel online uitkomsten hebben een zeer grote variantie (zie bijvoorbeeld RA Lewis and Rao (2015) en Lamb et al. (2015) ) en zijn relatief stabiel in de tijd. In dit geval zal de veranderingsscore een aanzienlijk kleinere variantie hebben, waardoor het vermogen van de statistische test toeneemt. Een van de redenen dat deze benadering niet vaker wordt gebruikt, is dat het voorafgaand aan het digitale tijdperk niet gebruikelijk was om uitkomsten voor de behandeling te hebben. Een concretere manier om hierover na te denken, is door een experiment voor te stellen om te meten of een specifieke trainingsroutine gewichtsverlies veroorzaakt. Als u een verschil-in-middelen aanpak hanteert, zal uw schatting variabiliteit hebben die voortkomt uit de variabiliteit in gewichten in de populatie. Als u echter een verschil-in-verschillen aanpak toepast, wordt die van nature voorkomende variatie in gewichten verwijderd en kunt u gemakkelijker een verschil detecteren dat door de behandeling wordt veroorzaakt.
Uiteindelijk heb ik overwogen om een vierde R toe te voegen: "hergebruiken". Dat wil zeggen, als onderzoekers met meer experimentele gegevens komen dan dat ze hun oorspronkelijke onderzoeksvraag moeten beantwoorden, moeten ze de gegevens hergebruiken om nieuwe vragen te stellen. Stel je bijvoorbeeld eens voor dat Kramer en collega's een schatter met verschillen in verschillen hadden gebruikt en dat ze zelf meer gegevens hadden dan ze nodig hadden om hun onderzoeksvraag aan te pakken. In plaats van de gegevens niet volledig te gebruiken, hadden ze de grootte van het effect kunnen bestuderen als een functie van de emotionele expressie vóór de behandeling. Net als Schultz et al. (2007) vond dat het effect van de behandeling verschillend was voor lichte en zware gebruikers, misschien waren de effecten van de nieuwsfeed verschillend voor mensen die al de neiging hadden om blije (of verdrietige) berichten te posten. Herbestemming kan leiden tot "vissen" (Humphreys, Sierra, and Windt 2013) en "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , maar deze zijn grotendeels adresseerbaar met een combinatie van eerlijke rapportage (Simmons, Nelson, and Simonsohn 2011) , preregistratie (Humphreys, Sierra, and Windt 2013) en methoden voor het leren van machines die proberen overmatig passen te voorkomen.