Vrae oor oorsaaklikheid in sosiale navorsing is dikwels kompleks en ingewikkeld. Vir 'n grondliggende benadering tot oorsaaklikheid gebaseer op oorsaaklike grafieke, sien Pearl (2009) en sien Imbens and Rubin (2015) vir 'n grondliggende benadering gebaseer op potensiële uitkomste. Vir 'n vergelyking tussen hierdie twee benaderings, sien Morgan and Winship (2014) . Vir 'n formele benadering om 'n confounder te definieer, sien VanderWeele and Shpitser (2013) .
In hierdie hoofstuk het ek geskep wat lyk soos 'n blink lyn tussen ons vermoë om oorsaaklike ramings uit eksperimentele en nie-eksperiment data te maak. Ek dink egter dat die onderskeid in werklikheid meer vervaag is. Byvoorbeeld, almal aanvaar dat rook kanker veroorsaak, alhoewel geen gerandomiseerde beheerde eksperiment wat mense dwing om te rook ooit gedoen is nie. Vir uitstekende boeklengte-behandelings om oorsaaklike ramings uit nie-eksperimentele data te maak, sien Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) en Dunning (2012) .
Hoofstukke 1 en 2 van Freedman, Pisani, and Purves (2007) bied 'n duidelike inleiding tot die verskille tussen eksperimente, beheerde eksperimente en gerandomiseerde beheerde eksperimente.
Manzi (2012) bied 'n fassinerende en leesbare inleiding tot die filosofiese en statistiese onderbou van gerandomiseerde beheerde eksperimente. Dit bied ook interessante voorbeelde van die werklike wêreld van die eksperimentasie in besigheid. Issenberg (2012) bied 'n fassinerende inleiding tot die gebruik van eksperimentering in politieke veldtogte.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, en Athey and Imbens (2016b) bied goeie inleidings tot die statistiese aspekte van eksperimentele ontwerp en analise. Verder, daar is 'n uitstekende behandeling van die gebruik van eksperimente in baie verskillende velde: ekonomie (Bardsley et al. 2009) , Sosiologie (Willer and Walker 2007; Jackson and Cox 2013) , sielkunde (Aronson et al. 1989) , Politieke wetenskap (Morton and Williams 2010) , en die sosiale beleid (Glennerster and Takavarasha 2013) .
Die belangrikheid van deelnemende werwing (bv. Steekproefneming) word dikwels in die eksperimentele navorsing onderskat. As die effek van die behandeling egter heterogeen in die bevolking is, is monsterneming van kritieke belang. Longford (1999) maak hierdie punt duidelik wanneer hy advokate vir navorsers dink aan eksperimente as 'n bevolkingsopname met lukraak steekproefneming.
Ek het voorgestel dat daar 'n kontinuum tussen laboratorium- en veldeksperimente bestaan, en ander navorsers het meer gedetailleerde tipologieë voorgestel, veral dié wat die verskillende vorme van veld eksperimente skei (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
'N Aantal vraestelle het laboratorium- en veldeksperimente in abstrakte vergelyk (Falk and Heckman 2009; Cialdini 2009) en in terme van uitkomste van spesifieke eksperimente in die politieke wetenskap (Coppock and Green 2015) , ekonomie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , en sielkunde (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) bied 'n goeie navorsingsontwerp vir die vergelyking van resultate van laboratorium- en veldeksperimente. Parigi, Santana, and Cook (2017) beskryf hoe aanlynveld eksperimente sommige van die kenmerke van laboratorium- en veldeksperimente kan kombineer.
Bekommernisse oor deelnemers wat hul gedrag verander, omdat hulle weet dat hulle noukeurig waargeneem word, word soms eise-effekte genoem , en hulle is in sielkunde (Orne 1962) en ekonomie (Zizzo 2010) . Alhoewel dit meestal verband hou met lab eksperimente, kan dieselfde probleme ook probleme vir veld eksperimente veroorsaak. Trouens, eise-effekte word ook soms Hawthorne-effekte genoem , 'n term wat die bekende verlichtingseksperimente wat in 1924 by die Hawthorne Works van die Western Electric Company (Adair 1984; Levitt and List 2011) . Beide vraag-effekte en Hawthorne-effekte is nou verwant aan die idee van reaktiewe meting wat in hoofstuk 2 bespreek word (kyk ook Webb et al. (1966) ).
Veldeksperimente het 'n lang geskiedenis in ekonomie (Levitt and List 2009) , politieke wetenskap (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , sielkunde (Shadish 2002) en openbare beleid (Shadish and Cook 2009) . Een gebied van sosiale wetenskap waar veldeksperimente vinnig prominent geword het, is internasionale ontwikkeling. Vir 'n positiewe oorsig van daardie werk binne die ekonomie, sien Banerjee and Duflo (2009) , en vir 'n kritiese evaluering sien Deaton (2010) . Vir 'n oorsig van hierdie werk in die politieke wetenskap, sien Humphreys and Weinstein (2009) . Ten slotte word die etiese uitdagings wat uit (Humphreys 2015; Desposato 2016b) voortspruit, ondersoek in die konteks van die politieke wetenskap (Humphreys 2015; Desposato 2016b) en ontwikkelingsekonomie (Baele 2013) .
In hierdie afdeling het ek voorgestel dat voorbehandeling inligting gebruik kan word om die akkuraatheid van beraamde behandelingseffekte te verbeter, maar daar is 'n debat oor hierdie benadering; sien Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , en Bloniarz et al. (2016) vir meer inligting.
Ten slotte is daar twee ander tipes eksperimente uitgevoer deur sosiale wetenskaplikes wat nie netjies pas in die laboratoriumdimensie nie: opname eksperimente en sosiale eksperimente. Opname eksperimente is eksperimente met die gebruik van die infrastruktuur van bestaande opnames en vergelyk antwoorde op alternatiewe weergawes van dieselfde vrae (sommige opname eksperimente word in Hoofstuk 3 aangebied); Vir meer oor opname eksperimente sien Mutz (2011) . Sosiale eksperimente is eksperimente waar die behandeling 'n mate van sosiale beleid is wat slegs deur 'n regering geïmplementeer kan word. Sosiale eksperimente is nou verwant aan programevaluering. Vir meer oor beleidseksperimente, sien Heckman and Smith (1995) , Orr (1998) , en @ glennerster_running_2013.
Ek het gekies om op drie konsepte te konsentreer: geldigheid, heterogeniteit van behandelingseffekte en meganismes. Hierdie begrippe het verskillende name in verskillende velde. Byvoorbeeld, sielkundiges is geneig om verder as eenvoudige eksperimente te beweeg deur op mediators en moderators te fokus (Baron and Kenny 1986) . Die idee van bemiddelaars word gevang deur wat ek meganismes noem, en die idee van moderators word gevang deur wat ek eksterne geldigheid noem (bv. Sal die resultate van die eksperiment anders wees as dit in verskillende situasies uitgevoer word) en heterogeniteit van behandelingseffekte ( bv. is die gevolge groter vir sommige mense as vir ander).
Die eksperiment deur Schultz et al. (2007) toon hoe sosiale teorieë gebruik kan word om doeltreffende intervensies te ontwerp. Vir 'n meer algemene argument oor die rol van teorie in die ontwerp van effektiewe intervensies, sien Walton (2014) .
Die konsepte van interne en eksterne geldigheid is voorgestel deur Campbell (1957) . Sien Shadish, Cook, and Campbell (2001) vir 'n meer gedetailleerde geskiedenis en 'n noukeurige uitwerking van statistiese gevolgtrekkingsgeldigheid, interne geldigheid, konstruksiegeldigheid en eksterne geldigheid.
Vir 'n oorsig van kwessies rakende statistiese gevolgtrekkingsgeldigheid in eksperimente, sien Gerber and Green (2012) (vanuit 'n sosiale wetenskapperspektief) en Imbens and Rubin (2015) (vanuit 'n statistiese perspektief). Sommige kwessies van statistiese gevolgtrekkingsgeldigheid wat spesifiek in aanlynveldeksperimente voorkom, sluit in kwessies soos computergebaseerde metodes om vertrouensintervalle met afhanklike data te skep (Bakshy and Eckles 2013) .
Interne geldigheid kan moeilik wees om te verseker in komplekse veld eksperimente. Sien byvoorbeeld Gerber and Green (2000) , Imai (2005) , en Gerber and Green (2005) vir debat oor die implementering van 'n komplekse veldeksperiment oor stem. Kohavi et al. (2012) en Kohavi et al. (2013) bied 'n inleiding tot die uitdagings van intervalgeldigheid in aanlynveldeksperimente.
Een groot bedreiging vir interne geldigheid is die moontlikheid van mislukte randomisering. Een moontlike manier om probleme met die randomisering op te spoor, is om die behandelings- en beheergroepe op waarneembare eienskappe te vergelyk. Hierdie soort vergelyking word 'n balansstaat genoem. Sien Hansen and Bowers (2008) vir 'n statistiese benadering om Mutz and Pemantle (2015) en Mutz and Pemantle (2015) te balanseer vir kommer oor balanskontrole. Byvoorbeeld, met behulp van 'n saldo-kontrole, het Allcott (2011) bewyse gevind dat randomisering nie korrek geïmplementeer is in drie van die Opower-eksperimente nie (sien tabel 2, webwerwe 2, 6 en 8). Vir ander benaderings, sien hoofstuk 21 van Imbens and Rubin (2015) .
Ander belangrike bekommernisse wat verband hou met interne geldigheid is: (1) eensydige nie-nakoming, waar nie almal in die behandelingsgroep werklik die behandeling ontvang het nie; (2) tweeledige nie-nakoming, waar nie almal in die behandelingsgroep die behandeling ontvang nie en sommige mense in die kontrolegroep ontvang die behandeling, (3) afloop, waar uitkomste nie vir sommige deelnemers gemeet word nie, en (4) inmenging, waar die behandeling oorval van mense in die behandelingstoestand aan mense in die kontrole toestand. Sien hoofstukke 5, 6, 7 en 8 van Gerber and Green (2012) vir meer oor elk van hierdie probleme.
Vir meer inligting oor die konstruksiegeldigheid, sien Westen and Rosenthal (2003) , en vir meer oor die konstruksie van geldigheid in groot databronne, Lazer (2015) en hoofstuk 2 van hierdie boek.
Een aspek van eksterne geldigheid is die instelling waarin 'n intervensie getoets word. Allcott (2015) bied 'n deeglike teoretiese en empiriese behandeling van die voorkeure vir die seleksie van persele. Hierdie kwessie word ook deur Deaton (2010) . Nog 'n aspek van eksterne geldigheid is of alternatiewe operasionalisasies van dieselfde ingryping soortgelyke effekte sal hê. In hierdie geval is 'n vergelyking tussen Schultz et al. (2007) en Allcott (2011) toon dat die Opower-eksperimente 'n kleiner beraamde behandelde effek gehad het as die oorspronklike eksperimente van Schultz en kollegas (1,7% teenoor 5%). Allcott (2011) gespekuleer dat die opvolg-eksperimente 'n kleiner effek gehad het as gevolg van die maniere waarop die behandeling verskil: 'n handgeskrewe emosie as deel van 'n studie geborg deur 'n universiteit, in vergelyking met 'n gedrukte emoticon as deel van 'n massaproduksie verslag van 'n kragmaatskappy.
Vir 'n uitstekende oorsig van heterogeniteit van behandelingseffekte in veldeksperimente, sien hoofstuk 12 van Gerber and Green (2012) . Vir inleidings tot heterogeniteit van behandelingseffekte in mediese proewe, sien Kent and Hayward (2007) , Longford (1999) , en Kravitz, Duan, and Braslow (2004) . Oorwegings van heterogeniteit van behandelingseffekte fokus oor die algemeen op verskille gebaseer op voorbehandelingseienskappe. As jy belangstel in heterogeniteit gebaseer op na-behandelingsuitkomste, dan is meer komplekse benaderings nodig, soos hoofstratifikasie (Frangakis and Rubin 2002) ; sien Page et al. (2015) vir 'n resensie.
Baie navorsers skat die heterogeniteit van behandelingseffekte deur lineêre regressie te gebruik, maar nuwer metodes maak staat op masjienleer; sien byvoorbeeld Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , en Athey and Imbens (2016a) .
Daar is 'n mate van skeptisisme oor bevindings van heterogeniteit van effekte as gevolg van veelvuldige vergelyking probleme en "visvang." Daar is 'n verskeidenheid statistiese benaderings wat kan help om kommer oor verskeie vergelyking aan te spreek (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Een benadering tot kommer oor "visvang" is voorafregistrasie, wat toenemend algemeen in die sielkunde (Nosek and Lakens 2014) , politieke wetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , en ekonomie (Olken 2015) .
In die studie deur Costa and Kahn (2013) slegs ongeveer die helfte van die huishoudings in die eksperiment aan die demografiese inligting gekoppel word. Lesers wat belangstel in hierdie inligting, moet na die oorspronklike vraestel verwys.
Meganismes is ongelooflik belangrik, maar dit blyk baie moeilik om te studeer. Navorsing oor meganismes is nou verwant aan die studie van bemiddelaars in die sielkunde (maar sien ook VanderWeele (2009) vir 'n presiese vergelyking tussen die twee idees). Statistiese benaderings tot die vind van meganismes, soos die benadering wat in Baron and Kenny (1986) , is baie algemeen. Ongelukkig blyk dit dat hierdie prosedures afhanklik is van sterk aannames (Bullock, Green, and Ha 2010) en ly as daar verskeie meganismes is, soos in baie situasies (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) en Imai and Yamamoto (2013) bied 'n paar verbeterde statistiese metodes. Verder bied VanderWeele (2015) 'n VanderWeele (2015) met 'n aantal belangrike resultate, insluitend 'n omvattende benadering tot sensitiwiteitsanalise.
'N Afsonderlike benadering fokus op eksperimente wat poog om die meganisme direk te manipuleer (bv. Om matrose C aan matrose te gee). Ongelukkig is daar in baie sosiale wetenskap instellings dikwels verskeie meganismes en is dit moeilik om behandelings te ontwerp wat een verander sonder om die ander te verander. Sommige benaderings tot eksperimenteel veranderende meganismes word beskryf deur Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , en Pirlott and MacKinnon (2016) .
Navorsers wat volle faktoriale eksperimente uitvoer, moet bekommerd wees oor meervoudige hipotesetoetsing; sien Fink, McConnell, and Vollmer (2014) en List, Shaikh, and Xu (2016) vir meer inligting.
Ten slotte het meganismes ook 'n lang geskiedenis in die wetenskapsfilosofie soos beskryf deur Hedström and Ylikoski (2010) .
Vir meer inligting oor die gebruik van korrespondensie studies en ouditstudies om diskriminasie te meet, sien Pager (2007) .
Die mees algemene manier om deelnemers te werf op eksperimente wat jy bou, is Amazon Mechanical Turk (MTurk). Omdat MTurk aspekte van tradisionele laboratorium-eksperimente naboots, om mense te betaal om take te voltooi wat hulle nie gratis sou doen nie, het baie navorsers reeds Turkyeers (die werkers op MTurk) as eksperimentele deelnemers gebruik, wat vinniger en goedkoper data-insameling tot gevolg het as wat bereik kan word. in tradisionele op-kampus laboratorium eksperimente (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Oor die algemeen is die grootste voordele van die gebruik van deelnemers wat deur MTurk gewerf is, logistiek. Terwyl laboratorium-eksperimente weke kan neem om te hardloop en veld eksperimente kan maande neem om op te stel, kan eksperimente met deelnemers wat van MTurk gewerf word, in dae verloop. Byvoorbeeld, Berinsky, Huber, and Lenz (2012) was in staat om 400 vakke in 'n enkele dag te werf om deel te neem aan 'n 8-minuut-eksperiment. Verder kan hierdie deelnemers vir feitlik enige doel aangewend word (insluitende opnames en massamewerking, soos bespreek in hoofstukke 3 en 5). Hierdie werwingsgemak beteken dat navorsers in 'n vinnige opeenvolging rye van verwante eksperimente kan uitvoer.
Voordat u deelnemers van MTurk vir u eie eksperimente werf, is daar vier belangrike dinge wat u moet weet. Eerstens het baie navorsers nonspesifieke skeptisisme van eksperimente met betrekking tot Turkye. Omdat hierdie skeptisisme nie spesifiek is nie, is dit moeilik om met getuienis teen te gaan. Na verskeie jare van studie met Turkye kan ons egter tot die gevolgtrekking kom dat hierdie skeptisisme nie besonder geregverdig is nie. Daar was baie studies wat die demografie van Turkare vergelyk met dié van ander bevolkings en baie studies wat die resultate van eksperimente met Turkense vergelyk het met dié van ander bevolkings. Gegewe al hierdie werk, dink ek dat die beste manier vir jou om daaraan te dink, is dat Turkye 'n redelike geriefsmonster is, soos studente, maar effens meer divers (Berinsky, Huber, and Lenz 2012) . So, net soos studente 'n redelike bevolking is vir sommige, maar nie alle navorsing nie, is Turkye 'n redelike bevolking vir sommige, maar nie alle, navorsing nie. As jy met Turkers gaan werk, is dit sinvol om baie van hierdie vergelykende studies te lees en hul nuanses te verstaan.
Tweedens, navorsers het beste praktyke ontwikkel om die interne geldigheid van MTurk-eksperimente te verhoog, en jy moet leer oor en volg hierdie beste praktyke (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Byvoorbeeld, navorsers wat Turkye gebruik, word aangemoedig om sangers te gebruik om onoplettende deelnemers (Berinsky, Margolis, and Sances 2014, 2016) (maar sien ook DJ Hauser and Schwarz (2015b) en DJ Hauser and Schwarz (2015a) ). As u nie onoplettende deelnemers verwyder nie, kan enige effek van die behandeling uitgewis word deur die geraas wat hulle bekendstel, en in die praktyk kan die aantal onoplettende deelnemers aansienlik wees. In die eksperiment deur Huber en kollegas (2012) het sowat 30% van die deelnemers die basiese aandagskermers misluk. Ander probleme wat algemeen voorkom wanneer Turkye gebruik word, is nie-naïef deelnemers (Chandler et al. 2015) en afloop (Zhou and Fishbach 2016) .
Derde, in verhouding tot sommige ander vorme van digitale eksperimente, kan MTurk-eksperimente nie skaal nie; Stewart et al. (2015) beraam dat daar op enige gegewe tydstip net sowat 7 000 mense op MTurk is.
Ten slotte moet jy weet dat MTurk 'n gemeenskap is met sy eie reëls en norme (Mason and Suri 2012) . Op dieselfde manier as wat jy sou probeer om uit te vind oor die kultuur van 'n land waar jy jou eksperimente sou voer, moet jy meer uitvind oor die kultuur en norme van Turkye (Salehi et al. 2015) . En jy moet weet dat die Turkere oor jou eksperiment sal praat as jy iets onvanpas of oneties doen (Gray et al. 2016) .
MTurk is 'n ongelooflike maklike manier om deelnemers aan jou eksperimente te werf, of hulle lab-agtig is, soos dié van Huber, Hill, and Lenz (2012) , of meer veldagtig, soos dié van Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , en Mao et al. (2016) .
As jy probeer om jou eie produk te skep, beveel ek aan dat jy die advies wat deur die MovieLens-groep in Harper and Konstan (2015) . 'N belangrike insig van hul ervaring is dat vir elke suksesvolle projek is daar baie, baie mislukkings. Byvoorbeeld, die MovieLens-groep het ander produkte, soos GopherAnswers, geloods, dit was volledige mislukkings (Harper and Konstan 2015) . Nog 'n voorbeeld van 'n navorser wat misluk terwyl hy probeer om 'n produk te bou, is Edward Castronova se poging om 'n aanlyn spel genaamd Arden te bou. Ten spyte van $ 250,000 in befondsing, was die projek 'n flop (Baker 2008) . Projekte soos GopherAnswers en Arden is ongelukkig veel meer algemeen as projekte soos MovieLens.
Ek het die idee van Pasteur se kwadrant dikwels by tegnologie-maatskappye gehoor, en dit help om navorsingspogings by Google te organiseer (Spector, Norvig, and Petrov 2012) .
Bond en kollegas se studie (2012) poog ook om die effek van hierdie behandelings op die vriende van diegene wat hulle ontvang het, te bepaal. As gevolg van die ontwerp van die eksperiment, is dit moeilik om skoon te maak. Belangstellendes moet Bond et al. (2012) vir 'n deeglike bespreking. Jones en kollegas (2017) ook tydens die 2012-verkiesing 'n baie soortgelyke eksperiment uitgevoer. Hierdie eksperimente is deel van 'n lang tradisie van politieke wetenskaplike eksperimente oor pogings om aan te moedig om te stem (Green and Gerber 2015) . Hierdie uitkyk-eksperimente is algemeen, deels omdat hulle in Pasteur se Kwadrant is. Dit wil sê, daar is baie mense wat gemotiveer word om stemme te styg en te stem, kan 'n interessante gedrag wees om meer algemene teorieë oor gedragsverandering en sosiale invloed te toets.
Vir advies oor die uitvoer van veld eksperimente met vennoot organisasies soos politieke partye, NGO's en besighede, sien Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) en Gueron (2002) . Vir gedagtes oor hoe vennootskappe met organisasies navorsingsontwerpe kan beïnvloed, kyk King et al. (2007) en Green, Calfano, and Aronow (2014) . Vennootskap kan ook lei tot etiese vrae, soos bespreek deur Humphreys (2015) en Nickerson and Hyde (2016) .
As jy 'n analise plan maak voordat jy jou eksperiment uitvoer, stel ek voor dat jy begin met die lees van verslagdoening riglyne. Die konsortium (Konsolidated Standard Reporting of Trials) riglyne is in medisyne ontwikkel (Schulz et al. 2010) en aangepas vir sosiale navorsing (Mayo-Wilson et al. 2013) . 'N Verwante stel riglyne is ontwikkel deur die redakteurs van die Journal of Experimental Political Science (Gerber et al. 2014) (sien ook Mutz and Pemantle (2015) en Gerber et al. (2015) ). Laastens is die verslagdoeningsriglyne in die sielkunde (APA Working Group 2008) , en sien ook Simmons, Nelson, and Simonsohn (2011) .
As jy 'n analise plan maak, moet jy dit oorweeg om dit vooraf te registreer, aangesien voorafregistrasie die vertroue wat ander in jou resultate het, sal verhoog. Verder, as jy met 'n vennoot werk, sal dit jou maat se vermoë beperk om die analise te verander na die resultate te sien. Voorregistrasie word toenemend algemeen in die sielkunde (Nosek and Lakens 2014) , politieke wetenskap (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) en ekonomie (Olken 2015) .
Ontwerp advies spesifiek vir aanlyn veld eksperimente word ook aangebied in Konstan and Chen (2007) en Chen and Konstan (2015) .
Wat ek die armada-strategie genoem het, word soms programmatiese navorsing genoem . sien Wilson, Aronson, and Carlsmith (2010) .
Vir meer oor die MusicLab-eksperimente, sien Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) en Salganik (2007) . Vir meer oor wenner-neem-alle markte, sien Frank and Cook (1996) . Vir meer inligting oor die onophoudelike geluk en vaardigheid in die algemeen, sien Mauboussin (2012) , Watts (2012) en Frank (2016) .
Daar is nog 'n benadering om deelnemende betalings uit te skakel wat navorsers met omsigtigheid moet gebruik: opdrag. In baie aanlynveld eksperimente word deelnemers basies in eksperimente opgestel en word nooit vergoed nie. Voorbeelde van hierdie benadering sluit in Restivo en Van de Rijt se (2012) eksperiment op belonings in Wikipedia en Bond en kollega (2012) eksperiment om mense aan te moedig om te stem. Hierdie eksperimente het nie werklik nul veranderlike koste nie, maar hulle het nul veranderlike koste vir navorsers . In sulke eksperimente, selfs al is die koste vir elke deelnemer uiters klein, kan die totale koste redelik groot wees. Navorsers wat massiewe aanlyn eksperimente voer, regverdig dikwels die belangrikheid van klein beraamde behandelingseffekte deur te sê dat hierdie klein effekte belangrik kan word wanneer dit op baie mense toegepas word. Dieselfde denke is van toepassing op die koste wat navorsers op deelnemers oplê. As jou eksperiment een miljoen mense veroorsaak om een minuut te mors, is die eksperiment nie baie skadelik vir enige spesifieke persoon nie, maar in die algemeen is dit amper twee jaar lank vermors.
Nog 'n benadering tot die skep van nul veranderlike koste betaal aan deelnemers is om 'n lotto te gebruik, 'n benadering wat ook gebruik is in opname navorsing (Halpern et al. 2011) . Vir meer inligting oor die ontwerp van aangename gebruikerservarings, kyk Toomim et al. (2011) . Vir meer inligting oor die gebruik van bots om nul veranderlike koste eksperimente te skep sien ( ??? ) .
Die drie R's soos oorspronklik deur Russell and Burch (1959) is soos volg:
"Vervanging beteken die vervanging van bewuste lewende hoër diere van bezield materiaal. Vermindering beteken vermindering in die getalle van diere wat gebruik word om inligting van 'n gegewe hoeveelheid en presisie te verkry. Verfyning enige afname in die voorkoms of erns van onmenslike prosedures toegepas op die diere wat nog moet word. "
Die drie R's wat ek voorstel, ignoreer nie die etiese beginsels wat in hoofstuk 6 beskryf word nie. Inteendeel, hulle is 'n meer uitgebreide weergawe een van daardie beginsels-voordeel-spesifiek in die opstel van menslike eksperimente.
In terme van die eerste R ("vervanging"), bied die vergelyking van die emosionele besmettingseksperiment (Kramer, Guillory, and Hancock 2014) en die natuurlike eksperiment van die emosionele besmetting (Lorenzo Coviello et al. 2014) enkele algemene lesse oor die betrokke afwykings. In die verskuiwing van eksperimente na natuurlike eksperimente (en ander benaderings soos wat gepoog word om eksperimente in nie-eksperimentele data aan te pas, kyk hoofstuk 2). Benewens die etiese voordele, stel dit ook die navorsers in staat om behandelings te ondersoek wat hulle logisties nie kan gebruik om van eksperimentele na nie-eksperimentele studies oor te skakel nie. Hierdie etiese en logistieke voordele kom egter teen 'n koste. Met natuurlike eksperimente het navorsers minder beheer oor dinge soos werwing van deelnemers, randomisering en die aard van die behandeling. Byvoorbeeld, een beperking van reënval as behandeling is dat dit beide positiwiteit verhoog en negatiwiteit verminder. In die eksperimentele studie was Kramer en kollegas egter selfstandig om positiwiteit en negatiwiteit aan te pas. Die besondere benadering wat gebruik word deur Lorenzo Coviello et al. (2014) is verder uitgewerk deur L. Coviello, Fowler, and Franceschetti (2014) . Vir 'n inleiding tot instrumentale veranderlikes, wat is die benadering wat gebruik word deur Lorenzo Coviello et al. (2014) , sien Angrist and Pischke (2009) (minder formele) of Angrist, Imbens, and Rubin (1996) (meer formele). Vir 'n skeptiese beoordeling van instrumentale veranderlikes, sien Deaton (2010) , en vir 'n inleiding tot instrumentale veranderlikes met swak instrumente (reën is 'n swak instrument), sien Murray (2006) . Meer algemeen is 'n goeie inleiding tot natuurlike eksperimente deur Dunning (2012) , terwyl Rosenbaum (2002) , ( ??? ) en Shadish, Cook, and Campbell (2001) goeie idees bied oor die raming van oorsaaklike effekte sonder eksperimente.
In terme van die tweede R ("verfyning"), is daar wetenskaplike en logistieke afwykings as dit oorweeg word om die ontwerp van emosionele besmetting te verander van blokkeerposte om poste te bevorder. Byvoorbeeld, dit kan die geval wees dat die tegniese implementering van die Nuusvoer dit aansienlik makliker maak om 'n eksperiment te doen waarin boodskappe geblokkeer word eerder as een waarin hulle versterk word. Let daarop dat 'n eksperiment met blokkeer van poste geïmplementeer kan word. as 'n laag bo-op die News Feed-stelsel sonder enige veranderinge van die onderliggende stelsel). Wetenskaplik, egter, het die teorie wat deur die eksperiment aangespreek is, nie een ontwerp oor die ander duidelik voorgestel nie. Ongelukkig is ek nie bewus van aansienlike vorige navorsing oor die relatiewe verdienste van die blokkering en bevordering van inhoud in die Nuusvoer nie. Ook, ek het nie baie navorsing oor die verfyn van behandelings gesien om hulle minder skadelik te maak nie; Een uitsondering is B. Jones and Feamster (2015) , wat die geval van meting van internet sensuur oorweeg ('n onderwerp wat ek in hoofstuk 6 bespreek in verband met die Encore-studie (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
In terme van die derde R ("vermindering") word goeie inleidings tot tradisionele kraganalise gegee deur Cohen (1988) (boek) en Cohen (1992) (artikel), terwyl Gelman and Carlin (2014) 'n effens ander perspektief bied. Voorbehandeling kovariate kan ingesluit word in die ontwerp en analise stadium van eksperimente; Hoofstuk 4 van Gerber and Green (2012) bied 'n goeie inleiding tot beide benaderings, en Casella (2008) bied 'n meer in-diepte behandeling. Tegnieke wat hierdie voorbehandelingsinligting in die randomisering gebruik, word tipies óf geblokkeerde eksperimentele ontwerpe of gestratifiseerde eksperimentele ontwerpe (die terminologie word nie konsekwent oor gemeenskappe gebruik nie); Hierdie tegnieke hou nou verband met die gestratifiseerde monsternemingstegnieke wat in hoofstuk 3 bespreek is. Sien Higgins, Sävje, and Sekhon (2016) vir meer oor die gebruik van hierdie ontwerpe in massiewe eksperimente. Voorbehandelingskovariate kan ook in die analise stadium ingesluit word. McKenzie (2012) ondersoek die verskil-in-verskille benadering om veld eksperimente meer in detail te ontleed. Sien Carneiro, Lee, and Wilhelm (2016) vir meer oor die afwegings tussen verskillende benaderings om presisie te verhoog in die raming van behandelingseffekte. Ten slotte, wanneer daar besluit word om voorbehandelingskovariate by die ontwerp- of analise stadium (of albei) in te sluit, is daar 'n paar faktore om te oorweeg. In 'n omgewing waar navorsers wil wys dat hulle nie "visvang" is nie (Humphreys, Sierra, and Windt 2013) , kan die gebruik van voorafbehandelingskovariate in die ontwerpstadium nuttig wees (Higgins, Sävje, and Sekhon 2016) . In situasies waar deelnemers opeenvolgend kom, veral aanlynveld eksperimente, kan die gebruik van voorbehandelde inligting in die ontwerp stadium moeilik logisties wees; sien byvoorbeeld Xie and Aurisset (2016) .
Dit is die moeite werd om 'n bietjie intuïsie by te voeg oor waarom 'n verskil-in-verskille benadering soveel meer effektief kan wees as 'n verskil-in-middel-een. Baie aanlyn-uitkomste het 'n baie hoë variansie (sien bv. RA Lewis and Rao (2015) en Lamb et al. (2015) ) en is relatief stabiel oor tyd. In hierdie geval sal die wisselkoers aansienlik kleiner afwyking hê, wat die krag van die statistiese toets verhoog. Een rede waarom hierdie benadering nie meer gebruik word nie, is dat dit voor die digitale ouderdom nie algemeen was om vooraf behandelingsuitkomste te hê nie. 'N meer konkrete manier om hieraan te dink, is om 'n eksperiment te verbeel om te meet of 'n spesifieke oefenroetine gewigsverlies veroorsaak. As jy 'n verskil-in-middel benadering aanneem, sal jou skatting veranderlikheid hê wat voortspruit uit die veranderlikheid in gewigte in die bevolking. As jy egter 'n verskil-in-verskille benadering maak, word die natuurlike variasie in gewigte verwyder, en jy kan makliker 'n verskil wat deur die behandeling veroorsaak word, opspoor.
Ten slotte, ek het oorweeg om 'n vierde R: "repurpose" by te voeg. Dit is, as navorsers hulself met meer eksperimentele data as wat hulle nodig het om hul oorspronklike navorsingsvraag aan te spreek, moet hulle die data heroorweeg om nuwe vrae te stel. Verbeel jou byvoorbeeld dat Kramer en kollegas 'n verskil-in-verskille-beramer gebruik het en hulself met meer data as wat hulle nodig gehad het om hul navorsingsvraag aan te spreek. Eerder as om die data nie ten volle te gebruik nie, kon hulle die grootte van die effek bestudeer het as 'n funksie van emosionele uitdrukking wat vooraf behandel word. Net soos Schultz et al. (2007) bevind dat die effek van die behandeling anders was vir ligte en swaar gebruikers. Miskien was die uitwerking van die Nuusvoer verskil vir mense wat reeds geneig was om gelukkige boodskappe te stuur. Repurposing kan lei tot "visvang" (Humphreys, Sierra, and Windt 2013) en "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , maar dit is hoofsaaklik aanspreeklik met 'n kombinasie van eerlike verslagdoening (Simmons, Nelson, and Simonsohn 2011) , voorregistrasie (Humphreys, Sierra, and Windt 2013) , en masjienleermetodes wat probeer om oor-passing te vermy.