Fragen oer kausaliteiten yn sosjale ûndersyksjes binne faak komplekse en komplisearre. Foar in fûnemintale oanpak nei kausaliteel basearre op kausaal grafiken, sjoch Pearl (2009) , en foar in Imbens and Rubin (2015) op grûn fan potensjele útkomsten, sjoch Imbens and Rubin (2015) . Foar in fergeliking tusken dizze twa oanwizen, sjoch Morgan and Winship (2014) . Foar in formele oanpak om in ferfanger te beskieden, sjoch VanderWeele and Shpitser (2013) .
Yn dit haadstik haw ik krekt makke as in ljochte line tusken ús fermogen om kausale skatten út eksperiminteel en net eksperimintedaten te meitsjen. Ik tocht, dat, yn 'e realiteit, is de ûnderskieding mear bliuw. Bygelyks, elkenien akseptearret dat it smoken feroarsaket fan kanker, alhoewol't gjin randomisearre kontrolearre eksperimintearjen dy't minsken om te reitsjen is ea dien. Foar geweldige booklange behanneling oer it meitsjen fan kausale skatten út net-eksperimintale data sjoch Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , en Dunning (2012) .
De haadstikken 1 en 2 fan Freedman, Pisani, and Purves (2007) biede in dúdlike yntroduksje oan de ferskillen tusken eksperiminten, kontrolearre eksperiminten en randomisearre kontrolearre eksperiminten.
Manzi (2012) jout in fassinearjende en lêsbere yntroduksje oan 'e filosofyske en statistyske ûnderpinnings fan randomisearre kontrolearre eksperiminten. It jout ek nijsgjirrige echte wrâldbylden foar de krêft fan eksperimintearring yn bedriuw. Issenberg (2012) biedt in fassinearjende ynlieding foar it brûken fan eksperimintearring yn politike kampanjes.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 Athey and Imbens (2016b) jouwe goede ynliedingen oan de statistyske aspekten fan eksperiminteel ûntwerp en analyze. Fierder binne der treflike behannelings fan it brûken fan eksperiminten yn in protte ferskillende fjilden: ekonomyske wittenskippen (Bardsley et al. 2009) , sosjology (Willer and Walker 2007; Jackson and Cox 2013) , psychology (Aronson et al. 1989) , politike wittenskippen (Morton and Williams 2010) , en sosjale belied (Glennerster and Takavarasha 2013) .
It belang fan partisipaasje fan weryndieling (bgl. Sampling) wurdt faak ûnder wurdearre yn eksperiminteel ûndersyk. As de effekt fan 'e behanneling lykwols heterogeneus is yn' e befolking, dan is sampling kritysk. Longford (1999) makket dit punt dúdlik as hy advokatearret foar ûndersikers dy't tinke oan eksperiminten as befolkingsûndersyk mei hapazard-sampling.
Ik haw oanreitsje dat der in kontinuïte is tusken laboratoarium en fjildeksperimint, en oare ûndersikers hawwe mear detaillearre typologyen foarsteld, benammen dy 't de ferskate foarmen fan fjilden eksperiminten ûnderskiede (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
In oantal papieren hawwe fergelike mei laboratoarium en fjild eksperiminten yn 'e abstrakte (Falk and Heckman 2009; Cialdini 2009) en as (Falk and Heckman 2009; Cialdini 2009) fan resultaten fan spesifike eksperiminten yn' e politike wittenskip (Coppock and Green 2015) , ekonomy (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , en psychology (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) biede in moai ûndersyksûntwerp foar fergeliking fan resultaten út laboratoarium en fjildekseksjes. Parigi, Santana, and Cook (2017) beskriuwe hoe't onlinefjilden eksperiminten inkele fan de skaaimerken fan laboratoarium en fjild eksperiminten kombinearje kinne.
Belang oer dielnimmers dy't har gedrach feroaret, om't se witte dat se bepaald wurde, wurde soms neamde fragen effekten neamd , en se binne studearre yn psychology (Orne 1962) en ekonomy (Zizzo 2010) . Hoewol it meast te kombinearjen mei laboratoarekseksamen, kinne deselde problemen problemen foar fjildekseksjes ek opliede. In feitefolle effekten wurde ek wol Hawthorne-effekten neamd , in term dy't de ferneamde illuminaasje eksperiminten ûntkomt dy't begjint yn 1924 by de Hawthorne Works fan 'e Western Electric Company (Adair 1984; Levitt and List 2011) . Beide fraach effekten en Hawthorne-effekten binne nau ferbûn mei it idee fan reaktive mjittingen dy't besprutsen binne yn haadstik 2 (sjoch ek Webb et al. (1966) ).
Fjittekseksjes hawwe in lange skiednis yn 'e ekonomy (Levitt and List 2009) , politike wittenskip (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychology (Shadish 2002) en publike belied (Shadish and Cook 2009) . Ien gebiet fan 'e sosjale wittenskip dêr't fiskers eksperiminten gau promininte wurde binne ynternasjonale ûntwikkeling. Foar in positive reaksje fan dat wurk yn 'e ekonomy sjogge Banerjee and Duflo (2009) , en foar in krityske evaluaasje sjoch Deaton (2010) . Foar in resinsje fan dit wurk yn politike wittenskip sjogge Humphreys and Weinstein (2009) . Uteinlik wurde de etale útdagingen ûntstean út (Humphreys 2015; Desposato 2016b) yn 'e kontekst fan' e politike wittenskip (Humphreys 2015; Desposato 2016b) en ûntwikkeling economics (Baele 2013) .
Yn dit paragraaf haw ik suggereard dat foar foarbehandeling ynformaasje gebrûk makke wurde kinne om de kreftens fan beskerme behannelingseffekten te ferbetterjen, mar der is wat debat oer dizze oanpak; See Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , en Bloniarz et al. (2016) foar mear ynformaasje.
Uteinlik binne der twa oare soarten eksperiminten útfierd troch sosjale wittenskippers dy't net passeare by de lab-fjildmjittings passe: ûndersyksekspesjes en sosjale eksperiminten. Untfangende eksperiminten binne eksperiminten dy't de ynfrastruktuer brûke fan besteande ûndersiken en fergelykje responsen op alternative ferzjes fan deselde fragen (guon ûndersyksekspesjes wurde yn haadstik 3 presintearre); Foar mear op surveyûndersiken sjoch Mutz (2011) . Sosjale eksperiminten binne eksperiminten wêr 't de behanneling in soad sosjale belied is dy't allinich troch in regear ynfierd wurde kin. Sosjaal eksperiminten binne nau ferbûn mei programma evaluaasje. Foar mear oer politike eksperiminten, sjoch Heckman and Smith (1995) , Orr (1998) , en @ glennerster_running_2013.
Ik haw keazen om te fokusjen op trije begripen: jildigens, heterogeniteit fan behannele effekten, en meganismen. Dizze begripen hawwe ferskillende nammen op ferskillende fjilden. Bygelyks, psychologen tenderen nei oare eksperiminten troch te rjochtsjen op mediators en moderators (Baron and Kenny 1986) . It idee fan mediators wurdt opnommen troch wat ik meganismen neamt, en it idee fan moderators wurdt fêstlein troch wat ik ekneame jildichheid neamt (bygelyks soe de resultaten fan 'e eksperimint oars wêze as it yn ferskillende situaasjes rûn is) en heterogeniteit fan behanneling effekten ( bgl. binne de effekten grutter foar guon minsken as foar oaren).
It eksperimint by Schultz et al. (2007) lit sjen hoe sosjale teoryen brûkt wurde kinne om effektive yntervionsjes te ûntwerpen. Foar in algemien argumint oer de rol fan teory yn it ûntwerpen fan effektive yntervinsjes, sjoch Walton (2014) .
De begripen fan ynterne en eksterne jildichheid waarden yntrodusearre troch Campbell (1957) . Sjoch Shadish, Cook, and Campbell (2001) foar in mear detaillearre histoarje en in soartfâldige útwurking fan statistyske konklúzjildigens, ynterne jildigens, jildigens en eksterne jildigens.
Foar in oersjoch fan saken dy't relatearre oan statistyske konklúzjen jildigens yn eksperiminten sjogge Gerber and Green (2012) (út in sosjale wittenskip perspektyf) en Imbens and Rubin (2015) (fan 'e statistyske perspektyf). Guon problemen fan statistyske konklúzjildigens dy't spesifyk ûntsteane yn online fjild eksperiminten binne ûnderwerpen lykas kompjûter effisjente metoaden foar it meitsjen fan fertrouwen yntervallen mei ôfhinklike gegevens (Bakshy and Eckles 2013) .
Ynterne jild kin slip wêze om te garandearjen yn komplekse ferders eksperiminten. Sjoch bygelyks Gerber and Green (2000) , Imai (2005) , en Gerber and Green (2005) foar diskusje oer de útfiering fan in komplekse fjildeksperimint oer stimming. Kohavi et al. (2012) en Kohavi et al. (2013) leverje in yntroduksje yn 'e útdagingen fan yntervalvaliditeit yn online fjild eksperiminten.
Ien wichtige bedriging foar ynterne jild is de mooglikheid fan mislearre randomisaasje. Ien potinsjele manier om problemen mei de randomisaasje te beskermjen is te fergelykjen de behanneling en kontrolearrings op beoardielde skaaimerken. Dizze soarte fergeliking wurdt as balânskontrôle neamd. Sjoch Hansen and Bowers (2008) foar in statistyske oanpak foar kontrôles kontrolearjen en Mutz and Pemantle (2015) foar soargen oer Mutz and Pemantle (2015) . Bygelyks troch in Allcott (2011) te brûken, fûn Allcott (2011) in soad bewizen dat randomisaasje net korrekt ynfierd waard yn trije fan 'e Opower eksperiminten (sjoch tabel 2; siden 2, 6, en 8). Foar oare Imbens and Rubin (2015) sjoch it haadstik 21 fan Imbens and Rubin (2015) .
Oare wichtige belangen oangeande ynterne jildigens binne: (1) ienriedige net-kompensaasje, wêrby't net elkenien yn 'e behanningsgroep de behanneling op' t heden krige, (2) twa sided net-kompensaasje, wêrby't net elkenien yn 'e behanningsgroep de behanneling en guon yn De kontrôtgroep ûntfangt de behanneling, (3) ôfwikseling, wêrby't resultaten net foar guon dielnimmers gemocht wurde, en (4) ynterferinsje, dêr't de behanneling oer fan minsken yn 'e behannemint foar minsken yn' e kontrôlemosting rint. Sjoch haadstikken 5, 6, 7, en 8 fan Gerber and Green (2012) foar mear oer elk fan dizze problemen.
Foar mear op jildichheid bouwe, sjogge Westen and Rosenthal (2003) , en mear foar it bouwen fan jildichheid yn grutte data boarnen, Lazer (2015) en haadstik 2 fan dit boek.
Ien aspekt fan eksterne jildigens is de ynstellings dêr't in yntervinsje teste wurdt. Allcott (2015) jout in soartfâldige teoretyske en empiryske behanneling fan site-seleksje. Dit ûnderwerp wurdt ek besprutsen troch Deaton (2010) . In oar aspekt fan eksterne jildigens is as alternative operationalisaasjes fan deselde yntervinsje likense effekten hawwe. Yn dat gefal is in fergeliking tusken Schultz et al. (2007) en Allcott (2011) litte sjen dat de eksperiminten fan Opower in lytsere geschikt behannele effekt hawwe as de oarspronklike eksperiminten fan Schultz en kollega's (1.7% tsjin 5%). Allcott (2011) spekulearre dat de follow-up eksperiminten in lytsere effekt wiene fanwege de wize wêrop de behanneling ferskille: in handschriftige emoticon as in stúdzje sponsored troch in universiteit, yn ferliking mei in gedachte emosyk as part fan in massa produkt Rapport fan in krêftbedriuw.
Foar in poerbêste oersjoch fan heterogeniteit fan behannelingseffekten yn fjildekseksjes, sjoch haadstik 12 fan Gerber and Green (2012) . Foar ynliedingen nei heterogeniteit fan behannele effekten yn medyske triennen, sjoch Kent and Hayward (2007) , Longford (1999) , en Kravitz, Duan, and Braslow (2004) . Untwerpen fan heterogeniteit fan behannelingseffekten binne oer it algemien te rjochtsjen op ferskillen op basis fan prioriteit foar behanneling. As jo ynteressearre binne yn heterogeneity basearre op post-behannele útkomsten, dan wurde komplekere oanwêzigen nedich, lykas wichtige stratifikaasje (Frangakis and Rubin 2002) ; sjoch Page et al. (2015) foar in resinsje.
In protte ûndersikers skatte de heterogeneiteit fan behannelingseffekten mei lineêre regression, mar nije redenen fertsjinje op masinelearjen; Sjoch, bygelyks, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) Athey and Imbens (2016a) .
Der binne wat skepsis oer fûningen fan heterogeneityske effekten fanwege meardere fergelikingproblemen en "fiskening". Der binne in ferskaat fan statistyske oanwêzingen dy't helpe kinne om saak oer meardere fergeliking (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) helpen) (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ien oanpak fan 'e soargen oer' fiskjen 'is pre-registraasje, dy't hieltyd minder wurdt yn psychology (Nosek and Lakens 2014) , politike wittenskip (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , en ekonomy (Olken 2015) .
Yn 'e stúdzje fan Costa and Kahn (2013) mar sa'n helte fan' e húshâldings yn 'e eksperimint keppele wurde mei de demografyske ynformaasje. Lêzers dy't ynteressearre binne foar dizze details moatte ferwize nei it orizjinele papier.
Mechanismen binne ûnbelangrike wichtich, mar se drage har tige lestich te studearjen. Undersyk nei meganismen is nau ferbûn mei it ûndersyk fan mediators yn psychology (mar sjogge ek VanderWeele (2009) foar in krekte fergeliking tusken de beide ideeën). Statistyske oanwêzigen om mekanisaasjes te finen, lykas de oanpak yn Baron and Kenny (1986) , binne hiel gewoan. Spitigernôch komt it út dat die prosedueres binne ôfhinklik fan guon krêftige assumingen (Bullock, Green, and Ha 2010) en leare oft der ferskate meganismen binne, lykas men yn in protte situaasjes ferwachtsje kin (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) en Imai and Yamamoto (2013) biede wat ferbettere statistyske metoaden. Fierder biedt VanderWeele (2015) in boeklange behanneling mei in oantal wichtige resultaten, ynklusyf in wiidweidige oanpak fan sensibiliteit analyze.
In aparte oanpak rjochtet him op eksperiminten dy't besykje de meganyn direkte te manipulearjen (bygelyks it jaan fan seegers fan Vitamin C). Spitigernôch, yn in soad sosjale wittenskiplike ynstellings, binne faak meardere meganismen en it is dreech om behannelingen te meitsjen dy't men feroarje sûnder de oaren te feroarjen. Guon oanwizings nei eksperiminteel feroarjen fan meganismen wurde beskreaun troch Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , en Pirlott and MacKinnon (2016) .
Undersikers dy't folslein faktuele eksperiminten útfiere, moatte soargen wurde oer meardere hypoteezettests; sjoch Fink, McConnell, and Vollmer (2014) en List, Shaikh, and Xu (2016) foar mear ynformaasje.
Uteinlik hawwe ek meganismen in lange skiednis yn 'e filosofy fan' e wittenskip as beskreaun troch Hedström and Ylikoski (2010) .
Foar mear oer it brûken fan korrespondinsjeûndersiken en auditûndersiken om diskriminaasje te mjitte, sjoch Pager (2007) .
De meast foarkommende manier om dielnimmers te rekrutearjen foar eksperiminten dy't jo bouwe binne is Amazon Mechanical Turk (MTurk). Om't MTurk aspekten fan tradysjonele lab eksperiminten omfetsje - minsken betelje om taken te foltôgjen dat se net frije - in protte ûndersikers hawwe al begonnen mei Turkers (de arbeiders op MTurk) as eksperiminteare dielnimmers, sadat in rapper en goedkeapere sammelingsgegevens komme as kinne berikke wurde yn 'e tradysjonele laboratoarium eksperiminten (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Algemien binne de grutste foardielen fan it gebrūkjen fan dielnimmers fan MTurk logistysk. Wylst laboreksekspesjes woenen wiken duorje en rune eksperiminten kinne moannen nimme om op te setten, eksperiminten mei dielnimmers dy't rekrutearje fan MTurk kinne yn dagen komme. Berinsky, Huber, and Lenz (2012) kinne bygelyks 400 ûnderwerpen yn ien dei Berinsky, Huber, and Lenz (2012) om te dwaan oan in 8 minuten eksperiment. Fierder kinne dizze dielnimmers foar praktysk elk doel werkenne wurde (ynklusyf ûndersiken en mate-gearwurking, lykas yn haadstik 3 en 5 besprutsen). Dizze fasiliteit fan werynrjochting betsjut dat ûndersikers folslein suksesfol fan ferlykbere eksperiminten útfiere kinne.
Foardat de dielnimmers fan MTurk foar jo eigen eksperiminten opnimme, binne der fjouwer wichtige dingen dy't jo witte moatte. Earst hawwe in protte ûndersikers in nespesifike skeptisisme fan eksperiminten dy't Turkers hawwe. Om't dizze skepsis net spesifyk is, is it dreech om te kontrolearjen mei bewiis. Lykwols, nei ferskate jierren fan stúdzjes dy't Turkers brûke, kinne wy no konkludearje dat dizze skepsis net benammen rjochtfeardich is. Der binne in protte stúdzjes te fergelykjen om de demografy fan Turkers te fergelykjen mei dy fan oare populaasjes en in protte stúdzjes dy't it resultaat fan eksperiminten fergelykje mei Turkers mei de minsken fan oare populaasjes. Mei it each op dit wurk, tink ik dat de bêste manier foar jo tinke te dûnsjen is dat Turkers in ridlik ferwizing binne, in protte as learlingen, mar wat mear ferskaat (Berinsky, Huber, and Lenz 2012) . As de learlingen ek in ridlike befolking binne foar guon, mar net alles, ûndersyk, Turkers binne in ridlik befolking foar guon, mar net allegear ûndersyk. As jo mei Turkers wurkje, dan makket it sin om in soad fan dizze fergelikingûndersiken te lêzen en har nuânsjes te begripen.
Twadder binne ûndersikers de bêste praktiken ûntwikkele foar ferheging fan de yndustrieelheid fan MTurk eksperiminten, en jo moatte leare oer en folgje dizze best practices (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Bygelyks, ûndersikers dy't Turkers brûke, wurde stimulearre om skermers te brûken om ûngeduldige dielnimmers te ferwiderjen (Berinsky, Margolis, and Sances 2014, 2016) (mar sjogge ek DJ Hauser and Schwarz (2015b) en DJ Hauser and Schwarz (2015a) ). As jo ûntefrede dielnimmers net fuortsmite, dan kin elke ynfloed fan 'e behanneling troch it lûd gewoopt wurde, dat se yntrodusearje, en yn' e praktyk kin it tal unferwachte dielnimmers wichtich wêze. Yn it eksperimint troch Huber en kollega's (2012) , hawwe sa'n 30% fan 'e dielnimmers basic basic watchers mislearre. Oare problemen dy't normaal ûntsteane as Turkers brûkt wurde binne non-naive dielnimmers (Chandler et al. 2015) en attrition (Zhou and Fishbach 2016) .
Tredde, yn relaasje mei inkele oare foarmen fan digitale eksperiminten, kin MTurk eksperiminten net skale; Stewart et al. (2015) skatte dat by elke opstannige tiid mar sa'n 7.000 minsken op MTurk binne.
Uteinlik moatte jo witte dat MTurk in mienskip is mei eigen regels en normen (Mason and Suri 2012) . Op deselde wize wêrop jo besykje te finen oer de kultuer fan in lân wêr't jo jo eksperiminten útfiere, moatte jo besykje mear te finen oer de kultuer en normen fan Turkers (Salehi et al. 2015) . En jo moatte witte dat de Turkers sprekke oer jo eksperimint as jo wat dogge wat ûnfoechlik of ûntdutsen (Gray et al. 2016) .
MTurk is in ûngelikbere handige manier om de dielnimmers oan te rekrjochjen op jo eksperiminten, oft se laboratoars binne, lykas dy fan Huber, Hill, and Lenz (2012) , of mear fjildmjittich, lykas dy fan Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , en Mao et al. (2016) .
As jo tinke oan it probearjen fan jo eigen produkt, advisearje ik dat jo de advizen lêze troch de FilmLens-groep yn Harper and Konstan (2015) . In wichtige ynsjoch fan har ûnderfining is dat foar elke suksesfol projekt der in soad, in protte mislearrings binne. Sa hat de FilmLens-groep bygelyks oare produkten opsteld, lykas GopherAnswers, dy't folslein mislearre (Harper and Konstan 2015) . In oare foarbyld fan in ûndersiker dy't mislearret by it besykjen fan in produkt is Edward Castronova syn besyk om in online spultsje te bouwen dy't Arden neamd wurdt. Nettsjinsteande $ 250.000 yn finansiering wie it projekt in flop (Baker 2008) . Projekten lykas GopherAnswers en Arden binne spitigernôch faker as projekten lykas MovieLens.
Ik ha it idee fan Pasteur's Quadrant helle oft technysk technysk bedriuwen, en it helpt ûndersyksynstellings op Google (Spector, Norvig, and Petrov 2012) .
Bond en kollega's stúdzje (2012) besiket ek it effekt fan dizze behannelingen te finen op de freonen fan dyjingen dy't har ûntfange. Troch it ûntwerp fan 'e eksperiment binne dizze spillers net maklik te beskieden; Ynteressante lêzers sjogge Bond et al. (2012) foar in betterer diskusje. Jones en kollega's (2017) ek in tige ferlykber eksperiminteel dien yn 'e ferkiezings fan 2012. Dizze eksperiminten binne ûnderdiel fan in lange tradysje fan eksperiminten yn 'e politike wittenskip oer ynspanningen om stim te stimulearjen (Green and Gerber 2015) . Dizze eksperiminten fan 'e stimmen binne gewoan, meidat se binne yn Pasteur's Quadrant. Dat is, binne der in protte minsken dy't motivearre binne om stim te ferheegjen en te stimulearjen kinne in nijsgjirrich gedrach wêze om mear algemiene teoryen te hifkjen oer gedrachsferoaring en maatskiplike ynfloed.
Foar advys oer rinnende fjilden eksperiminten mei partnerorganisaasjes lykas politike partijen, NGO's en bedriuwen, sjoch Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , en Gueron (2002) . Foar gedachten oer hoe gearwurkingsferbannen mei organisaasjes kinne fragen oer ûndersyk dwaan, sjoch King et al. (2007) en Green, Calfano, and Aronow (2014) . Partnership kin ek liede ta ethike fragen, lykas diskusearre troch Humphreys (2015) en Nickerson and Hyde (2016) .
As jo in analyzeprogramma meitsje foardat jo eksperimint útfierd binne, jouw ik oan dat jo begjinne troch it lêzen fan rapportaazjes te lêzen. De CONSORT (konsolidearre standertreporting fan trialen) wurde rjochtlinen ûntwikkele yn 'e genêskunde (Schulz et al. 2010) en wizige foar sosjale ûndersyk (Mayo-Wilson et al. 2013) . In oansluten set fan rjochtlinen is ûntwikkele troch de redaksje fan it Journal of Experimental Political Science (Gerber et al. 2014) (sjoch ek Mutz and Pemantle (2015) en Gerber et al. (2015) ). Uteinlik wurde rapportaazjes ûntwikkele yn psychology (APA Working Group 2008) , en sjogge ek Simmons, Nelson, and Simonsohn (2011) .
As jo in analyzeplan plannen meitsje, moatte jo it pre-registrearje beskôgje omdat pre-registraasje it fertrouwen fergruttet dat oaren yn jo resultaten hawwe. Fierder, as jo wurkje mei in partner, sil it fermann fan jo partner's befoarderje om de analyzing te feroarjen nei de resultaten te sjen. De pre-registraasje wurdt hieltyd minder yn 'e psychology (Nosek and Lakens 2014) , politike wittenskip (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , en ekonomy (Olken 2015) .
Untwerp advys spesjaal foar online fjildekseksjes is ek presintearre yn Konstan and Chen (2007) en Chen and Konstan (2015) .
Wat ik 'e namme fan' e armada-strategy neamd wurdt wurdt soms programmatysk ûndersyk neamd ; sjoch Wilson, Aronson, and Carlsmith (2010) .
Foar mear op 'e MusicLab eksperiminten, sjoch Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , en Salganik (2007) . Foar mear op winners-nimt alle merkten, sjoch Frank and Cook (1996) . Foar mear op ûnbidich lok en feardigens mear algemien, sjoch Mauboussin (2012) , Watts (2012) , en Frank (2016) .
Der is in oare oanpak om eleminten te beteljen fan betellings dy't ûndersikers brûke moatte mei beoardieling: tsjinstferliening. Yn in protte opsjennings fan online-ûndersiken wurde de dielnimmers basearre yn eksperiminten gearstald en nea kompensearre. Foarbylden fan dizze oanpak binne ûnder oare eksperimente fan Restivo en van de Rijt (2012) eksperiminteel op beleldings yn Wikipedia en Bond en kollega's (2012) eksperiment oer it stimulearjen fan minsken om te stimmen. Dizze eksperiminten hawwe net eartiids variable fariant - earder, se hawwe nulwurdlike kosten foar ûndersikers . By sokke eksperiminten, sels as de kosten foar elke dielnimmer in heul lyts binne, kinne de aggregate kosten hiel grut wêze. Undersikers dy't massive online eksperiminten operearje, rjochtsje faak de betsjutting fan lytse skansearre effektive effekten troch te sizzen dat dy lytse effekten wichtich wurde kinne as se oan in protte minsken tapast wurde. It krekte selde tinken jildt foar kosten dy't ûndersikers ynsette op dielnimmers. As jo eksperimint ien miljoen minsken feroaret om ien minút te fertsjinjen, is it eksperimint net iensich skealik foar in bepaalde persoan, mar yn aggregaat hat it sawat twa jier tiid ferwiderje.
In oar oanpak om skealjen fan nulwurdlike kosten te beteljen foar dielnimmers is in lotterij te brûken, in oanpak dy't ek brûkt waard yn survey survey (Halpern et al. 2011) . Foar mear oer it ûntwerpen fan noflike Toomim et al. (2011) , sjoch Toomim et al. (2011) . Foar mear oer gebrûk fan bots foar it meitsjen fan nulwurdlike fergese eksperiminten sjoch ( ??? ) .
De trije R's dy't oarspronklik útsteld binne troch Russell and Burch (1959) binne sa:
"Replacement betsjut de wikselje foar bewuste libje hegere bisten fan insentient materiaal. Reduksje betsjut fermindering fan de nûmers fan bisten brûkt te krijen ynformaasje fan in jûn bedrach en Präzision. Subtiliteit betsjut in delgong yn it foarkommen of hurdens fan onmenselijke prosedueres tapast oan dy bisten dy't noch te brûkt wurde. "
De trije R 's dy't ik skriuwe, jouwe de etikale prinsipes dy't yn haadstik 6 beskreaun wurde, net oerskriuwe. Oars binne se in mear útwurke ferzje ien fan' e begjinsels-benefissens-spesifike yn 'e ynstellings fan minsklike eksperiminten.
As ferfolch fan 'e earste R (ferfanging), it fergelykjen fan' e emosjonele yntegraasje eksperiment (Kramer, Guillory, and Hancock 2014) en it emosjonele oanstriid natuer eksperimint (Lorenzo Coviello et al. 2014) biedt inkele algemiene lessen oer de belutsen ôfdielingen yn beweging fan eksperiminten nei natuerlike eksperiminten (en oare oanwêzingen lykas oerienkomst dat besykje eksperiminten yn net-eksperimintale gegevens oan te sykjen, sjoch haadstik 2). Njonken de etikale foardielen, it skeakeljen fan eksperiminteel foar non-eksperimintele stúdzjes, kinne ûndersikers ek ûndersykje te studearjen dat se logistysk net ynstelle kinne. Dizze etyske en logistike foardielen komme lykwols op kosten. Mei natuerlike eksperiminten hawwe ûndersikers minder kontrôle oer dingen lykas wervingen fan dielnimmers, randomisearring, en de natuer fan 'e behanneling. Bygelyks, ien beheining fan delslach as behanneling is dat it beide posityf fergrutet en negativiteit fermindere. Yn 'e eksperimintele stúdzje kamen lykwols Kramer en kollega's selsstannigens posityf en negativiteit oan. De bysûndere oanpak fan Lorenzo Coviello et al. (2014) waard fierder útwurke troch L. Coviello, Fowler, and Franceschetti (2014) . Foar in ynlieding foar ynstrumintale fariabelen, dy't de oanpak fan Lorenzo Coviello et al. (2014) , sjoch Angrist and Pischke (2009) (minder formele) of Angrist, Imbens, and Rubin (1996) (mear formele). Foar in skeptyske ynskriuwing fan ynstrumintale fariabelen, sjoch Deaton (2010) , en foar in ynlieding foar ynstrumintale fariabelen mei swakke ynstruminten (reint is in swak ynstrumint), sjoch Murray (2006) . Shadish, Cook, and Campbell (2001) it Rosenbaum (2002) , ( ??? ) , de Shadish, Cook, and Campbell (2001) biedt goede ideeën oer it beskôgjen fan kausale effekten sûnder eksperiminten, in goeie ynlieding foar natuerlike eksperiminten wurdt jûn troch Dunning (2012) .
Op it mêd fan 'e twadde R ("ferfining") binne wittenskiplike en logistyske ôfhannelings by it wizigjen fan it ûntwerp fan emosjonele kontakten fan blokkearjende posten om berjochten te ferheegjen. Sa kin bygelyks it gefal wêze dat de technyske ymplemintaasje fan it News Feed makket dat it in makliker makliker is in eksperimint te dwaan wêrby't posten ynstee blokkeard binne as ien wêrby't se opsteld wurde (note dat in eksperimint mei blokkearjen fan berjochten ynfierd wurde kin as in ljocht boppe it Nijs Feed systeem sûnder needsaaklike feroaringen fan it ûnderlizzende systeem). Wittenskiplik is lykwols de teory dy't troch it eksperimint behannele waard, net dúdlik foar in oar ûntwerp oer de oare. Spitigernôch bin ik net bewust fan fan in wichtige foarôfgeande ûndersyk oer de relative merits fan blokkearjen en ferheging fan ynhâld yn 'e News Feed. Ek haw ik in protte ûndersiken oer raffinearjen fan behannelingen net sjoen om se minder skealik te meitsjen; Ien útsûndering is B. Jones and Feamster (2015) , dy't it gefal is fan mjitting fan ynternetskensearing (in ûnderwerp dy't ik yn haadstik 6 besjogge yn relaasje mei de Encore-stúdzje (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Yn 'e rjochting fan' e tredde R ("reduksje" Gelman and Carlin (2014) biede goede ynliedingen oan tradisjonele krêftûndersiken troch Cohen (1988) (boek) en Cohen (1992) (artikel), wylst Gelman and Carlin (2014) in wat ferskillende perspektyf oanbiede. Foarôfhannelingskovariaten kinne opnommen wurde yn 'e ûntwerp en analyze fan' e eksperiminten; Haadstik 4 fan Gerber and Green (2012) jout in goede ynlieding foar beide oanpak, en Casella (2008) jout in mear djippe behanneling. Techniken dy't dizze foar-behanneling-ynformaasje brûke yn 'e randomisearring wurde typysk as blokkearre eksperiminteel ûntwerpen neamd of stratearre eksperimintele ûntwerpen (de terminology wurdt net konsekwint brûkt oer de mienskippen); Dizze techniken binne nau ferbûn mei de stratifisearre samplingtechniken dy't yn haadstik 3 besprutsen binne. Sjoch Higgins, Sävje, and Sekhon (2016) foar mear oer it brûken fan dizze ûntwerpen yn massive eksperiminten. Foarôfhannelingskovariaten kinne ek opnommen wurde yn 'e analyzestasjon. McKenzie (2012) ûndersiket de ferskil tusken ferskillende ynderlike ferskillen foar it analysearjen fan eksimplaren fan fjilden yn detail. Sjoch Carneiro, Lee, and Wilhelm (2016) foar mear oer de ôfhannelings tusken ferskillende oanwêzigen om prestiizje te ferheegjen yn skatten fan behannele effekten. As lêste beslút oft der besykje om foarôfhanneling fan kovariaten te beynfloedzjen yn 'e ûntwerp- of analyzefaze (of beide), binne der in pear faktoaren te besjen. Yn in ynstelling dêr't ûndersikers sjen litte wolle dat se net "fiskjen" binne (Humphreys, Sierra, and Windt 2013) , kinne gebrûk fan foarôfhannelingskovariaten yn 'e ûntwerpstienskip helpe (Higgins, Sävje, and Sekhon 2016) . Yn situaasjes dêr't dielnimmers sekulearje komme, benammen online fjild eksperiminten, gebrûk fan foarôfhanneling-ynformaasje yn 'e ûntwerpstiening kinne logysk lestich wêze; Sjoch, bygelyks, Xie and Aurisset (2016) .
It is wurdich in soad yntuysje om te freegjen wêrom't in ferskillende ynderlike oanpak kin safier effektiver wêze as in ferskil yn betsjutting. In protte online resultaten hawwe in hege ôfwiking (sjoch bygelyks RA Lewis and Rao (2015) en Lamb et al. (2015) ) en binne oer tiid. Yn dit gefal sil de wizigingsnota in soad lytsere fariant hawwe, wêrtroch't de krêft fan 'e statistyske toets te fergrutsjen is. Ien reden dat dizze oanpak net faker brûkt is dat foarôfgeand oan de digitale leeftyd net it geweldich wie foar pre-behannele útkomsten. In betonere manier om te tinke oer dit is in eksperimint foar te stellen foar mjitten of in spesifike praktyk routine feroarsake gewichtsverlies. As jo in ôfwiking-yn-betsjutting oanfiere, sil jo skatting variabeling krije fan 'e ferbaarens yn' e gewicht yn 'e befolking. As jo in ôfwiking-yn-ferskate oanpak dogge, lykwols, dat natuerlik ferskille fariant yn gewichten is fuortsmiten, en jo kinne makliker in ferskil ûntstean troch de behanneling.
Uteinlik lei ik in fjirde R oan: "repurpose". Dat is, as ûndersikers sels mear eksperimintele gegevens fine as se har orizjineel ûndersyksfraach nedich hawwe, moatte se de gegevens opnimme om nije fragen te freegjen. Soargje yntinke dat Kramer en kollega's in differinsje-yn-ûnderskate skatting brûke en har fûn hawwe mei mear gegevens as se nedich hawwe om har ûndersyksfraach oan te roppen. Ynstee fan it gebrûk fan 'e gegevens yn' e folslein nivo, kinne se de grutte fan 'e effekt as funksje fan' e pre-behanneling emosjonele ekspresje besjen. Krekt as Schultz et al. (2007) fûnen dat it effekt fan de behanneling oars wie foar ljochte en swiere brûkers, miskien de effekten fan it News Feed wiene ferskillend foar minsken dy't al beppe binne lokkich (of fertriet) berjochten. Opfallend kin liede ta "fiskjen" (Humphreys, Sierra, and Windt 2013) en "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , mar dizze binne foar in grut part adresseard mei in kombinaasje fan earlik rapporten (Simmons, Nelson, and Simonsohn 2011) , pre-registraasje (Humphreys, Sierra, and Windt 2013) , en masine learmetoaden dy't besykje om oer te passen.