Pitakonan babagan kausalitas ing riset sosial asring rumit lan rumit. Kanggo pendekatan kaasaman babagan kausalitas gumantung saka gambar-gambar sing nyebabake, pirsani Pearl (2009) , lan kanggo pendekatan dasar adhedhasar hasil potensial, pirsani Imbens and Rubin (2015) . Kanggo perbandingan antarane rong pendekatan iki, pirsani Morgan and Winship (2014) . Kanggo pendekatan resmi kanggo nemtokake panyegah, waca VanderWeele and Shpitser (2013) .
Ing bab iki, aku wis nggawe apa sing katon kaya garis sing cetha antarane kemampuan kita kanggo nganakake perkiraan kausal saka data eksperimen lan non-eksperimen. Nanging, aku mikir, ing kasunyatan, bedane luwih kabur. Contone, kabeh wong nampa udud sing nyebabake kanker, senadyan ora ana eksperimen sing dikontrol kanthi acak sing nyebabake wong ngrokok wis tau rampung. Kanggo pangobatan sing paling apik ing buku babagan ngira-ngira akibat saka data sing ora eksperimen ndeleng Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , lan Dunning (2012) .
Bab 1 lan 2 Freedman, Pisani, and Purves (2007) nyedhiyakake introduksi sing jelas kanggo beda antarane eksperimen, eksperimen terkontrol, lan eksperimen terkontrol acak.
Manzi (2012) nyedhiyakake introduksi lan nampilake introduksi kanggo dhasar filsafat lan statistik saka eksperimen kontrol acak. Uga nyedhiyakake conto-conto nyata ing donya sing bisa dienggo ing daya eksperimen ing bisnis. Issenberg (2012) nyedhiyakake introduksi menarik kanggo nggunakake eksperimen ing kampanye politik.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, lan Athey and Imbens (2016b) nyedhiyakake introduksi apik babagan aspek statistik saka desain lan analisis eksperimen. Luwih, ana pangobatan banget nggunakake nyobi ing akeh kothak beda: ekonomi (Bardsley et al. 2009) , Sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psikologi (Aronson et al. 1989) , Ilmu politik (Morton and Williams 2010) , lan kebijakan sosial (Glennerster and Takavarasha 2013) .
Pentinge recruitment peserta (contone, sampling) asring dialami ing riset eksperimen. Nanging, yen efek perawatan kasebut dadi heterogen ing populasi, sampling kasebut kritis. Longford (1999) ndadekake titik kasebut kanthi cetha nalika dheweke nganjurake para peneliti mikir percobaan minangka survey populasi kanthi sampling haphazard.
Aku ngandharake yen ana continuum antarane eksperimen lab lan lapangan, lan peneliti liyane wis ngusulake tipologi luwih rinci, utamane sing misahake macem-macem formulir eksperimen lapangan (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Sawetara makalah wis mbandingake eksperimen laboratorium lan lapangan ing abstrak (Falk and Heckman 2009; Cialdini 2009) lan ing babagan kasile eksperimen spesifik ing ilmu politik (Coppock and Green 2015) , ekonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , lan psikologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) nyedhiyakake desain riset becik kanggo mbandhingake asil saka eksperimen lab lan lapangan. Parigi, Santana, and Cook (2017) nggambarake carane eksperimen lapangan online bisa gabungke sawetara karakteristik eksperimen lab lan lapangan.
Keprigelane para peserta ngganti perilakue amarga dheweke ngerti yen dheweke wis ditemtokake rapet soko efek sing dituntut , lan dheweke wis diteliti ing psikologi (Orne 1962) lan ekonomi (Zizzo 2010) . Sanajan biasane ana hubungane karo eksperimen lab, masalah sing padha uga bisa nyebabake masalah kanggo eksperimen lapangan. Nyatane, efek tambahan uga kadhangkala disebut efek Hawthorne , istilah sing nyebabake eksperimen iluminasi sing misuwur sing diwiwiti ing taun 1924 ing Hawthorne Works of Western Electric Company (Adair 1984; Levitt and List 2011) . Efek kabutuhan loro lan efek Hawthorne raket banget karo gagasan pengukuran reaktif sing dibahas ing bab 2 (pirsani uga Webb et al. (1966) ).
Eksperimen lapangan nduweni sajarah panjang ing babagan ekonomi (Levitt and List 2009) , ilmu politik (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologi (Shadish 2002) , lan kebijakan umum (Shadish and Cook 2009) . Salah satunggaling bidang ilmu sosial ing ngendi percobaan lapangan kanthi cepet dadi penting yaiku pembangunan internasional. Kanggo nampilake positif karya kasebut sajrone ekonomi nonton Banerjee and Duflo (2009) , lan kanggo penilaian kritis ndeleng Deaton (2010) . Kanggo paninjau karya iki ing ilmu politik, ndeleng Humphreys and Weinstein (2009) . Pungkasan, tantangan etika sing muncul saka eksperimen lapangan wis digoleki ing konteks ilmu politik (Humphreys 2015; Desposato 2016b) lan ekonomi pembangunan (Baele 2013) .
Ing bagean iki, aku nyaranake manawa informasi sing wis ditrapake bisa digunakake kanggo ningkatake presisi efek perawatan sing ditemtokake, nanging ana sawetara debat babagan pendekatan iki; waca Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , lan Bloniarz et al. (2016) kanggo informasi luwih lengkap.
Akhire, ana rong jinis eksperimen liyane sing dilakokno dening para ilmuwan sosial sing ora cocok karo dimensi lab-field: eksperimen survei lan eksperimen sosial. Eksperimen survei ana eksperimen kanthi nggunakake prasarana survey sing ana lan mbandhingake respon marang versi alternatif saka pitakonan sing padha (sawetara eksperimen kaajab dipresentasikan ing Bab 3); kanggo luwih nyinaoni percobaan survey ndeleng Mutz (2011) . Eksperimen sosial yaiku eksperimen ing ngendi perawatan kasebut minangka kawicaksanan sosial sing mung bisa dileksanakake dening pemerintah. Eksperimen sosial raket banget karo evaluasi program. Kanggo luwih nyinaoni kebijakan, pirsani Heckman and Smith (1995) , Orr (1998) , lan @ glennerster_running_2013.
Aku milih kanggo fokus ing telung konsep: validitas, heterogenitas efek perawatan, lan mekanisme. Konsep-konsep kasebut duwe jeneng beda ing beda-beda. Contone, psikolog cenderung nempuh eksperimen prasaja kanthi fokus ing mediator lan moderator (Baron and Kenny 1986) . Gagasan mediator dijupuk dening mekanisme, lan gagasan moderator ditangkap dening apa sing aku sebut sah eksternal (contone, bakal asil eksperimen beda yen wis mlaku ing kahanan sing beda) lan heterogenitas efek perawatan contone, efek sing luwih gedhe kanggo sawetara wong tinimbang liyane).
Ekspedisi dening Schultz et al. (2007) nuduhake yen teori-teori sosial bisa digunakake kanggo ngrancang intervensi efektif. Kanggo argumentasi sing luwih umum babagan peran teori babagan ngrancang intervensi efektif, waca Walton (2014) .
Konsep validitas internal lan eksternal diwiwiti nalika Campbell (1957) . Waca Shadish, Cook, and Campbell (2001) kanggo luwih rinci babagan sajarah lan Shadish, Cook, and Campbell (2001) kesimpulan statistik, validitas internal, mbangun validitas, lan validitas eksternal.
Kanggo gambaran babagan masalah kesimpulan statistik kesimpulan ing eksperimen, ndeleng Gerber and Green (2012) (saka perspektif ilmu sosial) lan Imbens and Rubin (2015) (saka perspektif statistik). Sapérangan masalah kasimpulan statistik sing kasedhiya ing eksperimen lapangan online kayata masalah kayata cara komputasi sing efisien kanggo nggawe interval kapercayaan karo data gumantung (Bakshy and Eckles 2013) .
Kesahan internal bisa dadi angel kanggo mesthekake eksperimen lapangan sing kompleks. Contone, umpamane, Gerber and Green (2000) , Imai (2005) , lan Gerber and Green (2005) kanggo debat babagan pelaksanaan eksprimen lapangan rumit babagan pemungutan suara. Kohavi et al. (2012) lan Kohavi et al. (2013) nyedhiyakake introduksi menyang tantangan validitas interval ing eksperimen lapangan online.
Ancaman utama kanggo validitas internal yaiku kamungkinan gagal randomisasi. Salah siji cara potensial kanggo ndeteksi masalah kanthi acak yaiku kanggo mbandhingake klompok perawatan lan kontrol ing sipat sing bisa ditemokake. Pangaturan iki diarani imbangan imbangan . Waca Hansen and Bowers (2008) kanggo pendekatan statistik kanggo keseimbangn cek lan Mutz and Pemantle (2015) kanggo keprihatinan babagan keseimbangan. Contone, nggunakake keseimbangan, Allcott (2011) nemokake bukti yen randomisasi ora diterapake kanthi bener ing telung eksperimen Opower (pirsani tabel 2; situs 2, 6, lan 8). Kanggo pendekatan liyane, waca bab 21 saka Imbens and Rubin (2015) .
Keprigelan utama liyane sing gegayutan karo validitas internal yaiku: (1) noncompliance siji-sisi, ing ngendi ora saben wong ing grup perawatan bener nampa perawatan, (2) loro non-praktek, ora saben wong ing grup perawatan nampa perawatan lan sawetara wong klompok kontrol nampa perawatan, (3) attrisi, ing ngendi asil ora diukur kanggo sawetara peserta, lan (4) interferensi, ing ngendi perawatan tumpah liwat saka wong ing kondisi perawatan kanggo wong ing kondisi kontrol. Waca bab 5, 6, 7, lan 8 saka Gerber and Green (2012) kanggo luwih akeh babagan saben isu kasebut.
Kanggo luwih nyinau kesahihan, waca Westen and Rosenthal (2003) , lan luwih nyinau kesahihan ing sumber data gedhe, Lazer (2015) lan bab 2 saka buku iki.
Salah siji aspek validitas eksternal yaiku setelan sing ditindakake. Allcott (2015) nyedhiyakake bias pemilihan situs teoritis lan empiris kanthi ati-ati. Masalah iki uga dibahas dening Deaton (2010) . Aspèk liyane saka validitas eksternal yaiku yen operasional alternatif saka intervensi sing padha bakal duwe efek sing padha. Ing kasus iki, perbandingan antara Schultz et al. (2007) lan Allcott (2011) nuduhake yen eksperimen Opower nduweni efek sing dianggep luwih cilik tinimbang eksperimen asli dening Schultz lan kolega (1.7% versus 5%). Allcott (2011) yèn eksperimen liyané duwé pangaruh sing luwih cilik amarga cara pengobatan béda: emoticon handwritten minangka bagéan saka panelitèn sing disponsori dening universitas, dibandhingake karo emotikon sing dicetak minangka bagéan saka prodhuksi massal laporan saka perusahaan listrik.
Kanggo gambaran banget babagan heterogenitas efek perawatan ing lapangan, pirsani bab 12 Gerber and Green (2012) . Kanggo nepangake heterogenitas efek perawatan ing pangobatan medis, deleng Kent and Hayward (2007) , Longford (1999) , lan Kravitz, Duan, and Braslow (2004) . Pertimbangan saka heterogenitas efek perawatan umum fokus ing beda adhedhasar karakteristik pra-perawatan. Yen sampeyan kepengin dadi heterogeneitas adhedhasar hasil pasca perawatan, banjur pendekatan luwih rumit dibutuhake, kayata stratifikasi utama (Frangakis and Rubin 2002) ; deleng Page et al. (2015) kanggo review.
Akeh peneliti ngira yen heterogenitas efek perawatan nggunakake regression linier, nanging cara sing anyar gumantung marang learning machine; waca, umpamane, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , lan Athey and Imbens (2016a) .
Ana sawetara skeptisisme babagan temuan heterogenitas efek amarga masalah pembandhingan lan "nelayan." Ana macem-macem pendekatan statistik sing bisa mbantu ngatasi masalah babagan pirang-pirang perbandingan (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Salah sijine pendekatan kanggo "fishing" yaiku pre-registration, sing dadi umum ing psikologi (Nosek and Lakens 2014) , ilmu politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , lan ekonomi (Olken 2015) .
Ing studi dening Costa and Kahn (2013) mung babagan setengah saka rumah tangga ing eksprimen bisa disambung karo informasi demografi. Pembaca sing kasengsem ing rincian kasebut kudu ngrujuk marang kertas asli.
Mekanisme sing luar biasa penting, nanging dadi angel banget sinau. Riset babagan mekanisme raket banget karo studi mediator ing psikologi (nanging uga ndeleng VanderWeele (2009) kanggo perbandingan sing cocog antarane rong gagasan). Statistik kanggo nemokake mekanisme, kayata pendekatan sing dikembangake ing Baron and Kenny (1986) , cukup umum. Saliyane iku, prosedur kasebut gumantung marang sawetara pemikiran sing kuat (Bullock, Green, and Ha 2010) lan nandhang sangsara nalika ana mekanisme, kayata sing bisa ditindakake ing akèh situasi (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) lan Imai and Yamamoto (2013) nawakake sawetara cara statistik sing apik. Luwih, VanderWeele (2015) nawakake perawatan buku-buku kanthi sawetara asil penting, kalebu pendekatan komprehensif kanggo analisis sensitivitas.
Pendekatan kapisah difokusake eksperimen sing nyoba ngolah mekanisme kasebut kanthi langsung (umpamane, menehi pelaut vitamin C). Sayange, ing akeh setelan ilmu sosial, kerep ana mekanisme lan angel kanggo ngrancang perawatan sing ngganti siji tanpa ngganti liyane. Sawetara pendekatan mekanisme ngowahi eksperimentasi digambarake dening Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , lan Pirlott and MacKinnon (2016) .
Para panaliti sing nyinaoni percobaan faktual sacara kapercayan kudu prihatin babagan uji hipotesis akeh; waca Fink, McConnell, and Vollmer (2014) lan List, Shaikh, and Xu (2016) kanggo informasi luwih lengkap.
Akhire, mekanisme uga nduweni sejarah panjang ing filsafat sains kaya sing dijlèntrèhaké déning Hedström and Ylikoski (2010) .
Kanggo informasi luwih lengkap babagan nggunakake pasinaon korespondensi lan studi audit kanggo ngukur diskriminasi, pirsani Pager (2007) .
Cara sing paling umum kanggo nganakake panalitiyan peserta menyang eksperimen sing mbangun yaiku Amazon Mechanical Turk (MTurk). Amarga MTurk uga nyinaoni aspèk laboratorium-laboratorium tradhisional kanggo ngrampungake tugas-tugas sing ora bakal dilakoni para peneliti gratis sing wis wiwit nggunakake Turkers (para pekerja ing MTurk) minangka peserta eksperimen, asil pengumpulan data luwih cepet lan luwih murah tinimbang bisa digayuh ing percobaan laboratorium tradisional ing kampus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Umumé, kaluwihan paling gedhe nggunakake peserta sing direkrut saka MTurk yaiku logistik. Déné percobaan laboratorium bisa njupuk minggu kanggo mbukak eksperimen lan bisa njupuk sasi kanggo nyetel, eksperimen karo peserta direkrut saka MTurk bisa dilalekake ing dina. Contone, Berinsky, Huber, and Lenz (2012) bisa ngrekam 400 subjek ing sawijining dinten siji kanggo melu eksperimen 8 menit. Sabanjure, para peserta bisa direkrut kanggo kabeh tujuan (kalebu survey lan kolaborasi massa, kaya sing dibahas ing bab 3 lan 5). Iki minangka sarana recruitment sing tegese peneliti bisa nindakake urutan eksperimen sing gegandhengan kanthi sukses.
Sadurunge nggawe peserta saka MTurk kanggo eksperimen dhewe, ana papat perkara penting sing kudu sampeyan mangerteni. Kaping pisanan, akeh panaliti duwe skeptisisme nonspecific saka eksperimen sing nglibatake Turkers. Amarga skepticism iki ora tartamtu, iku angel kanggo counter karo bukti. Nanging, sawise sawetara taun pasinaon nggunakake Turkers, saiki kita bisa nyimpulake yen skeptisisme iki ora bisa ditrapake. Ana akeh panaliten mbandhingake demografi Turkers karo populasi liyane lan akeh panaliten mbandingake asil eksperimen karo Turkers karo populasi populasi liyane. Kanthi kabeh karya iki, aku mikir yen cara paling apik kanggo sampeyan mikir yaiku yen Turkers minangka sampel sing nyenengake, kaya para siswa nanging luwih beragam (Berinsky, Huber, and Lenz 2012) . Mangkono, kaya siswa minangka populasi cukup kanggo sawetara, nanging ora kabeh, riset, Turkers minangka populasi sing cukup kanggo sawetara, nanging ora kabeh, riset. Yen sampeyan arep kerja karo Turkers, mula bisa diarani maca akeh studi komparatif lan mangerteni nuwun.
Kapindho, peneliti wis ngembangake praktik paling apik kanggo nambah validitas internal eksperimen MTurk, lan sampeyan kudu sinau babagan lan nglakoni praktik-praktik paling apik iki (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Contone, para peneliti nggunakake Turkers didhukung kanggo nggunakake screeners kanggo ngilangi peserta (Berinsky, Margolis, and Sances 2014, 2016) (nanging uga ndeleng DJ Hauser and Schwarz (2015b) lan DJ Hauser and Schwarz (2015a) ). Yen sampeyan ora mbusak peserta sing nandhang lara, mula apa efek saka perawatan bisa dicuci dening gangguan sing ditindakake, lan sajrone praktik, akeh peserta lalai bisa dadi substansial. Ing eksperimen dening Huber lan kolega (2012) , sekitar 30% peserta gagal screeners perhatian dasar. Masalah liyane sing umume muncul nalika Turkers digunakake minangka peserta sing ora aktif (Chandler et al. 2015) lan attrition (Zhou and Fishbach 2016) .
Katelu, relatif marang sawetara jinis eksperimen digital, eksperimen MTurk ora bisa skala; Stewart et al. (2015) ngira yen ing wektu tartamtu ana mung babagan 7.000 wong ing MTurk.
Pungkasan, sampeyan kudu ngerti yen MTurk minangka komunitas sing duwe aturan lan norma dhewe (Mason and Suri 2012) . Mangkono uga sampeyan bakal nemokake babagan kabudhayan negara ngendi sampeyan bakal nglakoni eksperimen, supaya sampeyan nemokake babagan budaya lan norma Turkers (Salehi et al. 2015) . Lan sampeyan kudu ngerti yen Turkers bakal ngomong babagan eksperimen yen sampeyan nglakoni bab sing ora cocog utawa ora etis (Gray et al. 2016) .
MTurk minangka cara paling apik kanggo nganakake panitia para eksperimen, kayata lab-kaya, kayata Huber, Hill, and Lenz (2012) , utawa luwih kaya lapangan, kayata Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , lan Mao et al. (2016) .
Yen sampeyan mikir gawe nggawe produk sampeyan dhewe, aku nyaranake sampeyan maca saran sing dituduhake dening grup MovieLens ing Harper and Konstan (2015) . Wawasan utama saka pengalaman iku kanggo saben proyek sukses ana akeh, akeh kegagalan. Contone, grup MovieLens ngluncurake produk-produk liyane, kayata GopherAnswers, sing kegagalan lengkap (Harper and Konstan 2015) . Conto liyane peneliti gagal nalika nyoba mbangun produk yaiku upaya Edward Castronova kanggo mbangun game online sing disebut Arden. Sanajan $ 250.000 ing pendanaan, proyek kasebut minangka gagal (Baker 2008) . Projects like GopherAnswers and Arden sing sayang banget luwih umum tinimbang proyek kaya MovieLens.
Aku wis krungu gagasan babagan Quadrant Pasteur sing dibahas kerep ing perusahaan teknologi, lan mbantu ngatur upaya riset ing Google (Spector, Norvig, and Petrov 2012) .
Studi Bond lan kolega (2012) uga nyoba kanggo ndeteksi efek saka perawatan kasebut marang kanca-kanca saka sing nampa. Amarga desain eksperimen, spillovers iki angel ndeteksi kanthi resik; pamaca sing kasengsem kudu ndeleng Bond et al. (2012) kanggo diskusi sing luwih jero. Jones lan kolega (2017) uga nganakake eksperimen sing meh padha ing pemilu 2012. Eksperimen iki minangka bagéan saka tradhisi percobaan sing dawa ing ilmu politik babagan upaya nganjurake pemilihan (Green and Gerber 2015) . Percobaan-percobaan sing metu-voting iki umum, amarga amarga ana ing Quadrant Pasteur. Mulane, akeh wong sing termotivasi kanggo nambah pemungutan suara lan pemilihan bisa dadi prilaku sing menarik kanggo ngetes teori-teori sing luwih umum babagan owah-owahan prilaku lan pengaruh sosial.
Kanggo saran babagan nglakoni eksperimen lapangan karo organisasi partner kayata partai pulitik, LSM, lan bisnis, deleng Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , lan Gueron (2002) . Kanggo pikirane babagan kemitraan karo organisasi bisa ndadeake rancangan riset, deleng King et al. (2007) lan Green, Calfano, and Aronow (2014) . Kemitraan bisa uga mimpin kanggo pitakonan sing sopan, kaya sing didiskusutaake dening Humphreys (2015) lan Nickerson and Hyde (2016) .
Yen sampeyan arep nggawe rencana analisis sadurunge nglakoke eksperimen, aku suggest sampeyan miwiti kanthi maca pedoman laporan. Pedoman Konsorsium (Standar Pelaporan Standar Konsolidasi) dikembangake ing kedhokteran (Schulz et al. 2010) lan diowahi kanggo riset sosial (Mayo-Wilson et al. 2013) . Sawijining pedoman sing ana hubungane wis dikembangake dening para editor saka Journal of Experimental Political Science (Gerber et al. 2014) (pirsani uga Mutz and Pemantle (2015) lan Gerber et al. (2015) ). Pungkasan, pedoman pelaporan wis dikembangake ing psikologi (APA Working Group 2008) , lan uga ndeleng Simmons, Nelson, and Simonsohn (2011) .
Yen nggawe rencana analisis, sampeyan kudu nimbang pre-register amarga pre-registration bakal nambah kapercayan sing diwenehake dening wong liya. Luwih, yen sampeyan nggarap partner, bakal mbatesi kemampuan partner kanggo ngganti analisis kasebut sawise ningali asil. Pre-pendaftaran dadi luwih umum ing psikologi (Nosek and Lakens 2014) , ilmu politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , lan ekonomi (Olken 2015) .
Saran desain khusus kanggo eksperimen lapangan online uga ditampilake ing Konstan and Chen (2007) lan Chen and Konstan (2015) .
Apa aku wis disebut strategi fleet kadhangkala disebut riset programatik ; waca Wilson, Aronson, and Carlsmith (2010) .
Kanggo luwih saka percobaan MusicLab, deleng Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , lan Salganik (2007) . Kanggo luwih akeh pasar winner-take-all, pirsani Frank and Cook (1996) . Kanggo luwih akeh untunge lan skill luwih umum, waca Mauboussin (2012) , Watts (2012) , lan Frank (2016) .
Ana pendekatan liyane kanggo ngilangi pembayaran peserta sing kudu digunakake kanthi prihatin: conscription. Ing sapérangan eksperimen lapangan online, dhasar sing disusun dadi eksperimen lan ora bakal dibayari. Conto pendekatan iki kalebu Restivo lan eksperimen van de Rijt (2012) babagan ganjaran ing Wikipedia lan Bond lan kolega (2012) eksperimen nyorong wong kanggo milih. Eksperimen-eksperimen iki pancen ora duwe biaya variabel nol-tinimbang, nol biaya variabel kanggo peneliti . Ing percobaan kasebut, sanajan biaya kanggo saben peserta cilik banget, biaya agregat bisa cukup gedhe. Panaliti sing nglakokake eksperimen online kanthi massive kerep mbecikake pentinge efek perawatan cilik sing dianggep kanthi nyebutake manawa efek cilik kasebut bisa dadi penting nalika ditrapake kanggo akeh wong. Pikirane sing padha karo kagiyatane mung kanggo biaya sing ditindakake para panaliti marang peserta. Yen eksperimen nyebabake sak yuta wong ngobong sedina-seprene, eksperimen iki ora banget mbebayani marang wong tartamtu, nanging kanthi agregat wis nyirip meh rong taun.
Pendekatan liyane kanggo nggawe nol biaya biaya variabel kanggo peserta nggunakake lotre, pendekatan sing uga wis digunakake ing riset survey (Halpern et al. 2011) . Kanggo luwih ngrancang pengalaman panganggo sing nyenengake, waca Toomim et al. (2011) . Kanggo luwih akeh babagan nggunakake bot kanggo nggawe eksperimen biaya variabel nol ndeleng ( ??? ) .
Telu R minangka wiwitane diusulake dening Russell and Burch (1959) kaya ing ngisor iki:
"Replacement tegese substitusi kanggo sadar urip kéwan luwih saka materi insentient. Abang tegese abang ing nomer saka kéwan digunakake kanggo njupuk informasi saka jumlah tartamtu lan tliti. Refinement tegese nyuda ing kedadean sing ora dikarepke utawa keruwetan tata cara perikemanusiaan Applied kanggo sing kéwan kang isih kudu digunakake. "
Telu R sing dakkandhakake ora ngatasi prinsip etika sing dijelasake ing bab 6. Mangkene, versi kasebut minangka versi sing luwih rinci salah sawijining prinsip-prinsip sing dibutuhake-khusus kanggo nyetel eksperimen manungsa.
Ing istilah R ("panggantos") pisanan, mbandingake eksperimen contagion emosional (Kramer, Guillory, and Hancock 2014) lan eksperimen alami kontroversi emosional (Lorenzo Coviello et al. 2014) ing obah saka eksperimen menyang eksperimen alam (lan pendekatan liyane kayata cocog karo percobaan kasebut kanggo ngira eksperimen ing data sing ora eksperimen; baca bab 2). Saliyane kanggo keuntungan etika, pindhah saka eksperimen menyang non-eksperimental studi uga bisa ngidini peneliti kanggo sinau perawatan sing padha logistically ora bisa deploy. Nanging, keuntungan etis lan logistik iki entuk biaya, nanging. Kanthi eksperimen eksperimen alamiah, peneliti ora duwe kendali babagan perkara kaya, perekrutan peserta, randomisasi, lan sifat perawatan. Contone, salah sawijine curah udan minangka perawatan iku uga nambah positif lan ngurangi negativitas. Ing panaliten eksperimen, Kramer lan kanca-kancane bisa nyetel positivity lan negativity kanthi bebas. Pendekatan tartamtu sing digunakake dening Lorenzo Coviello et al. (2014) diklompokake maneh dening L. Coviello, Fowler, and Franceschetti (2014) . Kanggo introduksi kanggo variabel instrumental, yaiku pendekatan sing digunakake dening Lorenzo Coviello et al. (2014) , pirsani Angrist and Pischke (2009) (kurang formal) utawa Angrist, Imbens, and Rubin (1996) (luwih formal). Kanggo ngetungake skeptis saka variabel instrumental, pirsani Deaton (2010) , lan kanggo introduksi variabel instrumental kanthi instrumen sing lemah (udan yaiku instrument sing lemah), pirsani Murray (2006) . Umumé, introduksi apik kanggo eksperimen alami diwenehi dening Dunning (2012) , nalika Rosenbaum (2002) , ( ??? ) , Lan Shadish, Cook, and Campbell (2001) gagasan apik babagan ngira efek akibat tanpa eksperimen.
Ing istilah R ("refinement") kapindho, ana trade-offs ilmiah lan logistik nalika considering ngganti desain Contagion Emosional saka blocking posts kanggo ngunggahake kiriman. Contone, umpamane, penerapan teknis News Feed ndadekake luwih gampang kanggo nindakake eksperimen ing ngendi kiriman diblokir tinimbang siji sing diunggahake (dicathet yen eksperimen sing nglibatake pamblokiran kiriman bisa dileksanakake minangka lapisan ing ndhuwur sistem Feed News tanpa perlu kanggo owah-owahan sistem kasebut). Nanging, sacara ilmiah, téori sing ditangani dening eksperimen ora cetha nyathet salah sawijining desain marang liyane. Sayange, aku ora ngerteni riset sing luwih penting babagan manfaat wigati babagan pamblokiran lan ningkatake isi ing News Feed. Uga, aku ora weruh riset akeh babagan perawatan penyulingan supaya ora luwih mbebayani; siji yaiku B. Jones and Feamster (2015) , sing nganggep kasus ukuran sensor Internet (topik sing aku diskusake ing bab 6 ing hubungan karo studi Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Ing istilah R (réduksi) katelu, introduksi apik kanggo analisis daya tradisional sing diwènèhaké déning Cohen (1988) (buku) lan Cohen (1992) (artikel), Gelman and Carlin (2014) nyedhiyani perspektif sing rada béda. Covariates pra-perawatan bisa kalebu ing tahap desain lan analisis eksperimen; Bab 4 saka Gerber and Green (2012) nyedhiyakake introduksi apik kanggo loro pendekatan, lan Casella (2008) nyedhiyakake perawatan sing luwih jero. Teknik sing nggunakake informasi pra-perawatan iki ing acak kasebut biasane diarani desain eksperimen sing diblokir utawa desain eksperimen stratified (terminologi kasebut ora dipigunakaké kanthi konsisten ing komunitas); tèknik iki raket banget karo teknik-teknik sampling stratifikasi sing dibahas ing bab 3. Deleng Higgins, Sävje, and Sekhon (2016) kanggo luwih migunakaké rancangan-rancangan kasebut ing eksperimen sing gedhé. Kovariates pra-perawatan bisa uga kalebu ing tahap analisis. McKenzie (2012) nylidhiki pendekatan sing beda-beda-beda kanggo nganalisis eksperimen lapangan luwih rinci. Deleng Carneiro, Lee, and Wilhelm (2016) kanggo luwih jugrug antarane macem-macem pendekatan kanggo nambah presisi ing perkiraan efek perawatan. Pungkasan, nalika nemtokake manawa nyoba nyedhiyakake covariates sadurunge-perawatan ing tataran desain utawa analisis (utawa loro-lorone), ana sawetara faktor sing kudu ditimbang. Ing pangaturan para peneliti pengin nuduhake yen ora "Fishing" (Humphreys, Sierra, and Windt 2013) , kanthi nggunakake covariates sadurunge perawatan ing tataran desain bisa mbiyantu (Higgins, Sävje, and Sekhon 2016) . Ing kahanan ing ngendi peserta teka kanthi urutan, utamane percobaan lapangan online, nggunakake informasi pra-perawatan ing tataran desain bisa angel logistically; waca, umpamane, Xie and Aurisset (2016) .
Iku worth nambahake sawetara intuisi babagan apa bedane-beda-beda pendekatan bisa dadi luwih efektif tinimbang sing beda-ing-sarana siji. Akeh hasil online duwe variasi sing dhuwur banget (pirsani, RA Lewis and Rao (2015) lan Lamb et al. (2015) ) lan relatif stabil ing wektu. Ing kasus iki, skor owah-owahan bakal duwe variasi sing luwih cilik, nambah daya uji statistik. Salah sijine alasan pendekatan iki ora kerep digunakake yaiku sadurunge umur digital, ora umum kanggo ngasilake pra-perawatan. Cara sing luwih konkrit kanggo mikir babagan iki kanggo mbayangake eksperimen kanggo ngukur manawa tumindake olahraga sing spesifik nyebabake bobot awak. Yen sampeyan nganggo pendekatan sing beda-beda, sampeyan bakal ngira variasi saka macem-macem bobot ing populasi. Yen sampeyan nggawe pendekatan sing beda-beda, Nanging, variasi alami ing bobot bakal dibusak, lan sampeyan bisa kanthi gampang nemtokake beda sing disebabake dening perawatan.
Pungkasan, aku dianggep nambahake keempat R: "repurpose". Sing, yen panaliti nemokake dhewe karo data sing luwih eksperimen tinimbang sing kudu ditangani pitakonan riset asline, dheweke kudu repurpose data kanggo njaluk pitakonan anyar. Contone, bayangake yen Kramer lan kanca-kanca wis nggunakke estimator sing beda-beda lan nemokake dhewe luwih akeh data tinimbang sing dibutuhake kanggo ngatasi pitakonan riset. Luwih saka ora nggunakake data kanthi maksimal, padha bisa sinau ukuran efek minangka fungsi ekspresi emosi pra-perawatan. Kaya Schultz et al. (2007) nemokake yen efek perawatan kasebut beda kanggo pangguna cahya lan abot, mbok menawa efek saka News Feed beda kanggo wong sing wis cenderung ngirim pesen sing seneng (utawa sedih). Rephposing bisa mimpin "nelayan" (Humphreys, Sierra, and Windt 2013) lan "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , nanging iki bisa ditampa kanthi kombinasi jujur laporan (Simmons, Nelson, and Simonsohn 2011) , pre-registration (Humphreys, Sierra, and Windt 2013) , lan metode pembelajaran mesin sing nyoba kanggo (Humphreys, Sierra, and Windt 2013) masalah.