Soalan mengenai kausalitas dalam penyelidikan sosial sering rumit dan rumit. Untuk pendekatan asas kausaliti berdasarkan graf kausal, lihat Pearl (2009) , dan untuk pendekatan asas berdasarkan hasil yang berpotensi, lihat Imbens and Rubin (2015) . Untuk perbandingan antara dua pendekatan ini, lihat Morgan and Winship (2014) . Untuk pendekatan formal untuk menentukan penafsir, lihat VanderWeele and Shpitser (2013) .
Dalam bab ini, saya telah membuat apa yang kelihatan seperti garis terang antara keupayaan kami untuk membuat anggaran kausal dari data percubaan dan bukan percubaan. Walau bagaimanapun, saya fikir bahawa, pada hakikatnya, perbezaan itu lebih kabur. Sebagai contoh, setiap orang menerima bahawa merokok menyebabkan kanser, walaupun tiada eksperimen yang terkawal secara rawak yang memaksa orang untuk merokok pernah dilakukan. Untuk rawatan panjang buku yang sangat baik untuk membuat anggaran kausal dari data bukan percubaan lihat Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , dan Dunning (2012) .
Bab 1 dan 2 Freedman, Pisani, and Purves (2007) menawarkan pengenalan yang jelas kepada perbezaan antara eksperimen, eksperimen terkawal, dan percubaan terkawal rawak.
Manzi (2012) menyediakan pengenalan yang menarik dan boleh dibaca kepada dasar-dasar falsafah dan statistik percubaan terkawal rawak. Ia juga menyediakan contoh-contoh dunia nyata yang menarik tentang kuasa eksperimen dalam perniagaan. Issenberg (2012) menyediakan pengenalan menarik untuk penggunaan eksperimen dalam kempen politik.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, dan Athey and Imbens (2016b) memberikan pengenalan yang baik kepada aspek statistik reka bentuk dan analisis eksperimen. Selanjutnya, terdapat rawatan yang sangat baik dari penggunaan uji kaji dalam pelbagai bidang yang berbeza: ekonomi (Bardsley et al. 2009) , Sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psikologi (Aronson et al. 1989) , Sains politik (Morton and Williams 2010) , dan dasar sosial (Glennerster and Takavarasha 2013) .
Pentingnya pengambilan peserta (contohnya, pensampelan) sering tidak diapresiasi dalam penyelidikan percubaan. Walau bagaimanapun, jika kesan rawatan itu adalah heterogen dalam populasi, maka pensampelan adalah kritikal. Longford (1999) menjadikan perkara ini dengan jelas apabila dia menganjurkan para penyelidik memikirkan eksperimen sebagai tinjauan penduduk dengan persampelan serampangan.
Saya telah mencadangkan bahawa terdapat kontinum antara percubaan lab dan medan, dan penyelidik lain telah mencadangkan tipologi yang lebih terperinci, khususnya yang memisahkan pelbagai bentuk eksperimen lapangan (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Sebilangan kertas kerja telah membandingkan eksperimen makmal dan lapangan dalam abstrak (Falk and Heckman 2009; Cialdini 2009) dan dari segi hasil percubaan khusus dalam sains politik (Coppock and Green 2015) , ekonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , dan psikologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) menawarkan reka bentuk penyelidikan yang bagus untuk membandingkan hasil daripada eksperimen lab dan lapangan. Parigi, Santana, and Cook (2017) menerangkan bagaimana eksperimen bidang dalam talian dapat menggabungkan beberapa ciri eksperimen lab dan lapangan.
Kebimbangan mengenai peserta mengubah tingkah laku mereka kerana mereka tahu bahawa mereka sedang diperhatikan secara dekat kadang-kadang dipanggil kesan permintaan , dan mereka telah dikaji dalam psikologi (Orne 1962) dan ekonomi (Zizzo 2010) . Walaupun kebanyakannya dikaitkan dengan eksperimen percubaan, isu-isu yang sama juga boleh menyebabkan masalah untuk eksperimen lapangan juga. Malah, kesan permintaan kadang-kadang dipanggil kesan Hawthorne , istilah yang menghasilkan eksperimen pencahayaan yang terkenal yang bermula pada tahun 1924 di Hawthorne Works of Western Electric Company (Adair 1984; Levitt and List 2011) . Kedua-dua kesan permintaan dan kesan Hawthorne berkait rapat dengan idea pengukuran reaktif yang dibincangkan dalam bab 2 (lihat juga Webb et al. (1966) ).
Eksperimen lapangan mempunyai sejarah yang panjang dalam bidang ekonomi (Levitt and List 2009) , sains politik (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologi (Shadish 2002) dan dasar awam (Shadish and Cook 2009) . Satu bidang sains sosial di mana percubaan lapangan dengan cepat menjadi terkenal adalah pembangunan antarabangsa. Untuk semakan positif terhadap karya itu dalam ekonomi, lihat Banerjee and Duflo (2009) , dan untuk penilaian kritis lihat Deaton (2010) . Untuk semakan karya ini dalam sains politik lihat Humphreys and Weinstein (2009) . Akhirnya, cabaran etika yang timbul daripada eksperimen lapangan telah diterokai dalam konteks sains politik (Humphreys 2015; Desposato 2016b) dan ekonomi pembangunan (Baele 2013) .
Dalam seksyen ini, saya mencadangkan agar maklumat pra-rawatan dapat digunakan untuk meningkatkan ketepatan kesan rawatan yang dianggarkan, tetapi terdapat beberapa perdebatan mengenai pendekatan ini; lihat Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , dan Bloniarz et al. (2016) untuk maklumat lanjut.
Akhirnya, terdapat dua jenis eksperimen lain yang dilakukan oleh saintis sosial yang tidak sesuai dengan kemas di sepanjang dimensi bidang makmal: eksperimen tinjauan dan eksperimen sosial. Eksperimen tinjauan adalah percubaan menggunakan infrastruktur tinjauan sedia ada dan membandingkan tanggapan terhadap versi alternatif soalan yang sama (beberapa eksperimen kaji selidik dibentangkan dalam Bab 3); untuk lebih lanjut mengenai eksperimen tinjauan melihat Mutz (2011) . Eksperimen sosial adalah eksperimen di mana rawatan adalah beberapa dasar sosial yang hanya boleh dilaksanakan oleh kerajaan. Eksperimen sosial berkait rapat dengan penilaian program. Untuk lebih lanjut mengenai eksperimen dasar, lihat Heckman and Smith (1995) , Orr (1998) , dan @ glennerster_running_2013.
Saya telah memilih untuk memberi tumpuan kepada tiga konsep: kesahihan, heterogeneity kesan rawatan, dan mekanisme. Konsep-konsep ini mempunyai nama yang berlainan dalam bidang yang berbeza. Sebagai contoh, ahli psikologi cenderung bergerak melangkaui eksperimen mudah dengan memberi tumpuan kepada mediator dan moderator (Baron and Kenny 1986) . Gagasan mediator ditangkap oleh apa yang saya panggil mekanisme, dan idea penyederhana ditangkap oleh apa yang saya sebut kesahihan luar (contohnya, apakah keputusan percubaan itu berbeza jika ia dijalankan dalam situasi yang berbeza) dan heterogenitas kesan rawatan ( contohnya, adalah kesan yang lebih besar bagi sesetengah orang daripada yang lain).
Eksperimen oleh Schultz et al. (2007) menunjukkan bagaimana teori sosial dapat digunakan untuk merekabentuk campur tangan yang berkesan. Untuk hujah yang lebih umum mengenai peranan teori dalam merekabentuk campur tangan yang berkesan, lihat Walton (2014) .
Konsep kesahihan dalaman dan luaran mula diperkenalkan oleh Campbell (1957) . Lihat Shadish, Cook, and Campbell (2001) untuk sejarah yang lebih terperinci dan penjelasan yang teliti mengenai kesimpulan kesimpulan statistik, kesahan dalaman, kesahan membina, dan kesahan luar.
Untuk gambaran mengenai isu berkaitan kesimpulan kesimpulan statistik dalam eksperimen, lihat Gerber and Green (2012) (dari perspektif sains sosial) dan Imbens and Rubin (2015) (dari perspektif statistik). Sesetengah isu kesimpulan kesimpulan statistik yang timbul khusus dalam eksperimen lapangan dalam talian termasuk isu-isu seperti kaedah pengiraan yang komputasi untuk mewujudkan selang keyakinan dengan data bergantung (Bakshy and Eckles 2013) .
Kesahan dalaman boleh menjadi sulit untuk memastikan dalam eksperimen medan kompleks. Lihat, sebagai contoh, Gerber and Green (2000) , Imai (2005) , dan Gerber and Green (2005) untuk membahaskan mengenai pelaksanaan percubaan lapangan kompleks mengenai pengundian. Kohavi et al. (2012) dan Kohavi et al. (2013) menyediakan pengenalan kepada cabaran kesahihan selang dalam eksperimen lapangan dalam talian.
Satu ancaman utama kepada kesahan dalaman ialah kemungkinan rawak yang gagal. Satu cara yang berpotensi untuk mengesan masalah dengan rawak adalah untuk membandingkan kumpulan rawatan dan kawalan pada ciri-ciri yang boleh dilihat. Perbandingan sebegini dipanggil pengecilan imbangan . Lihat Hansen and Bowers (2008) untuk pendekatan statistik untuk mengimbangi pemeriksaan dan Mutz and Pemantle (2015) kerana kebimbangan mengenai pemeriksaan keseimbangan. Sebagai contoh, menggunakan pemeriksaan keseimbangan, Allcott (2011) mendapati beberapa bukti bahawa rawak tidak dilaksanakan dengan betul dalam tiga percubaan Opower (lihat jadual 2; tapak 2, 6, dan 8). Untuk pendekatan lain, lihat Bab 21 Imbens and Rubin (2015) .
Kebimbangan utama lain yang berkaitan dengan kesahan dalaman adalah: (1) ketidakpatuhan satu sisi, di mana tidak semua orang dalam kumpulan rawatan sebenarnya menerima rawatan, (2) dua ketidakpatuhan sisi, di mana tidak semua orang dalam kumpulan rawatan menerima rawatan dan sesetengah orang dalam kumpulan kawalan menerima rawatan, (3) pergeseran, di mana hasil tidak diukur untuk beberapa peserta, dan (4) campur tangan, di mana rawatan tumpahan dari orang dalam keadaan rawatan kepada orang dalam keadaan kawalan. Lihat bab 5, 6, 7, dan 8 dari Gerber and Green (2012) untuk lebih banyak mengenai setiap isu ini.
Untuk lebih banyak membuktikan kesahan, lihat Westen and Rosenthal (2003) , dan untuk lebih membina kesahihan dalam sumber data besar, Lazer (2015) dan bab 2 buku ini.
Satu aspek kesahihan luaran adalah penetapan di mana campur tangan diuji. Allcott (2015) menyediakan rawatan teoretikal dan empirik yang berhati-hati terhadap pemilihan pemilihan tapak. Isu ini juga dibincangkan oleh Deaton (2010) . Satu lagi aspek kesahan luaran adalah sama ada pengoperasian alternatif intervensi yang sama akan mempunyai kesan yang sama. Dalam kes ini, perbandingan antara Schultz et al. (2007) dan Allcott (2011) menunjukkan bahawa percubaan Opower mempunyai anggaran yang dirawat lebih kecil daripada eksperimen asal oleh Schultz dan rakan sekerja (1.7% berbanding 5%). Allcott (2011) meramalkan bahawa eksperimen susulan mempunyai kesan yang lebih kecil kerana cara rawatan berbeza: emotikon tulisan tangan sebagai sebahagian daripada kajian yang ditaja oleh sebuah universiti, berbanding dengan emotikon bercetak sebagai sebahagian daripada pengeluaran besar-besaran laporan daripada syarikat kuasa.
Untuk gambaran terperinci tentang heterogenitas kesan rawatan dalam eksperimen lapangan, lihat bab 12 Gerber and Green (2012) . Untuk pengenalan kepada heterogenitas kesan rawatan dalam ujian perubatan, lihat Kent and Hayward (2007) , Longford (1999) , dan Kravitz, Duan, and Braslow (2004) . Pertimbangan terhadap heterogenitas kesan rawatan umumnya memberi tumpuan kepada perbezaan berdasarkan ciri pra-rawatan. Jika anda berminat dengan heterogeneity berdasarkan hasil selepas rawatan, maka pendekatan yang lebih kompleks diperlukan, seperti stratifikasi utama (Frangakis and Rubin 2002) ; lihat Page et al. (2015) untuk semakan.
Ramai penyelidik menganggarkan heterogeneity kesan rawatan menggunakan regresi linear, tetapi kaedah baru bergantung kepada pembelajaran mesin; lihat, sebagai contoh, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , dan Athey and Imbens (2016a) .
Terdapat beberapa keraguan tentang penemuan heterogeniti kesan kerana pelbagai masalah perbandingan dan "penangkapan ikan." Terdapat pelbagai pendekatan statistik yang dapat membantu menangani kebimbangan tentang pelbagai perbandingan (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Satu pendekatan kepada kebimbangan mengenai "memancing" adalah pra-pendaftaran, yang menjadi semakin biasa dalam psikologi (Nosek and Lakens 2014) , sains politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .
Dalam kajian oleh Costa and Kahn (2013) hanya separuh daripada isi rumah dalam eksperimen ini boleh dikaitkan dengan maklumat demografi. Pembaca yang berminat dalam butiran ini harus merujuk kepada kertas asal.
Mekanisme sangat penting, tetapi mereka sukar untuk belajar. Penyelidikan mengenai mekanisme berkait rapat dengan kajian mediator dalam psikologi (tetapi lihat juga VanderWeele (2009) untuk perbandingan yang tepat antara dua idea). Pendekatan statistik untuk mencari mekanisme, seperti pendekatan yang dibangunkan di Baron and Kenny (1986) , adalah perkara biasa. Malangnya, prosedur tersebut bergantung kepada beberapa anggapan yang kuat (Bullock, Green, and Ha 2010) dan mengalami banyak mekanisme, seperti yang mungkin dijangkakan dalam banyak situasi (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) dan Imai and Yamamoto (2013) menawarkan beberapa kaedah statistik yang lebih baik. Selanjutnya, VanderWeele (2015) menawarkan rawatan panjang buku dengan beberapa hasil penting, termasuk pendekatan komprehensif terhadap analisis kepekaan.
Pendekatan yang berasingan memfokuskan pada eksperimen yang cuba memanipulasi mekanisme secara langsung (contohnya, memberi pelaut vitamin C). Malangnya, dalam banyak tetapan sains sosial, terdapat banyak mekanisme berbilang dan sukar untuk merancang rawatan yang mengubahnya tanpa mengubah yang lain. Beberapa pendekatan kepada mekanisme perubahan secara eksperimen diterangkan oleh Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , dan Pirlott and MacKinnon (2016) .
Penyelidik yang menjalankan eksperimen faktorial sepenuhnya perlu bimbang tentang banyak ujian hipotesis; lihat Fink, McConnell, and Vollmer (2014) dan List, Shaikh, and Xu (2016) untuk maklumat lanjut.
Akhirnya, mekanisme juga mempunyai sejarah panjang dalam falsafah sains seperti yang diterangkan oleh Hedström and Ylikoski (2010) .
Untuk lebih lanjut mengenai penggunaan kajian surat-menyurat dan kajian audit untuk mengukur diskriminasi, lihat Pager (2007) .
Cara paling biasa untuk merekrut peserta ke eksperimen yang anda bina ialah Amazon Mechanical Turk (MTurk). Kerana MTurk meniru aspek percubaan makmal tradisional yang membayar orang untuk menyelesaikan tugas-tugas yang mereka tidak akan lakukan untuk bebas-banyak penyelidik telah mula menggunakan Turkers (pekerja di MTurk) sebagai peserta eksperimen, menghasilkan pengumpulan data yang lebih cepat dan lebih murah daripada yang dapat dicapai dalam eksperimen makmal tradisional di kampus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Secara umumnya, kelebihan terbesar menggunakan peserta yang diambil dari MTurk adalah logistik. Manakala eksperimen makmal boleh mengambil masa beberapa minggu untuk dijalankan dan eksperimen medan boleh mengambil bulan untuk disiapkan, eksperimen dengan peserta yang diambil dari MTurk boleh dijalankan dalam beberapa hari. Sebagai contoh, Berinsky, Huber, and Lenz (2012) dapat merekrut 400 mata pelajaran dalam satu hari untuk mengambil bahagian dalam percubaan 8 minit. Selanjutnya, para peserta dapat direkrut untuk tujuan apa pun (termasuk survei dan kolaborasi massa, seperti yang dibahas dalam bab 3 dan 5). Kemudahan pengambilan ini bermakna para penyelidik boleh menjalankan urutan eksperimen yang berkaitan dalam penggantian pesat.
Sebelum merekrut peserta dari MTurk untuk eksperimen anda sendiri, terdapat empat perkara penting yang perlu anda ketahui. Pertama, banyak penyelidik mempunyai skeptikisme eksperimen yang tidak spesifik yang melibatkan Turkers. Kerana skeptis ini tidak khusus, sukar untuk menentang bukti. Walau bagaimanapun, selepas beberapa tahun kajian menggunakan Turkers, kini kita dapat membuat kesimpulan bahawa skeptisisme ini tidaklah wajar. Terdapat banyak kajian yang membandingkan demografi Turkers dengan penduduk lain dan banyak kajian membandingkan hasil eksperimen dengan Turkers dengan orang-orang dari populasi lain. Memandangkan semua kerja ini, saya fikir cara terbaik untuk anda memikirkannya adalah bahawa Turkers adalah sampel kemudahan yang munasabah, seperti pelajar tetapi sedikit lebih pelbagai (Berinsky, Huber, and Lenz 2012) . Oleh itu, sama seperti pelajar adalah penduduk yang munasabah untuk beberapa, tetapi tidak semua, penyelidikan, Turkers adalah penduduk munasabah untuk beberapa, tetapi tidak semua, penyelidikan. Jika anda akan bekerjasama dengan Turkers, maka masuk akal untuk membaca banyak kajian perbandingan ini dan memahami nuansa mereka.
Kedua, penyelidik telah membangunkan amalan terbaik untuk meningkatkan kesahan internal eksperimen MTurk, dan anda harus belajar dan mengikuti amalan terbaik ini (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Sebagai contoh, penyelidik yang menggunakan Turkers digalakkan menggunakan penapis untuk menghilangkan peserta yang kurang perhatian (Berinsky, Margolis, and Sances 2014, 2016) (tetapi lihat juga DJ Hauser and Schwarz (2015b) dan DJ Hauser and Schwarz (2015a) ). Sekiranya anda tidak membuang peserta yang tidak peduli, maka sebarang kesan rawatan dapat dibasuh oleh kebisingan yang mereka perkenalkan, dan dalam praktiknya, jumlah peserta yang tidak peduli dapat besar. Dalam eksperimen oleh Huber dan rakan-rakan (2012) , kira-kira 30% daripada peserta tidak mengambil perhatian dasar skrin. Masalah lain yang sering timbul ketika Turkers digunakan adalah peserta tidak naif (Chandler et al. 2015) dan pergeseran (Zhou and Fishbach 2016) .
Ketiga, berbanding dengan beberapa bentuk eksperimen digital lain, eksperimen MTurk tidak boleh skala; Stewart et al. (2015) menganggarkan bahawa pada bila-bila masa terdapat hanya kira-kira 7,000 orang di MTurk.
Akhirnya, anda harus tahu bahawa MTurk adalah komuniti dengan peraturan dan normanya sendiri (Mason and Suri 2012) . Dengan cara yang sama yang anda akan cuba untuk mengetahui tentang budaya negara di mana anda akan menjalankan eksperimen anda, anda harus cuba untuk mengetahui lebih lanjut tentang budaya dan norma Turkers (Salehi et al. 2015) . Dan anda harus tahu bahawa Turkers akan bercakap tentang eksperimen anda jika anda melakukan sesuatu yang tidak sesuai atau tidak beretika (Gray et al. 2016) .
MTurk adalah cara yang sangat mudah untuk merekrut peserta ke eksperimen anda, sama ada mereka seperti lab, seperti Huber, Hill, and Lenz (2012) , atau lebih banyak bidang seperti Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , dan Mao et al. (2016) .
Jika anda berfikir untuk mencipta produk anda sendiri, saya cadangkan anda membaca nasihat yang ditawarkan oleh kumpulan MovieLens di Harper and Konstan (2015) . Wawasan utama dari pengalaman mereka ialah untuk setiap projek yang berjaya terdapat banyak kegagalan. Sebagai contoh, kumpulan MovieLens melancarkan produk lain, seperti GopherAnswers, yang merupakan kegagalan lengkap (Harper and Konstan 2015) . Satu lagi contoh penyelidik yang gagal semasa cuba membina produk ialah percubaan Edward Castronova untuk membina sebuah permainan dalam talian bernama Arden. Walaupun pembiayaan sebanyak $ 250,000, projek itu adalah kegagalan (Baker 2008) . Projek seperti GopherAnswers dan Arden malangnya lebih biasa daripada projek seperti MovieLens.
Saya telah mendengar idea Quadrant Pasteur sering dibincangkan di syarikat teknologi, dan ia membantu mengatur usaha penyelidikan di Google (Spector, Norvig, and Petrov 2012) .
Kajian Bond dan rakan-rakan (2012) juga cuba mengesan kesan rawatan ini kepada rakan-rakan mereka yang menerima mereka. Kerana reka bentuk eksperimen, limpahan ini sukar untuk mengesan dengan bersih; pembaca yang berminat harus melihat Bond et al. (2012) untuk perbincangan yang lebih teliti. Jones dan rakan sekerja (2017) juga melakukan percubaan yang sangat serupa semasa pilihan raya 2012. Eksperimen ini adalah sebahagian daripada tradisi percubaan panjang dalam sains politik mengenai usaha untuk menggalakkan pengundian (Green and Gerber 2015) . Percubaan mendapatkan suara keluar ini adalah perkara biasa, sebahagiannya kerana mereka berada di Kuadran Pasteur. Iaitu, terdapat banyak orang yang termotivasi untuk meningkatkan pengundian dan pengundian boleh menjadi tingkah laku yang menarik untuk menguji lebih banyak teori am mengenai perubahan tingkah laku dan pengaruh sosial.
Untuk nasihat tentang menjalankan eksperimen bidang dengan organisasi rakan kongsi seperti parti politik, NGO, dan perniagaan, lihat Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , dan Gueron (2002) . Untuk pemikiran tentang bagaimana perkongsian dengan organisasi dapat mempengaruhi reka bentuk penyelidikan, lihat King et al. (2007) dan Green, Calfano, and Aronow (2014) . Perkongsian juga boleh membawa kepada soalan etika, seperti yang dibincangkan oleh Humphreys (2015) dan Nickerson and Hyde (2016) .
Sekiranya anda membuat rancangan analisis sebelum menjalankan percubaan anda, saya cadangkan anda memulakan dengan membaca garis panduan pelaporan. Panduan CONSORT (Laporan Bersepadu Laporan Ujian) disusun dalam bidang perubatan (Schulz et al. 2010) dan diubah suai untuk penyelidikan sosial (Mayo-Wilson et al. 2013) . Satu set garis panduan yang berkaitan telah dibangunkan oleh editor Jurnal Sains Politik Eksperimental (Gerber et al. 2014) (lihat juga Mutz and Pemantle (2015) dan Gerber et al. (2015) ). Akhirnya, garis panduan pelaporan telah dikembangkan dalam psikologi (APA Working Group 2008) , dan lihat juga Simmons, Nelson, and Simonsohn (2011) .
Jika anda membuat pelan analisis, anda harus mempertimbangkan untuk mendaftarkannya terlebih dahulu kerana pra-pendaftaran akan meningkatkan keyakinan orang lain dalam hasil anda. Selanjutnya, jika anda bekerja dengan rakan kongsi, ia akan mengehadkan kemampuan pasangan anda untuk mengubah analisis setelah melihat hasilnya. Pra-pendaftaran menjadi semakin biasa dalam psikologi (Nosek and Lakens 2014) , sains politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .
Nasihat reka bentuk khusus untuk eksperimen lapangan dalam talian juga disampaikan dalam Konstan and Chen (2007) dan Chen and Konstan (2015) .
Apa yang saya panggil strategi armada kadang-kadang dipanggil penyelidikan programatik ; lihat Wilson, Aronson, and Carlsmith (2010) .
Untuk lebih banyak percubaan MusicLab, lihat Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , dan Salganik (2007) . Untuk maklumat lanjut mengenai pemenang-mengambil-semua pasaran, lihat Frank and Cook (1996) . Untuk lebih banyak nasib untangling dan kemahiran secara amnya, lihat Mauboussin (2012) , Watts (2012) , dan Frank (2016) .
Terdapat satu lagi pendekatan untuk menghapuskan pembayaran peserta yang harus digunakan oleh para penyelidik dengan berhati-hati: conscription. Dalam banyak eksperimen lapangan dalam talian peserta pada dasarnya telah disusun menjadi eksperimen dan tidak diberi pampasan. Contoh-contoh pendekatan ini termasuk percubaan Restivo dan van de Rijt (2012) mengenai ganjaran di Wikipedia dan Bond dan rakan sekerja (2012) percubaan untuk menggalakkan orang untuk mengundi. Eksperimen-eksperimen ini tidak benar-benar mempunyai kos pembolehubah sifar-sebaliknya, mereka mempunyai kos pembolehubah sifar kepada penyelidik . Dalam eksperimen seperti itu, walaupun kos kepada setiap peserta adalah sangat kecil, kos agregat boleh agak besar. Penyelidik yang menjalankan eksperimen dalam talian secara besar-besaran sering membuktikan kepentingan kesan rawatan kecil yang dianggarkan dengan mengatakan bahawa kesan kecil ini boleh menjadi penting apabila diterapkan kepada ramai orang. Pemikiran yang sama berlaku untuk kos yang dikenakan para penyelidik ke atas peserta. Sekiranya eksperimen anda menyebabkan satu juta orang membazir satu minit, eksperimen ini tidak begitu memudaratkan orang tertentu, tetapi dalam agregat ia telah membazir hampir dua tahun.
Satu lagi pendekatan untuk mewujudkan pembayaran kos pembolehubah sifar kepada peserta adalah dengan menggunakan loteri, pendekatan yang juga telah digunakan dalam penyelidikan tinjauan (Halpern et al. 2011) . Untuk lebih lanjut mengenai mereka bentuk pengalaman pengguna yang menyeronokkan, lihat Toomim et al. (2011) . Untuk lebih lanjut mengenai menggunakan bot untuk membuat percubaan kos pembolehubah sifar lihat ( ??? ) .
Ketiga R seperti yang asalnya dicadangkan oleh Russell and Burch (1959) adalah seperti berikut:
"Penggantian ertinya menggantikan sedar hidup haiwan yang lebih tinggi bahan yg tdk dpt merasai. Pengurangan bermakna pengurangan dalam bilangan haiwan yang digunakan untuk mendapatkan maklumat daripada jumlah dan ketepatan yang diberikan. Penghalusan bermakna apa-apa pengurangan dalam insiden atau keterukan prosedur tidak berperikemanusiaan digunakan untuk mereka haiwan yang masih perlu digunakan. "
Ketiga R yang saya usulkan tidak mengatasi prinsip etika yang diterangkan dalam bab 6. Sebaliknya, mereka adalah versi yang lebih terperinci yang salah satu daripada prinsip-kefahaman-khususnya dalam penetapan eksperimen manusia.
Dari segi R pertama ("penggantian"), membandingkan eksperimen penularan emosi (Kramer, Guillory, and Hancock 2014) dan eksperimen semulajadi penyingkiran emosi (Lorenzo Coviello et al. 2014) menawarkan beberapa pengajaran umum mengenai pergaulan yang terlibat dalam bergerak dari eksperimen ke eksperimen semula jadi (dan pendekatan lain seperti mencocokkan percubaan untuk menghitung eksperimen dalam data bukan percubaan; lihat bab 2). Di samping faedah etika, beralih dari eksperimen ke kajian tanpa eksperimen juga membolehkan para penyelidik mempelajari rawatan yang logistiknya tidak dapat digunakan. Walau bagaimanapun, manfaat etika dan logistik ini datang pada kos. Dengan eksperimen semulajadi penyelidik tidak mempunyai kawalan ke atas perkara seperti perekrutan peserta, rawak, dan jenis rawatan. Sebagai contoh, satu batasan hujan sebagai rawatan adalah bahawa kedua-duanya meningkatkan positiviti dan mengurangkan negatif. Walau bagaimanapun, dalam kajian eksperimen, Kramer dan rakan sekerja dapat menyesuaikan sikap positif dan negatif secara bebas. Pendekatan tertentu yang digunakan oleh Lorenzo Coviello et al. (2014) dikemukakan lagi oleh L. Coviello, Fowler, and Franceschetti (2014) . Untuk pengenalan kepada pembolehubah instrumental, yang merupakan pendekatan yang digunakan oleh Lorenzo Coviello et al. (2014) , lihat Angrist and Pischke (2009) (kurang formal) atau Angrist, Imbens, and Rubin (1996) (lebih formal). Untuk penilaian yang ragu terhadap pembolehubah instrumental, lihat Deaton (2010) , dan untuk pengenalan kepada pembolehubah instrumental dengan instrumen yang lemah (hujan adalah instrumen yang lemah), lihat Murray (2006) . Lebih umum, pengenalan yang baik untuk eksperimen semulajadi diberikan oleh Dunning (2012) , manakala Rosenbaum (2002) , ( ??? ) , dan Shadish, Cook, and Campbell (2001) menawarkan idea-idea yang baik tentang menganggarkan kesan sebab dan akibat tanpa eksperimen.
Dari segi R kedua ("penambahbaikan"), ada penyelidikan saintifik dan logistik apabila mempertimbangkan mengubah reka bentuk Penangkapan Emosi daripada menyekat siaran untuk meningkatkan jawatan. Sebagai contoh, mungkin pelaksanaan pelaksanaan Suapan Berita menjadikannya lebih mudah untuk melakukan eksperimen di mana siaran disekat dan bukannya di mana ia dirangsang (perhatikan bahawa eksperimen yang melibatkan menyekat siaran dapat dilaksanakan sebagai lapisan di atas sistem Feed News tanpa memerlukan perubahan sistem pendasar). Bagaimanapun, secara saintifik, teori yang ditangani oleh eksperimen itu tidak jelas mencadangkan satu reka bentuk yang lain. Malangnya, saya tidak menyedari penyelidikan utama yang ketara mengenai merit yang berkaitan dengan menyekat dan meningkatkan kandungan dalam Berita Berita. Juga, saya tidak melihat banyak penyelidikan mengenai rawatan penyulingan untuk menjadikannya kurang berbahaya; satu pengecualian ialah B. Jones and Feamster (2015) , yang menganggap kes pengukuran penapisan Internet (topik yang dibincangkan dalam bab 6 berkaitan dengan kajian Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Dari segi ketiga R ("pengurangan"), pengenalan yang baik kepada analisis kuasa tradisional diberikan oleh Cohen (1988) (buku) dan Cohen (1992) (artikel), sementara Gelman and Carlin (2014) menawarkan perspektif yang sedikit berbeza. Kovariat pra-rawatan boleh dimasukkan dalam peringkat reka bentuk dan analisis eksperimen; Bab 4 dari Gerber and Green (2012) memberikan pengenalan yang baik kepada kedua-dua pendekatan, dan Casella (2008) menyediakan rawatan yang lebih mendalam. Teknik yang menggunakan maklumat pra-rawatan ini dalam rawak biasanya dipanggil reka bentuk eksperimen yang disekat atau reka bentuk percubaan berstrata (terminologi tidak digunakan secara konsisten merentas komuniti); teknik ini berkait rapat dengan teknik pensampelan berstrata yang dibincangkan dalam bab 3. Lihat Higgins, Sävje, and Sekhon (2016) untuk lebih menggunakan reka bentuk ini dalam eksperimen besar-besaran. Kovariat pra-rawatan juga boleh dimasukkan ke dalam tahap analisis. McKenzie (2012) meneroka pendekatan perbezaan-dalam-perbezaan untuk menganalisis eksperimen lapangan dengan lebih terperinci. Lihat Carneiro, Lee, and Wilhelm (2016) untuk lebih banyak mengenai pertukaran antara pendekatan yang berlainan untuk meningkatkan ketepatan dalam anggaran kesan rawatan. Akhirnya, apabila memutuskan sama ada untuk mencuba untuk memasukkan kovariat pra-rawatan pada peringkat reka bentuk atau analisis (atau kedua-duanya), terdapat beberapa faktor yang perlu dipertimbangkan. Dalam suasana di mana penyelidik ingin menunjukkan bahawa mereka bukan "memancing" (Humphreys, Sierra, and Windt 2013) , menggunakan kovariat pra-rawatan dalam peringkat reka bentuk boleh membantu (Higgins, Sävje, and Sekhon 2016) . Dalam situasi di mana peserta tiba secara berturutan, terutamanya eksperimen lapangan dalam talian, menggunakan maklumat pra-rawatan dalam peringkat reka bentuk mungkin sukar logistik; lihat, sebagai contoh, Xie and Aurisset (2016) .
Ia perlu menambah sedikit gerak hati tentang mengapa pendekatan perbezaan-dalam-perbezaan boleh jadi jauh lebih berkesan daripada perbezaan. Banyak hasil dalam talian mempunyai varians yang sangat tinggi (lihat contoh, RA Lewis and Rao (2015) dan Lamb et al. (2015) ) dan relatif stabil sepanjang masa. Dalam kes ini, skor perubahan akan mempunyai variasi yang agak kecil, meningkatkan kuasa ujian statistik. Salah satu sebab pendekatan ini tidak digunakan lebih kerap ialah sebelum usia digital, tidak lazim untuk mendapat hasil pra-rawatan. Cara yang lebih konkrit untuk berfikir tentang ini adalah membayangkan percubaan untuk mengukur sama ada rutin senaman tertentu menyebabkan penurunan berat badan. Sekiranya anda menggunakan pendekatan yang berbeza-dalam-bermakna, anggaran anda akan mempunyai kebolehubahan yang berpunca daripada kebolehubahan di dalam populasi. Jika anda melakukan pendekatan perbezaan-dalam-perbezaan, bagaimanapun, perubahan yang berlaku secara alami dalam berat badan akan dikeluarkan, dan anda dapat dengan mudah mengesan perbezaan yang disebabkan oleh rawatan.
Akhirnya, saya menganggap menambah R keempat: "berulang". Iaitu, jika penyelidik mendapati diri mereka mempunyai lebih banyak data percubaan daripada yang mereka perlukan untuk menangani soalan penyelidikan asal mereka, mereka harus menilai data untuk bertanya soalan baru. Sebagai contoh, bayangkan bahawa Kramer dan rakan sekerja telah menggunakan penganggar perbezaan dalam perbezaan dan mendapati diri mereka dengan lebih banyak data daripada yang diperlukan untuk menangani soalan penyelidikan mereka. Daripada tidak menggunakan data setakat sepenuhnya, mereka dapat mempelajari saiz kesan sebagai fungsi ekspresi emosi pra-rawatan. Sama seperti Schultz et al. (2007) mendapati bahawa kesan rawatan berbeza untuk pengguna ringan dan berat, mungkin kesan Berita Feed adalah berbeza untuk orang yang sudah cenderung untuk menghantar mesej gembira (atau sedih). Menimbang semula boleh membawa kepada "memancing" (Humphreys, Sierra, and Windt 2013) dan "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , tetapi ini sebahagian besarnya boleh ditangani dengan gabungan laporan jujur (Simmons, Nelson, and Simonsohn 2011) , pra-pendaftaran (Humphreys, Sierra, and Windt 2013) , dan kaedah pembelajaran mesin yang cuba mengelakkan lebih tepat.