Pertanyaan tentang kausalitas dalam penelitian sosial seringkali rumit dan rumit. Untuk pendekatan mendasar untuk kausalitas berdasarkan grafik kausal, lihat Pearl (2009) , dan untuk pendekatan dasar berdasarkan hasil potensial, lihat Imbens and Rubin (2015) . Untuk perbandingan antara dua pendekatan ini, lihat Morgan and Winship (2014) . Untuk pendekatan formal untuk mendefinisikan perancu, lihat VanderWeele and Shpitser (2013) .
Dalam bab ini, saya telah membuat apa yang tampak seperti garis terang antara kemampuan kami untuk membuat perkiraan kausal dari data eksperimen dan non-eksperimen. Namun, saya berpikir bahwa, dalam kenyataannya, perbedaannya lebih kabur. Sebagai contoh, semua orang menerima bahwa merokok menyebabkan kanker, meskipun tidak ada percobaan terkontrol acak yang memaksa orang untuk merokok yang pernah dilakukan. Untuk perawatan buku yang sangat baik dalam membuat perkiraan kausal dari data non-eksperimental lihat Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , dan Dunning (2012) .
Bab 1 dan 2 Freedman, Pisani, and Purves (2007) menawarkan pengenalan yang jelas terhadap perbedaan antara eksperimen, eksperimen terkontrol, dan eksperimen terkontrol acak.
Manzi (2012) memberikan pengantar yang menarik dan mudah dibaca terhadap landasan filosofis dan statistik dari eksperimen terkontrol acak. Ini juga memberikan contoh dunia nyata yang menarik tentang kekuatan eksperimen dalam bisnis. Issenberg (2012) memberikan pengantar yang menarik untuk penggunaan eksperimen dalam kampanye politik.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, dan Athey and Imbens (2016b) memberikan pengenalan yang baik pada aspek statistik dari desain dan analisis eksperimental. Selanjutnya, ada perawatan yang sangat baik dari penggunaan eksperimen dalam berbagai bidang: ekonomi (Bardsley et al. 2009) , sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psikologi (Aronson et al. 1989) , ilmu politik (Morton and Williams 2010) , dan kebijakan sosial (Glennerster and Takavarasha 2013) .
Pentingnya perekrutan peserta (misalnya, sampling) sering kurang dihargai dalam penelitian eksperimental. Namun, jika efek pengobatannya heterogen dalam populasi, maka pengambilan sampel sangat penting. Longford (1999) membuat poin ini dengan jelas ketika dia mengadvokasi untuk peneliti yang memikirkan eksperimen sebagai survei populasi dengan sampling serampangan.
Saya telah menyarankan bahwa ada kontinum antara percobaan laboratorium dan lapangan, dan peneliti lain telah mengusulkan tipologi yang lebih rinci, khususnya yang memisahkan berbagai bentuk percobaan lapangan (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Sejumlah makalah telah membandingkan percobaan laboratorium dan lapangan dalam abstrak (Falk and Heckman 2009; Cialdini 2009) dan dalam hal hasil dari eksperimen spesifik dalam ilmu politik (Coppock and Green 2015) , ekonomi (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , dan psikologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) menawarkan desain penelitian yang bagus untuk membandingkan hasil dari percobaan laboratorium dan lapangan. Parigi, Santana, and Cook (2017) menjelaskan bagaimana percobaan lapangan online dapat menggabungkan beberapa karakteristik percobaan laboratorium dan lapangan.
Kekhawatiran tentang peserta mengubah perilaku mereka karena mereka tahu mereka sedang diamati secara dekat kadang-kadang disebut efek permintaan , dan mereka telah dipelajari dalam psikologi (Orne 1962) dan ekonomi (Zizzo 2010) . Meskipun sebagian besar terkait dengan eksperimen laboratorium, masalah yang sama ini dapat menyebabkan masalah untuk eksperimen lapangan juga. Bahkan, efek permintaan juga kadang-kadang disebut efek Hawthorne , istilah yang berasal dari eksperimen iluminasi terkenal yang dimulai pada tahun 1924 di Hawthorne Works of Western Electric Company (Adair 1984; Levitt and List 2011) . Baik efek permintaan dan efek Hawthorne terkait erat dengan gagasan pengukuran reaktif yang dibahas dalam bab 2 (lihat juga Webb et al. (1966) ).
Percobaan lapangan memiliki sejarah panjang dalam ekonomi (Levitt and List 2009) , ilmu politik (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologi (Shadish 2002) , dan kebijakan publik (Shadish and Cook 2009) . Salah satu bidang ilmu sosial di mana eksperimen lapangan dengan cepat menjadi menonjol adalah pembangunan internasional. Untuk review positif dari pekerjaan itu dalam ekonomi lihat Banerjee and Duflo (2009) , dan untuk penilaian kritis lihat Deaton (2010) . Untuk peninjauan karya ini dalam ilmu politik, lihat Humphreys and Weinstein (2009) . Akhirnya, tantangan etika yang timbul dari percobaan lapangan telah dieksplorasi dalam konteks ilmu politik (Humphreys 2015; Desposato 2016b) dan ekonomi pembangunan (Baele 2013) .
Pada bagian ini, saya menyarankan bahwa informasi pra-perawatan dapat digunakan untuk meningkatkan ketepatan perkiraan efek pengobatan, tetapi ada beberapa perdebatan tentang pendekatan ini; lihat Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , dan Bloniarz et al. (2016) untuk informasi lebih lanjut.
Akhirnya, ada dua jenis eksperimen lain yang dilakukan oleh ilmuwan sosial yang tidak cocok dengan dimensi lapangan laboratorium: eksperimen survei dan eksperimen sosial. Eksperimen survei adalah eksperimen menggunakan infrastruktur survei yang ada dan membandingkan respons terhadap versi alternatif dari pertanyaan yang sama (beberapa eksperimen survei disajikan pada Bab 3); untuk lebih lanjut tentang eksperimen survei lihat Mutz (2011) . Eksperimen sosial adalah eksperimen di mana pengobatan adalah beberapa kebijakan sosial yang hanya dapat diterapkan oleh pemerintah. Eksperimen sosial terkait erat dengan evaluasi program. Untuk lebih lanjut tentang eksperimen kebijakan, lihat Heckman and Smith (1995) , Orr (1998) , dan @ glennerster_running_2013.
Saya telah memilih untuk fokus pada tiga konsep: validitas, heterogenitas efek perawatan, dan mekanisme. Konsep-konsep ini memiliki nama yang berbeda di berbagai bidang. Sebagai contoh, psikolog cenderung bergerak melampaui eksperimen sederhana dengan berfokus pada mediator dan moderator (Baron and Kenny 1986) . Ide mediator ditangkap oleh apa yang saya sebut mekanisme, dan ide moderator ditangkap oleh apa yang saya sebut validitas eksternal (misalnya, apakah hasil eksperimen akan berbeda jika dijalankan dalam situasi yang berbeda) dan heterogenitas efek pengobatan ( misalnya, apakah efeknya lebih besar bagi sebagian orang daripada bagi orang lain).
Eksperimen oleh Schultz et al. (2007) menunjukkan bagaimana teori-teori sosial dapat digunakan untuk merancang intervensi yang efektif. Untuk argumen yang lebih umum tentang peran teori dalam merancang intervensi yang efektif, lihat Walton (2014) .
Konsep validitas internal dan eksternal pertama kali diperkenalkan oleh Campbell (1957) . Lihat Shadish, Cook, and Campbell (2001) untuk sejarah yang lebih rinci dan elaborasi yang cermat dari validitas kesimpulan statistik, validitas internal, validitas konstruk, dan validitas eksternal.
Untuk ikhtisar masalah yang terkait dengan validitas kesimpulan statistik dalam eksperimen, lihat Gerber and Green (2012) (dari perspektif ilmu sosial) dan Imbens and Rubin (2015) (dari perspektif statistik). Beberapa masalah validitas kesimpulan statistik yang muncul secara khusus dalam percobaan lapangan online termasuk masalah seperti metode komputasi efisien untuk menciptakan interval kepercayaan dengan data yang bergantung (Bakshy and Eckles 2013) .
Validitas internal bisa sulit untuk memastikan dalam eksperimen lapangan yang kompleks. Lihat, misalnya, Gerber and Green (2000) , Imai (2005) , dan Gerber and Green (2005) untuk debat tentang implementasi eksperimen lapangan yang kompleks tentang pemungutan suara. Kohavi et al. (2012) dan Kohavi et al. (2013) memberikan pengenalan tentang tantangan validitas interval dalam percobaan lapangan online.
Salah satu ancaman utama terhadap validitas internal adalah kemungkinan pengacakan yang gagal. Salah satu cara potensial untuk mendeteksi masalah dengan pengacakan adalah dengan membandingkan perlakuan dan kelompok kontrol pada sifat yang dapat diamati. Perbandingan semacam ini disebut pemeriksaan saldo . Lihat Hansen and Bowers (2008) untuk pendekatan statistik untuk menyeimbangkan cek dan Mutz and Pemantle (2015) untuk kekhawatiran tentang cek saldo. Sebagai contoh, menggunakan pemeriksaan saldo, Allcott (2011) menemukan beberapa bukti bahwa pengacakan tidak diterapkan dengan benar dalam tiga eksperimen Opower (lihat tabel 2; situs 2, 6, dan 8). Untuk pendekatan lain, lihat bab 21 Imbens and Rubin (2015) .
Perhatian utama lainnya yang terkait dengan validitas internal adalah: (1) ketidakpatuhan sepihak, di mana tidak semua orang dalam kelompok perlakuan benar-benar menerima perawatan, (2) ketidakpatuhan dua sisi, di mana tidak semua orang dalam kelompok perlakuan menerima perawatan dan beberapa orang di kelompok kontrol menerima pengobatan, (3) pengurangan, di mana hasil tidak diukur untuk beberapa peserta, dan (4) gangguan, di mana pengobatan tumpah dari orang-orang dalam kondisi pengobatan kepada orang-orang dalam kondisi kontrol. Lihat bab 5, 6, 7, dan 8 Gerber and Green (2012) untuk lebih lanjut tentang masing-masing masalah ini.
Untuk lebih lanjut tentang validitas konstruk, lihat Westen and Rosenthal (2003) , dan untuk lebih lanjut tentang validitas konstruk dalam sumber data besar, Lazer (2015) dan bab 2 buku ini.
Salah satu aspek validitas eksternal adalah pengaturan di mana suatu intervensi diuji. Allcott (2015) memberikan perawatan teoritis dan empiris yang cermat terhadap bias pemilihan lokasi. Masalah ini juga dibahas oleh Deaton (2010) . Aspek lain dari validitas eksternal adalah apakah operasionalisasi alternatif dari intervensi yang sama akan memiliki efek yang serupa. Dalam hal ini, perbandingan antara Schultz et al. (2007) dan Allcott (2011) menunjukkan bahwa eksperimen Opower memiliki efek perkiraan yang diperkirakan lebih kecil daripada eksperimen asli oleh Schultz dan rekan (1,7% berbanding 5%). Allcott (2011) berspekulasi bahwa percobaan tindak lanjut memiliki efek yang lebih kecil karena cara perlakuan berbeda: emoticon tulisan tangan sebagai bagian dari studi yang disponsori oleh universitas, dibandingkan dengan emoticon yang dicetak sebagai bagian dari produksi massal. laporan dari perusahaan listrik.
Untuk gambaran yang sangat baik tentang heterogenitas efek pengobatan dalam percobaan lapangan, lihat bab 12 dari Gerber and Green (2012) . Untuk pengenalan heterogenitas efek pengobatan dalam uji coba medis, lihat Kent and Hayward (2007) , Longford (1999) , dan Kravitz, Duan, and Braslow (2004) . Pertimbangan heterogenitas efek pengobatan umumnya berfokus pada perbedaan berdasarkan karakteristik pra-perawatan. Jika Anda tertarik pada heterogenitas berdasarkan hasil pasca perawatan, maka diperlukan pendekatan yang lebih kompleks, seperti stratifikasi utama (Frangakis and Rubin 2002) ; lihat Page et al. (2015) untuk ditinjau.
Banyak peneliti memperkirakan heterogenitas efek pengobatan menggunakan regresi linier, tetapi metode yang lebih baru bergantung pada pembelajaran mesin; lihat, misalnya, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , dan Athey and Imbens (2016a) .
Ada beberapa skeptisisme tentang temuan heterogenitas efek karena berbagai masalah perbandingan dan “memancing.” Ada berbagai pendekatan statistik yang dapat membantu mengatasi kekhawatiran tentang beberapa perbandingan (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Salah satu pendekatan untuk kekhawatiran tentang "memancing" adalah pra-pendaftaran, yang menjadi semakin umum dalam psikologi (Nosek and Lakens 2014) , ilmu politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .
Dalam studi oleh Costa and Kahn (2013) hanya sekitar setengah dari rumah tangga dalam eksperimen dapat dikaitkan dengan informasi demografis. Pembaca yang tertarik dengan perincian ini harus mengacu pada kertas asli.
Mekanisme sangat penting, tetapi ternyata sangat sulit untuk dipelajari. Penelitian tentang mekanisme terkait erat dengan studi mediator dalam psikologi (tetapi lihat juga VanderWeele (2009) untuk perbandingan yang tepat antara dua gagasan). Pendekatan statistik untuk menemukan mekanisme, seperti pendekatan yang dikembangkan di Baron and Kenny (1986) , cukup umum. Sayangnya, ternyata prosedur tersebut bergantung pada beberapa asumsi kuat (Bullock, Green, and Ha 2010) dan menderita ketika ada beberapa mekanisme, seperti yang diharapkan dalam banyak situasi (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) dan Imai and Yamamoto (2013) menawarkan beberapa metode statistik yang lebih baik. Lebih lanjut, VanderWeele (2015) menawarkan perawatan sepanjang buku dengan sejumlah hasil penting, termasuk pendekatan komprehensif untuk analisis sensitivitas.
Sebuah pendekatan terpisah berfokus pada percobaan yang mencoba memanipulasi mekanisme secara langsung (misalnya, memberikan pelaut vitamin C). Sayangnya, dalam banyak pengaturan ilmu sosial, sering ada beberapa mekanisme dan sulit untuk merancang perawatan yang mengubah satu tanpa mengubah yang lain. Beberapa pendekatan untuk mekanisme perubahan eksperimental dijelaskan oleh Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , dan Pirlott and MacKinnon (2016) .
Peneliti yang menjalankan eksperimen faktorial sepenuhnya perlu memperhatikan pengujian hipotesis ganda; lihat Fink, McConnell, and Vollmer (2014) dan List, Shaikh, and Xu (2016) untuk informasi lebih lanjut.
Akhirnya, mekanisme juga memiliki sejarah panjang dalam filsafat sains sebagaimana dijelaskan oleh Hedström and Ylikoski (2010) .
Untuk lebih lanjut tentang penggunaan studi korespondensi dan studi audit untuk mengukur diskriminasi, lihat Pager (2007) .
Cara paling umum untuk merekrut peserta ke eksperimen yang Anda buat adalah Amazon Mechanical Turk (MTurk). Karena MTurk meniru aspek percobaan laboratorium tradisional - membayar orang untuk menyelesaikan tugas yang tidak akan mereka lakukan secara gratis - banyak peneliti telah mulai menggunakan Turkers (para pekerja di MTurk) sebagai peserta eksperimental, menghasilkan pengumpulan data yang lebih cepat dan lebih murah daripada yang dapat dicapai dalam percobaan laboratorium di kampus tradisional (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Umumnya, keuntungan terbesar menggunakan peserta yang direkrut dari MTurk adalah logistik. Padahal eksperimen laboratorium dapat membutuhkan waktu berminggu-minggu untuk dijalankan dan percobaan lapangan dapat memakan waktu berbulan-bulan untuk persiapan, percobaan dengan peserta yang direkrut dari MTurk dapat dijalankan dalam beberapa hari. Misalnya, Berinsky, Huber, and Lenz (2012) mampu merekrut 400 subjek dalam satu hari untuk berpartisipasi dalam eksperimen 8 menit. Selanjutnya, para peserta ini dapat direkrut untuk hampir semua tujuan (termasuk survei dan kolaborasi massa, seperti yang dibahas pada bab 3 dan 5). Kemudahan perekrutan ini berarti bahwa para peneliti dapat menjalankan rangkaian eksperimen terkait dalam pergantian yang cepat.
Sebelum merekrut peserta dari MTurk untuk eksperimen Anda sendiri, ada empat hal penting yang perlu Anda ketahui. Pertama, banyak peneliti memiliki skeptisisme nonspesifik eksperimen yang melibatkan Turkers. Karena skeptisisme ini tidak spesifik, sulit untuk melawan bukti. Namun, setelah beberapa tahun studi menggunakan Turkers, kita sekarang dapat menyimpulkan bahwa skeptisisme ini tidak sepenuhnya dibenarkan. Ada banyak penelitian yang membandingkan demografi orang Turki dengan populasi lain dan banyak penelitian yang membandingkan hasil percobaan dengan Turkers dengan yang berasal dari populasi lain. Dengan semua pekerjaan ini, saya pikir cara terbaik bagi Anda untuk memikirkannya adalah bahwa orang Turki adalah contoh kenyamanan yang masuk akal, sama seperti siswa tetapi sedikit lebih beragam (Berinsky, Huber, and Lenz 2012) . Dengan demikian, sama seperti siswa adalah populasi yang wajar untuk beberapa, tetapi tidak semua, penelitian, Turkers adalah populasi yang wajar untuk beberapa, tetapi tidak semua, penelitian. Jika Anda akan bekerja dengan Turkers, maka masuk akal untuk membaca banyak dari studi komparatif ini dan memahami nuansanya.
Kedua, para peneliti telah mengembangkan praktik terbaik untuk meningkatkan validitas internal eksperimen MTurk, dan Anda harus belajar tentang dan mengikuti praktik terbaik ini (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Sebagai contoh, peneliti yang menggunakan Turkers dianjurkan untuk menggunakan screeners untuk menghapus peserta yang kurang perhatian (Berinsky, Margolis, and Sances 2014, 2016) (tetapi lihat juga DJ Hauser and Schwarz (2015b) dan DJ Hauser and Schwarz (2015a) ). Jika Anda tidak menghapus peserta yang kurang perhatian, maka efek apa pun dari perawatan dapat dihilangkan oleh kebisingan yang mereka perkenalkan, dan dalam praktiknya jumlah peserta yang lalai dapat menjadi substansial. Dalam percobaan oleh Huber dan rekan (2012) , sekitar 30% dari peserta gagal dalam penyaringan perhatian dasar. Masalah lain yang biasanya muncul ketika Turkers digunakan adalah peserta yang tidak naif (Chandler et al. 2015) (Zhou and Fishbach 2016) .
Ketiga, relatif terhadap beberapa bentuk lain dari eksperimen digital, eksperimen MTurk tidak dapat skala; Stewart et al. (2015) memperkirakan bahwa pada waktu tertentu hanya ada sekitar 7.000 orang di MTurk.
Akhirnya, Anda harus tahu bahwa MTurk adalah komunitas dengan aturan dan norma sendiri (Mason and Suri 2012) . Dengan cara yang sama bahwa Anda akan mencoba untuk mengetahui tentang budaya negara di mana Anda akan menjalankan eksperimen, Anda harus mencoba untuk mengetahui lebih lanjut tentang budaya dan norma-norma Turkers (Salehi et al. 2015) . Dan Anda harus tahu bahwa Turkers akan berbicara tentang eksperimen Anda jika Anda melakukan sesuatu yang tidak pantas atau tidak etis (Gray et al. 2016) .
MTurk adalah cara yang sangat mudah untuk merekrut peserta ke eksperimen Anda, apakah mereka seperti lab, seperti Huber, Hill, and Lenz (2012) , atau lebih seperti bidang, seperti Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , dan Mao et al. (2016) .
Jika Anda berpikir untuk mencoba membuat produk Anda sendiri, saya sarankan Anda membaca saran yang ditawarkan oleh grup MovieLens di Harper and Konstan (2015) . Sebuah wawasan kunci dari pengalaman mereka adalah bahwa untuk setiap proyek yang sukses ada banyak, banyak kegagalan. Misalnya, grup MovieLens meluncurkan produk lain, seperti GopherAnswers, yang merupakan kegagalan lengkap (Harper and Konstan 2015) . Contoh lain dari seorang peneliti gagal ketika mencoba untuk membangun produk adalah upaya Edward Castronova untuk membangun game online yang disebut Arden. Meskipun $ 250.000 dalam pendanaan, proyek itu gagal (Baker 2008) . Proyek seperti GopherAnswers dan Arden sayangnya jauh lebih umum daripada proyek-proyek seperti MovieLens.
Saya pernah mendengar ide Pasteur's Quadrant sering didiskusikan di perusahaan teknologi, dan membantu mengatur upaya penelitian di Google (Spector, Norvig, and Petrov 2012) .
Studi Bond dan rekan (2012) juga mencoba untuk mendeteksi efek dari perawatan ini pada teman-teman dari mereka yang menerimanya. Karena desain eksperimen, spillover ini sulit dideteksi dengan bersih; pembaca yang tertarik harus melihat Bond et al. (2012) untuk diskusi yang lebih menyeluruh. Jones dan rekan (2017) juga melakukan eksperimen yang sangat mirip selama pemilihan 2012. Eksperimen ini adalah bagian dari tradisi panjang eksperimen dalam ilmu politik tentang upaya mendorong voting (Green and Gerber 2015) . Eksperimen get-out-the-vote ini umum, sebagian karena mereka berada di Kuadran Pasteur. Artinya, ada banyak orang yang termotivasi untuk meningkatkan voting dan voting dapat menjadi perilaku yang menarik untuk menguji teori yang lebih umum tentang perubahan perilaku dan pengaruh sosial.
Untuk saran tentang menjalankan percobaan lapangan dengan organisasi mitra seperti partai politik, LSM, dan bisnis, lihat Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , dan Gueron (2002) . Untuk pemikiran tentang bagaimana kemitraan dengan organisasi dapat mempengaruhi desain penelitian, lihat King et al. (2007) dan Green, Calfano, and Aronow (2014) . Kemitraan juga dapat mengarah pada pertanyaan etis, seperti yang dibicarakan oleh Humphreys (2015) dan Nickerson and Hyde (2016) .
Jika Anda akan membuat rencana analisis sebelum menjalankan eksperimen Anda, saya sarankan agar Anda mulai dengan membaca panduan pelaporan. Panduan CONSORT (Pelaporan Standar Konsolidasi) dikembangkan dalam kedokteran (Schulz et al. 2010) dan dimodifikasi untuk penelitian sosial (Mayo-Wilson et al. 2013) . Seperangkat pedoman terkait telah dikembangkan oleh editor Journal of Experimental Political Science (Gerber et al. 2014) (lihat juga Mutz and Pemantle (2015) dan Gerber et al. (2015) ). Akhirnya, pedoman pelaporan telah dikembangkan dalam psikologi (APA Working Group 2008) , dan lihat juga Simmons, Nelson, and Simonsohn (2011) .
Jika Anda membuat rencana analisis, Anda harus mempertimbangkan melakukan pra-pendaftaran karena pra-pendaftaran akan meningkatkan kepercayaan diri orang lain terhadap hasil Anda. Lebih lanjut, jika Anda bekerja dengan pasangan, itu akan membatasi kemampuan pasangan Anda untuk mengubah analisis setelah melihat hasilnya. Pra-pendaftaran menjadi semakin umum dalam psikologi (Nosek and Lakens 2014) , ilmu politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .
Saran desain khusus untuk eksperimen lapangan online juga disajikan dalam Konstan and Chen (2007) dan Chen and Konstan (2015) .
Apa yang saya sebut strategi armada kadang-kadang disebut penelitian terprogram ; lihat Wilson, Aronson, and Carlsmith (2010) .
Untuk lebih lanjut tentang percobaan MusicLab, lihat Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , dan Salganik (2007) . Untuk lebih lanjut tentang pasar pemenang-ambil-semua, lihat Frank and Cook (1996) . Untuk lebih lanjut tentang untung-untungan dan keterampilan secara lebih umum, lihat Mauboussin (2012) , Watts (2012) , dan Frank (2016) .
Ada pendekatan lain untuk menghilangkan pembayaran partisipan yang harus digunakan peneliti dengan hati-hati: wajib militer. Di banyak peserta percobaan lapangan online pada dasarnya dirancang menjadi eksperimen dan tidak pernah dikompensasikan. Contoh pendekatan ini termasuk eksperimen Restivo dan van de Rijt (2012) tentang hadiah dalam eksperimen Wikipedia dan Bond dan rekan (2012) untuk mendorong orang memilih. Eksperimen ini tidak benar-benar memiliki biaya variabel-bukan, mereka memiliki nol biaya variabel untuk peneliti . Dalam eksperimen semacam itu, bahkan jika biaya untuk setiap peserta sangat kecil, biaya keseluruhannya bisa sangat besar. Para peneliti yang menjalankan eksperimen daring besar-besaran sering membenarkan pentingnya perkiraan kecil efek pengobatan dengan mengatakan bahwa efek kecil ini dapat menjadi penting ketika diterapkan pada banyak orang. Pemikiran yang sama berlaku untuk biaya yang dikenakan para peneliti pada peserta. Jika eksperimen Anda menyebabkan satu juta orang membuang-buang waktu satu menit, eksperimen tersebut tidak terlalu berbahaya bagi orang tertentu, tetapi secara keseluruhan itu telah menghabiskan waktu hampir dua tahun.
Pendekatan lain untuk menciptakan pembayaran biaya variabel nol kepada peserta adalah dengan menggunakan lotere, suatu pendekatan yang juga telah digunakan dalam penelitian survei (Halpern et al. 2011) . Untuk lebih lanjut tentang merancang pengalaman pengguna yang menyenangkan, lihat Toomim et al. (2011) . Untuk lebih lanjut tentang menggunakan bot untuk membuat eksperimen biaya variabel nol lihat ( ??? ) .
Tiga R sebagaimana diusulkan oleh Russell and Burch (1959) adalah sebagai berikut:
"Penggantian berarti substitusi untuk sadar hidup hewan yang lebih tinggi dari bahan mengindra. Pengurangan berarti pengurangan jumlah hewan yang digunakan untuk memperoleh informasi dari jumlah yang diberikan dan presisi. Penyempitan berarti setiap penurunan kejadian atau keparahan prosedur yang tidak manusiawi diterapkan untuk hewan-hewan yang masih harus digunakan. "
Tiga R yang saya usulkan tidak mengesampingkan prinsip-prinsip etika yang diuraikan dalam bab 6. Sebaliknya, mereka adalah versi yang lebih diuraikan dari prinsip-prinsip tersebut — kemurahan hati — khususnya dalam pengaturan eksperimen manusia.
Dalam hal R pertama ("pengganti"), membandingkan eksperimen penularan emosi (Kramer, Guillory, and Hancock 2014) dan eksperimen alami penularan emosi (Lorenzo Coviello et al. 2014) menawarkan beberapa pelajaran umum tentang trade-off yang terlibat. dalam berpindah dari eksperimen ke eksperimen alami (dan pendekatan lain seperti mencocokkan upaya untuk memperkirakan eksperimen dalam data non-eksperimental; lihat bab 2). Selain manfaat etis, beralih dari penelitian eksperimental ke non-eksperimental juga memungkinkan peneliti untuk mempelajari perawatan yang secara logistik tidak dapat mereka terapkan. Namun, manfaat etika dan logistik ini membebani biaya. Dengan eksperimen alami, peneliti memiliki kontrol yang lebih sedikit terhadap hal-hal seperti perekrutan peserta, pengacakan, dan sifat perawatan. Misalnya, salah satu batasan curah hujan sebagai pengobatan adalah bahwa keduanya meningkatkan kepositifan dan menurunkan negatif. Dalam studi eksperimental, bagaimanapun, Kramer dan rekan mampu menyesuaikan positif dan negatif secara mandiri. Pendekatan khusus yang digunakan oleh Lorenzo Coviello et al. (2014) dijabarkan lebih lanjut oleh L. Coviello, Fowler, and Franceschetti (2014) . Untuk pengenalan variabel instrumental, yang merupakan pendekatan yang digunakan oleh Lorenzo Coviello et al. (2014) , lihat Angrist and Pischke (2009) (kurang formal) atau Angrist, Imbens, and Rubin (1996) (lebih formal). Untuk penilaian skeptis variabel instrumental, lihat Deaton (2010) , dan untuk pengenalan variabel instrumental dengan instrumen yang lemah (hujan adalah instrumen yang lemah), lihat Murray (2006) . Secara umum, pengenalan yang baik untuk eksperimen alami diberikan oleh Dunning (2012) , sementara Rosenbaum (2002) , ( ??? ) , dan Shadish, Cook, and Campbell (2001) menawarkan ide-ide bagus tentang memperkirakan efek kausal tanpa eksperimen.
Dalam hal R kedua ("penyempurnaan"), ada trade-off ilmiah dan logistik ketika mempertimbangkan mengubah desain Emotional Contagion dari memblokir posting untuk meningkatkan posting. Sebagai contoh, mungkin kasus pelaksanaan teknis dari News Feed membuatnya jauh lebih mudah untuk melakukan percobaan di mana posting diblokir daripada satu di mana mereka didorong (perhatikan bahwa percobaan yang melibatkan pemblokiran posting dapat diimplementasikan sebagai lapisan di atas sistem News Feed tanpa perlu mengubah sistem yang mendasarinya). Akan tetapi, secara ilmiah, teori yang ditangani oleh eksperimen tidak secara jelas menunjukkan satu desain di atas yang lain. Sayangnya, saya tidak mengetahui banyak penelitian sebelumnya tentang manfaat relatif pemblokiran dan peningkatan konten di Kabar Berita. Juga, saya belum melihat banyak penelitian tentang perawatan pemurnian untuk membuatnya kurang berbahaya; satu pengecualian adalah B. Jones and Feamster (2015) , yang mempertimbangkan kasus pengukuran sensor internet (topik yang saya diskusikan dalam bab 6 dalam hubungan dengan studi Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Dalam hal R ketiga ("pengurangan"), pengenalan yang baik untuk analisis kekuatan tradisional diberikan oleh Cohen (1988) (buku) dan Cohen (1992) (artikel), sementara Gelman and Carlin (2014) menawarkan perspektif yang sedikit berbeda. Kovariat pra-perawatan dapat dimasukkan dalam tahap desain dan analisis eksperimen; Bab 4 Gerber and Green (2012) memberikan pengenalan yang baik untuk kedua pendekatan, dan Casella (2008) memberikan perawatan yang lebih mendalam. Teknik yang menggunakan informasi pra-perawatan ini dalam pengacakan biasanya disebut baik desain eksperimental yang diblokir atau desain eksperimental bertingkat (terminologi tidak digunakan secara konsisten di seluruh masyarakat); teknik ini terkait erat dengan teknik sampling bertingkat yang dibahas dalam bab 3. Lihat Higgins, Sävje, and Sekhon (2016) untuk lebih lanjut tentang penggunaan desain ini dalam eksperimen besar. Kovariat pra-perawatan juga dapat dimasukkan dalam tahap analisis. McKenzie (2012) mengeksplorasi pendekatan perbedaan-dalam-perbedaan untuk menganalisis eksperimen lapangan secara lebih terperinci. Lihat Carneiro, Lee, and Wilhelm (2016) untuk lebih lanjut tentang trade-off antara pendekatan yang berbeda untuk meningkatkan ketepatan perkiraan efek pengobatan. Akhirnya, ketika memutuskan apakah akan mencoba memasukkan kovariat pra-perawatan pada tahap desain atau analisis (atau keduanya), ada beberapa faktor yang perlu dipertimbangkan. Dalam pengaturan di mana peneliti ingin menunjukkan bahwa mereka tidak "memancing" (Humphreys, Sierra, and Windt 2013) , menggunakan kovariat pra-perawatan dalam tahap desain dapat membantu (Higgins, Sävje, and Sekhon 2016) . Dalam situasi di mana peserta tiba secara berurutan, terutama eksperimen lapangan online, menggunakan informasi pra-perawatan di tahap desain mungkin sulit secara logistik; lihat, misalnya, Xie and Aurisset (2016) .
Perlu ditambahkan sedikit intuisi tentang mengapa pendekatan perbedaan-dalam-perbedaan bisa jauh lebih efektif daripada perbedaan-dalam-berarti. Banyak hasil online memiliki varian yang sangat tinggi (lihat misalnya, RA Lewis and Rao (2015) dan Lamb et al. (2015) ) dan relatif stabil dari waktu ke waktu. Dalam hal ini, skor perubahan akan memiliki varian yang jauh lebih kecil, meningkatkan kekuatan uji statistik. Salah satu alasan pendekatan ini tidak digunakan lebih sering adalah bahwa sebelum era digital, itu tidak umum untuk memiliki hasil pra-perawatan. Cara yang lebih konkret untuk memikirkan hal ini adalah membayangkan eksperimen untuk mengukur apakah rutinitas latihan tertentu menyebabkan penurunan berat badan. Jika Anda mengadopsi pendekatan perbedaan-dalam-berarti, perkiraan Anda akan memiliki variabilitas yang timbul dari variabilitas bobot dalam populasi. Namun, jika Anda melakukan pendekatan perbedaan-dalam-perbedaan, variasi bobot yang terjadi secara alami akan dihapus, dan Anda dapat lebih mudah mendeteksi perbedaan yang disebabkan oleh perawatan.
Akhirnya, saya mempertimbangkan menambahkan R keempat: “repurpose”. Artinya, jika peneliti menemukan diri mereka dengan data eksperimen lebih dari yang mereka butuhkan untuk menjawab pertanyaan penelitian asli mereka, mereka harus menggunakan kembali data untuk mengajukan pertanyaan baru. Misalnya, bayangkan bahwa Kramer dan rekannya telah menggunakan estimator perbedaan-dalam-perbedaan dan menemukan diri mereka dengan lebih banyak data daripada yang mereka butuhkan untuk menjawab pertanyaan penelitian mereka. Daripada tidak menggunakan data sepenuhnya, mereka bisa mempelajari ukuran efek sebagai fungsi ekspresi emosi pra-perawatan. Sama seperti Schultz et al. (2007) menemukan bahwa efek perlakuan berbeda untuk pengguna ringan dan berat, mungkin efek dari News Feed berbeda untuk orang yang sudah cenderung memposting pesan bahagia (atau sedih). Repurposing dapat menyebabkan “memancing” (Humphreys, Sierra, and Windt 2013) dan “p-hacking” (Simmons, Nelson, and Simonsohn 2011) , tetapi ini sebagian besar dapat diatasi dengan kombinasi pelaporan yang jujur (Simmons, Nelson, and Simonsohn 2011) , pra-pendaftaran (Humphreys, Sierra, and Windt 2013) , dan metode pembelajaran mesin yang berusaha untuk menghindari over-fitting.