komentar lebih lanjut

Bagian ini dirancang untuk digunakan sebagai referensi, bukan untuk dibaca sebagai narasi.

  • Pendahuluan (Bagian 4.1)

Pertanyaan tentang kausalitas dalam penelitian sosial sering kompleks dan rumit. Untuk pendekatan dasar untuk kausalitas berdasarkan grafik kausal, lihat Pearl (2009) , dan untuk pendekatan dasar berdasarkan hasil potensial, melihat Imbens and Rubin (2015) (dan lampiran teknis dalam bab ini). Untuk perbandingan antara dua pendekatan ini, lihat Morgan and Winship (2014) . Untuk pendekatan formal untuk mendefinisikan perancu, lihat VanderWeele and Shpitser (2013) .

Dalam bab ini, saya membuat apa yang tampak seperti garis terang antara kemampuan kita untuk membuat estimasi kausal dari data eksperimental dan non-eksperimen. Pada kenyataannya, saya berpikir bahwa perbedaan adalah blurrier. Misalnya, setiap orang menerima bahwa merokok menyebabkan kanker meskipun kita belum pernah melakukan percobaan terkontrol secara acak yang memaksa orang untuk merokok. Untuk yang sangat baik perawatan panjang buku tentang pembuatan estimasi kausal dari data non-eksperimental melihat Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , dan Dunning (2012) .

Bab 1 dan 2 dari Freedman, Pisani, and Purves (2007) menawarkan pengenalan yang jelas dalam perbedaan antara percobaan, eksperimen terkontrol, dan acak percobaan terkontrol.

Manzi (2012) memberikan pengenalan menarik dan mudah dibaca ke dalam dasar-dasar filosofis dan statistik percobaan terkontrol secara acak. Hal ini juga menyediakan menarik contoh-contoh nyata dari kekuatan eksperimen dalam bisnis.

  • Apa percobaan? (Bagian 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) memberikan perkenalan yang baik untuk aspek statistik desain eksperimental dan analisis. Selanjutnya, ada perawatan yang sangat baik dari penggunaan eksperimen di berbagai bidang: ekonomi (Bardsley et al. 2009) , Sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psikologi (Aronson et al. 1989) , Ilmu politik (Morton and Williams 2010) , dan kebijakan sosial (Glennerster and Takavarasha 2013) .

Pentingnya peserta perekrutan (misalnya, sampling) sering kurang dihargai dalam penelitian eksperimental. Namun, jika efek dari perawatan ini adalah heterogen dalam populasi, maka sampel sangat penting. Longford (1999) membuat titik ini jelas ketika ia advokasi untuk para peneliti berpikir eksperimen sebagai survei penduduk dengan sampel serampangan.

  • Dua dimensi percobaan: lab-lapangan dan analog-digital (Bagian 4.3)

Dikotomi yang saya disajikan antara lab dan lapangan percobaan sedikit disederhanakan. Bahkan, peneliti lain telah mengusulkan tipologi yang lebih rinci, di yang tertentu yang memisahkan berbagai bentuk percobaan lapangan (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Selanjutnya, ada dua jenis uji coba yang dilakukan oleh para ilmuwan sosial yang tidak cocok dengan laboratorium dan lapangan dikotomi:. Percobaan survei dan eksperimen sosial percobaan Survey yang eksperimen menggunakan infrastruktur survei yang ada dan membandingkan tanggapan versi alternatif dari pertanyaan yang sama (beberapa eksperimen survei disajikan dalam Bab 3); untuk lebih lanjut tentang percobaan survei melihat Mutz (2011) . eksperimen sosial adalah percobaan di mana pengobatan adalah beberapa kebijakan sosial yang hanya dapat dilaksanakan oleh pemerintah. eksperimen sosial berhubungan erat dengan memprogram evaluasi. Untuk lebih lanjut tentang percobaan kebijakan, lihat Orr (1998) , Glennerster and Takavarasha (2013) , dan Heckman and Smith (1995) .

Sejumlah tulisan telah membandingkan laboratorium dan lapangan percobaan secara abstrak (Falk and Heckman 2009; Cialdini 2009) dan dalam hal hasil eksperimen tertentu dalam ilmu politik (Coppock and Green 2015) , ekonomi (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) dan psikologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) menawarkan desain penelitian yang bagus untuk membandingkan hasil dari laboratorium dan lapangan.

Kekhawatiran tentang peserta mengubah perilaku mereka karena mereka tahu mereka sedang erat diamati kadang-kadang disebut efek permintaan, dan mereka telah dipelajari dalam psikologi (Orne 1962) dan ekonomi (Zizzo 2009) . Meskipun sebagian besar terkait dengan percobaan laboratorium, isu-isu yang sama dapat menyebabkan masalah untuk percobaan lapangan juga. Bahkan, efek permintaan juga kadang-kadang disebut efek Hawthorne, sebuah istilah yang berasal dari percobaan lapangan, khususnya percobaan pencahayaan terkenal yang dimulai pada tahun 1924 di Hawthorne Works dari Western Electric Company (Adair 1984; Levitt and List 2011) . Kedua efek permintaan dan efek Hawthorn berkaitan erat dengan gagasan pengukuran reaktif dibahas dalam Bab 2 (lihat juga Webb et al. (1966) ).

Sejarah percobaan lapangan telah dijelaskan di bidang ekonomi (Levitt and List 2009) , ilmu politik (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologi (Shadish 2002) , dan kebijakan publik (Shadish and Cook 2009) . Salah satu bidang ilmu sosial di mana percobaan lapangan dengan cepat menjadi menonjol adalah pembangunan internasional. Untuk review positif dari kerja dalam ekonomi melihat Banerjee and Duflo (2009) , dan untuk penilaian kritis melihat Deaton (2010) . Untuk review dari pekerjaan ini dalam ilmu politik melihat Humphreys and Weinstein (2009) . Akhirnya, tantangan etis yang terlibat dengan eksperimen lapangan telah dieksplorasi dalam ilmu politik (Humphreys 2015; Desposato 2016b) dan ekonomi pembangunan (Baele 2013) .

Dalam bab ini, saya menyarankan bahwa informasi pra-pengobatan dapat digunakan untuk meningkatkan ketepatan efek pengobatan diperkirakan, namun ada beberapa perdebatan tentang pendekatan ini: Freedman (2008) , Lin (2013) , dan Berk et al. (2013) ; melihat Bloniarz et al. (2016) untuk informasi lebih lanjut.

  • Bergerak di luar percobaan sederhana (Bagian 4.4)

Saya telah memilih untuk fokus pada tiga konsep: validitas, heterogenitas efek pengobatan, dan mekanisme. Konsep-konsep ini memiliki nama yang berbeda di berbagai bidang. Misalnya, psikolog cenderung bergerak di luar eksperimen sederhana dengan berfokus pada mediator dan moderator (Baron and Kenny 1986) . Ide mediator ditangkap oleh apa yang saya sebut mekanisme, dan ide moderator ditangkap oleh apa yang saya sebut validitas eksternal (misalnya, akan hasil percobaan akan berbeda jika itu dijalankan dalam situasi yang berbeda) dan heterogenitas efek pengobatan ( misalnya, adalah efek yang lebih besar untuk beberapa orang daripada orang lain).

Percobaan Schultz et al. (2007) menunjukkan bagaimana teori-teori sosial dapat digunakan untuk merancang intervensi yang efektif. Untuk argumen yang lebih umum tentang peran teori dalam merancang intervensi yang efektif, lihat Walton (2014) .

  • Validitas (Bagian 4.4.1)

Konsep validitas internal dan eksternal pertama kali diperkenalkan di Campbell (1957) . Lihat Shadish, Cook, and Campbell (2001) untuk sejarah yang lebih rinci dan elaborasi hati validitas kesimpulan statistik, validitas internal, validitas konstruk, dan validitas eksternal.

Untuk gambaran masalah yang berkaitan dengan validitas kesimpulan statistik dalam percobaan melihat Gerber and Green (2012) (untuk perspektif ilmu sosial) dan Imbens and Rubin (2015) (untuk perspektif statistik). Beberapa masalah validitas kesimpulan statistik yang timbul khusus dalam percobaan bidang online termasuk isu-isu seperti metode komputasi yang efisien untuk menciptakan interval kepercayaan dengan data dependent (Bakshy and Eckles 2013) .

validitas internal bisa sulit untuk memastikan dalam percobaan lapangan kompleks. Lihat, misalnya, Gerber and Green (2000) , Imai (2005) , dan Gerber and Green (2005) untuk perdebatan tentang pelaksanaan percobaan lapangan kompleks tentang voting. Kohavi et al. (2012) dan Kohavi et al. (2013) memberikan pengenalan ke dalam tantangan validitas interval dalam percobaan lapangan secara online.

Salah satu perhatian utama dengan validitas internal adalah masalah dengan pengacakan. Salah satu cara untuk berpotensi mendeteksi masalah dengan pengacakan ini adalah untuk membandingkan perlakuan dan kelompok kontrol pada sifat diamati. Semacam ini perbandingan disebut cek saldo. Lihat Hansen and Bowers (2008) untuk pendekatan statistik untuk menyeimbangkan cek, dan melihat Mutz and Pemantle (2015) untuk kekhawatiran tentang cek saldo. Misalnya, menggunakan keseimbangan memeriksa Allcott (2011) menemukan bahwa ada beberapa bukti bahwa pengacakan itu tidak diterapkan dengan benar dalam tiga percobaan di beberapa percobaan OPower (lihat Tabel 2; situs 2, 6, dan 8). Untuk pendekatan lain, lihat Imbens and Rubin (2015) , Bab 21.

keprihatinan utama lainnya yang berkaitan dengan validitas internal adalah: 1) satu sisi non-kepatuhan, di mana pada kelompok perlakuan tidak semua orang benar-benar menerima pengobatan, 2) dua sisi non-kepatuhan, di mana pada kelompok perlakuan tidak semua orang menerima pengobatan dan beberapa orang dalam kelompok kontrol menerima pengobatan, 3) gesekan, di mana hasil tidak diukur untuk beberapa peserta, dan 4) gangguan, di mana pengobatan tumpah dari orang-orang dalam kondisi perawatan untuk orang dalam kondisi kontrol. Lihat Gerber and Green (2012) Bab 5, 6, 7, dan 8 untuk lebih lanjut tentang masing-masing masalah ini.

Untuk lebih lanjut tentang validitas konstruk, melihat Westen and Rosenthal (2003) , dan untuk lebih lanjut tentang validitas konstruk dalam sumber-sumber data yang besar, Lazer (2015) dan Bab 2 dari buku ini.

Salah satu aspek dari validitas eksternal adalah pengaturan di mana intervensi diuji. Allcott (2015) memberikan pengobatan teoritis dan empiris-hati bias pemilihan lokasi. Masalah ini juga dibahas dalam Deaton (2010) . Selain menjadi direplikasi di banyak situs, Home Laporan Energi intervensi juga telah secara independen dipelajari oleh beberapa kelompok penelitian (misalnya, Ayres, Raseman, and Shih (2013) ).

  • Heterogenitas efek pengobatan (Bagian 4.4.2)

Untuk gambaran yang sangat baik dari heterogenitas efek pengobatan pada percobaan lapangan, lihat Bab 12 dari Gerber and Green (2012) . Untuk perkenalan heterogenitas efek pengobatan dalam percobaan medis, melihat Kent and Hayward (2007) , Longford (1999) , dan Kravitz, Duan, and Braslow (2004) . Heterogenitas efek pengobatan umumnya berfokus pada perbedaan berdasarkan karakteristik pra-perawatan. Jika Anda tertarik untuk heterogenitas berdasarkan hasil pasca-pengobatan, maka pendekatan-pendekatan yang lebih kompleks yang diperlukan seperti stratifikasi pokok (Frangakis and Rubin 2002) ; melihat Page et al. (2015) untuk tinjauan.

Banyak peneliti memperkirakan heterogenitas efek pengobatan dengan menggunakan regresi linear, tetapi metode yang lebih baru mengandalkan mesin belajar, misalnya Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , dan Athey and Imbens (2016a) .

Ada beberapa keraguan tentang temuan heterogenitas efek karena beberapa masalah perbandingan dan "memancing." Ada berbagai pendekatan statistik yang dapat membantu kekhawatiran alamat tentang beberapa perbandingan (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Salah satu pendekatan untuk kekhawatiran tentang "memancing" adalah pra-pendaftaran, yang menjadi semakin umum dalam psikologi (Nosek and Lakens 2014) , ilmu politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .

Dalam studi Costa and Kahn (2013) hanya sekitar setengah dari rumah tangga dalam percobaan mampu dihubungkan dengan informasi demografis. Pembaca tertarik dalam rincian dan kemungkinan masalah dengan analisis ini harus mengacu pada kertas asli.

  • Mekanisme (Bagian 4.4.3)

Mekanisme yang sangat penting, tetapi mereka berubah menjadi sangat sulit untuk belajar. Penelitian tentang mekanisme terkait erat dengan studi mediator dalam psikologi (tapi lihat juga VanderWeele (2009) untuk perbandingan yang tepat antara dua ide). Pendekatan statistik untuk mekanisme menemukan, seperti pendekatan yang dikembangkan di Baron and Kenny (1986) , cukup umum. Sayangnya, ternyata bahwa prosedur tersebut tergantung pada beberapa asumsi yang kuat (Bullock, Green, and Ha 2010) dan menderita ketika ada beberapa mekanisme, sebagai salah satu harapkan dalam banyak situasi (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) dan Imai and Yamamoto (2013) menawarkan beberapa metode statistik ditingkatkan. Selanjutnya, VanderWeele (2015) menawarkan perawatan buku-panjang dengan sejumlah hasil penting, termasuk pendekatan yang komprehensif untuk analisis sensitivitas.

Pendekatan terpisah berfokus pada eksperimen yang mencoba untuk memanipulasi mekanisme langsung (misalnya, memberikan pelaut vitamin C). Sayangnya, di banyak rangkaian ilmu sosial sering ada beberapa mekanisme dan sulit untuk merancang pengobatan yang mengubah satu tanpa mengubah orang lain. Beberapa pendekatan untuk eksperimental mekanisme mengubah dijelaskan dalam Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , dan Pirlott and MacKinnon (2016) .

Akhirnya, mekanisme juga memiliki sejarah panjang dalam filsafat ilmu seperti yang dijelaskan oleh Hedström and Ylikoski (2010) .

  • Menggunakan lingkungan yang ada (Bagian 4.5.1.1)

Untuk lebih lanjut tentang penggunaan studi korespondensi dan studi audit untuk mengukur diskriminasi melihat Pager (2007) .

  • Membangun percobaan Anda sendiri (Bagian 4.5.1.2)

Cara yang paling umum untuk merekrut peserta untuk eksperimen yang Anda membangun adalah Amazon Mechanical Turk (MTurk). Karena MTurk meniru aspek percobaan-membayar lab tradisional orang untuk menyelesaikan tugas-tugas yang mereka tidak akan lakukan untuk peneliti bebas sudah banyak yang mulai menggunakan Turkers (pekerja pada MTurk) sebagai peserta subyek manusia percobaan mengakibatkan pengumpulan data lebih murah lebih cepat dan lebih tradisional di kampus percobaan laboratorium (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Kekuatan terbesar dari eksperimen dengan peserta direkrut dari MTurk adalah logistik: mereka memungkinkan peneliti untuk merekrut peserta dengan cepat dan sesuai kebutuhan. Sedangkan percobaan laboratorium dapat mengambil minggu untuk menjalankan dan percobaan lapangan dapat mengambil bulan untuk set-up, eksperimen dengan peserta direkrut dari MTurk dapat dijalankan di hari. Misalnya, Berinsky, Huber, and Lenz (2012) mampu merekrut 400 subyek dalam satu hari untuk berpartisipasi dalam percobaan 8 menit. Selanjutnya, peserta ini dapat direkrut untuk hampir semua tujuan (termasuk survei dan kolaborasi massal, seperti dibahas dalam Bab 3 dan 5). kemudahan ini perekrutan berarti bahwa peneliti dapat menjalankan urutan eksperimen terkait dalam suksesi cepat.

Sebelum merekrut peserta dari MTurk untuk eksperimen Anda sendiri, ada empat hal penting untuk mengetahui. Pertama, banyak peneliti memiliki skeptisisme non-spesifik eksperimen yang melibatkan Turkers. Karena skeptisisme ini tidak spesifik, sulit untuk melawan dengan bukti. Namun, setelah beberapa tahun penelitian menggunakan Turkers, kita dapat sekarang menyimpulkan bahwa skeptisisme ini tidak terlalu diperlukan. Ada banyak studi yang membandingkan demografi Turkers untuk populasi lain dan banyak studi yang membandingkan hasil eksperimen dengan Turkers hasil dari populasi lain. Mengingat semua pekerjaan ini, saya berpikir bahwa cara terbaik bagi Anda untuk berpikir tentang hal ini adalah bahwa Turkers adalah sampel kenyamanan yang wajar, seperti siswa tapi sedikit lebih beragam (Berinsky, Huber, and Lenz 2012) . Dengan demikian, seperti siswa populasi wajar untuk beberapa tapi tidak semua penelitian eksperimental, Turkers adalah populasi yang wajar untuk beberapa tapi tidak semua penelitian. Jika Anda akan bekerja dengan Turkers, maka masuk akal untuk membaca banyak dari studi banding dan memahami nuansa mereka.

Kedua, peneliti telah mengembangkan praktek terbaik untuk meningkatkan validitas internal eksperimen Turk, dan Anda harus mempelajari dan mengikuti praktik terbaik (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Misalnya, peneliti menggunakan Turkers didorong untuk menggunakan pemeriksa untuk menghapus peserta lalai (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (tapi lihat juga DJ Hauser and Schwarz (2015b) dan DJ Hauser and Schwarz (2015a) ). Jika Anda tidak menghapus peserta lalai, maka efek dari pengobatan dapat dicuci oleh kebisingan diperkenalkan dari peserta lalai, dan dalam prakteknya jumlah peserta lalai sangat besar. Dalam percobaan Huber dan rekan (2012) sekitar 30% dari peserta gagal screeners perhatian dasar. Masalah lain yang umum dengan Turkers adalah peserta non-naif (Chandler et al. 2015) .

Ketiga, relatif terhadap beberapa bentuk lain dari percobaan digital, percobaan MTurk bisa tidak skala; Stewart et al. (2015) memperkirakan bahwa pada waktu tertentu hanya ada sekitar 7.000 orang di MTurk.

Akhirnya, Anda harus tahu bahwa MTurk adalah sebuah komunitas dengan aturan dan norma-norma sendiri (Mason and Suri 2012) . Dengan cara yang sama yang akan Anda mencoba untuk mencari tahu tentang budaya dari negara di mana Anda akan menjalankan percobaan Anda, Anda harus mencoba untuk mencari tahu lebih banyak tentang budaya dan norma-norma Turkers (Salehi et al. 2015) . Dan, Anda harus tahu bahwa Turkers akan berbicara tentang percobaan Anda jika Anda melakukan sesuatu yang tidak pantas atau tidak etis (Gray et al. 2016) .

MTurk adalah cara yang sangat mudah untuk merekrut peserta untuk percobaan Anda, apakah mereka lab-seperti, seperti Huber, Hill, and Lenz (2012) , atau lebih bidang seperti, seperti Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , dan Mao et al. (2016) .

  • Membangun produk Anda sendiri (Bagian 4.5.1.3)

Jika Anda berpikir untuk mencoba untuk membuat produk Anda sendiri, saya sarankan Anda membaca saran yang ditawarkan oleh kelompok MovieLens di Harper and Konstan (2015) . Sebuah wawasan kunci dari pengalaman mereka adalah bahwa untuk setiap proyek yang sukses ada banyak, banyak kegagalan. Misalnya, kelompok MovieLens meluncurkan produk lain seperti GopherAnswers yang lengkap kegagalan (Harper and Konstan 2015) . Contoh lain dari seorang peneliti gagal ketika mencoba untuk membangun suatu produk adalah upaya Edward Castronova untuk membangun sebuah game online yang disebut Arden. Meskipun $ 250.000 dana, proyek adalah sebuah kegagalan (Baker 2008) . Proyek seperti GopherAnswers dan Arden sayangnya jauh lebih umum daripada proyek seperti MovieLens. Akhirnya, ketika saya mengatakan bahwa saya tidak tahu apakah ada peneliti lain yang telah berhasil membangun produk untuk eksperimen diulang di sini adalah kriteria saya: 1) peserta menggunakan produk karena apa yang memberikan mereka (misalnya, mereka tidak dibayar dan mereka tidak relawan membantu ilmu) dan 2) produk tersebut telah digunakan selama lebih dari satu percobaan yang berbeda (yaitu, tidak percobaan yang sama beberapa kali dengan kolam renang peserta yang berbeda). Jika Anda mengetahui contoh-contoh lain, tolong beritahu saya.

  • Bermitra dengan kuat (Bagian 4.5.2)

Aku pernah mendengar gagasan Quadrant Pasteur dibahas sering di perusahaan teknologi, dan membantu mengatur upaya penelitian di Google (Spector, Norvig, and Petrov 2012) .

Obligasi dan studi kolega ' (2012) juga mencoba untuk mendeteksi efek perawatan ini pada teman-teman dari orang-orang yang menerima mereka. Karena desain percobaan, dampak ini sulit untuk mendeteksi bersih; pembaca yang tertarik harus melihat Bond et al. (2012) untuk diskusi yang lebih menyeluruh. Penelitian ini merupakan bagian dari tradisi panjang percobaan dalam ilmu politik pada upaya untuk mendorong suara (Green and Gerber 2015) . eksperimen get-out-the-orang ini yang umum di sebagian karena mereka berada di Pasteur Quadrant. Artinya, ada banyak orang yang termotivasi untuk meningkatkan suara dan suara dapat menjadi perilaku yang menarik untuk menguji teori yang lebih umum tentang perubahan perilaku dan pengaruh sosial.

Peneliti lain telah memberikan saran tentang menjalankan eksperimen lapangan dengan organisasi mitra seperti partai politik, LSM, dan bisnis (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Lainnya telah menawarkan saran tentang bagaimana kemitraan dengan organisasi dapat berdampak desain penelitian (Green, Calfano, and Aronow 2014; King et al. 2007) . Kemitraan juga dapat menyebabkan pertanyaan etis (Humphreys 2015; Nickerson and Hyde 2016) .

  • Desain saran (Bagian 4.6)

Jika Anda akan membuat rencana analisis sebelum menjalankan eksperimen, saya sarankan Anda mulai dengan membaca pedoman pelaporan. The CONSORT (Konsolidasi Standar Pelaporan Trials) pedoman dikembangkan dalam kedokteran (Schulz et al. 2010) dan dimodifikasi untuk penelitian sosial (Mayo-Wilson et al. 2013) . Satu set pedoman terkait telah dikembangkan oleh para editor Journal of Experimental Ilmu Politik (Gerber et al. 2014) (lihat juga Mutz and Pemantle (2015) dan Gerber et al. (2015) ). Akhirnya, pedoman pelaporan telah dikembangkan dalam psikologi (Group 2008) , dan lihat juga Simmons, Nelson, and Simonsohn (2011) .

Jika Anda membuat rencana analisis Anda harus mempertimbangkan pra-mendaftar karena pra-pendaftaran akan meningkatkan keyakinan bahwa orang lain memiliki dalam hasil Anda. Selanjutnya, jika Anda bekerja dengan pasangan, itu akan membatasi kemampuan pasangan Anda untuk mengubah analisis setelah melihat hasilnya. Pra-pendaftaran menjadi semakin umum dalam psikologi (Nosek and Lakens 2014) , ilmu politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .

Sementara menciptakan rencana pra-analisis Anda Anda harus menyadari bahwa beberapa peneliti juga menggunakan regresi dan pendekatan terkait untuk meningkatkan presisi dari efek pengobatan yang diperkirakan, dan ada beberapa perdebatan tentang pendekatan ini: Freedman (2008) , Lin (2013) , dan Berk et al. (2013) ; melihat Bloniarz et al. (2016) untuk informasi lebih lanjut.

Desain saran khusus untuk percobaan lapangan secara online juga disajikan dalam Konstan and Chen (2007) dan Chen and Konstan (2015) .

  • Buat nol data biaya variabel (Bagian 4.6.1)

Untuk lebih lanjut tentang percobaan MusicLab, lihat Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , dan Salganik (2007) . Untuk lebih lanjut tentang pemenang mengambil semua pasar, melihat Frank and Cook (1996) . Untuk lebih lanjut tentang untangling keberuntungan dan keterampilan yang lebih umum, lihat Mauboussin (2012) , Watts (2012) , dan Frank (2016) .

Ada pendekatan lain untuk menghilangkan pembayaran peserta yang peneliti harus menggunakan dengan hati-hati: wajib militer. Dalam banyak percobaan lapangan secara online peserta pada dasarnya direkrut menjadi eksperimen dan tidak pernah kompensasi. Contoh pendekatan ini termasuk Restivo dan van de Rijt ini (2012) percobaan pada penghargaan di Wikipedia dan Bond dan rekan (2012) percobaan pada mendorong orang untuk memilih. Percobaan ini tidak benar-benar memiliki nol biaya variabel, mereka memiliki nol variabel biaya untuk peneliti. Meskipun biaya banyak eksperimen ini sangat kecil untuk setiap peserta, biaya kecil dikenakan sejumlah besar peserta dapat bertambah dengan cepat. Para peneliti menjalankan eksperimen online yang besar sering membenarkan pentingnya efek pengobatan diperkirakan kecil dengan mengatakan bahwa efek kecil dapat menjadi penting ketika diterapkan pada banyak orang. Pemikiran yang sama persis berlaku untuk biaya yang peneliti memaksakan pada peserta. Jika percobaan Anda menyebabkan satu juta orang membuang satu menit, percobaan ini tidak terlalu berbahaya bagi orang tertentu, tetapi secara agregat telah menyia-nyiakan hampir dua tahun waktu.

Pendekatan lain untuk menciptakan pembayaran biaya variabel nol untuk peserta adalah dengan menggunakan undian, pendekatan yang juga telah digunakan dalam penelitian survei (Halpern et al. 2011) . Akhirnya, untuk lebih lanjut tentang merancang menyenangkan user-pengalaman melihat Toomim et al. (2011) .

  • Ganti, Pertajam, dan Mengurangi (Bagian 4.6.2)

Berikut adalah definisi asli dari tiga R, dari Russell and Burch (1959) :

"Penggantian berarti substitusi untuk sadar hidup hewan yang lebih tinggi dari bahan mengindra. Pengurangan berarti pengurangan jumlah hewan yang digunakan untuk memperoleh informasi dari jumlah yang diberikan dan presisi. Penyempitan berarti setiap penurunan kejadian atau keparahan prosedur yang tidak manusiawi diterapkan untuk hewan-hewan yang masih harus digunakan. "

Tiga R yang saya usulkan tidak mengesampingkan prinsip-prinsip etika yang diuraikan dalam Bab 6. Sebaliknya, mereka adalah versi yang lebih diuraikan salah satu prinsip-kebaikan-khusus untuk pengaturan percobaan manusia.

Ketika mempertimbangkan Contagion emosional, ada tiga isu non-etis untuk diingat ketika menafsirkan percobaan ini. Pertama, tidak jelas bagaimana detail sebenarnya percobaan terhubung dengan klaim teoritis; dengan kata lain, ada pertanyaan tentang validitas konstruk. Tidak jelas bahwa jumlah kata positif dan negatif sebenarnya indikator yang baik dari keadaan emosional peserta karena 1) tidak jelas bahwa kata-kata yang memasukkan orang merupakan indikator yang baik dari emosi mereka dan 2) tidak jelas bahwa teknik analisis sentimen tertentu bahwa peneliti menggunakan mampu andal menyimpulkan emosi (Beasley and Mason 2015; Panger 2016) . Dengan kata lain, mungkin ada ukuran buruk sinyal bias. Kedua, desain dan analisis percobaan memberitahu kita apa-apa tentang yang paling terkena dampak (yaitu, tidak ada analisis heterogenitas efek pengobatan) dan apa mekanismenya mungkin. Dalam hal ini, para peneliti memiliki banyak informasi tentang peserta, tetapi mereka pada dasarnya diperlakukan sebagai widget dalam analisis. Ketiga, ukuran efek dalam percobaan ini adalah sangat kecil; perbedaan antara kondisi perlakuan dan kontrol adalah sekitar 1 dalam 1.000 kata. Dalam tulisan mereka, Kramer dan rekannya membuat kasus bahwa efek dari ukuran ini penting karena ratusan juta orang mengakses berita mereka Umpan setiap hari. Dengan kata lain, mereka berpendapat bahwa bahkan efek yang kecil untuk setiap orang mereka besar di agregat. Bahkan jika Anda adalah untuk menerima argumen ini, masih belum jelas apakah efek dari ukuran ini adalah penting mengenai pertanyaan ilmiah yang lebih umum tentang penularan emosi. Untuk lebih lanjut tentang situasi di mana efek kecil yang penting melihat Prentice and Miller (1992) .

Dalam hal R pertama (Penggantian), membandingkan Emotional Contagion percobaan (Kramer, Guillory, and Hancock 2014) dan penularan emosi percobaan alami (Coviello et al. 2014) menawarkan beberapa pelajaran umum tentang trade-off yang terlibat dengan bergerak dari eksperimen untuk percobaan alam (dan pendekatan lain seperti pencocokan yang berusaha mendekati eksperimen dalam data non-eksperimental, lihat Bab 2). Selain manfaat etika, beralih dari eksperimental untuk penelitian non-eksperimental juga memungkinkan peneliti untuk mempelajari perawatan yang mereka logistik dapat menyebarkan. Manfaat etika dan logistik datang pada biaya, namun. Dengan percobaan alam peneliti kurang memiliki kontrol atas hal-hal seperti perekrutan peserta, pengacakan, dan sifat pengobatan. Misalnya, salah satu keterbatasan curah hujan sebagai pengobatan adalah bahwa hal itu baik meningkatkan positif dan mengurangi negatif. Dalam studi eksperimental, namun, Kramer dan rekan mampu menyesuaikan positif dan negatif secara independen.

Pendekatan tertentu yang digunakan oleh Coviello et al. (2014) telah dijabarkan lebih lanjut dalam Coviello, Fowler, and Franceschetti (2014) . Untuk pengenalan variabel penting melihat Angrist and Pischke (2009) (kurang formal) atau Angrist, Imbens, and Rubin (1996) (lebih formal). Untuk penilaian skeptis variabel penting melihat Deaton (2010) , dan untuk pengenalan variabel instrumental instrumen lemah (hujan adalah instrumen lemah), melihat Murray (2006) .

Lebih umum, pengenalan yang baik untuk eksperimen alam Dunning (2012) , dan Rosenbaum (2002) , Rosenbaum (2009) , dan Shadish, Cook, and Campbell (2001) menawarkan gagasan yang baik tentang memperkirakan efek kausal tanpa percobaan.

Dalam hal R kedua (Penyempitan), ada ilmiah dan logistik trade-off ketika mempertimbangkan mengubah desain Contagion Emotional dari memblokir posting untuk meningkatkan tulisan. Sebagai contoh, mungkin kasus bahwa pelaksanaan teknis dari News Feed membuatnya secara substansial lebih mudah untuk melakukan percobaan dengan memblokir posting bukan percobaan dengan meningkatkan posting (perhatikan bahwa percobaan dengan memblokir posting bisa diimplementasikan sebagai lapisan di atas sistem News feed tanpa memerlukan perubahan dari sistem yang mendasari). Ilmiah, namun, teori ditangani oleh percobaan tidak jelas menyarankan satu desain atas yang lain.

Sayangnya, saya tidak menyadari penelitian sebelumnya substansial tentang manfaat relatif memblokir dan meningkatkan konten di News Feed. Juga, saya belum melihat banyak penelitian tentang memperbaiki perawatan untuk membuat mereka kurang berbahaya; Satu pengecualian adalah Jones and Feamster (2015) , yang menganggap kasus pengukuran sensor internet (topik saya bahas dalam Bab 6 dalam hubungan dengan studi Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Dalam hal ketiga R (Reduction), pengenalan yang baik untuk daya analisis tradisional Cohen (1988) . kovariat pra-pengobatan dapat dimasukkan dalam tahap desain dan tahap analisis eksperimen; Bab 4 dari Gerber and Green (2012) memberikan pengenalan yang baik untuk kedua pendekatan, dan Casella (2008) memberikan pengobatan yang lebih mendalam. Teknik yang menggunakan informasi pra-perawatan ini di pengacakan biasanya disebut baik diblokir desain eksperimental atau desain eksperimental bertingkat (terminologi tidak digunakan secara konsisten di seluruh masyarakat); teknik ini sangat terkait dengan teknik sampling stratified dibahas dalam Bab 3. Lihat Higgins, Sävje, and Sekhon (2016) untuk lebih lanjut tentang menggunakan desain ini dalam percobaan besar. Kovariat pra-pengobatan juga dapat dimasukkan dalam tahap analisis. McKenzie (2012) mengeksplorasi perbedaan-in-perbedaan pendekatan untuk menganalisis percobaan lapangan secara lebih rinci. Lihat Carneiro, Lee, and Wilhelm (2016) untuk lebih dari trade-off antara pendekatan yang berbeda untuk meningkatkan presisi dalam perkiraan efek pengobatan. Akhirnya, ketika memutuskan apakah akan mencoba untuk memasukkan kovariat pra-perawatan pada tahap desain atau analisis (atau keduanya), ada beberapa faktor yang perlu dipertimbangkan. Dalam pengaturan di mana peneliti ingin menunjukkan bahwa mereka tidak "memancing" (Humphreys, Sierra, and Windt 2013) , menggunakan kovariat pra-perawatan dalam tahap desain dapat membantu (Higgins, Sävje, and Sekhon 2016) . Dalam situasi di mana peserta tiba secara berurutan, percobaan lapangan terutama online, menggunakan informasi pra-perawatan di tahap desain mungkin sulit logistik, lihat misalnya Xie and Aurisset (2016) .

Perlu menambahkan sedikit intuisi tentang mengapa perbedaan-in-perbedaan dapat menjadi jauh lebih efektif daripada perbedaan-in-cara. Banyak hasil online memiliki varian yang sangat tinggi (lihat misalnya, Lewis and Rao (2015) dan Lamb et al. (2015) ) dan relatif stabil dari waktu ke waktu. Dalam hal ini, nilai perubahan akan memiliki varians secara substansial lebih kecil, meningkatkan kekuatan uji statistik. Salah satu alasan ini mendekati tidak digunakan lebih sering adalah bahwa sebelum era digital itu tidak umum untuk memiliki hasil pra-perawatan. Cara yang lebih konkret untuk berpikir tentang hal ini adalah dengan membayangkan sebuah eksperimen untuk mengukur apakah suatu latihan rutin tertentu menyebabkan penurunan berat badan. Jika Anda melakukan perbedaan-in-cara pendekatan, perkiraan Anda akan memiliki variabilitas yang berasal dari variabilitas dalam bobot dalam populasi. Jika Anda melakukan pendekatan perbedaan-in-perbedaan, bagaimanapun, bahwa variasi yang terjadi secara alami dalam bobot akan dihapus dan Anda dapat lebih mudah mendeteksi perbedaan yang disebabkan oleh pengobatan.

Salah satu cara penting untuk mengurangi jumlah peserta dalam percobaan adalah untuk melakukan analisis kekuatan, yang Kramer dan rekan bisa dilakukan berdasarkan efek ukuran diamati dari percobaan alam dengan Coviello et al. (2014) atau sebelumnya penelitian non-eksperimental oleh Kramer (2012) (pada kenyataannya ini adalah kegiatan di akhir bab ini). Perhatikan bahwa penggunaan daya analisis sedikit berbeda dari yang khas. Di era analog, peneliti umumnya melakukan analisis kekuatan untuk memastikan bahwa penelitian mereka itu tidak terlalu kecil (yaitu, di bawah bertenaga). Sekarang, bagaimanapun, peneliti harus melakukan analisis kekuatan untuk memastikan bahwa penelitian mereka tidak terlalu besar (yaitu, lebih bertenaga).

Akhirnya, saya dianggap menambahkan R keempat: Repurpose. Artinya, jika peneliti menemukan diri mereka dengan data yang lebih eksperimental dari yang mereka butuhkan untuk menjawab pertanyaan penelitian asli mereka, mereka harus repurpose data untuk mengajukan pertanyaan baru. Sebagai contoh, bayangkan bahwa Kramer dan rekannya telah menggunakan perbedaan-in-perbedaan estimator dan menemukan diri mereka dengan lebih banyak data dari yang diperlukan untuk menjawab pertanyaan penelitian mereka. Daripada tidak menggunakan data untuk sepenuhnya, mereka bisa mempelajari ukuran efek sebagai fungsi untuk pra-pengobatan ekspresi emosional. Sama seperti Schultz et al. (2007) menemukan bahwa efek dari pengobatan berbeda untuk pengguna ringan dan berat, mungkin efek dari News Feed yang berbeda untuk orang yang sudah cenderung untuk mengirim pesan bahagia (atau sedih). Repurposing dapat menyebabkan "memancing" (Humphreys, Sierra, and Windt 2013) dan "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , tapi ini sebagian besar dialamatkan dengan kombinasi pelaporan jujur (Simmons, Nelson, and Simonsohn 2011) , pra-pendaftaran (Humphreys, Sierra, and Windt 2013) , dan metode pembelajaran mesin yang mencoba untuk menghindari over-pas.