ulasan lanjut

Seksyen ini direka untuk digunakan sebagai rujukan, dan bukannya untuk dibaca sebagai cerita.

  • Pengenalan (Bahagian 4.1)

Ada sebarang soalan tentang sebab dan akibat dalam penyelidikan sosial sering kompleks dan rumit. Untuk pendekatan asas kepada sebab dan akibat berdasarkan graf sebab dan akibat, lihat Pearl (2009) , dan untuk pendekatan asas berdasarkan hasil yang berpotensi, lihat Imbens and Rubin (2015) (dan lampiran teknikal dalam bab ini). Untuk perbandingan antara kedua-dua pendekatan, lihat Morgan and Winship (2014) . Untuk pendekatan formal untuk menentukan confounder, lihat VanderWeele and Shpitser (2013) .

Dalam bab yang menciptakan apa yang kelihatan seperti garis terang antara keupayaan kita untuk membuat anggaran sebab dan akibat daripada data eksperimen dan bukan eksperimen. Pada hakikatnya, saya fikir bahawa perbezaan itu blurrier. Sebagai contoh, semua orang bersetuju bahawa merokok menyebabkan kanser walaupun kita tidak pernah membuat percubaan terkawal rawak yang memaksa orang untuk merokok. Untuk rawatan panjang buku yang sangat baik untuk membuat anggaran sebab dan akibat daripada data bukan eksperimen melihat Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , dan Dunning (2012) .

Bab 1 dan 2 Freedman, Pisani, and Purves (2007) menawarkan pengenalan yang jelas ke dalam perbezaan antara eksperimen, eksperimen terkawal dan rawak eksperimen terkawal.

Manzi (2012) menyediakan pengenalan yang menarik dan boleh dibaca ke dalam falsafah dan statistik eksperimen terkawal rawak. Ia juga menyediakan contoh dunia sebenar menarik kuasa eksperimentasi dalam perniagaan.

  • Apakah eksperimen? (Bahagian 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) menyediakan pengenalan yang baik kepada aspek-aspek statistik reka bentuk eksperimen dan analisis. Selanjutnya, terdapat rawatan yang sangat baik dari penggunaan uji kaji dalam pelbagai bidang yang berbeza: ekonomi (Bardsley et al. 2009) , Sosiologi (Willer and Walker 2007; Jackson and Cox 2013) , psikologi (Aronson et al. 1989) , Sains politik (Morton and Williams 2010) , dan dasar sosial (Glennerster and Takavarasha 2013) .

Kepentingan pengambilan peserta (contohnya, persampelan) biasanya kurang dihargai dalam penyelidikan eksperimen. Walau bagaimanapun, jika kesan rawatan adalah heterogen dalam populasi, maka persampelan adalah kritikal. Longford (1999) menyatakan perkara ini jelas apabila beliau menyokong untuk penyelidik berfikir eksperimen sebagai kajian penduduk dengan persampelan tidak teratur.

  • Dua dimensi eksperimen: makmal-lapangan dan analog-digital (Bahagian 4.3)

Dikotomi yang saya telah membentangkan antara makmal dan medan eksperimen agak dipermudahkan. Malah, penyelidik lain telah mencadangkan tipologi lebih terperinci, dalam orang-orang tertentu yang memisahkan pelbagai bentuk uji kaji lapangan (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Di samping itu, terdapat dua jenis ujian yang telah dijalankan oleh ahli sains sosial yang tidak sesuai dengan kemas ke dalam makmal dan lapangan dikotomi:. Eksperimen kajian dan eksperimen sosial eksperimen kaji selidik adalah eksperimen menggunakan infrastruktur kaji selidik yang sedia ada dan membandingkan jawapan kepada versi alternatif yang soalan yang sama (beberapa eksperimen kajian dibentangkan dalam Bab 3); untuk lebih lanjut tentang eksperimen kajian melihat Mutz (2011) . eksperimen sosial adalah eksperimen di mana rawatan adalah beberapa dasar sosial yang hanya boleh dilaksanakan oleh kerajaan. eksperimen sosial berkait rapat dengan program penilaian. Untuk maklumat lanjut mengenai eksperimen dasar, lihat Orr (1998) , Glennerster and Takavarasha (2013) , dan Heckman and Smith (1995) .

Beberapa kertas kerja telah membandingkan makmal dan medan eksperimen dalam abstrak (Falk and Heckman 2009; Cialdini 2009) dan dari segi hasil eksperimen tertentu dalam sains politik (Coppock and Green 2015) , ekonomi (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) dan psikologi (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) menawarkan reka bentuk penyelidikan yang baik untuk membandingkan keputusan dari makmal dan medan eksperimen.

Kebimbangan mengenai peserta mengubah tingkah laku mereka kerana mereka tahu mereka sedang diperhatikan dengan teliti kadang-kadang dipanggil kesan permintaan, dan mereka telah belajar dalam bidang psikologi (Orne 1962) dan ekonomi (Zizzo 2009) . Walaupun kebanyakannya dikaitkan dengan eksperimen makmal, isu-isu yang sama boleh menyebabkan masalah untuk uji kaji lapangan juga. Malah, kesan permintaan juga kadang-kadang dipanggil kesan Hawthorne, satu istilah yang berasal dari satu eksperimen bidang, khususnya eksperimen pencahayaan terkenal yang bermula pada tahun 1924 di Works Hawthorne Barat Electric Company (Adair 1984; Levitt and List 2011) . Kedua-dua kesan permintaan dan kesan Hawthorn berkait rapat dengan idea pengukuran reaktif yang dibincangkan dalam Bab 2 (lihat juga Webb et al. (1966) ).

Sejarah uji kaji lapangan yang telah digambarkan dalam bidang ekonomi (Levitt and List 2009) , sains politik (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologi (Shadish 2002) , dan dasar awam (Shadish and Cook 2009) . Satu bidang sains sosial di mana uji kaji lapangan cepat menjadi menonjol ialah pembangunan antarabangsa. Untuk ulasan positif kerja yang dalam ekonomi melihat Banerjee and Duflo (2009) , dan untuk penilaian yang kritikal melihat Deaton (2010) . Untuk kajian semula kerja-kerja ini dalam bidang sains politik melihat Humphreys and Weinstein (2009) . Akhir sekali, cabaran etika yang terlibat dengan uji kaji lapangan telah diterokai dalam bidang sains politik (Humphreys 2015; Desposato 2016b) dan Pembangunan Ekonomi (Baele 2013) .

Dalam bab ini, saya mencadangkan bahawa maklumat pra-rawatan yang boleh digunakan untuk meningkatkan ketepatan kesan rawatan dianggarkan, tetapi terdapat beberapa perdebatan tentang pendekatan ini: Freedman (2008) , Lin (2013) , dan Berk et al. (2013) ; melihat Bloniarz et al. (2016) untuk maklumat lanjut.

  • Bergerak di luar eksperimen mudah (Seksyen 4.4)

Saya telah memilih untuk memberi tumpuan kepada tiga konsep: kesahan, kepelbagaian kesan rawatan, dan mekanisme. Konsep-konsep ini mempunyai nama yang berbeza dalam pelbagai bidang. Sebagai contoh, ahli psikologi cenderung untuk bergerak di luar eksperimen mudah dengan memberi tumpuan kepada mediator dan moderator (Baron and Kenny 1986) . Idea mediator ditangkap oleh apa yang saya panggil mekanisme, dan idea moderator ditangkap oleh apa yang saya panggil kesahan luaran (contohnya, adakah keputusan eksperimen berbeza jika ia berjalan dalam situasi yang berbeza) dan kepelbagaian kesan rawatan ( contohnya, kesan-kesan yang lebih besar bagi sesetengah orang daripada orang-orang lain).

Eksperimen Schultz et al. (2007) menunjukkan bagaimana teori sosial boleh digunakan untuk mereka bentuk campur tangan yang berkesan. Dengan maksud yang lebih umum tentang peranan teori dalam mereka bentuk campur tangan yang berkesan, lihat Walton (2014) .

  • Kesahan (Seksyen 4.4.1)

Konsep kesahan dalaman dan luaran mula diperkenalkan di Campbell (1957) . Lihat Shadish, Cook, and Campbell (2001) untuk sejarah yang lebih terperinci dan penjelasan teliti kesahihan kesimpulan statistik, kesahan dalaman, membina kesahihan, dan kesahan luaran.

Untuk mendapatkan gambaran keseluruhan isu-isu yang berkaitan dengan kesahihan kesimpulan statistik dalam eksperimen melihat Gerber and Green (2012) (untuk perspektif sains sosial) dan Imbens and Rubin (2015) (untuk perspektif statistik). Beberapa isu kesahihan kesimpulan statistik yang timbul khususnya dalam uji kaji lapangan talian termasuk isu-isu seperti kaedah pengiraannya berkesan untuk mewujudkan selang keyakinan dengan data bergantung (Bakshy and Eckles 2013) .

kesahan dalaman boleh menjadi sukar untuk memastikan dalam uji kaji lapangan yang kompleks. Lihat, sebagai contoh, Gerber and Green (2000) , Imai (2005) , dan Gerber and Green (2005) untuk berdebat mengenai pelaksanaan eksperimen bidang kompleks mengenai mengundi. Kohavi et al. (2012) dan Kohavi et al. (2013) memberi pengenalan kepada cabaran sah selang dalam uji kaji lapangan talian.

Satu kebimbangan utama dengan kesahan dalaman adalah masalah dengan rawak. Satu cara yang berpotensi untuk mengesan masalah dengan rawak adalah untuk membandingkan kumpulan rawatan dan kawalan ke atas sifat-sifat yang boleh diperhatikan. Ini jenis perbandingan dipanggil pemeriksaan kira-kira. Lihat Hansen and Bowers (2008) untuk pendekatan statistik untuk mengimbangi cek, dan melihat Mutz and Pemantle (2015) untuk kebimbangan mengenai cek-kira. Sebagai contoh, dengan menggunakan kira-kira yang memeriksa Allcott (2011) mendapati bahawa terdapat beberapa bukti bahawa rawak itu tidak dilaksanakan dengan betul dalam tiga daripada eksperimen dalam beberapa eksperimen Opower (lihat Jadual 2; laman 2, 6, dan 8). Untuk pendekatan yang lain, lihat Imbens and Rubin (2015) , Bab 21.

kebimbangan utama yang lain yang berkaitan dengan kesahan dalaman adalah: 1) berat sebelah ketidakpatuhan, di mana tidak semua orang dalam kumpulan rawatan sebenarnya menerima rawatan, 2) dua berpihak ketidakpatuhan, di mana tidak semua orang dalam kumpulan rawatan menerima rawatan dan beberapa orang dalam kumpulan kawalan menerima rawatan, 3) pergeseran, di mana hasil tidak diukur bagi sesetengah peserta, dan 4) gangguan, di mana rawatan yang tumpah daripada orang dalam keadaan rawatan kepada orang-orang dalam keadaan kawalan. Lihat Gerber and Green (2012) Bab 5, 6, 7, dan 8 untuk lanjut mengenai setiap isu-isu ini.

Untuk maklumat lanjut mengenai kesahihan konstruk, lihat Westen and Rosenthal (2003) , dan untuk lebih lanjut tentang membina kesahihan dalam sumber data yang besar, Lazer (2015) dan Bab 2 buku ini.

Salah satu aspek kesahan luaran adalah persekitaran di mana campur tangan diuji. Allcott (2015) menyediakan rawatan teori dan empirikal yang teliti bias pemilihan tapak. Isu ini juga dibincangkan dalam Deaton (2010) . Selain yang ditiru dalam banyak tempat, campur tangan Home Laporan Tenaga juga telah dikaji secara bebas oleh kumpulan penyelidikan pelbagai (contohnya, Ayres, Raseman, and Shih (2013) ).

  • Kepelbagaian kesan rawatan (Seksyen 4.4.2)

Untuk gambaran yang sangat baik kepelbagaian kesan rawatan dalam uji kaji lapangan, lihat Bab 12 Gerber and Green (2012) . Untuk pengenalan kepada kepelbagaian kesan rawatan dalam ujian perubatan, lihat Kent and Hayward (2007) , Longford (1999) , dan Kravitz, Duan, and Braslow (2004) . Kepelbagaian kesan rawatan umumnya memberi tumpuan kepada perbezaan berdasarkan ciri-ciri pra-rawatan. Jika anda berminat untuk kepelbagaian berdasarkan hasil selepas rawatan, kemudian approachs lebih kompleks diperlukan seperti stratifikasi utama (Frangakis and Rubin 2002) ; melihat Page et al. (2015) untuk ulasan.

Ramai penyelidik menganggarkan kepelbagaian kesan rawatan menggunakan regresi linear, tetapi kaedah yang lebih baru bergantung kepada pembelajaran mesin, contohnya Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , dan Athey and Imbens (2016a) .

Terdapat beberapa keraguan tentang penemuan kepelbagaian kesan kerana masalah perbandingan berbilang dan "menangkap ikan." Terdapat pelbagai pendekatan statistik yang boleh membantu menangani kebimbangan mengenai pelbagai perbandingan (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Salah satu pendekatan untuk kebimbangan mengenai "memancing" adalah pra-pendaftaran, yang menjadi semakin biasa dalam bidang psikologi (Nosek and Lakens 2014) , sains politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .

Dalam kajian Costa and Kahn (2013) hanya kira-kira separuh daripada isi rumah dalam eksperimen itu dapat dikaitkan dengan maklumat demografi. Para pembaca yang berminat dalam butiran dan masalah mungkin dengan analisis ini perlu merujuk kepada kertas asal.

  • Mekanisme (Seksyen 4.4.3)

Mekanisme adalah sangat penting, tetapi mereka berubah menjadi sangat sukar untuk belajar. Penyelidikan mengenai mekanisme yang berkaitan rapat dengan kajian mediator dalam bidang psikologi (tetapi lihat juga VanderWeele (2009) untuk perbandingan yang tepat antara kedua-dua idea). Pendekatan statistik untuk mekanisme mencari, seperti pendekatan yang dibangunkan di Baron and Kenny (1986) , adalah perkara biasa. Malangnya, ia ternyata bahawa mereka prosedur bergantung kepada beberapa andaian yang kuat (Bullock, Green, and Ha 2010) dan menderita apabila terdapat pelbagai mekanisme, sebagai salah satu jangkakan dalam situasi (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) dan Imai and Yamamoto (2013) menawarkan beberapa kaedah statistik yang lebih baik. Selanjutnya, VanderWeele (2015) menawarkan rawatan buku-panjang dengan beberapa keputusan penting, termasuk pendekatan yang menyeluruh untuk analisis sensitiviti.

Pendekatan berasingan memberi tumpuan kepada eksperimen yang cuba untuk memanipulasi mekanisme secara langsung (contohnya, memberi pelayar vitamin C). Malangnya, dalam banyak tetapan sains sosial sering ada pelbagai mekanisme dan ia adalah sukar untuk mereka bentuk rawatan yang menukar satu tanpa mengubah orang lain. Beberapa pendekatan untuk uji kaji mekanisme mengubah diterangkan dalam Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , dan Pirlott and MacKinnon (2016) .

Akhirnya, mekanisme juga mempunyai sejarah yang panjang dalam falsafah sains seperti yang digambarkan oleh Hedström and Ylikoski (2010) .

  • Menggunakan persekitaran sedia ada (Seksyen 4.5.1.1)

Untuk maklumat lanjut mengenai penggunaan kajian surat-menyurat dan kajian audit untuk mengukur diskriminasi melihat Pager (2007) .

  • Membina eksperimen anda sendiri (Seksyen 4.5.1.2)

Cara yang paling biasa untuk merekrut peserta eksperimen yang anda membina adalah Amazon Mekanikal Turk (MTurk). Kerana MTurk meniru aspek makmal eksperimen yang membayar orang tradisional untuk menyelesaikan tugas-tugas yang mereka tidak akan lakukan untuk penyelidik bebas ramai yang telah mula menggunakan Turkers (pekerja-pekerja di MTurk) sebagai peserta dalam subjek manusia eksperimen mengakibatkan pengumpulan data yang lebih cepat dan lebih murah daripada tradisional eksperimen makmal di kampus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Kekuatan terbesar eksperimen dengan peserta diambil dari MTurk adalah logistik: mereka membenarkan penyelidik untuk mendapatkan ahli baru dengan cepat dan seperti yang diperlukan. Manakala ujikaji makmal boleh mengambil beberapa minggu untuk menjalankan dan uji kaji lapangan boleh mengambil beberapa bulan untuk set-up, eksperimen dengan peserta diambil dari MTurk boleh dijalankan dalam hari. Sebagai contoh, Berinsky, Huber, and Lenz (2012) dapat merekrut 400 mata pelajaran dalam satu hari untuk mengambil bahagian dalam satu eksperimen 8 minit. Di samping itu, peserta ini boleh diambil untuk hampir apa-apa maksud (termasuk tinjauan dan kerjasama besar-besaran, seperti yang dibincangkan dalam Bab 3 dan 5). Ini memudahkan pengambilan bermakna bahawa penyelidik boleh menjalankan urutan eksperimen berkaitan dalam masa yang singkat.

Sebelum merekrut peserta dari MTurk untuk eksperimen anda sendiri, terdapat empat perkara penting untuk diketahui. Pertama, ramai penyelidik mempunyai keraguan tidak spesifik eksperimen yang melibatkan Turkers. Oleh kerana keraguan ini tidak khusus, ia adalah sukar untuk menangani dengan bukti. Walau bagaimanapun, selepas beberapa tahun kajian menggunakan Turkers, kita kini boleh membuat kesimpulan bahawa keraguan ini tidak amat perlu. Terdapat banyak kajian yang membandingkan demografi Turkers kepada penduduk lain dan banyak kajian membandingkan keputusan eksperimen dengan Turkers kepada keputusan dari penduduk lain. Memandangkan semua kerja-kerja ini, saya berfikir bahawa cara terbaik untuk anda berfikir tentang hal itu adalah bahawa Turkers adalah sampel kemudahan yang munasabah, sama seperti pelajar tetapi sedikit lebih pelbagai (Berinsky, Huber, and Lenz 2012) . Oleh itu, sama seperti pelajar adalah penduduk yang munasabah untuk beberapa tetapi tidak semua penyelidikan eksperimen, Turkers adalah penduduk yang munasabah untuk beberapa tetapi tidak semua penyelidikan. Jika anda akan bekerja dengan Turkers, maka ia masuk akal untuk membaca kebanyakan kajian dan memahami nuansa mereka.

Kedua, penyelidik telah membangunkan amalan terbaik untuk meningkatkan kesahan dalaman eksperimen Turk, dan anda perlu mempelajari dan ikut amalan terbaik (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Sebagai contoh, penyelidik menggunakan Turkers digalakkan menggunakan Skrin untuk membuang peserta lalai (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (tetapi lihat juga DJ Hauser and Schwarz (2015b) dan DJ Hauser and Schwarz (2015a) ). Jika anda tidak mengeluarkan peserta tidak memberi perhatian sepenuhnya, maka apa-apa kesan rawatan yang boleh dibasuh oleh bunyi diperkenalkan dari peserta lalai, dan dalam amalan bilangan peserta tidak memberi perhatian sepenuhnya boleh besar. Di dalam eksperimen Huber dan rakan-rakan (2012) kira-kira 30% daripada peserta gagal Skrin perhatian asas. Satu lagi masalah yang sama dengan Turkers adalah peserta bukan naif (Chandler et al. 2015) .

Ketiga, berbanding dengan sesetengah bentuk eksperimen digital, eksperimen MTurk boleh tidak skala; Stewart et al. (2015) menganggarkan bahawa pada bila-bila masa terdapat hanya kira-kira 7,000 orang pada MTurk.

Akhir sekali, anda perlu tahu bahawa MTurk adalah masyarakat dengan peraturan sendiri dan norma (Mason and Suri 2012) . Dengan cara yang sama yang anda akan cuba untuk mengetahui tentang budaya negara di mana anda akan menjalankan eksperimen anda, anda perlu cuba untuk mengetahui lebih lanjut mengenai budaya dan norma Turkers (Salehi et al. 2015) . Dan, anda perlu tahu bahawa Turkers akan bercakap tentang percubaan anda jika anda melakukan sesuatu yang tidak sesuai atau tidak beretika (Gray et al. 2016) .

MTurk adalah satu cara yang amat mudah untuk merekrut peserta eksperimen anda, sama ada mereka adalah makmal-suka, seperti Huber, Hill, and Lenz (2012) , atau lebih bidang-suka, seperti Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , dan Mao et al. (2016) .

  • Membina produk anda sendiri (Seksyen 4.5.1.3)

Jika anda berfikir untuk cuba untuk mencipta produk anda sendiri, saya cadangkan anda membaca nasihat yang ditawarkan oleh kumpulan MovieLens dalam Harper and Konstan (2015) . Satu wawasan utama daripada pengalaman mereka adalah bahawa bagi setiap projek yang berjaya terdapat banyak, banyak kegagalan. Sebagai contoh, Kumpulan MovieLens itu melancarkan produk lain seperti GopherAnswers yang adalah kegagalan lengkap (Harper and Konstan 2015) . Satu lagi contoh seorang penyelidik gagal ketika cuba untuk membina produk yang adalah percubaan Edward Castronova untuk membina permainan dalam talian yang dinamakan Arden. Walaupun $ 250,000 dalam pembiayaan, projek itu flop (Baker 2008) . Projek-projek seperti GopherAnswers dan Arden malangnya lebih biasa daripada projek-projek seperti MovieLens. Akhir sekali, apabila saya berkata bahawa saya tidak tahu mana-mana penyelidik lain yang telah berjaya membina produk untuk eksperimen diulangi di sini adalah kriteria saya: 1) peserta menggunakan produk kerana apa yang ia menyediakan mereka (contohnya, mereka tidak dibayar dan mereka tidak sukarelawan membantu sains) dan 2) produk telah digunakan untuk lebih daripada satu eksperimen yang berbeza (iaitu, bukan eksperimen sama beberapa kali dengan kolam renang peserta yang berbeza). Jika anda tahu contoh lain, sila maklumkan kepada saya.

  • Rakan-orang kuat (Seksyen 4.5.2)

Saya pernah mendengar idea Quadrant Pasteur dibincangkan kerap di syarikat-syarikat berteknologi, dan ia membantu mengatur usaha penyelidikan di Google (Spector, Norvig, and Petrov 2012) .

Bond dan kajian rakan-rakan ' (2012) juga bertujuan untuk mengesan kesan rawatan ini kepada rakan-rakan mereka yang menerima mereka. Oleh kerana reka bentuk eksperimen, limpahan ini adalah sukar untuk mengesan bersih; pembaca yang berminat harus melihat Bond et al. (2012) untuk perbincangan yang lebih menyeluruh. Eksperimen ini adalah sebahagian daripada tradisi yang panjang eksperimen dalam bidang sains politik kepada usaha menggalakkan mengundi (Green and Gerber 2015) . Ini percubaan get-out-the-undi adalah biasa di bahagian kerana mereka berada dalam Pasteur Quadrant. Iaitu, terdapat ramai orang yang termotivasi untuk meningkatkan mengundi dan mengundi boleh menjadi tingkah laku menarik untuk menguji teori-teori yang lebih umum tentang perubahan tingkah laku dan pengaruh sosial.

Penyelidik lain telah memberikan nasihat tentang menjalankan uji kaji lapangan dengan rakan organisasi seperti parti-parti politik, NGO, dan perniagaan (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Lain-lain telah memberikan nasihat tentang bagaimana perkongsian dengan organisasi boleh memberi kesan reka bentuk penyelidikan (Green, Calfano, and Aronow 2014; King et al. 2007) . Perkongsian juga boleh membawa kepada persoalan etika (Humphreys 2015; Nickerson and Hyde 2016) .

  • Nasihat Design (Seksyen 4.6)

Jika anda akan mewujudkan satu pelan analisis sebelum menjalankan eksperimen anda, saya cadangkan anda mulakan dengan membaca garis panduan pelaporan. The CONSORT (Disatukan Standard Pelaporan Ujian) garis panduan telah dibangunkan dalam perubatan (Schulz et al. 2010) dan diubahsuai untuk penyelidikan sosial (Mayo-Wilson et al. 2013) . Satu set yang berkaitan dengan garis panduan telah dibangunkan oleh editor Journal of Experimental Sains Politik (Gerber et al. 2014) (lihat juga Mutz and Pemantle (2015) dan Gerber et al. (2015) ). Akhir sekali, garis panduan pelaporan telah dibangunkan dalam bidang psikologi (Group 2008) , dan lihat juga Simmons, Nelson, and Simonsohn (2011) .

Jika anda membuat pelan analisis anda perlu mengambil kira sebelum mendaftarkannya kerana pra-pendaftaran akan meningkatkan keyakinan orang lain ada dalam keputusan anda. Selain itu, jika anda bekerja dengan rakan kongsi, ia akan mengehadkan kebolehan pasangan anda untuk menukar analisis selepas melihat keputusan. Pra-pendaftaran menjadi semakin biasa dalam bidang psikologi (Nosek and Lakens 2014) , sains politik (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dan ekonomi (Olken 2015) .

Walaupun mewujudkan pelan pra-analisis anda, anda harus sedar bahawa sesetengah penyelidik juga menggunakan regresi dan pendekatan yang berkaitan untuk memperbaiki ketepatan kesan rawatan yang dianggarkan, dan terdapat perdebatan tentang pendekatan ini: Freedman (2008) , Lin (2013) , dan Berk et al. (2013) ; melihat Bloniarz et al. (2016) untuk maklumat lanjut.

Nasihat Design khusus untuk uji kaji lapangan talian juga terkandung di dalam Konstan and Chen (2007) dan Chen and Konstan (2015) .

  • Mewujudkan sifar data kos berubah (Seksyen 4.6.1)

Untuk maklumat lanjut mengenai eksperimen MusicLab, lihat Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , dan Salganik (2007) . Untuk maklumat lanjut mengenai pemenang-mengambil-semua pasaran, lihat Frank and Cook (1996) . Untuk maklumat lanjut mengenai nasib untangling dan kemahiran lebih umum, lihat Mauboussin (2012) , Watts (2012) , dan Frank (2016) .

Terdapat satu lagi pendekatan untuk menghapuskan bayaran peserta bahawa penyelidik harus digunakan dengan berhati-hati: pengerahan. Dalam banyak uji kaji lapangan talian peserta pada dasarnya digubal ke dalam eksperimen dan tidak pernah pampasan. Contoh pendekatan ini termasuk Restivo dan van de Rijt ini (2012) eksperimen mengenai ganjaran di Wikipedia dan Bond dan rakan sekerja (2012) eksperimen kepada menggalakkan rakyat untuk mengundi. Eksperimen ini tidak benar-benar mempunyai sifar kos berubah, mereka mempunyai sifar kos berubah kepada penyelidik. Walaupun kos banyak eksperimen ini adalah amat kecil kepada setiap peserta, kos kecil yang dikenakan sejumlah besar peserta boleh menambah dengan cepat. Penyelidik menjalankan eksperimen dalam talian secara besar-besaran sering mewajarkan kepentingan kesan kecil rawatan dianggarkan dengan mengatakan bahawa kesan-kesan kecil boleh menjadi penting apabila digunakan untuk ramai orang. Pemikiran tepat sama terpakai kepada kos yang penyelidik mengenakan ke atas peserta. Jika percubaan anda menyebabkan satu juta orang membuang satu minit, eksperimen tidak begitu berbahaya kepada orang tertentu, tetapi dalam agregat ia telah sia-sia hampir dua tahun masa.

Satu lagi pendekatan untuk mewujudkan sifar bayaran kos berubah kepada peserta adalah dengan menggunakan loteri, satu pendekatan yang juga telah digunakan dalam kajian penyelidikan (Halpern et al. 2011) . Akhir sekali, bagi lebih lanjut mengenai bentuk menyeronokkan pengguna-pengalaman melihat Toomim et al. (2011) .

  • Ganti, Perincikan, dan Mengurangkan (Seksyen 4.6.2)

Berikut adalah definisi asal tiga R, dari Russell and Burch (1959) :

"Penggantian ertinya menggantikan sedar hidup haiwan yang lebih tinggi bahan yg tdk dpt merasai. Pengurangan bermakna pengurangan dalam bilangan haiwan yang digunakan untuk mendapatkan maklumat daripada jumlah dan ketepatan yang diberikan. Penghalusan bermakna apa-apa pengurangan dalam insiden atau keterukan prosedur tidak berperikemanusiaan digunakan untuk mereka haiwan yang masih perlu digunakan. "

Tiga R bahawa saya mencadangkan tidak mengatasi prinsip etika yang diterangkan dalam Bab 6. Sebaliknya, mereka adalah versi yang lebih terurai salah satu prinsip kemurahan-khusus untuk penetapan eksperimen manusia.

Apabila menimbangkan Contagion emosi, terdapat tiga isu bukan etika yang perlu diingat ketika menafsirkan eksperimen ini. Pertama, ia tidak jelas bagaimana butiran sebenar eksperimen menyambung kepada tuntutan teori; dalam erti kata lain, terdapat soalan tentang kesahan konstruk. Ia tidak jelas bahawa tuduhan perkataan positif dan negatif adalah sebenarnya petunjuk yang baik daripada keadaan emosi peserta kerana 1) ia tidak jelas bahawa kata-kata yang orang post adalah petunjuk yang baik emosi mereka dan 2) ia tidak jelas bahawa teknik analisis sentimen tertentu bahawa penyelidik menggunakan mampu untuk pasti membuat kesimpulan emosi (Beasley and Mason 2015; Panger 2016) . Dalam erti kata lain, mungkin terdapat langkah yang tidak baik isyarat berat sebelah. Kedua, reka bentuk dan analisis eksperimen memberitahu kita apa-apa tentang yang paling memberi kesan (iaitu, tidak ada analisis kepelbagaian kesan rawatan) dan apa mekanisme yang mungkin. Dalam kes ini, penyelidik mempunyai banyak maklumat tentang peserta, tetapi mereka pada dasarnya dianggap sebagai widget di analisis. Ketiga, saiz kesan dalam eksperimen ini adalah sangat kecil; perbezaan di antara syarat-syarat rawatan dan kawalan adalah kira-kira 1 dalam 1,000 perkataan. Dalam kertas kerja mereka, Kramer dan rakan-rakan membuat kes bahawa kesan daripada saiz ini adalah penting kerana beratus-ratus berjuta-juta orang mengakses News Feed mereka setiap hari. Dalam erti kata lain, mereka berhujah bahawa walaupun kesan yang kecil untuk setiap orang yang mereka adalah besar dalam agregat. Walaupun anda untuk menerima hujah ini, ia masih tidak jelas sama ada kesan daripada saiz ini adalah penting mengenai soalan sains yang lebih umum mengenai penularan emosi. Untuk maklumat lanjut mengenai situasi di mana kesan kecil adalah penting melihat Prentice and Miller (1992) .

Dari segi pertama R (penggantian), membandingkan Contagion eksperimen emosi (Kramer, Guillory, and Hancock 2014) dan penularan emosi eksperimen semula jadi (Coviello et al. 2014) beberapa ajaran yang umum mengenai keseimbangan terlibat dengan bergerak dari eksperimen untuk uji kaji semula jadi (dan pendekatan lain seperti yang sepadan cubaan lebih kurang eksperimen dalam data bukan eksperimen, lihat Bab 2). Selain manfaat etika, beralih dari eksperimen kajian bukan eksperimen juga membolehkan penyelidik mengkaji rawatan yang mereka logistik tidak dapat menggunakan. Manfaat etika dan logistik mempunyai kos, namun. Dengan eksperimen semula jadi penyelidik mempunyai kurang kawalan ke atas perkara seperti pengambilan peserta, rawak, dan sifat rawatan. Sebagai contoh, satu had hujan sebagai rawatan adalah bahawa kedua-duanya meningkatkan positivity dan mengurangkan negatif. Dalam kajian eksperimen, bagaimanapun, Kramer dan rakan-rakannya dapat menyesuaikan positif dan negatif secara bebas.

Pendekatan khusus yang digunakan oleh Coviello et al. (2014) telah dijelaskan dalam Coviello, Fowler, and Franceschetti (2014) . Untuk pengenalan kepada pembolehubah instrumental melihat Angrist and Pischke (2009) (kurang formal) atau Angrist, Imbens, and Rubin (1996) (lebih formal). Untuk penilaian sangsi dengan pembolehubah instrumental melihat Deaton (2010) , dan untuk pengenalan kepada pembolehubah instrumental dengan instrumen lemah (hujan adalah instrumen yang lemah), lihat Murray (2006) .

Lebih umum, pengenalan yang baik untuk eksperimen semula jadi adalah Dunning (2012) , dan Rosenbaum (2002) , Rosenbaum (2009) , dan Shadish, Cook, and Campbell (2001) menawarkan idea-idea yang baik tentang menganggarkan kesan sebab dan akibat tanpa eksperimen.

Dari segi kedua R (Penghalusan), terdapat saintifik dan logistik keseimbangan apabila mempertimbangkan perubahan reka bentuk Contagion emosi dari menyekat jawatan untuk meningkatkan catatan. Sebagai contoh, ia boleh menjadi kes bahawa pelaksanaan teknikal News Feed menjadikan ia jauh lebih mudah untuk melakukan eksperimen dengan menyekat jawatan bukannya eksperimen dengan meningkatkan kiriman (ambil perhatian bahawa satu eksperimen dengan menyekat jawatan boleh dilaksanakan sebagai lapisan pada atas sistem News Feed tanpa memerlukan apa-apa perubahan sistem asas). Secara saintifik, bagaimanapun, teori ditangani oleh ujian itu tidak jelas mencadangkan satu reka bentuk berbanding dengan yang lain.

Malangnya, saya tidak sedar penyelidikan yang besar terlebih dahulu tentang merit relatif menyekat dan meningkatkan kandungan dalam Suapan Berita. Juga, saya tidak pernah melihat banyak penyelidikan mengenai penapisan rawatan untuk membuat mereka kurang berbahaya; Satu pengecualian adalah Jones and Feamster (2015) , yang menganggap kes pengukuran penapisan Internet (a topik saya bincangkan dalam Bab 6 dalam hubungan kajian Encore yang (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Dari segi ketiga R (Pengurangan), pengenalan yang baik kepada analisis kuasa tradisional Cohen (1988) . covariates pra-rawatan boleh dimasukkan dalam peringkat reka bentuk dan peringkat analisis eksperimen; Bab 4 Gerber and Green (2012) menyediakan pengenalan yang baik untuk kedua-dua pendekatan, dan Casella (2008) menyediakan rawatan yang lebih mendalam. Teknik yang menggunakan ini maklumat pra-rawatan di rawak yang biasanya dipanggil sama ada disekat reka bentuk eksperimen atau reka bentuk eksperimen berstrata (istilah itu tidak digunakan secara konsisten di seluruh masyarakat); teknik-teknik ini adalah amat berkaitan dengan teknik-teknik persampelan berstrata dibincangkan dalam Bab 3. Lihat Higgins, Sävje, and Sekhon (2016) untuk lebih lanjut tentang menggunakan reka bentuk ini dalam eksperimen besar-besaran. Covariates pra-rawatan juga boleh dimasukkan ke dalam peringkat analisis. McKenzie (2012) meneroka pendekatan perbezaan-in-perbezaan untuk menganalisis uji kaji lapangan dengan lebih terperinci. Lihat Carneiro, Lee, and Wilhelm (2016) lebih pada keseimbangan antara pendekatan yang berbeza untuk meningkatkan ketepatan dalam anggaran kesan rawatan. Akhir sekali, apabila memutuskan sama ada untuk cuba untuk memasukkan covariates pra-rawatan di reka bentuk atau analisis peringkat (atau kedua-duanya), terdapat beberapa faktor yang perlu dipertimbangkan. Dalam suasana di mana penyelidik mahu menunjukkan bahawa mereka tidak "memancing" (Humphreys, Sierra, and Windt 2013) , menggunakan covariates pra-rawatan di peringkat reka bentuk boleh menjadi berguna (Higgins, Sävje, and Sekhon 2016) . Dalam keadaan di mana peserta tiba berurutan, uji kaji lapangan terutamanya dalam talian, menggunakan maklumat pra-rawatan di peringkat reka bentuk mungkin sukar logistik, lihat sebagai contoh Xie and Aurisset (2016) .

Ia adalah bernilai menambah sedikit intuisi tentang mengapa perbezaan-in-perbezaan boleh menjadi lebih berkesan daripada perbezaan-in-cara. Banyak hasil dalam talian mempunyai varians yang sangat tinggi (lihat contohnya, Lewis and Rao (2015) dan Lamb et al. (2015) ) dan agak stabil dari masa ke masa. Dalam kes ini, skor perubahan akan mempunyai varians ketara lebih kecil, meningkatkan kuasa ujian statistik. Salah satu sebab ini menghampiri tidak digunakan lebih kerap adalah bahawa sebelum era digital ia bukan perkara biasa untuk mempunyai hasil pra-rawatan. Satu cara yang lebih konkrit untuk berfikir tentang hal itu adalah untuk membayangkan eksperimen untuk mengukur sama ada satu rutin tertentu menyebabkan penurunan berat badan. Jika anda melakukan pendekatan perbezaan-in-cara, anggaran anda akan mempunyai kepelbagaian yang datang dari kepelbagaian dalam berat dalam populasi. Jika anda melakukan pendekatan perbezaan-in-perbezaan, bagaimanapun, bahawa variasi yang berlaku secara semula jadi dalam berat akan dialih keluar dan anda lebih mudah boleh mengesan perbezaan yang disebabkan oleh rawatan.

Satu cara yang penting untuk mengurangkan bilangan peserta dalam percubaan adalah untuk menjalankan analisis kuasa, yang Kramer dan rakan-rakan boleh dilakukan berdasarkan saiz kesan yang diperhatikan daripada eksperimen semulajadi dengan Coviello et al. (2014) atau penyelidikan bukan eksperimen awal oleh Kramer (2012) (sebenarnya ini adalah aktiviti pada akhir bab ini). Perhatikan bahawa penggunaan ini analisis kuasa adalah agak berbeza daripada biasa. Dalam usia analog, penyelidik biasanya melakukan analisis kuasa untuk memastikan bahawa kajian mereka tidak terlalu kecil (iaitu, di bawah berkuasa). Sekarang, bagaimanapun, penyelidik perlu membuat analisis kuasa untuk memastikan bahawa kajian mereka tidak terlalu besar (iaitu, lebih berkuasa).

Akhir sekali, saya dianggap menambah R keempat: dibuat semula. Iaitu, jika penyelidik mendapati diri mereka dengan data yang lebih eksperimen daripada yang mereka perlukan untuk menangani persoalan kajian asal mereka, mereka harus dibuat semula data untuk bertanya soalan baru. Sebagai contoh, bayangkan bahawa Kramer dan rakan-rakan telah menggunakan penganggar perbezaan-in-perbezaan dan mendapati diri mereka dengan data yang lebih daripada yang diperlukan untuk menjawab soalan penyelidikan mereka. Bukannya tidak menggunakan data setakat sepenuhnya, mereka boleh mengkaji saiz kesan sebagai fungsi untuk pra-rawatan ungkapan emosi. Sama seperti Schultz et al. (2007) mendapati bahawa kesan rawatan adalah berbeza untuk pengguna ringan dan berat, mungkin kesan News Feed adalah berbeza untuk orang yang sudah cenderung untuk menghantar mesej gembira (atau sedih). Tujuan semula boleh membawa kepada "memancing" (Humphreys, Sierra, and Windt 2013) dan "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , tetapi ini sebahagian besarnya boleh ditangani dengan gabungan laporan jujur (Simmons, Nelson, and Simonsohn 2011) , pra-pendaftaran (Humphreys, Sierra, and Windt 2013) , dan kaedah pembelajaran mesin yang cuba untuk mengelakkan lebih-pemasangan.