Membuat percubaan lebih berperikemanusiaan dengan menggantikan eksperimen dengan kajian bukan eksperimen, penapisan rawatan, dan mengurangkan bilangan peserta.
Nasihat kedua yang saya ingin tawarkan tentang merancang eksperimen digital berkenaan dengan etika. Oleh kerana percubaan Restivo dan van de Rijt pada barnstars di Wikipedia menunjukkan, penurunan kos bermakna etika akan menjadi sebahagian penting dalam reka bentuk penyelidikan. Di samping rangka kerja etika yang membimbing penyelidikan subjek manusia yang saya akan terangkan dalam bab 6, penyelidik yang merekabentuk eksperimen digital juga boleh menarik idea-idea etika dari sumber yang berbeza: prinsip etika yang dibangunkan untuk membimbing eksperimen yang melibatkan haiwan. Khususnya, dalam buku-buku utama mereka Prinsip-prinsip Teknik Percubaan Humane , Russell and Burch (1959) mencadangkan tiga prinsip yang harus membimbing penyelidikan haiwan: menggantikan, memperbaiki, dan mengurangkan. Saya ingin mencadangkan bahawa ketiga-tiga R ini juga boleh digunakan-dalam bentuk yang sedikit diubahsuai-untuk membimbing reka bentuk eksperimen manusia. Secara khususnya,
Untuk menjadikan konkrit tiga R ini dan menunjukkan bagaimana mereka boleh membawa kepada reka bentuk eksperimen yang lebih baik dan lebih berperikemanusiaan, saya akan menerangkan satu eksperimen medan dalam talian yang menghasilkan perdebatan etika. Kemudian, saya akan menerangkan bagaimana tiga R mencadangkan perubahan konkrit dan praktikal untuk reka bentuk eksperimen.
Eksperimen medan digital yang diperdebatkan secara etika telah dijalankan oleh Adam Kramer, Jamie Guillroy, dan Jeffrey Hancock (2014) dan telah dipanggil "Penangkapan Emosional." Eksperimen itu berlaku di Facebook dan didorong oleh campuran sains dan soalan praktikal. Pada masa itu, cara yang dominan pengguna berinteraksi dengan Facebook adalah News Feed, satu set status Facebook yang dikendalikan secara algoritma daripada rakan Facebook pengguna. Beberapa pengkritik Facebook telah mencadangkan bahawa kerana News Feed mempunyai sebahagian besar jawatan positif-kawan-kawan yang menunjukkan parti terbaru mereka-ia boleh menyebabkan pengguna merasa sedih kerana kehidupan mereka kelihatan kurang menarik berbanding. Sebaliknya, mungkin kesannya adalah sebaliknya: mungkin melihat rakan anda bersenang-senang akan membuat anda berasa gembira. Untuk menangani hipotesis yang bersaing ini-dan untuk memajukan pemahaman kita tentang bagaimana emosi seseorang terpengaruh oleh emosi kawannya-Kramer dan rakan sekerja menjalankan eksperimen. Mereka menempatkan kira-kira 700,000 pengguna dalam empat kumpulan selama satu minggu: kumpulan "berkurang negatif", yang mana jawatan dengan kata-kata negatif (misalnya, "sedih") secara rambang dihalang daripada muncul dalam Berita Berita; kumpulan "positif-dikurangkan" untuk siapa jawatan dengan kata-kata positif (misalnya, "gembira") disekat secara rambang; dan dua kumpulan kawalan. Dalam kumpulan kawalan untuk kumpulan "negatif-dikurangkan", jawatan telah disekat secara rawak pada kadar yang sama dengan kumpulan "negatif yang dikurangkan" tetapi tanpa mengambil kira kandungan emosi. Kumpulan kawalan untuk kumpulan "positiviti dikurangkan" dibina dengan cara yang selari. Reka bentuk percubaan ini menggambarkan bahawa kumpulan kawalan yang sesuai tidak selalu satu tanpa perubahan. Sebaliknya, kadang-kadang, kumpulan kawalan menerima rawatan untuk membuat perbandingan tepat yang memerlukan persoalan penyelidikan. Dalam semua kes, jawatan yang disekat dari Berita Berita masih tersedia kepada pengguna melalui bahagian lain laman web Facebook.
Kramer dan rakan sekerja mendapati bahawa bagi peserta dalam keadaan berkurang positif, peratusan perkataan positif dalam kemas kini status mereka menurun dan peratusan kata-kata negatif meningkat. Sebaliknya, bagi peserta dalam keadaan negatif yang berkurangan, peratusan perkataan positif meningkat dan kata-kata negatif menurun (angka 4.24). Walau bagaimanapun, kesan ini agak kecil: perbezaan dalam perkataan positif dan negatif antara rawatan dan kawalan adalah kira-kira 1 dalam 1,000 perkataan.
Sebelum membincangkan isu-isu etika yang dibangkitkan oleh eksperimen ini, saya ingin menerangkan tiga isu saintifik menggunakan beberapa idea dari awal dalam bab ini. Pertama, tidak jelas bagaimana butiran eksperimen sebenar menyambung kepada tuntutan teoritis; dalam erti kata lain, ada soalan tentang membina kesahihan. Tidak jelas bahawa jumlah perkataan positif dan negatif sebenarnya adalah penunjuk yang baik dari keadaan peserta emosi kerana (1) tidak jelas bahawa kata-kata yang dikemukakan orang adalah petunjuk yang baik dari emosi mereka dan (2) tidak jelas bahawa teknik analisis sentimen tertentu yang digunakan para penyelidik dapat mengesan emosi (Beasley and Mason 2015; Panger 2016) . Dalam erti kata lain, mungkin terdapat ukuran yang buruk dari isyarat yang berat sebelah. Kedua, reka bentuk dan analisis eksperimen tidak memberitahu kita tentang siapa yang paling banyak terpengaruh (iaitu, tidak ada analisis heterogenitas kesan rawatan) dan mekanisme apa. Dalam kes ini, para penyelidik mempunyai banyak maklumat mengenai para peserta, tetapi mereka pada dasarnya dianggap sebagai widget dalam analisis. Ketiga, saiz kesan dalam eksperimen ini sangat kecil; perbezaan antara syarat rawatan dan kawalan ialah kira-kira 1 dalam 1,000 perkataan. Di dalam kertas mereka, Kramer dan rakan sekerja membuat kes yang kesan saiz ini penting kerana beratus-ratus juta orang mengakses Feed News mereka setiap hari. Dalam erti kata lain, mereka berpendapat bahawa walaupun kesannya kecil untuk setiap orang, mereka besar dalam agregat. Sekalipun anda menerima hujah ini, masih belum jelas sekiranya kesan ukuran ini penting mengenai persoalan ilmiah yang lebih umum mengenai penyebaran emosi (Prentice and Miller 1992) .
Di samping soalan-soalan saintifik ini, beberapa hari selepas makalah ini diterbitkan dalam Prosiding Akademi Sains Kebangsaan , terdapat bantahan besar dari kedua-dua penyelidik dan akhbar (saya akan menerangkan hujah-hujah dalam perbahasan ini dengan lebih terperinci dalam bab 6 ). Isu-isu yang dibangkitkan dalam perdebatan ini menyebabkan jurnal itu menerbitkan satu "ungkapan editorial yang membimbangkan" tentang etika dan proses semakan etika untuk penyelidikan (Verma 2014) .
Memandangkan latar belakang mengenai Pergaulan Emosi, saya sekarang ingin menunjukkan bahawa tiga R dapat mencadangkan penambahbaikan konkrit, praktikal untuk kajian sebenar (apa sahaja yang anda mungkin berfikir secara peribadi tentang etika eksperimen ini). R pertama digantikan : penyelidik harus mencari pengganti eksperimen dengan teknik yang kurang invasif dan berisiko, jika mungkin. Sebagai contoh, daripada menjalankan percubaan terkawal secara rawak, para penyelidik dapat mengeksploitasi percubaan semulajadi . Seperti yang dijelaskan dalam bab 2, eksperimen semulajadi adalah situasi di mana sesuatu berlaku di dunia yang menghampiri penyerahan rawatan secara rawak (misalnya, loteri untuk menentukan siapa yang akan dirangka ke dalam tentera). Kelebihan etika eksperimen semulajadi adalah bahawa penyelidik tidak perlu memberikan rawatan: persekitaran melakukan itu untuk anda. Contohnya, hampir serentak dengan eksperimen Contagion Emosi, Lorenzo Coviello et al. (2014) mengeksploitasi apa yang boleh dipanggil percubaan semulajadi Litar Emosi. Coviello dan rakan sekerja mendapati bahawa orang menghantar lebih banyak perkataan negatif dan kurang perkataan positif pada hari-hari di mana hujan. Oleh itu, dengan menggunakan variasi rawak dalam cuaca, mereka dapat mengkaji kesan perubahan dalam News Feed tanpa perlu campur tangan sama sekali. Ia seolah-olah cuaca sedang menjalankan eksperimen mereka untuk mereka. Butiran prosedur mereka agak rumit, tetapi perkara yang paling penting untuk tujuan kami di sini adalah dengan menggunakan eksperimen semulajadi, Coviello dan rakan sekerja dapat belajar tentang penyebaran emosi tanpa perlu menjalankan eksperimen mereka sendiri.
Yang kedua dari tiga Rs ini diperbaiki : para penyelidik harus berusaha untuk memperbaiki rawatan mereka untuk menjadikannya tidak berbahaya. Sebagai contoh, daripada menyekat kandungan yang sama ada positif atau negatif, para penyelidik dapat meningkatkan kandungan yang positif atau negatif. Reka bentuk yang menggalakkan ini akan mengubah kandungan emosi Suapan Berita para peserta, tetapi ia akan menimbulkan salah satu kebimbangan yang dikemukakan oleh para pengkritik: bahawa eksperimen dapat menyebabkan peserta kehilangan keterangan penting dalam Umpan Berita mereka. Dengan reka bentuk yang digunakan oleh Kramer dan rakan sekerja, mesej yang penting adalah seperti yang mungkin disekat sebagai salah satu yang tidak. Walau bagaimanapun, dengan reka bentuk yang menggalakkan, mesej yang akan dipindahkan akan menjadi yang kurang penting.
Akhir sekali, R yang ketiga dapat dikurangkan : para penyelidik harus berusaha untuk mengurangkan jumlah peserta dalam eksperimen mereka hingga minimum yang diperlukan untuk mencapai objektif saintifik mereka. Dalam eksperimen analog, ini berlaku secara semulajadi kerana kos pembolehubah yang tinggi peserta. Tetapi dalam eksperimen digital, terutamanya mereka yang mempunyai kos pembolehubah sifar, penyelidik tidak menghadapi kekangan kos pada saiz eksperimen mereka, dan ini berpotensi untuk membawa kepada percubaan besar yang tidak perlu.
Sebagai contoh, Kramer dan rakan sekerja dapat menggunakan maklumat pra-rawatan mengenai peserta mereka-seperti tingkah laku pra pra-rawatan-untuk membuat analisis mereka lebih efisien. Secara lebih khusus, berbanding membandingkan nisbah perkataan positif dalam keadaan rawatan dan kawalan, Kramer dan rakan sekerja dapat membandingkan perubahan dalam perkadaran perkataan positif antara keadaan; pendekatan yang kadang-kadang dipanggil reka bentuk campuran (angka 4.5) dan kadang-kadang dipanggil penganggar perbezaan dalam perbezaan. Iaitu, bagi setiap peserta, para penyelidik dapat mencipta skor perubahan (tingkah laku selepas tingkah laku \(-\) tingkah laku pra-rawatan) dan kemudian membandingkan skor perubahan peserta dalam keadaan rawatan dan kawalan. Pendekatan perbezaan-dalam-perbezaan ini lebih berkesan secara statistik, yang bermaksud bahawa para penyelidik dapat mencapai keyakinan statistik yang sama dengan menggunakan sampel yang lebih kecil.
Tanpa data mentah, sukar untuk mengetahui dengan tepat betapa lebih efisien penganggar perbezaan dalam perbezaan dalam kes ini. Tetapi kita boleh melihat eksperimen berkaitan lain untuk idea yang kasar. Deng et al. (2013) melaporkan bahawa dengan menggunakan satu bentuk perbezaan penganggar perbezaan, mereka dapat mengurangkan varians anggaran mereka sebanyak kira-kira 50% dalam tiga eksperimen dalam talian yang berbeza; Keputusan yang sama telah dilaporkan oleh Xie and Aurisset (2016) . Pengurangan variasi 50% ini bermakna penyelidik Contemption Emosional mungkin dapat mengurangkan sampel mereka pada separuh jika mereka menggunakan kaedah analisis yang sedikit berbeza. Dalam erti kata lain, dengan sedikit perubahan dalam analisis, 350,000 orang mungkin telah terkilan dalam eksperimen.
Pada ketika ini, anda mungkin tertanya-tanya mengapa penyelidik harus mengambil berat jika 350,000 orang berada dalam Pergaulan Emosional dengan tidak perlu. Terdapat dua ciri tertentu dari Contagion Emosional yang membimbangkan dengan saiz berlebihan yang bersesuaian, dan ciri-ciri ini dikongsi oleh banyak eksperimen medan digital: (1) terdapat ketidakpastian sama ada eksperimen itu akan merugikan sekurang-kurangnya beberapa peserta dan (2) penyertaan tidak sukarela. Nampaknya munasabah untuk cuba mengekalkan eksperimen yang mempunyai ciri-ciri ini sekecil mungkin.
Untuk menjadi jelas, keinginan untuk mengurangkan saiz eksperimen anda tidak bermakna anda tidak boleh menjalankan eksperimen kos berubah yang besar dan sifar. Ini hanya bermakna eksperimen anda tidak boleh lebih besar daripada yang anda perlukan untuk mencapai matlamat saintifik anda. Satu cara penting untuk memastikan eksperimen yang sesuai adalah dengan menjalankan analisis kuasa (Cohen 1988) . Dalam era analog, para penyelidik umumnya melakukan analisis kuasa untuk memastikan bahawa kajian mereka tidak terlalu kecil (iaitu kurang berkuasa). Kini, bagaimanapun, penyelidik harus melakukan analisis kuasa untuk memastikan bahawa kajian mereka tidak terlalu besar (iaitu, lebih berkuasa).
Kesimpulannya, tiga R's-menggantikan, memperbaiki, dan mengurangkan-memberikan prinsip yang boleh membantu para penyelidik membina etika ke dalam reka bentuk eksperimen mereka. Sudah tentu, setiap perubahan yang mungkin untuk Pergaulan Emosi memperkenalkan pertukaran. Sebagai contoh, keterangan daripada eksperimen semula jadi tidak selalu bersih seperti dari eksperimen rawak, dan meningkatkan kandungan mungkin secara logistik lebih sukar untuk dilaksanakan daripada menyekat kandungan. Oleh itu, tujuan mencadangkan perubahan ini bukan untuk meneka kedua keputusan penyelidik lain. Sebaliknya, ia adalah untuk menggambarkan bagaimana tiga R boleh digunakan dalam keadaan yang realistik. Sebenarnya, masalah perdagangan timbul sepanjang masa dalam reka bentuk penyelidikan, dan dalam zaman digital, ini perdagangan akan semakin melibatkan pertimbangan etika. Kemudian, dalam bab 6, saya akan menawarkan beberapa prinsip dan rangka kerja etika yang boleh membantu para penyelidik memahami dan membincangkan pertukaran ini.