4.3 Dua dimensi eksperimen: makmal-lapangan dan analog-digital

terjemahan ini dihasilkan oleh komputer. ×

4.3 Dua dimensi eksperimen: makmal-lapangan dan analog-digital

Eksperimen makmal menawarkan kawalan, uji kaji lapangan menawarkan realisme, dan uji kaji lapangan digital menggabungkan kawalan dan realisme pada skala.

Eksperimen datang dalam pelbagai bentuk dan saiz yang berbeza. Pada masa lalu, para penyelidik mendapati ia membantu untuk menyusun eksperimen sepanjang kontinum antara eksperimen percubaan dan eksperimen lapangan . Walau bagaimanapun, sekarang penyelidik juga harus menyusun eksperimen sepanjang kontinum kedua antara eksperimen analog dan eksperimen digital . Ruang reka bentuk dua dimensi ini akan membantu anda memahami kekuatan dan kelemahan pendekatan yang berlainan dan menyerlahkan bidang peluang terbesar (angka 4.1).

Rajah 4.1: Skema ruang reka bentuk untuk eksperimen. Pada masa lalu, eksperimen berubah di sepanjang dimensi bidang makmal. Sekarang, mereka juga berbeza-beza pada dimensi analog-digital. Ruang reka bentuk dua dimensi ini digambarkan oleh empat eksperimen yang saya terangkan dalam bab ini. Pada pendapat saya, bidang peluang terbesar ialah eksperimen medan digital.

Satu dimensi di mana percubaan boleh dianjurkan ialah dimensi bidang makmal. Ramai eksperimen dalam sains sosial adalah percubaan makmal di mana pelajar sarjana melaksanakan tugas-tugas yang pelik dalam makmal kredit kredit. Jenis percubaan ini menguasai penyelidikan dalam psikologi kerana ia membolehkan para penyelidik untuk membuat tetapan yang dikendalikan dengan sangat tepat untuk mengasingkan dan menguji teori tertentu tentang tingkah laku sosial. Untuk masalah tertentu, bagaimanapun, ada yang merasa agak pelik mengenai membuat kesimpulan yang kuat tentang kelakuan manusia dari orang-orang yang tidak biasa yang melakukan tugas-tugas yang luar biasa itu dalam suasana yang luar biasa. Kebimbangan ini telah membawa kepada pergerakan ke arah eksperimen lapangan . Eksperimen bidang menggabungkan reka bentuk kawalan eksperimen yang rawak dengan lebih banyak kumpulan peserta yang lebih banyak melakukan tugas yang lebih lazim dalam tetapan semula jadi.

Walaupun sesetengah orang memikirkan eksperimen makmal dan medan sebagai kaedah bersaing, lebih baik memikirkannya sebagai pelengkap, dengan kekuatan dan kelemahan yang berlainan. Sebagai contoh, Correll, Benard, and Paik (2007) menggunakan kedua-dua percubaan makmal dan percubaan lapangan dalam usaha untuk mencari sumber "penalti keibuan." Di Amerika Syarikat, ibu mendapatkan lebih sedikit wang daripada wanita tanpa anak, walaupun membandingkan wanita dengan kemahiran serupa yang bekerja dalam pekerjaan yang sama. Terdapat banyak penjelasan yang mungkin untuk corak ini, salah satunya adalah bahawa majikan berat sebelah terhadap ibu. (Menariknya, sebaliknya seolah-olah benar untuk bapa: mereka cenderung untuk mendapatkan lebih banyak daripada lelaki tanpa anak lelaki yang setanding.) Untuk menilai kemungkinan kecenderungan terhadap ibu, Correll dan rakan-rakan menjalankan dua eksperimen: satu di makmal dan satu di lapangan.

Pertama, dalam percubaan makmal mereka memberitahu peserta, yang merupakan mahasiswa kolej, bahawa sebuah syarikat sedang menjalankan pencarian pekerjaan bagi seseorang untuk memimpin jabatan pemasaran Pantai Timur yang baru. Para pelajar diberitahu bahawa syarikat itu mahu bantuan mereka dalam proses pengambilan pekerja, dan mereka diminta untuk mengkaji semula resume beberapa calon yang berpotensi dan menilai calon-calon dalam beberapa dimensi, seperti kecerdasan mereka, kehangatan, dan komitmen untuk bekerja. Tambahan pula, para pelajar ditanya sama ada mereka akan mengesyorkan menyewa pemohon dan apa yang mereka cadangkan sebagai gaji permulaan. Tidak diketahui oleh pelajar, namun resume dibina khas untuk menjadi serupa kecuali satu perkara: sesetengah daripada mereka menandakan keibuan (dengan menyenaraikan penglibatan dalam persatuan ibu bapa-guru) dan ada yang tidak. Correll dan rakan sekerja mendapati bahawa pelajar kurang berkemungkinan mengesyorkan menyewa ibu-ibu dan mereka menawarkan mereka gaji permulaan yang lebih rendah. Tambahan pula, melalui analisis statistik kedua-dua penarafan dan keputusan berkaitan pengambilan pekerja, Correll dan rakan sekerja mendapati bahawa kelemahan ibu sebahagian besarnya dijelaskan oleh hakikat bahawa mereka dinilai lebih rendah dari segi kecekapan dan komitmen. Oleh itu, percubaan makmal ini membenarkan Correll dan rakan sekerja untuk mengukur kesan kausal dan memberikan penjelasan yang mungkin untuk kesan tersebut.

Sudah tentu, seseorang mungkin ragu-ragu untuk membuat kesimpulan mengenai seluruh pasaran buruh AS berdasarkan keputusan beberapa ratus pelajar yang mungkin tidak pernah mempunyai pekerjaan sepenuh masa, apalagi mengupah seseorang. Oleh itu, Correll dan rakan sekerja juga menjalankan eksperimen medan pelengkap. Mereka memberi respon kepada beratus-ratus bukaan kerja yang diiklankan dengan huruf dan resume palsu. Sama seperti bahan-bahan yang ditunjukkan kepada mahasiswa, ada yang menyambung semula isyarat ibu dan ada yang tidak. Correll dan rakan sekerja mendapati bahawa ibu-ibu kurang berkemungkinan akan dipanggil semula untuk temubual daripada wanita tanpa kanak-kanak yang berkelayakan. Dalam erti kata lain, majikan sebenar membuat keputusan berbangkit dalam suasana semula jadi berkelakuan seperti pelajar. Adakah mereka membuat keputusan yang sama dengan sebab yang sama? Malangnya, kita tidak tahu. Para penyelidik tidak dapat meminta majikan menilai calon atau menerangkan keputusan mereka.

Kedua-dua eksperimen ini mendedahkan banyak tentang eksperimen makmal dan bidang secara umum. Eksperimen makmal menawarkan penyelidik berhampiran kawalan total persekitaran di mana para peserta membuat keputusan. Jadi, sebagai contoh, dalam percubaan makmal, Correll dan rakan sekerja dapat memastikan bahawa semua resume dibaca dalam suasana yang tenang; dalam eksperimen lapangan, beberapa resume mungkin tidak pernah dibaca. Selanjutnya, kerana peserta dalam penubuhan lab mengetahui bahawa mereka sedang dikaji, penyelidik sering dapat mengumpulkan data tambahan yang dapat membantu menjelaskan mengapa para peserta membuat keputusan mereka. Sebagai contoh, Correll dan rakan-rakan meminta peserta dalam percubaan makmal untuk menilai calon-calon di dimensi yang berbeza. Data proses seperti ini dapat membantu penyelidik memahami mekanisme di sebalik perbezaan bagaimana peserta merawat resume.

Sebaliknya, ciri-ciri yang sama seperti yang saya sebutkan sebagai kelebihan juga kadang-kadang dianggap kekurangan. Penyelidik yang lebih suka eksperimen bidang berpendapat bahawa peserta dalam eksperimen lab boleh bertindak dengan sangat berbeza kerana mereka tahu bahawa mereka sedang dikaji. Sebagai contoh, dalam percubaan makmal, peserta mungkin telah meneka tujuan penyelidikan dan mengubah tingkah laku mereka agar tidak kelihatan berat sebelah. Lebih jauh lagi, para penyelidik yang lebih suka eksperimen lapangan mungkin berpendapat bahawa perbezaan kecil dalam resume hanya boleh menonjol dalam persekitaran makmal yang sangat bersih dan steril, dan oleh itu percubaan makmal akan memaksimumkan kesan keibuan pada keputusan pengambilan sebenar. Akhirnya, banyak penyokong eksperimen bidang mengkritik ketergantungan percubaan makmal pada peserta WEIRD: kebanyakan pelajar dari negara-negara Barat, Dididik, Industri, Kaya, dan Demokrat (Henrich, Heine, and Norenzayan 2010a) . Eksperimen-eksperimen oleh Correll dan rakan-rakan (2007) menggambarkan kedua-dua keterlaluan pada konteks lapangan lab. Di antara kedua-dua ekstrem tersebut terdapat juga pelbagai reka bentuk hibrid, termasuk pendekatan seperti membawa bukan pelajar ke makmal atau pergi ke lapangan tetapi masih mempunyai peserta melakukan tugas yang luar biasa.

Sebagai tambahan kepada dimensi bidang makmal yang telah wujud pada masa lalu, zaman digital bermakna para penyelidik kini mempunyai dimensi utama kedua di mana eksperimen dapat berubah-ubah: analog-digital. Sama seperti eksperimen makmal tulen, eksperimen medan tulen, dan pelbagai kacukan di antara, terdapat eksperimen analog tulen, eksperimen digital tulen, dan pelbagai kacukan. Adalah sukar untuk menawarkan definisi formal mengenai dimensi ini, tetapi definisi kerja yang berguna ialah eksperimen digital sepenuhnya adalah eksperimen yang menggunakan infrastruktur digital untuk merekrut peserta, meramalkan, menyampaikan rawatan, dan mengukur hasil. Contohnya, kajian Restivo dan van de Rijt (2012) mengenai barnstar dan Wikipedia adalah percubaan digital sepenuhnya kerana ia menggunakan sistem digital untuk semua empat langkah ini. Begitu juga, eksperimen analog sepenuhnya tidak menggunakan infrastruktur digital untuk mana-mana empat langkah ini. Banyak eksperimen klasik dalam psikologi adalah eksperimen analog sepenuhnya. Di antara dua ekstrem ini, terdapat eksperimen digital yang menggunakan gabungan sistem analog dan digital.

Apabila sesetengah orang berfikir tentang eksperimen digital, mereka segera memikirkan eksperimen dalam talian. Ini adalah malang kerana peluang untuk menjalankan eksperimen digital tidak hanya dalam talian. Para penyelidik boleh menjalankan eksperimen secara digital dengan menggunakan peranti digital dalam dunia fizikal untuk menyampaikan rawatan atau mengukur hasil. Sebagai contoh, penyelidik boleh menggunakan telefon pintar untuk menyampaikan rawatan atau sensor dalam persekitaran yang dibina untuk mengukur hasil. Malah, seperti yang akan kita lihat kemudian dalam bab ini, penyelidik telah menggunakan meter kuasa rumah untuk mengukur hasil dalam eksperimen mengenai penggunaan tenaga yang melibatkan 8.5 juta isi rumah (Allcott 2015) . Oleh kerana peranti digital menjadi semakin terintegrasi ke dalam kehidupan rakyat dan sensor menjadi bersepadu dalam persekitaran yang dibina, peluang untuk menjalankan eksperimen digital secara separuh dalam dunia fizikal akan meningkat secara dramatik. Dengan kata lain, eksperimen digital bukan hanya eksperimen dalam talian.

Sistem digital mencipta kemungkinan baru untuk eksperimen di mana-mana sepanjang kontinum-field lab. Dalam eksperimen percubaan tulen, sebagai contoh, para penyelidik boleh menggunakan sistem digital untuk pengukuran yang lebih baik terhadap tingkah laku peserta; satu contoh jenis pengukuran yang lebih baik ini ialah peralatan pengesan mata yang menyediakan ukuran pandangan yang tepat dan berterusan. Umur digital juga mewujudkan kemungkinan menjalankan eksperimen seperti lab. Sebagai contoh, para penyelidik telah menggunakan Amazon Mechanical Turk (MTurk) dengan pantas untuk merekrut peserta untuk eksperimen dalam talian (angka 4.2). MTurk sepadan dengan "majikan" yang mempunyai tugas yang perlu diselesaikan dengan "pekerja" yang ingin menyelesaikan tugasan tersebut untuk wang. Namun, tidak seperti pasaran buruh tradisional, tugas-tugas yang terlibat biasanya memerlukan hanya beberapa minit untuk diselesaikan, dan keseluruhan interaksi antara majikan dan pekerja adalah dalam talian. Kerana MTurk meniru aspek percubaan makmal tradisional yang membayar orang untuk menyelesaikan tugas-tugas yang mereka tidak akan lakukan secara percuma-ia semulajadi sesuai untuk jenis eksperimen tertentu. Pada asasnya, MTurk telah mewujudkan infrastruktur untuk menguruskan kumpulan peserta-merekrut dan membayar orang-dan para penyelidik telah memanfaatkan infrastruktur itu untuk memanfaatkan kumpulan peserta yang selalu tersedia.

Rajah 4.2: Kertas yang diterbitkan menggunakan data dari Amazon Mechanical Turk (MTurk). MTurk dan pasaran buruh dalam talian lain menawarkan penyelidik cara yang mudah untuk merekrut peserta untuk eksperimen. Diadaptasi dari Bohannon (2016) .

Sistem digital membuat lebih banyak kemungkinan untuk eksperimen seperti padang. Khususnya, mereka membolehkan penyelidik untuk menggabungkan kawalan ketat dan memproses data yang berkaitan dengan eksperimen makmal dengan peserta yang lebih pelbagai dan tetapan semula jadi yang dikaitkan dengan eksperimen makmal. Di samping itu, eksperimen bidang digital juga menawarkan tiga peluang yang cenderung sukar dilakukan dalam eksperimen analog.

Pertama, manakala eksperimen lab dan medan analog yang paling banyak mempunyai ratusan peserta, eksperimen medan digital dapat berjuta-juta peserta. Perubahan dalam skala ini kerana beberapa eksperimen digital boleh menghasilkan data pada kos pembolehubah sifar. Iaitu, sekali penyelidik telah mencipta infrastruktur percubaan, meningkatkan bilangan peserta biasanya tidak meningkatkan kos. Meningkatkan bilangan peserta dengan faktor 100 atau lebih bukan sekadar perubahan kuantitatif ; ia adalah perubahan kualitatif , kerana ia membolehkan para penyelidik mempelajari perkara yang berbeza dari eksperimen (misalnya, heterogenitas kesan rawatan) dan menjalankan reka bentuk eksperimen yang berbeza (misalnya, eksperimen kumpulan besar). Perkara ini sangat penting, saya akan kembali ke sana pada akhir bab ini apabila saya memberi nasihat tentang membuat eksperimen digital.

Kedua, manakala eksperimen lab dan medan analog yang paling melayan peserta sebagai widget yang tidak dapat dibezakan, eksperimen medan digital sering menggunakan maklumat latar belakang tentang peserta dalam tahap perancangan dan analisis penyelidikan. Maklumat latar belakang ini, yang dipanggil maklumat pra-rawatan , sering terdapat dalam eksperimen digital kerana ia dijalankan di atas sistem pengukuran selalu (lihat bab 2). Sebagai contoh, seorang penyelidik di Facebook mempunyai lebih banyak maklumat pra-rawatan mengenai orang-orang dalam eksperimen medan digitalnya daripada seorang penyelidik universiti mengenai orang-orang dalam eksperimen medan analognya. Rawatan pra-pra ini membolehkan reka bentuk eksperimen yang lebih cekap-seperti menyekat (Higgins, Sävje, and Sekhon 2016) dan sasaran pengambilan peserta (Eckles, Kizilcec, and Bakshy 2016) -dan analisis lebih mendalam-seperti anggaran heterogenitas kesan rawatan (Athey and Imbens 2016a) dan pelarasan (Bloniarz et al. 2016) untuk ketepatan yang lebih baik (Bloniarz et al. 2016) .

Ketiga, sedangkan banyak eksperimen lab dan medan analog menyampaikan rawatan dan mengukur hasil dalam jumlah waktu yang relatif dimampatkan, beberapa eksperimen medan digital berlaku lebih banyak kali. Sebagai contoh, percubaan Restivo dan van de Rijt mempunyai hasil yang diukur setiap hari selama 90 hari, dan satu eksperimen yang akan saya sampaikan kepada anda tentang kemudian dalam bab (Ferraro, Miranda, and Price 2011) menjejaki hasil selama tiga tahun pada dasarnya tidak kos. Ketiga-tiga ukuran peluang, maklumat pra-rawatan, dan data rawatan dan hasil membujur-biasanya timbul apabila eksperimen dijalankan di atas sistem pengukuran yang selalu digunakan (lihat bab 2 untuk lebih banyak sistem pengukuran yang selalu digunakan).

Walaupun eksperimen bidang digital menawarkan banyak kemungkinan, mereka juga berkongsi beberapa kelemahan dengan kedua-dua makmal analog dan eksperimen medan analog. Sebagai contoh, eksperimen tidak boleh digunakan untuk mengkaji masa lalu, dan mereka hanya boleh menganggarkan kesan rawatan yang boleh dimanipulasi. Selain itu, walaupun eksperimen tidak semestinya berguna untuk membimbing dasar, panduan tepat yang mereka tawarkan agak terhad kerana komplikasi seperti pergantungan alam sekitar, masalah pematuhan, dan kesan keseimbangan (Banerjee and Duflo 2009; Deaton 2010) . Eksperimen bidang digital juga membesarkan kebimbangan etika yang dibuat oleh eksperimen bidang-topik yang akan saya hantarkan kemudian dalam bab ini dan dalam bab 6.