Kunci:
[ , ] Berinsky dan rakan-rakan (2012) menilai Mekanikal Turk sebahagiannya oleh mereplikasi tiga eksperimen klasik. Meniru Asia eksperimen Penyakit rangka klasik oleh Tversky and Kahneman (1981) . Adakah keputusan perlawanan anda Tversky dan Kahneman ini? Adakah keputusan perlawanan anda Berinsky dan rakan-rakan? Apa-jika apa-apa-adakah ini mengajar kita tentang menggunakan Mekanikal Turk untuk eksperimen kajian?
[ , ] Dalam kertas agak lidah-di-pipi bertajuk "Kami Perlu Break Up," kata ahli psikologi sosial Robert Cialdini, salah satu pengarang Schultz et al. (2007) , telah menulis bahawa dia telah bersara awal daripada jawatan sebagai profesor, sebahagiannya kerana kepayahan yang pernah dilaluinya melakukan uji kaji lapangan dalam disiplin (psikologi) yang terutamanya menjalankan ujikaji makmal (Cialdini 2009) . Membaca akhbar Cialdini, dan menulis e-mel menggesa beliau untuk menimbang semula beliau perpecahan berdasarkan kemungkinan eksperimen digital kepadanya. Gunakan contoh-contoh khusus penyelidikan yang menangani kebimbangan beliau.
[ ] Dalam usaha untuk menentukan sama ada kejayaan permulaan yang kecil mengunci masuk atau hilang, van de Rijt dan dan rakan-rakan (2014) campur tangan ke dalam empat sistem yang berbeza mengurniakan kejayaan kepada peserta dipilih secara rawak, dan kemudian mengukur kesan jangka panjang kejayaan sewenang-wenangnya ini. Bolehkah anda memikirkan sistem lain di mana anda boleh menjalankan eksperimen yang sama? Menilai sistem ini dari segi isu-isu yang mempunyai nilai saintifik, membaurkan algoritma (lihat Bab 2), dan etika.
[ , ] Keputusan eksperimen boleh bergantung kepada para peserta. Buat percubaan dan kemudian berjalan di Amazon Mekanikal Turk (MTurk) menggunakan dua strategi pengambilan yang berbeza. Cuba untuk memilih eksperimen dan pengambilan strategi supaya keputusan akan menjadi berbeza yang mungkin. Sebagai contoh, strategi pengambilan anda mungkin untuk mendapatkan ahli baru pada waktu pagi dan petang atau untuk membayar pampasan kepada peserta dengan gaji tinggi dan rendah. Ini jenis perbezaan dalam strategi pengambilan boleh membawa kepada kolam renang yang berbeza peserta dan hasil eksperimen yang berbeza. Bagaimana berbeza adakah keputusan anda berubah? Apa yang mendedahkan tentang menjalankan uji kaji ke atas MTurk?
[ , , , ] Bayangkan bahawa anda telah merancang kajian Contagion Emosi (Kramer, Guillory, and Hancock 2014) . Menggunakan hasil daripada kajian pemerhatian awal oleh Kramer (2012) untuk menentukan bilangan peserta dalam setiap keadaan. Kedua-dua kajian tidak sepadan dengan sempurna jadi pastikan anda jelas menyenaraikan semua andaian yang anda buat:
[ , , , ] Jawab soalan di atas, tetapi bukannya menggunakan kajian pemerhatian yang lebih awal oleh Kramer (2012) menggunakan hasil daripada eksperimen semula jadi lebih awal oleh Coviello et al. (2014) .
[ ] Kedua-dua Rijt et al. (2014) dan Margetts et al. (2011) kedua-dua melakukan eksperimen yang mengkaji proses orang menandatangani petisyen. Membanding dan membezakan reka bentuk dan hasil kajian ini.
[ ] Dwyer, Maki, and Rothman (2015) telah menjalankan dua uji kaji lapangan mengenai hubungan antara norma-norma sosial dan tingkah laku proenvironmental. Berikut adalah abstrak kertas mereka:
"Bagaimana mungkin sains psikologi digunakan untuk menggalakkan tingkah laku proenvironmental? Dalam dua kajian, campur tangan yang bertujuan untuk menggalakkan tingkah laku pemuliharaan tenaga di dalam bilik mandi awam mengkaji pengaruh norma deskriptif dan tanggungjawab peribadi. Dalam Kajian 1, status cahaya (iaitu, hidup atau mati) telah dimanipulasi sebelum seseorang memasuki bilik mandi awam berpenghuni, isyarat norma deskriptif untuk tetapan itu. Peserta adalah jauh lebih cenderung untuk menghidupkan lampu off jika mereka mati apabila mereka masuk. Dalam Kajian 2, syarat tambahan telah dimasukkan di mana norma mematikan cahaya itu ditunjukkan oleh satu kaki tangan, tetapi peserta tidak diri mereka bertanggungjawab untuk menghidupkannya. tanggungjawab peribadi sederhana pengaruh norma-norma sosial ke atas tingkah laku; apabila peserta tidak bertanggungjawab untuk membuka lampu, pengaruh norma telah berkurangan. Keputusan ini menunjukkan bagaimana norma dan tanggungjawab peribadi deskriptif boleh mengawal selia keberkesanan campur tangan proenvironmental. "
Membaca akhbar mereka dan mereka bentuk replikasi kajian 1.
[ , ] Membina soalan sebelum ini, kini menjalankan reka bentuk anda.
[ ] Terdapat perdebatan besar tentang eksperimen menggunakan peserta diambil dari Amazon Mekanikal Turk. Pada masa yang sama, terdapat juga perdebatan besar tentang eksperimen menggunakan peserta diambil dari populasi pelajar sarjana muda. Tulis memo dua muka surat membandingkan dan membezakan yang Turkers dan mahasiswa sebagai penyelidik peserta. perbandingan anda harus merangkumi perbincangan mengenai kedua-dua isu saintifik dan logistik.
[ Buku] Jim Manzi yang tidak terkawal (2012) adalah pengenalan yang indah ke dalam kuasa eksperimentasi dalam perniagaan. Dalam buku itu dia menyampaikan cerita ini:
"Saya sekali dalam pertemuan dengan genius perniagaan yang benar, jutawan buatan sendiri yang mempunyai dalam, understating yang intuitif kuasa eksperimen. Syarikat beliau menghabiskan sumber yang cuba untuk mewujudkan besar memaparkan kedai tetingkap yang akan menarik pengguna dan meningkatkan jualan, kerana kebijaksanaan konvensional berkata sepatutnya. Pakar teliti diuji reka bentuk selepas reka bentuk, dan dalam sesi ujian kajian individu dalam tempoh tahun disimpan tidak menunjukkan kesan sebab dan akibat yang besar bagi setiap reka bentuk paparan baru ke atas jualan. eksekutif pemasaran dan barangan Kanan bertemu dengan Ketua Pegawai Eksekutif untuk mengkaji semula keputusan ujian sejarah dalam toto. Selepas menyampaikan semua data eksperimen, mereka membuat kesimpulan bahawa kebijaksanaan konvensional adalah memaparkan salah-tingkap yang tidak memandu jualan. tindakan yang disyorkan mereka adalah untuk mengurangkan kos dan usaha dalam bidang ini. Ini secara mendadak menunjukkan keupayaan uji kaji untuk membatalkan kebijaksanaan konvensional. Sambutan Ketua Pegawai Eksekutif adalah mudah: 'Kesimpulan saya ialah pereka anda tidak begitu baik.' Penyelesaian-Nya adalah untuk meningkatkan usaha dalam reka bentuk kedai paparan, dan untuk mendapatkan orang untuk melakukannya. " (Manzi 2012, 158–9)
Jenis kesahan adalah kebimbangan CEO?
[ ] Membina soalan sebelumnya, bayangkan bahawa anda berada di mesyuarat di mana hasil daripada eksperimen yang telah dibincangkan. Apakah empat soalan yang anda boleh meminta, satu untuk setiap jenis kesahan (statistik, membina, dalaman dan luaran)?
[ ] Bernedo, Ferraro, and Price (2014) mengkaji kesan tujuh tahun daripada campur tangan penjimatan air yang dinyatakan dalam Ferraro, Miranda, and Price (2011) (lihat Rajah 4.10). Dalam kertas ini, Bernedo dan rakan-rakan juga berusaha untuk memahami mekanisme di sebalik kesan dengan membandingkan tingkah laku isi rumah yang telah dan tidak bergerak selepas rawatan telah dihantar. Iaitu, secara kasar, mereka cuba untuk melihat sama ada rawatan yang memberi kesan kepada rumah atau pemilik rumah.
[ ] Dalam susulan kepada Schultz et al. (2007) , Schultz dan rakan-rakan melaksanakan satu siri tiga eksperimen mengenai kesan norma deskriptif dan injunksi ke atas tingkah laku alam sekitar yang lain (tuala penggunaan semula) dalam dua konteks (a hotel dan kondominium timeshare) (Schultz, Khazian, and Zaleski 2008) .
[ ] Sebagai tindak balas kepada Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) berlari satu siri eksperimen makmal-seperti untuk mengkaji reka bentuk bil elektrik. Berikut adalah cara mereka menggambarkannya dalam abstrak:
"Dalam satu eksperimen berasaskan tinjauan, setiap peserta melihat bil elektrik yang dibayangkan untuk keluarga dengan penggunaan elektrik yang tinggi, yang meliputi maklumat mengenai (a) penggunaan sejarah, (b) perbandingan dengan jiran-jiran, dan (c) penggunaan sejarah dengan pecahan perkakas. Peserta melihat semua jenis maklumat dalam salah satu daripada tiga format termasuk (a) jadual, (b) graf bar, dan (c) graf icon. Kami melaporkan kepada tiga penemuan utama. Pertama, pengguna memahami antara satu sama jenis maklumat elektrik digunakan yang paling apabila ia dipersembahkan dalam jadual, mungkin kerana jadual memudahkan bacaan titik mudah. Kedua, pilihan dan niat untuk menjimatkan elektrik adalah yang paling kuat untuk maklumat penggunaan bersejarah, bebas daripada format. Ketiga, individu yang celik tenaga yang lebih rendah memahami segala maklumat yang kurang. "
Tidak seperti kajian susulan lain, hasil utama kepentingan dalam Canfield, Bruin, and Wong-Parodi (2016) melaporkan tingkah laku bukan tingkah laku yang sebenar. Apakah kekuatan dan kelemahan kajian jenis ini dalam program penyelidikan yang lebih luas menggalakkan penjimatan tenaga?
[ , ] Smith and Pell (2003) ialah menyindir meta-analisis kajian menunjukkan keberkesanan payung terjun. Mereka membuat kesimpulan:
"Seperti banyak campur tangan bertujuan untuk mencegah penyakit, keberkesanan payung terjun tidak tertakluk kepada penilaian yang ketat dengan menggunakan ujian terkawal rawak. Advocates perubatan berasaskan bukti telah mengkritik penggunaan campur tangan dinilai dengan menggunakan data hanya pemerhatian. Kami berfikir bahawa semua orang mungkin mendapat manfaat jika protagonis paling radikal perubatan berasaskan bukti yang dianjurkan dan mengambil bahagian dalam double blind, rawak, plasebo terkawal, crossover perbicaraan payung terjun. "
Menulis op-ed sesuai untuk sebuah akhbar pembaca umum, seperti The New York Times, dengan alasan terhadap fetishization bukti eksperimen. Menyediakan tertentu, contoh konkrit. Petunjuk: Lihat juga, Bothwell et al. (2016) dan Deaton (2010)
[ , , ] Perbezaan-dalam-perbezaan penganggar daripada kesan rawatan yang lebih tepat daripada penganggar perbezaan-in-min. Tulis memo kepada seorang jurutera yang bertanggungjawab bagi pengujian A / B di sebuah syarikat media sosial permulaan menjelaskan nilai pendekatan perbezaan-in-perbezaan untuk menjalankan eksperimen dalam talian. memo hendaklah termasuk suatu pernyataan tentang masalah ini, beberapa gerak hati tentang syarat-syarat yang di bawahnya penganggar perbezaan-in-perbezaan akan mengatasi yang penganggar perbezaan-in-min, dan kajian simulasi yang mudah.
[ , ] Gary Loveman adalah seorang profesor di Harvard Business School sebelum menjadi Ketua Pegawai Eksekutif Harrah, salah satu daripada syarikat-syarikat kasino terbesar di dunia. Apabila beliau berpindah ke Harrah, Loveman mengubah syarikat dengan program kesetiaan pilot seperti kerap yang dikumpul jumlah besar data mengenai tingkah laku pelanggan. Selain daripada sistem pengukuran sentiasa ke ini, syarikat itu mula menjalankan eksperimen. Sebagai contoh, mereka mungkin menjalankan satu eksperimen untuk menilai kesan kupon untuk malam hotel percuma untuk pelanggan dengan corak perjudian tertentu. Berikut adalah cara Loveman menyifatkan kepentingan uji kaji kepada amalan perniagaan sehari-hari Harrah-kanak:
"Ia seperti anda tidak mengganggu wanita, anda tidak mencuri, dan anda perlu mempunyai kumpulan kawalan. Ini adalah salah satu perkara yang anda boleh kehilangan pekerjaan anda untuk sekurang-Harrah's-tidak berjalan kumpulan kawalan. " (Manzi 2012, 146)
Menulis e-mel kepada pekerja baru menjelaskan mengapa Loveman difikirkan ia adalah sangat penting untuk mempunyai kumpulan kawalan. Anda harus cuba untuk memasukkan contoh-sama ada sebenar atau dibuat-untuk menggambarkan hal anda.
[ , ] Eksperimen baru ini bertujuan untuk menganggarkan kesan daripada menerima peringatan mesej teks pada pengambilan vaksinasi. 150 klinik, masing-masing dengan 600 pesakit yang layak, bersedia untuk mengambil bahagian. Terdapat kos tetap sebanyak 100 dolar untuk setiap klinik anda mahu bekerja dengan, dan ia kos $ 1 untuk setiap mesej teks yang anda hendak hantar. Di samping itu, mana-mana klinik yang anda bekerja dengan akan mengukur hasil (sama ada seseorang menerima vaksinasi) secara percuma. Andaikan anda mempunyai bajet 1000 dolar.
[ , ] Satu masalah utama dengan kursus-kursus dalam talian adalah pergeseran; ramai pelajar yang memulakan kursus berakhir menjatuhkan keluar. Bayangkan bahawa anda bekerja di platform pembelajaran dalam talian, dan seorang pereka di platform telah mewujudkan satu bar kemajuan visual yang dia fikir akan membantu mengelakkan pelajar daripada tercicir daripada kursus. Anda mahu untuk menguji kesan bar kemajuan pelajar dalam pengiraan kursus sains sosial yang besar. Selepas menangani apa-apa isu-isu etika yang mungkin timbul dalam kajian ini, anda dan rakan-rakan anda bimbang bahawa kursus ini mungkin tidak mempunyai pelajar yang mencukupi untuk pasti mengesan kesan bar kemajuan. Dalam pengiraan di bawah, anda boleh mengandaikan bahawa separuh daripada pelajar akan menerima bar kemajuan setengah tidak. Seterusnya, anda boleh menganggap bahawa tidak ada gangguan. Dalam erti kata lain, anda boleh mengandaikan bahawa peserta sahaja dipengaruhi oleh sama ada mereka menerima rawatan atau kawalan; mereka tidak dilaksanakan oleh sama ada orang lain menerima rawatan atau kawalan (untuk definisi yang lebih formal, lihat Gerber and Green (2012) , Ch. 8). Sila mengesan sebarang andaian tambahan yang anda buat.
[ , ] Dalam kertas yang indah, Lewis and Rao (2015) jelas menggambarkan had statistik asas eksperimen walaupun besar-besaran. kertas yang asalnya mempunyai tajuk provokatif "Pada Near-kemustahilan Mengukur pulangan kepada Pengiklanan" yang -shows bagaimana sukar ia adalah untuk mengukur pulangan ke atas pelaburan iklan dalam talian, walaupun dengan eksperimen digital yang melibatkan berjuta-juta pelanggan. Lebih umum, kertas yang jelas menunjukkan bahawa ia adalah sukar untuk menganggarkan kesan rawatan kecil di tengah-tengah data hasil bising. Atau dinyatakan diffently, kertas yang menunjukkan bahawa kesan rawatan dianggarkan akan mempunyai selang keyakinan besar apabila kesan-to-standard-sisihan (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) nisbah adalah kecil. Pengajaran umum penting daripada kertas ini ialah hasil daripada eksperimen dengan nisbah kecil kesan-to-standard-sisihan (contohnya, ROI kempen iklan) akan tidak memuaskan. Cabaran anda adalah untuk menulis memo kepada seseorang di jabatan perniagaan bagi syarikat anda evaluting eksperimen yang dirancang untuk mengukur ROI kempen iklan. memo anda perlu disokong dengan graf keputusan simulasi komputer.
Berikut adalah beberapa maklumat latar belakang yang mungkin anda perlukan. Semua nilai-nilai berangka adalah tipikal eksperimen sebenar dilaporkan dalam Lewis and Rao (2015) :
ROI, metrik utama bagi kempen iklan dalam talian, ditakrifkan sebagai keuntungan bersih daripada kempen (keuntungan kasar daripada kos kempen tolak kempen) dibahagikan dengan kos kempen. Sebagai contoh kempen yang mempunyai kesan ke atas jualan akan memberi ROI -100% dan kempen di mana keuntungan yang dijana adalah sama dengan kos akan mempunyai ROI 0.
jualan min bagi setiap pelanggan adalah $ 7 dengan sisihan piawai $ 75.
kempen itu dijangka meningkatkan jualan sebanyak $ 0,35 setiap pelanggan yang sepadan dengan peningkatan dalam keuntungan sebanyak $ 0,175 untuk setiap pelanggan. Dalam erti kata lain, margin kasar adalah 50%.
saiz yang dirancang eksperimen adalah 200,000 orang, separuh dalam kumpulan rawatan dan separuh dalam kumpulan kawalan.
kos kempen ini adalah $ 0,14 setiap peserta.
Tulis memo evaluting eksperimen ini. Adakah anda akan mengesyorkan melancarkan eksperimen ini seperti yang dirancang? Jika ya, mengapa? Jika tidak, apakah perubahan yang anda cadangkan?
A memo yang baik akan menangani kes ini tertentu; memo yang lebih baik akan umum kes ini dalam satu cara (misalnya, menunjukkan bagaimana keputusan perubahan sebagai fungsi nisbah kesan-to-standard-penyimpangan); dan memo yang besar akan membentangkan hasil yang umum sepenuhnya.
[ , ] Melakukan perkara yang sama dengan soalan sebelumnya, tetapi bukannya simulasi anda perlu menggunakan keputusan analisis.
[ , , ] Adakah yang sama seperti soalan sebelum ini, tetapi menggunakan kedua-dua simulasi dan keputusan analisis.
[ , , ] Bayangkan bahawa anda telah menulis memo yang diterangkan di atas menggunakan sama ada simulasi, keputusan analisis, atau kedua-duanya dan seseorang dari jabatan pemasaran mengesyorkan menggunakan penganggar perbezaan-in-perbezaan daripada perbezaan dalam cara penganggar (lihat Bahagian 4.6.2) . Tulis memo pendek baru menjelaskan bagaimana 0,4 korelasi antara jualan sebelum percubaan dan jualan selepas eksperimen akan mengubah kesimpulan anda.
[ , ] Dalam usaha untuk menilai keberkesanan perkhidmatan kerjaya berasaskan web baru, pejabat perkhidmatan kerjaya universiti menjalankan percubaan kawalan rawak di kalangan 10,000 pelajar memasuki tahun akhir mereka di sekolah. Langganan percuma dengan maklumat log masuk yang unik telah dihantar melalui e-mel jemputan eksklusif kepada 5,000 pelajar yang dipilih secara rawak, manakala yang lain 5000 pelajar dalam kumpulan kawalan dan tidak mempunyai langganan. Dua belas bulan kemudian, satu kajian susulan (dengan tidak bukan tindak balas) menunjukkan bahawa kedua-dua rawatan dan kumpulan kawalan, 70% daripada pelajar telah mendapat pekerjaan sepenuh masa dalam bidang pilihan mereka (Jadual 4.5). Oleh itu, ia seolah-olah bahawa perkhidmatan berasaskan web yang tidak mempunyai kesan.
Walau bagaimanapun, seorang saintis data pandai di universiti melihat data yang sedikit lebih teliti dan mendapati bahawa hanya 20% daripada pelajar dalam kumpulan rawatan pernah log masuk ke dalam akaun selepas menerima e-mel. Selanjutnya, dan agak menghairankan, di kalangan mereka yang telah log masuk ke dalam laman web ini hanya 60% telah mendapat pekerjaan sepenuh masa dalam bidang pilihan mereka, yang adalah lebih rendah daripada kadar untuk orang yang tidak log masuk dan lebih rendah daripada kadar bagi orang-orang di keadaan kawalan (Jadual 4.6).
Petunjuk: Soalan ini melampaui bahan yang dibincangkan dalam bab ini, tetapi menangani isu-isu yang sama dalam eksperimen. Jenis reka bentuk eksperimen kadang-kadang dipanggil reka bentuk galakan kerana peserta digalakkan untuk melibatkan diri dalam rawatan. Masalah ini adalah satu contoh apa yang dipanggil berat sebelah ketidakpatuhan (lihat Gerber and Green (2012) , Ch. 5)
[ ] Selepas pemeriksaan lanjut, ternyata bahawa eksperimen yang diterangkan dalam soalan sebelumnya adalah lebih rumit. Ia ternyata bahawa 10% daripada orang-orang dalam kumpulan kawalan yang dibayar untuk akses kepada perkhidmatan ini, dan mereka berakhir dengan kadar pekerjaan sebanyak 65% (Jadual 4.7).
Petunjuk: Soalan ini melampaui bahan yang dibincangkan dalam bab ini, tetapi menangani isu-isu yang sama dalam eksperimen. Masalah ini adalah satu contoh apa yang dipanggil dua belah bahagian ketidakpatuhan (lihat Gerber and Green (2012) , Ch. 6)
Kumpulan | saiz | kadar pekerjaan |
---|---|---|
Diberikan akses ke laman web | 5000 | 70% |
Tidak diberikan akses ke laman web | 5000 | 70% |
Kumpulan | saiz | kadar pekerjaan |
---|---|---|
Diberikan akses kepada laman web dan log masuk | 1000 | 60% |
Diberikan akses ke laman web dan tidak pernah log masuk | 4000 | 85% |
Tidak diberikan akses ke laman web | 5000 | 70% |
Kumpulan | saiz | kadar pekerjaan |
---|---|---|
Diberikan akses kepada laman web dan log masuk | 1000 | 60% |
Diberikan akses ke laman web dan tidak pernah log masuk | 4000 | 72.5% |
Tidak diberikan akses kepada laman web dan dibayar untuk itu | 500 | 65% |
Tidak diberikan akses kepada laman web dan tidak membayar untuk itu | 4500 | 70,56% |