[ , ] Berinsky และเพื่อนร่วมงาน (2012) ทำการประเมิน MTurk โดยการจำลองการทดลองแบบคลาสสิกสามแบบ ทำซ้ำการทดลองการ Tversky and Kahneman (1981) โรคในเอเชียโดย Tversky and Kahneman (1981) ผลการค้นหาของคุณตรงกับ Tversky และ Kahneman หรือไม่? ผลลัพธ์ของคุณตรงกับ Berinsky และเพื่อนร่วมงานหรือไม่? ถ้ามีอะไร - จะสอนเราเกี่ยวกับการใช้ MTurk สำหรับการสำรวจหรือไม่?
[ , ] ในกระดาษค่อนข้างลิ้นแก้ม "เราต้องเลิก" นักจิตวิทยาสังคมโรเบิร์ต Cialdini หนึ่งในผู้เขียนของ Schultz et al. (2007) เขียนว่าเขาเกษียณจากงานของเขาในฐานะศาสตราจารย์ส่วนหนึ่งเป็นเพราะความท้าทายที่เขาเผชิญหน้ากับการทดลองภาคสนามในสาขาวิชา (จิตวิทยา) ซึ่งส่วนใหญ่ดำเนินการทดลองในห้องปฏิบัติการ (Cialdini 2009) อ่านบทความของ Cialdini และเขียนอีเมลเพื่อกระตุ้นให้เขาพิจารณาการเลิกจ้างของเขาในแง่ของความเป็นไปได้ของการทดลองแบบดิจิตอล ใช้ตัวอย่างเฉพาะของการวิจัยที่เน้นความกังวลของเขา
[ ] เพื่อที่จะระบุว่าความสำเร็จขั้นต้นเริ่มเข้าหรือหลุดลอยหรือไม่ Van de Rijt และเพื่อนร่วมงาน (2014) เข้ามาแทรกแซงใน 4 ระบบที่แตกต่างกันออกไปเพื่อให้ประสบความสำเร็จกับผู้เข้าร่วมที่เลือกแบบสุ่มและวัดผลกระทบระยะยาวของความสำเร็จโดยพลการนี้ คุณคิดว่าระบบอื่น ๆ ที่คุณสามารถใช้การทดลองที่คล้ายคลึงกันได้หรือไม่? ประเมินระบบเหล่านี้ในประเด็นเกี่ยวกับประเด็นทางวิทยาศาสตร์คุณค่าการรบกวนตามขั้นตอน (ดูบทที่ 2) และจริยธรรม
[ , ] ผลการทดลองขึ้นอยู่กับผู้เข้าอบรม สร้างการทดสอบแล้วรันบน MTurk โดยใช้สองกลยุทธ์การสรรหาบุคลากรที่แตกต่างกัน ลองรับการทดสอบและกลยุทธ์การสรรหาบุคลากรเพื่อให้ผลการทดสอบมี ความแตกต่างกัน มากที่สุด ตัวอย่างเช่นกลยุทธ์การสรรหาบุคลากรของคุณอาจเป็นไปในการรับสมัครผู้เข้าร่วมในตอนเช้าและตอนเย็นหรือเพื่อชดเชยผู้เข้าร่วมที่มีเงินเดือนสูงและต่ำ ความแตกต่างของกลยุทธ์การสรรหาบุคลากรเหล่านี้อาจนำไปสู่กลุ่มผู้เข้าร่วมที่แตกต่างกันและผลการทดลองที่แตกต่างกัน ผลลัพธ์ของคุณแตกต่างกันอย่างไร? สิ่งที่เปิดเผยเกี่ยวกับการทดลองใช้ MTurk?
[ , , ] ลองจินตนาการว่าคุณกำลังวางแผนการทดสอบ Emotional Contagion (Kramer, Guillory, and Hancock 2014) ใช้ผลจากการศึกษาเชิงสังเกตก่อนหน้านี้โดย Kramer (2012) เพื่อกำหนดจำนวนผู้เข้าร่วมในแต่ละสภาพ การศึกษาทั้งสองนี้ไม่ตรงตามเกณฑ์อย่างสมบูรณ์เพื่อให้แน่ใจว่าได้ระบุข้อสันนิษฐานทั้งหมดที่คุณทำอย่างชัดเจน:
[ , , ] ตอบคำถามก่อนหน้านี้อีกครั้ง แต่คราวนี้แทนที่จะใช้การศึกษาสังเกตการณ์ก่อนหน้าโดย Kramer (2012) ใช้ผลจากการทดลองตามธรรมชาติก่อนหน้านี้โดย Lorenzo Coviello et al. (2014)
[ ] ทั้ง Margetts et al. (2011) และ van de Rijt et al. (2014) ได้ทำการทดลองเพื่อศึกษาขั้นตอนการเซ็นชื่อผู้สมัคร เปรียบเทียบและเปรียบเทียบการออกแบบและผลของการศึกษาเหล่านี้
[ ] Dwyer, Maki, and Rothman (2015) ทำการทดลองสองเขตข้อมูลเกี่ยวกับความสัมพันธ์ระหว่างบรรทัดฐานทางสังคมและพฤติกรรมโปรสิ่งแวดล้อม นี่เป็นนามธรรมของกระดาษ:
"วิทยาศาสตร์ทางจิตวิทยาอาจถูกนำมาใช้เพื่อกระตุ้นให้เกิดพฤติกรรม proenvironmental? ในการศึกษาสองครั้งการแทรกแซงเพื่อส่งเสริมพฤติกรรมการอนุรักษ์พลังงานในห้องน้ำสาธารณะตรวจสอบอิทธิพลของบรรทัดฐานที่อธิบายและความรับผิดชอบส่วนบุคคล ในการศึกษาที่ 1 สถานะของแสง (เช่นเปิดหรือปิด) ถูกจัดการก่อนที่จะมีคนเข้าห้องน้ำสาธารณะที่ไม่ได้ใช้งานซึ่งเป็นสัญญาณบ่งชี้บรรทัดฐานเชิงบรรยายสำหรับการตั้งค่านั้น ผู้เข้าร่วมกิจกรรมมีแนวโน้มที่จะปิดไฟมากขึ้นหากปิดเมื่อเข้า ในการศึกษาที่ 2 ได้มีการเพิ่มเงื่อนไขเพิ่มเติมซึ่งบรรทัดฐานของการปิดไฟแสดงให้เห็นโดยสหพันธ์ แต่ผู้เข้าร่วมไม่ต้องรับผิดชอบในการเปิดใช้งาน ความรับผิดชอบส่วนตัวลดอิทธิพลของบรรทัดฐานทางสังคมต่อพฤติกรรม เมื่อผู้เข้าร่วมไม่ต้องรับผิดชอบต่อการเปิดไฟอิทธิพลของบรรทัดฐานก็ลดลง ผลการวิจัยเหล่านี้แสดงให้เห็นว่าบรรทัดฐานเชิงบรรยายและความรับผิดชอบส่วนบุคคลสามารถควบคุมประสิทธิภาพของการแทรกแซงด้านสิ่งแวดล้อมได้อย่างไร "
อ่านบทความและออกแบบการจำลองแบบการศึกษา 1.
[ , ] จากคำถามก่อนหน้านี้ให้ดำเนินการออกแบบของคุณ
[ ] มีการอภิปรายอย่างมากเกี่ยวกับการทดลองโดยใช้ผู้เข้าร่วมที่ได้รับคัดเลือกจาก MTurk นอกจากนี้ยังมีการอภิปรายอย่างมากเกี่ยวกับการทดลองโดยใช้ผู้เข้าร่วมที่คัดเลือกมาจากประชากรนักศึกษาระดับปริญญาตรี เขียนบันทึกสองหน้าเพื่อเปรียบเทียบและเปรียบเทียบ Turkers กับนักศึกษาระดับปริญญาตรีในฐานะผู้เข้าร่วมการวิจัย การเปรียบเทียบของคุณควรรวมถึงการอภิปรายทั้งด้านวิทยาศาสตร์และด้านลอจิสติกส์
[ ] Jim Manzi's Uncontrolled (2012) เป็นบทนำยอดเยี่ยมสำหรับการทดลองในธุรกิจ ในหนังสือเล่มนี้เขาได้ถ่ายทอดเรื่องราวต่อไปนี้:
"ฉันเคยพบกับอัจฉริยะทางธุรกิจที่แท้จริงซึ่งเป็นมหาเศรษฐีที่สร้างตัวเองขึ้นมาซึ่งมีประสบการณ์ในการทดลองที่ลึกและใช้งานได้ง่าย บริษัท ของเขาใช้ทรัพยากรที่มีนัยสำคัญพยายามที่จะสร้างการจัดแสดงหน้าต่างร้านที่ดีที่จะดึงดูดผู้บริโภคและเพิ่มยอดขายตามที่ภูมิปัญญาดั้งเดิมกล่าวว่าควร ผู้เชี่ยวชาญด้านการออกแบบที่ผ่านการทดสอบอย่างละเอียดหลังจากได้รับการออกแบบและในการทดสอบความคิดเห็นของแต่ละบุคคลในช่วงหลายปีที่ผ่านมาแสดงให้เห็นว่าไม่มีผลต่อสาเหตุสำคัญใด ๆ ของการออกแบบการแสดงผลแต่ละแบบในการขาย ผู้บริหารฝ่ายการตลาดและการขายอาวุโสได้พบกับ CEO เพื่อทบทวนผลการทดสอบที่ผ่านมาใน toto หลังจากนำเสนอข้อมูลการทดลองทั้งหมดแล้วพวกเขาได้ข้อสรุปว่าภูมิปัญญาดั้งเดิมผิดพลาดนั่นคือการแสดงหน้าต่างจะไม่เพิ่มยอดขาย การดำเนินการที่แนะนำของพวกเขาคือการลดต้นทุนและความพยายามในพื้นที่นี้ แสดงให้เห็นถึงความสามารถในการทดลองเพื่อคว่ำภูมิปัญญาดั้งเดิม การตอบสนองของ CEO นั้นง่ายมาก: "ข้อสรุปของฉันคือนักออกแบบของคุณไม่ค่อยดีนัก" การแก้ปัญหาของพระองค์คือการเพิ่มความพยายามในการออกแบบการจัดเก็บร้านค้าและเพื่อให้ได้คนใหม่ ๆ ที่จะทำ " (Manzi 2012, 158–9)
ความถูกต้องของแบบใดบ้างที่เป็นความกังวลของ CEO?
[ ] จากคำถามก่อนหน้านี้ลองจินตนาการว่าคุณอยู่ในที่ประชุมซึ่งได้มีการกล่าวถึงผลของการทดลอง คำถามสี่ข้อใดที่คุณสามารถถาม - หนึ่งสำหรับแต่ละประเภทของความถูกต้อง (สถิติสร้างภายในและภายนอก)?
[ ] Bernedo, Ferraro, and Price (2014) ได้ศึกษาผลกระทบที่เกิดขึ้นในช่วงเจ็ดปีของการแทรกแซงการประหยัดน้ำตามที่อธิบายไว้ใน Ferraro, Miranda, and Price (2011) (ดูรูปที่ 4.11) ในเอกสารฉบับนี้ Bernedo และเพื่อนร่วมงานยังได้พยายามทำความเข้าใจกลไกที่อยู่เบื้องหลังผลกระทบโดยการเปรียบเทียบพฤติกรรมของครัวเรือนที่มีและไม่ได้ย้ายไปหลังจากที่ได้รับการรักษา นั่นคือประมาณพวกเขาพยายามที่จะดูว่าการรักษาผลกระทบต่อบ้านหรือเจ้าของบ้าน
[ ] ในการติดตามผลของ Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) เป็นผลมาจากคำจำกัดความเชิงบรรทัดฐานและคำสั่งห้ามการกระทำที่ผิดกฎหมาย .
[ ] เพื่อตอบสนองต่อ Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) ดำเนินการทดลองในห้องทดลองหลายรูปแบบเพื่อศึกษาการออกแบบค่าไฟฟ้า นี่เป็นวิธีที่พวกเขาอธิบายในนามธรรม:
"ในการทดลองใช้การสำรวจผู้เข้าร่วมแต่ละรายได้เห็นค่าไฟฟ้าที่สมมุติฐานสำหรับครอบครัวที่มีการใช้ไฟฟ้าค่อนข้างสูงซึ่งครอบคลุมข้อมูลเกี่ยวกับ (a) การใช้งานในอดีต (b) การเปรียบเทียบกับเพื่อนบ้านและ (c) การใช้งานในอดีตกับการชำรุดของอุปกรณ์ ผู้เข้าร่วมเห็นประเภทข้อมูลทั้งหมดในรูปแบบใดแบบหนึ่งจากสามรูปแบบ ได้แก่ (a) ตาราง (b) กราฟแท่งและ (c) ไอคอนกราฟ เรารายงานเกี่ยวกับข้อค้นพบหลัก 3 ข้อ ประการแรกผู้บริโภคเข้าใจข้อมูลการใช้ไฟฟ้าแต่ละประเภทมากที่สุดเมื่อนำเสนอในตารางอาจเป็นเพราะตารางช่วยในการอ่านจุดง่าย ๆ ประการที่สองการตั้งค่าและความตั้งใจในการประหยัดพลังงานไฟฟ้าเป็นข้อมูลที่สำคัญที่สุดสำหรับข้อมูลการใช้งานในอดีตโดยไม่ขึ้นกับรูปแบบ ประการที่สามบุคคลที่มีการรู้หนังสือด้านพลังงานต่ำเข้าใจข้อมูลทั้งหมดได้น้อยลง "
ผลการศึกษาที่สำคัญใน Canfield, Bruin, and Wong-Parodi (2016) พฤติกรรมไม่ใช่พฤติกรรมที่เกิดขึ้นจริง จุดแข็งและจุดอ่อนของการศึกษาประเภทนี้ในโครงการวิจัยที่กว้างขึ้นเพื่อการประหยัดพลังงานมีอะไรบ้าง?
[ , ] Smith and Pell (2003) นำเสนอการวิเคราะห์เมตาดาต้าแบบเสียดสีของการศึกษาที่แสดงให้เห็นถึงประสิทธิภาพของร่มชูชีพ พวกเขาสรุป:
"เช่นเดียวกับการแทรกแซงหลายอย่างเพื่อป้องกันสุขภาพที่ไม่ดีประสิทธิผลของร่มชูชีพไม่ได้อยู่ภายใต้การประเมินอย่างเข้มงวดโดยใช้การทดลองที่มีการควบคุมแบบสุ่ม ผู้สนับสนุนยาตามหลักฐานได้วิพากษ์วิจารณ์การยอมรับการแทรกแซงที่ได้รับการประเมินโดยใช้ข้อมูลเชิงสังเกตเท่านั้น เราคิดว่าทุกคนอาจได้รับประโยชน์ถ้าตัวเอกรุนแรงที่สุดของยาตามหลักฐานจัดและเข้าร่วมในการทดลองแบบ double blind, randomized placebo controlled, crossover ของร่มชูชีพ "
เขียนสหกรณ์ที่เหมาะสมสำหรับหนังสือพิมพ์ที่มีผู้อ่านทั่วไปเช่นหนังสือพิมพ์ นิวยอร์กไทม์ส ซึ่งเป็นการโต้เถียงกับการ fetishization ของหลักฐานการทดลอง ให้ตัวอย่างเฉพาะคอนกรีต คำแนะนำ: ดู Deaton (2010) และ Bothwell et al. (2016)
[ , , ] ตัวประมาณค่าความแตกต่างระหว่างความแตกต่างของผลการรักษาสามารถแม่นยำกว่าตัวประมาณค่าความแตกต่างระหว่างค่าเฉลี่ย เขียนบันทึกช่วยจำให้กับวิศวกรที่รับผิดชอบการทดสอบ A / B ที่ บริษัท เครือข่ายสังคมออนไลน์ที่เริ่มต้นอธิบายค่าของวิธีการที่แตกต่างกันสำหรับการเรียกใช้การทดสอบออนไลน์ บันทึกควรรวมถึงคำแถลงของปัญหาสัญชาตญาณบางอย่างเกี่ยวกับเงื่อนไขภายใต้ซึ่งตัวประมาณค่าที่แตกต่างกันจะดีกว่าตัวประมาณค่าความแตกต่างในค่าเฉลี่ยและการศึกษาการจำลองอย่างง่าย
[ , ] Gary Loveman เป็นศาสตราจารย์ที่ Harvard Business School ก่อนที่จะกลายเป็นซีอีโอของ Harrah's หนึ่งใน บริษัท คาสิโนที่ใหญ่ที่สุดในโลก เมื่อเขาย้ายไปอยู่ที่ Harrah's Loveman ได้เปลี่ยน บริษัท ด้วยโปรแกรมความภักดีที่ใช้บ่อยๆซึ่งเก็บรวบรวมข้อมูลเกี่ยวกับพฤติกรรมของลูกค้าเป็นจำนวนมาก ด้านบนของระบบการวัดแบบตลอดเวลานี้ บริษัท เริ่มดำเนินการทดลอง ตัวอย่างเช่นพวกเขาอาจเรียกใช้การทดสอบเพื่อประเมินผลของคูปองสำหรับคืนโรงแรมฟรีสำหรับลูกค้าที่มีรูปแบบการเล่นการพนันเฉพาะ นี่เป็นวิธีที่ Loveman อธิบายถึงความสำคัญของการทดลองกับการดำเนินธุรกิจในชีวิตประจำวันของ Harrah:
"มันเหมือนกับคุณไม่ได้ทำร้ายผู้หญิงคุณไม่ได้ขโมยไปและคุณต้องมีกลุ่มควบคุม นี่เป็นหนึ่งในสิ่งที่คุณจะเสียงานที่ Harrah's- ไม่ได้ทำงานกลุ่มควบคุม " (Manzi 2012, 146)
เขียนอีเมลให้กับพนักงานคนใหม่อธิบายเหตุผลที่ Loveman คิดว่าการมีกลุ่มควบคุมเป็นเรื่องสำคัญ คุณควรพยายามรวมตัวอย่างเช่นจริงหรือสร้างขึ้นเพื่อแสดงจุดของคุณ
[ , ] การทดลองใหม่มีวัตถุประสงค์เพื่อประเมินผลของการรับข้อความเตือนเรื่องการฉีดวัคซีน คลินิกหนึ่งร้อยห้าสิบที่มีผู้ป่วยที่มีสิทธิ์ 600 รายยินดีที่จะเข้าร่วม มีค่าใช้จ่ายคงที่อยู่ที่ 100 ดอลลาร์สำหรับคลินิกแต่ละแห่งที่คุณต้องการใช้งานโดยมีค่าใช้จ่าย 1 เหรียญต่อข้อความแต่ละข้อความที่คุณต้องการส่ง นอกจากนี้คลินิกใด ๆ ที่คุณกำลังทำงานด้วยจะวัดผลลัพธ์ (ไม่ว่าจะเป็นคนที่ได้รับการฉีดวัคซีน) ฟรี สมมติว่าคุณมีงบประมาณ 1,000 เหรียญ
[ , ] ปัญหาใหญ่ที่เกิดขึ้นกับหลักสูตรออนไลน์คือการสึกกร่อน: นักเรียนจำนวนมากที่เริ่มเรียนจบลง ลองจินตนาการว่าคุณกำลังทำงานอยู่ที่แพลตฟอร์มการเรียนรู้ออนไลน์และนักออกแบบจากแพลตฟอร์มได้สร้างแถบความคืบหน้าแบบมองเห็นซึ่งเธอคิดว่าจะช่วยป้องกันไม่ให้นักเรียนออกจากสนาม คุณต้องการทดสอบผลของแถบความคืบหน้าของนักเรียนในหลักสูตรวิทยาศาสตร์สังคมศาสตร์ที่มีค่ามาก หลังจากแก้ไขปัญหาด้านจริยธรรมที่อาจเกิดขึ้นในการทดสอบคุณและเพื่อนร่วมงานของคุณรู้สึกกังวลว่าหลักสูตรอาจไม่มีนักเรียนมากพอที่จะตรวจจับผลกระทบของแถบความคืบหน้าได้อย่างน่าเชื่อถือ ในการคำนวณต่อไปนี้คุณสามารถสมมติว่าครึ่งหนึ่งของนักเรียนจะได้รับแถบความคืบหน้าและครึ่งหนึ่งไม่ได้ นอกจากนี้คุณสามารถสมมติว่าไม่มีสัญญาณรบกวน กล่าวอีกนัยหนึ่งคุณสามารถสันนิษฐานได้ว่าผู้เข้าร่วมจะได้รับผลกระทบจากการที่พวกเขาได้รับการรักษาหรือควบคุม พวกเขาไม่ได้รับผลกระทบจากการที่คนอื่นได้รับการรักษาหรือควบคุม (สำหรับคำจำกัดความที่เป็นทางการมากขึ้นดูบทที่ 8 ของ Gerber and Green (2012) ) ติดตามข้อสันนิษฐานเพิ่มเติมที่คุณทำ
[ , , ] คิดว่าคุณกำลังทำงานเป็นนักวิทยาศาสตร์ข้อมูลใน บริษัท เทคโนโลยี คนจากฝ่ายการตลาดขอความช่วยเหลือจากคุณในการประเมินการทดสอบที่พวกเขากำลังวางแผนเพื่อวัดผลตอบแทนจากการลงทุน (ROI) สำหรับแคมเปญโฆษณาออนไลน์ใหม่ ROI หมายถึงกำไรสุทธิจากแคมเปญหารด้วยค่าใช้จ่ายของแคมเปญ ตัวอย่างเช่นแคมเปญที่ไม่มีผลต่อยอดขายจะมี ROI ที่ -100%; แคมเปญที่สร้างรายได้เท่ากับต้นทุนจะมี ROI เท่ากับ 0; และแคมเปญที่สร้างผลกำไรเพิ่มขึ้นเป็นสองเท่าของค่าใช้จ่ายจะมี ROI 200%
ก่อนที่จะเริ่มการทดสอบภาคการตลาดจะให้ข้อมูลต่อไปนี้จากผลการวิจัยก่อนหน้านี้ (ในความเป็นจริงค่าเหล่านี้เป็นแบบอย่างของแคมเปญโฆษณาออนไลน์ที่รายงานใน Lewis and Rao (2015) ):
เขียนบันทึกช่วยจำประเมินผลการทดลองที่เสนอนี้ บันทึกช่วยจำของคุณควรใช้หลักฐานจากการจำลองที่คุณสร้างขึ้นและควรกล่าวถึงประเด็นสำคัญสองประเด็นดังต่อไปนี้ (1) คุณจะแนะนำให้เปิดตัวการทดสอบนี้ตามที่วางแผนไว้หรือไม่? ถ้าเป็นเช่นนั้นทำไม? ถ้าไม่ได้ทำไมไม่? ตรวจสอบให้แน่ใจว่ามีความชัดเจนเกี่ยวกับเกณฑ์ที่คุณใช้ในการตัดสินใจนี้ (2) คุณจะแนะนำขนาดตัวอย่างใดสำหรับการทดสอบนี้ อีกครั้งโปรดอย่าลืมทำความเข้าใจเกี่ยวกับเกณฑ์ที่คุณใช้ในการตัดสินใจนี้
บันทึกที่ดีจะกล่าวถึงกรณีเฉพาะนี้ บันทึกที่ดีกว่าจะสรุปจากกรณีนี้ในลักษณะเดียว (เช่นแสดงให้เห็นว่าการตัดสินใจเปลี่ยนแปลงไปตามขนาดของผลกระทบของแคมเปญ) และบันทึกที่ดีจะนำเสนอผลสรุปอย่างเต็มที่ บันทึกช่วยจำของคุณควรใช้กราฟเพื่อช่วยอธิบายผลลัพธ์ของคุณ
นี่เป็นสองคำแนะนำ ก่อนอื่นแผนกการตลาดอาจให้ข้อมูลที่ไม่จำเป็นแก่คุณและอาจไม่สามารถให้ข้อมูลที่จำเป็นแก่คุณได้ ประการที่สองถ้าคุณใช้ R โปรดทราบว่าฟังก์ชัน rlnorm () ไม่ทำงานตามที่หลายคนคาดหวัง
กิจกรรมนี้จะให้การปฏิบัติกับการวิเคราะห์กำลังการผลิตการสร้างแบบจำลองและการสื่อสารผลลัพธ์ของคุณด้วยคำพูดและกราฟ ควรช่วยคุณในการวิเคราะห์พลังงานสำหรับการทดสอบใด ๆ ไม่ใช่แค่การทดลองที่ออกแบบมาเพื่อประมาณการ ROI กิจกรรมนี้อนุมานว่าคุณมีประสบการณ์เกี่ยวกับการทดสอบทางสถิติและการวิเคราะห์พลังงาน หากคุณไม่คุ้นเคยกับการวิเคราะห์พลังงานฉันขอแนะนำให้คุณอ่าน "A Power Primer" โดย Cohen (1992)
กิจกรรมนี้ได้รับแรงบันดาลใจจากบทความที่น่ารักของ RA Lewis and Rao (2015) ซึ่งแสดงให้เห็นถึงข้อ จำกัด ทางสถิติพื้นฐานของการทดลองที่ยิ่งใหญ่ กระดาษของพวกเขาซึ่งเดิมมีชื่อยั่วเรื่องความเป็นไปไม่ได้ที่ใกล้เคียงกับการวัดผลตอบแทนในการโฆษณาแสดงให้เห็นว่าเป็นการยากที่จะวัดผลตอบแทนจากการลงทุนของโฆษณาออนไลน์แม้จะมีการทดลองแบบดิจิทัลที่เกี่ยวข้องกับลูกค้าหลายล้านราย โดยทั่วไปแล้ว RA Lewis and Rao (2015) แสดงให้เห็นถึงความเป็นจริงทางสถิติพื้นฐานที่มีความสำคัญอย่างยิ่งสำหรับการทดลองในยุคดิจิทัล: เป็นการยากที่จะประมาณการผลการรักษาที่มีขนาดเล็กท่ามกลางข้อมูลผลลัพธ์ที่มีเสียงดัง
[ , ] ทำเช่นเดียวกับคำถามก่อนหน้านี้ แต่แทนที่จะเป็นแบบจำลองคุณควรใช้ผลการวิเคราะห์
[ , , ] ทำเช่นเดียวกับคำถามก่อนหน้า แต่ใช้ทั้งแบบจำลองและผลการวิเคราะห์
[ , , ] ลองนึกภาพว่าคุณได้เขียนบันทึกอธิบายไว้ข้างต้นแล้วและใครบางคนจากแผนกการตลาดให้ข้อมูลใหม่อีกชิ้นหนึ่ง: พวกเขาคาดหวังว่าความสัมพันธ์ระหว่างยอดขายก่อนและหลังการทดลองมีความสัมพันธ์กัน 0.4 การเปลี่ยนแปลงคำแนะนำในบันทึกช่วยจำของคุณอย่างไร? (คำแนะนำ: ดูที่ส่วน 4.6.2 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเครื่องมือประมาณค่าความแตกต่างและตัวประมาณค่าความแตกต่างระหว่างความแตกต่าง)
[ , ] เพื่อประเมินประสิทธิผลของโปรแกรมการช่วยเหลือด้านการจ้างงานบนเว็บแบบใหม่มหาวิทยาลัยได้ทำการทดลองแบบสุ่มควบคุมระหว่าง 10,000 นักเรียนที่เข้าเรียนในปีสุดท้ายของการเรียน การสมัครรับข้อมูลฟรีที่มีข้อมูลการเข้าสู่ระบบที่ไม่ซ้ำกันถูกส่งผ่านทางอีเมลเชิญพิเศษให้กับนักเรียนที่เลือกแบบสุ่ม 5,000 รายในขณะที่นักเรียน 5,000 คนอื่น ๆ อยู่ในกลุ่มควบคุมและไม่มีการสมัครสมาชิก สิบสองเดือนต่อมาการสำรวจติดตามผล (ไม่มีการตอบสนอง) พบว่าทั้งในกลุ่มที่ได้รับการรักษาและควบคุม 70% ของนักเรียนมีการจ้างงานเต็มเวลาในสาขาที่เลือก (ตารางที่ 4.6) ดังนั้นดูเหมือนว่าบริการบนเว็บไม่มีผล
อย่างไรก็ตามนักวิทยาศาสตร์ข้อมูลที่ฉลาดมองดูข้อมูลอย่างละเอียดและพบว่ามีเพียง 20% ของนักเรียนในกลุ่มการรักษาที่เคยเข้าสู่ระบบหลังจากได้รับอีเมลแล้ว นอกจากนี้และค่อนข้างแปลกใจในหมู่ผู้ที่ได้เข้าสู่เว็บไซต์เพียง 60% มีการจ้างงานเต็มเวลาในสาขาที่เลือกซึ่งต่ำกว่าอัตราสำหรับผู้ที่ไม่ได้เข้าสู่ระบบและต่ำกว่าอัตราสำหรับคน ในสภาวะการควบคุม (ตารางที่ 4.7)
คำแนะนำ: คำถามนี้เกินกว่าเนื้อหาที่ครอบคลุมในบทนี้ แต่จะกล่าวถึงประเด็นที่พบบ่อยในการทดลอง การออกแบบการทดลองประเภทนี้บางครั้งเรียกว่าการ ออกแบบการให้กำลังใจ เพราะผู้เข้าร่วมมีส่วนร่วมในการรักษา ปัญหานี้เป็นตัวอย่างของสิ่งที่เรียกว่า การไม่ปฏิบัติตามด้านเดียว (ดูบทที่ 5 ของ Gerber and Green (2012) )
[ ] หลังจากการตรวจสอบต่อไปปรากฏว่าการทดลองที่ได้อธิบายไว้ในคำถามก่อนหน้านั้นมีความซับซ้อนมากยิ่งขึ้น ผลการศึกษาพบว่า 10% ของกลุ่มควบคุมมีค่าใช้จ่ายในการเข้าถึงบริการและมีอัตราการจ้างงาน 65% (ตารางที่ 4.8)
คำแนะนำ: คำถามนี้เกินกว่าเนื้อหาที่ครอบคลุมในบทนี้ แต่จะกล่าวถึงประเด็นที่พบบ่อยในการทดลอง ปัญหานี้เป็นตัวอย่างของสิ่งที่เรียกว่า การไม่ปฏิบัติตามสองด้าน (ดูบทที่ 6 ของ Gerber and Green (2012) )
กลุ่ม | ขนาด | อัตราการจ้างงาน |
---|---|---|
ได้รับสิทธิ์เข้าถึงเว็บไซต์ | 5,000 | 70% |
ไม่ได้รับสิทธิ์เข้าถึงเว็บไซต์ | 5,000 | 70% |
กลุ่ม | ขนาด | อัตราการจ้างงาน |
---|---|---|
ได้รับสิทธิ์เข้าถึงเว็บไซต์และเข้าสู่ระบบ | 1,000 | 60% |
ได้รับสิทธิ์เข้าถึงเว็บไซต์และไม่ได้เข้าสู่ระบบ | 4,000 | 72.5% |
ไม่ได้รับสิทธิ์เข้าถึงเว็บไซต์ | 5,000 | 70% |
กลุ่ม | ขนาด | อัตราการจ้างงาน |
---|---|---|
ได้รับสิทธิ์เข้าถึงเว็บไซต์และเข้าสู่ระบบ | 1,000 | 60% |
ได้รับสิทธิ์เข้าถึงเว็บไซต์และไม่ได้เข้าสู่ระบบ | 4,000 | 72.5% |
ไม่ได้รับสิทธิ์เข้าถึงเว็บไซต์และชำระค่าบริการ | 500 | 65% |
ไม่ได้รับสิทธิ์เข้าถึงเว็บไซต์และไม่ได้จ่ายเงิน | 4,500 | 70.56% |