กิจกรรม

แปลนี้ถูกสร้างขึ้นโดยคอมพิวเตอร์ ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

กิจกรรม

สำคัญ:

ระดับความยาก: ง่าย กลาง ยาก , ยากมาก
ต้องใช้คณิตศาสตร์ ( $ต้องใช้คณิตศาสตร์$ )
ต้องเขียนโค้ด ( )
การเก็บรวบรวมข้อมูล ( )
สิ่งที่ฉันชอบ ( )

[ , ] Berinsky และเพื่อนร่วมงาน (2012) ประเมินวิศวกรรมเติร์กในส่วนของการทำแบบจำลองการทดลองสามคลาสสิก ทำซ้ำโรคเอเชียกรอบทดลองคลาสสิกโดย Tversky and Kahneman (1981) ทำผลการแข่งขันของคุณ Tversky และ Kahneman หรือไม่? ทำผลการแข่งขันของคุณ Berinsky และเพื่อนร่วมงาน? อะไรถ้ามีอะไร-นี้ไม่ได้สอนให้เรารู้เกี่ยวกับการใช้วิศวกรรมเติร์กสำหรับการทดลองการสำรวจ?
[ , ] ในกระดาษค่อนข้างลิ้นในแก้มหัวข้อ "เราต้องเลิก" นักจิตวิทยาสังคมโรเบิร์ต Cialdini ซึ่งเป็นหนึ่งในผู้เขียนของ Schultz et al. (2007) , เขียนว่าเขาจะเกษียณต้นจากงานของเขาเป็นอาจารย์ส่วนหนึ่งเป็นเพราะความท้าทายที่เขาต้องเผชิญกับการทดลองทำในสนามวินัย (Psychology) ที่ส่วนใหญ่ดำเนินการทดลองในห้องปฏิบัติการ (Cialdini 2009) อ่านกระดาษ Cialdini และเขียนอีเมลเขาคะยั้นคะยอให้เขาพิจารณาเขาแตกแยกขึ้นในแง่ของความเป็นไปได้ของการทดลองดิจิตอล ใช้ตัวอย่างที่เฉพาะเจาะจงของการวิจัยที่อยู่ในความกังวลของเขา
[ ] เพื่อที่จะตรวจสอบว่าประสบความสำเร็จเริ่มต้นเล็ก ๆ ล็อคอินหรือจางหายไป, แวนเดอ Rijt และและเพื่อนร่วมงาน (2014) เข้าแทรกแซงเป็นสี่ระบบที่แตกต่างให้รางวัลความสำเร็จในผู้เข้าร่วมการสุ่มเลือกและจากนั้นวัดผลกระทบในระยะยาวของความสำเร็จนี้โดยพลการ คุณสามารถคิดระบบอื่น ๆ ในที่ที่คุณสามารถเรียกใช้การทดลองที่คล้ายกัน? ประเมินระบบเหล่านี้ในแง่ของปัญหาของมูลค่าทางวิทยาศาสตร์รบกวนอัลกอริทึม (ดูบทที่ 2) และจริยธรรม
[ , ] ผลของการทดลองสามารถขึ้นอยู่กับผู้เข้าร่วม สร้างการทดสอบและเรียกใช้มันใน Amazon วิศวกรรมเติร์ก (MTurk) โดยใช้สองกลยุทธ์การสรรหาบุคลากรที่แตกต่างกัน พยายามที่จะรับการทดสอบและการรับสมัครกลยุทธ์เพื่อให้ผลจะแตกต่างกันที่เป็นไปได้ ยกตัวอย่างเช่นกลยุทธ์การรับสมัครงานของคุณอาจจะมีการรับสมัครผู้เข้าร่วมในตอนเช้าและตอนเย็นหรือเพื่อชดเชยผู้ที่มีค่าใช้จ่ายสูงและต่ำ ชนิดนี้มีความแตกต่างในการใช้กลยุทธ์การสรรหาอาจนำไปสู่สระว่ายน้ำที่แตกต่างกันของผู้เข้าร่วมการทดลองและผลที่แตกต่างกัน วิธีการที่แตกต่างกันไม่ผลลัพธ์ของคุณเปิดออก? อะไรที่เปิดเผยเกี่ยวกับการทำงานการทดลองใน MTurk?
[ , $ต้องใช้คณิตศาสตร์$ , , ] ลองจินตนาการว่าคุณกำลังวางแผนการศึกษา Contagion อารมณ์ (Kramer, Guillory, and Hancock 2014) ใช้ผลจากการศึกษาเชิงสังเกตก่อนหน้านี้โดย Kramer (2012) การตัดสินใจจำนวนผู้เข้าร่วมในแต่ละสภาพ เหล่านี้สองการศึกษาไม่ตรงกับอย่างสมบูรณ์เพื่อให้แน่ใจว่าได้อย่างชัดเจนรายการสมมติฐานทั้งหมดที่คุณทำ:
1. เรียกใช้การจำลองที่จะตัดสินใจเลือกวิธีที่หลายคนเข้าร่วมจะได้รับการตรวจสอบความจำเป็นที่จะมีผลมีขนาดใหญ่เป็นผลกระทบในส่วน Kramer (2012) กับ \ (\ alpha = 0.05 \) และ \ (1 - \ beta = 0.8 \)
2. ทำคำนวณเดียวกันวิเคราะห์
3. ได้รับผลที่ได้จาก Kramer (2012) ได้รับการติดเชื้อทางอารมณ์ (Kramer, Guillory, and Hancock 2014) มากกว่าการขับเคลื่อน (กล่าวคือมันไม่ได้มีผู้เข้าร่วมเกินความจำเป็น)?
4. สมมติฐานที่คุณทำซึ่งมีผลที่ใหญ่ที่สุดในการคำนวณของคุณหรือไม่
[ , $ต้องใช้คณิตศาสตร์$ , , ] ตอบคำถามข้างต้น แต่แทนที่จะใช้ศึกษาเชิงสังเกตก่อนหน้านี้โดย Kramer (2012) ใช้ผลที่ได้จากการทดลองก่อนหน้านี้โดยธรรมชาติ Coviello et al. (2014)
[ ] ทั้ง Rijt et al. (2014) และ Margetts et al. (2011) ทั้งสองทำการทดลองที่ศึกษากระบวนการของคนที่ลงนามในคำร้อง เปรียบเทียบและความคมชัดในการออกแบบและผลการศึกษาเหล่านี้
[ ] Dwyer, Maki, and Rothman (2015) ดำเนินการทดลองภาคสนามเกี่ยวกับความสัมพันธ์ระหว่างบรรทัดฐานทางสังคมและพฤติกรรม proenvironmental ต่อไปนี้เป็นนามธรรมของกระดาษของพวกเขา:

"วิธีการที่อาจวิทยาศาสตร์จิตวิทยานำไปใช้เพื่อส่งเสริมพฤติกรรม proenvironmental? ในการศึกษาทั้งสองแทรกแซงมุ่งเป้าไปที่การส่งเสริมพฤติกรรมการอนุรักษ์พลังงานในห้องน้ำสาธารณะที่มีอิทธิพลต่อการตรวจสอบของบรรทัดฐานพรรณนาและความรับผิดชอบส่วนตัว ในการศึกษาครั้งที่ 1 สถานะแสง (เช่นหรือปิด) ถูกจับก่อนที่คนเข้าห้องน้ำสาธารณะว่างสัญญาณบรรทัดฐานอธิบายสำหรับการตั้งค่าที่ ผู้เข้าร่วมกิจกรรมอย่างมีนัยสำคัญมีแนวโน้มที่จะเปิดไฟปิดถ้าพวกเขาถูกปิดเมื่อพวกเขาเข้าไป ในการศึกษาครั้งที่ 2, เงื่อนไขเพิ่มเติมถูกรวมอยู่ในบรรทัดฐานซึ่งการปิดไฟที่ถูกแสดงให้เห็นโดยร่วมใจกัน แต่ผู้เข้าร่วมไม่ได้ว่าตัวเองมีความรับผิดชอบสำหรับการเปิดบน ความรับผิดชอบส่วนบุคคลกลั่นกรองอิทธิพลของบรรทัดฐานของสังคมที่มีต่อพฤติกรรมนั้น เมื่อผู้เข้าร่วมไม่ได้มีความรับผิดชอบสำหรับการเปิดไฟอิทธิพลของบรรทัดฐานที่ถูกลดลง ผลลัพธ์เหล่านี้บ่งชี้ว่าบรรทัดฐานและความรับผิดชอบส่วนบุคคลพรรณนาอาจควบคุมประสิทธิผลของการแทรกแซง proenvironmental ได้. "

อ่านกระดาษของพวกเขาและการออกแบบการจำลองแบบของการศึกษาที่ 1
[ , ] อาคารในคำถามก่อนหน้านี้ขณะนี้ดำเนินการออกแบบของคุณ
1. วิธีการทำผลเปรียบเทียบ?
2. สิ่งที่อาจอธิบายความแตกต่างเหล่านี้หรือไม่
[ ] มีการถกเถียงกันอย่างมากเกี่ยวกับการทดลองใช้ผู้เข้าร่วมได้รับคัดเลือกจาก Amazon วิศวกรรมเติร์ก ในแบบคู่ขนานยังมีการอภิปรายอย่างมีนัยสำคัญเกี่ยวกับการทดลองใช้ผู้เข้าร่วมรับการคัดเลือกมาจากประชากรนักศึกษาระดับปริญญาตรี เขียนบันทึกสองหน้าการเปรียบเทียบและการตัดกัน Turkers และนักศึกษาระดับปริญญาตรีเป็นผู้เข้าร่วมนักวิจัย การเปรียบเทียบของคุณควรมีการอภิปรายในประเด็นทั้งทางวิทยาศาสตร์และโลจิสติก
[ Book] จิม Manzi ของไม่มีการควบคุม (2012) มีการแนะนำที่ยอดเยี่ยมเข้าสู่อำนาจของการทดลองในการดำเนินธุรกิจ ในหนังสือที่เขาถ่ายทอดเรื่องนี้:

"ผมเคยประชุมกับอัจฉริยะทางธุรกิจที่แท้จริงเป็นมหาเศรษฐีที่สร้างตัวเองที่มีความลึก understating ที่ใช้งานง่ายของการใช้พลังงานของการทดลองที่ บริษัท ของเขาใช้เวลาทรัพยากรที่สำคัญพยายามที่จะสร้างแสดงหน้าต่างร้านค้าที่ดีที่จะดึงดูดผู้บริโภคและยอดขายเพิ่มขึ้นเป็นภูมิปัญญาดั้งเดิมกล่าวว่าพวกเขาควรจะ ผู้เชี่ยวชาญด้านการออกแบบการทดสอบหลังจากการออกแบบอย่างระมัดระวังและในการประชุมทบทวนการทดสอบของแต่ละบุคคลในช่วงปีที่ผ่านมาเก็บไว้แสดงไม่มีผลกระทบเชิงสาเหตุที่สำคัญของการออกแบบแต่ละการแสดงผลใหม่ในการขาย การตลาดและการขายสินค้าผู้บริหารระดับสูงได้พบกับซีอีโอเพื่อตรวจสอบผลการทดสอบเหล่านี้ในประวัติศาสตร์ toto หลังจากที่นำเสนอข้อมูลทั้งหมดของการทดลองที่พวกเขาได้ข้อสรุปว่าภูมิปัญญาดั้งเดิมคือการแสดงธรรมที่หน้าต่างไม่ผลักดันยอดขาย ดำเนินการที่แนะนำพวกเขาคือการลดค่าใช้จ่ายและความพยายามในพื้นที่นี้ ละครเรื่องนี้แสดงให้เห็นถึงความสามารถของการทดลองที่จะคว่ำภูมิปัญญาดั้งเดิม การตอบสนองของซีอีโอได้ง่าย: 'ข้อสรุปของฉันคือการที่นักออกแบบของคุณจะไม่ดีมาก. วิธีการแก้ปัญหาของเขาคือการเพิ่มความพยายามในการออกแบบร้านแสดงและการรับคนใหม่ที่จะทำมัน. " (Manzi 2012, 158–9)

ซึ่งประเภทของความถูกต้องเป็นกังวลของซีอีโอหรือไม่
[ ] อาคารในคำถามก่อนหน้านี้คิดว่าคุณอยู่ในที่ประชุมที่ผลการทดลองที่ถูกกล่าวถึง อะไรคือสี่คำถามที่คุณสามารถขอหนึ่งสำหรับแต่ละประเภทของความถูกต้อง (สถิติสร้างงานภายในและภายนอก)?
[ ] Bernedo, Ferraro, and Price (2014) การศึกษาผลกระทบเจ็ดปีของการแทรกแซงประหยัดน้ำที่อธิบายไว้ใน Ferraro, Miranda, and Price (2011) (ดูรูปที่ 4.10) ในบทความนี้ Bernedo และเพื่อนร่วมงานยังพยายามที่จะเข้าใจกลไกที่อยู่เบื้องหลังผลโดยการเปรียบเทียบพฤติกรรมของครัวเรือนที่มีและยังไม่ได้ย้ายหลังการรักษาได้รับการส่งมอบ นั่นคือประมาณพวกเขาพยายามที่จะดูว่าการรักษาได้รับผลกระทบบ้านหรือเจ้าของบ้าน
1. อ่านกระดาษอธิบายการออกแบบของพวกเขาและสรุปผลการวิจัยของพวกเขา ข) ไม่ค้นพบของพวกเขาส่งผลกระทบต่อวิธีการที่คุณควรประเมินความคุ้มค่าของการแทรกแซงที่คล้ายกัน? ถ้าเป็นเช่นนั้นทำไม? ถ้าไม่ทำไมไม่?
[ ] ในการติดตามการ Schultz et al. (2007) , ชูลท์ซและเพื่อนร่วมงานดำเนินการชุดของสามการทดลองเกี่ยวกับผลกระทบของบรรทัดฐานบรรยายและคำสั่งศาลที่เกี่ยวกับพฤติกรรมด้านสิ่งแวดล้อมที่แตกต่างกัน (ผ้าขนหนูนำมาใช้ใหม่) ในสองบริบท (โรงแรมและคอนโดมิเนียม timeshare) (Schultz, Khazian, and Zaleski 2008) .
1. สรุปการออกแบบและผลการวิจัยของทั้งสามการทดลอง
2. วิธีถ้าที่ทั้งหมดจะมีการเปลี่ยนแปลงความหมายของ Schultz et al. (2007) ?
[ ] ในการตอบสนองต่อ Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) วิ่งชุดการทดลองในห้องปฏิบัติการเช่นการศึกษาการออกแบบของค่าไฟฟ้า นี่คือวิธีที่พวกเขาอธิบายไว้ในนามธรรม:

"ในการทดลองการสำรวจตามผู้เข้าร่วมแต่ละเห็นการเรียกเก็บเงินสมมุติไฟฟ้าสำหรับครอบครัวที่มีการใช้ไฟฟ้าที่ค่อนข้างสูงครอบคลุมข้อมูลเกี่ยวกับ (ก) การใช้ประวัติศาสตร์ (ข) เปรียบเทียบกับเพื่อนบ้านและ (ค) การใช้งานทางประวัติศาสตร์ที่มีรายละเอียดเครื่องใช้ไฟฟ้า ผู้เข้าร่วมประชุมเห็นข้อมูลทุกประเภทในหนึ่งในสามรูปแบบรวมทั้ง (ก) ตาราง (ข) กราฟแท่งและ (ค) กราฟไอคอน เรารายงานเกี่ยวกับการค้นพบหลักสาม ครั้งแรกที่ผู้บริโภคเข้าใจในแต่ละประเภทของข้อมูลการผลิตไฟฟ้าใช้งานมากที่สุดเมื่อมันถูกนำเสนอในตารางบางทีอาจเป็นเพราะตารางอำนวยความสะดวกในการอ่านจุดที่ง่าย ประการที่สองการตั้งค่าและความตั้งใจในการประหยัดพลังงานไฟฟ้าเป็นที่แข็งแกร่งสำหรับข้อมูลที่ใช้ประวัติศาสตร์เป็นอิสระจากรูปแบบ ประการที่สามบุคคลที่มีความรู้ความเข้าใจพลังงานที่ต่ำกว่าข้อมูลทั้งหมดน้อย. "

ซึ่งแตกต่างจากการศึกษาอื่น ๆ ติดตามผลหลักที่น่าสนใจใน Canfield, Bruin, and Wong-Parodi (2016) มีรายงานพฤติกรรมไม่พฤติกรรมที่แท้จริง อะไรคือจุดแข็งและจุดอ่อนของประเภทของการศึกษาครั้งนี้ในโครงการวิจัยที่กว้างขึ้นส่งเสริมการประหยัดพลังงาน?
[ , ] Smith and Pell (2003) เป็นเหน็บแนมวิเคราะห์ข้อมูลจากการศึกษาแสดงให้เห็นถึงประสิทธิภาพของร่มชูชีพ พวกเขาสรุป:

"เช่นเดียวกับหลายแทรกแซงตั้งใจที่จะป้องกันไม่ให้สุขภาพไม่ดีประสิทธิภาพของร่มชูชีพไม่ได้รับภายใต้การประเมินผลอย่างเข้มงวดโดยใช้การทดลองแบบสุ่ม ประชาสัมพันธ์ของยาตามหลักฐานมีการวิพากษ์วิจารณ์การยอมรับของการแทรกแซงการประเมินโดยใช้ข้อมูลการสังเกตการณ์เท่านั้น เราคิดว่าทุกคนอาจได้รับประโยชน์ถ้าตัวละครเอกที่ร้ายแรงที่สุดของยาตามหลักฐานการจัดระเบียบและมีส่วนร่วมในคนตาบอดสอง, สุ่ม, ยาหลอกควบคุมการพิจารณาคดีของครอสโอเวอร์ร่มชูชีพ. "

เขียนสหกรณ์ -ed เหมาะสำหรับผู้อ่านหนังสือพิมพ์ทั่วไปเช่น The New York Times, เถียงกับ fetishization หลักฐานการทดลอง ให้เฉพาะตัวอย่างที่เป็นรูปธรรม คำแนะนำ: ดูยัง Bothwell et al. (2016) และ Deaton (2010)
[ , , ] ความแตกต่างในความแตกต่างของการประมาณค่าผลการรักษาจะมีความแม่นยำมากขึ้นกว่าการประมาณค่าความแตกต่างในค่าเฉลี่ย เขียนบันทึกที่จะเป็นวิศวกรในค่าใช้จ่ายของการทดสอบ A / B ที่ บริษัท สื่อเริ่มต้นขึ้นทางสังคมอธิบายคุณค่าของวิธีการที่แตกต่างกันในความแตกต่างสำหรับการเรียกใช้การทดสอบออนไลน์ บันทึกควรจะรวมถึงคำสั่งของปัญหาสัญชาตญาณบางอย่างเกี่ยวกับเงื่อนไขตามที่ประมาณการความแตกต่างในความแตกต่างจะมีประสิทธิภาพสูงกว่าประมาณการความแตกต่างในค่าเฉลี่ยและการศึกษาการจำลองง่าย
[ , ] แกรี่บาคาร่าเป็นอาจารย์ที่ Harvard Business School ได้ก่อนที่จะกลายเป็นซีอีโอของ Harrah 's ซึ่งเป็นหนึ่งใน บริษัท ที่ใหญ่ที่สุดของคาสิโนในโลก เมื่อเขาย้ายไป Harrah 's, บาคาร่าเปลี่ยน บริษัท ที่มีนักบินเหมือนโปรแกรมความภักดีบ่อยครั้งที่การเก็บรวบรวมจำนวนมากของข้อมูลเกี่ยวกับพฤติกรรมของลูกค้า บนนี้ตลอดเวลาในระบบการวัด บริษัท เริ่มทดลองวิ่ง ตัวอย่างเช่นพวกเขาอาจจะเรียกใช้การทดสอบเพื่อประเมินผลกระทบของคูปองสำหรับคืนโรงแรมฟรีสำหรับลูกค้าที่มีรูปแบบการเล่นการพนันที่เฉพาะเจาะจง นี่คือวิธี Loveman อธิบายความสำคัญของการทดลองที่จะบริเวณใกล้เคียงของการดำเนินธุรกิจในชีวิตประจำวัน:

"มันเหมือนคุณไม่ก่อกวนผู้หญิงคุณไม่ขโมยและคุณได้มีการมีกลุ่มควบคุม นี้เป็นหนึ่งในสิ่งที่คุณจะสูญเสียงานของคุณอย่าง Harrah's ไม่ทำงานกลุ่มควบคุม. " (Manzi 2012, 146)

เขียนอีเมลไปที่พนักงานใหม่อธิบายว่าทำไมบาคาร่าคิดว่ามันเป็นสิ่งสำคัญมากที่จะมีกลุ่มควบคุม คุณควรพยายามที่จะรวมเป็นตัวอย่างที่ไม่ว่าจะจริงหรือทำขึ้นเพื่อแสดงให้เห็นจุดของคุณ
[ , $ต้องใช้คณิตศาสตร์$ ] การทดสอบใหม่มีวัตถุประสงค์เพื่อประเมินผลกระทบของการรับการแจ้งเตือนข้อความในการดูดซึมการฉีดวัคซีน 150 คลินิกแต่ละคนมีผู้ป่วยที่มีสิทธิ์ 600, ยินดีที่จะมีส่วนร่วม มีค่าใช้จ่ายคงที่ 100 ดอลลาร์สำหรับแต่ละคลินิกคุณต้องการที่จะทำงานกับเป็นและค่าใช้จ่าย 1 ดอลลาร์สำหรับแต่ละข้อความที่คุณต้องการส่ง นอกจากนี้คลินิกใด ๆ ที่คุณกำลังทำงานกับจะวัดผลลัพธ์ (ไม่ว่าจะมีใครบางคนได้รับการฉีดวัคซีน) ฟรี สมมติว่าคุณมีงบประมาณ 1000 ดอลลาร์
1. ภายใต้เงื่อนไขว่ามันอาจจะดีกว่าที่จะมุ่งเน้นทรัพยากรของคุณในจำนวนเล็ก ๆ ของคลินิกและภายใต้เงื่อนไขว่ามันอาจจะดีกว่าที่จะกระจายพวกเขากันอย่างแพร่หลายมากขึ้น?
2. ปัจจัยอะไรที่จะกำหนดขนาดของผลมีขนาดเล็กที่สุดที่คุณจะสามารถตรวจสอบได้อย่างน่าเชื่อถือด้วยงบประมาณของคุณหรือไม่
3. เขียนบันทึกอธิบายไม่ชอบการค้าเหล่านี้ไปยัง funder ที่มีศักยภาพ
[ , $ต้องใช้คณิตศาสตร์$ ] เป็นปัญหาสำคัญกับหลักสูตรออนไลน์คือการขัดสี; นักเรียนหลายคนที่เริ่มต้นหลักสูตรจบลงด้วยการวางออก ลองจินตนาการว่าคุณกำลังทำงานในเวทีการเรียนรู้ออนไลน์และนักออกแบบที่แพลตฟอร์มได้สร้างแถบความคืบหน้าภาพที่เธอคิดว่าจะช่วยป้องกันไม่ให้นักเรียนจากออกจากการเรียนการสอน คุณต้องการที่จะทดสอบผลกระทบของแถบความคืบหน้าเกี่ยวกับนักเรียนในหลักสูตรสังคมศาสตร์คำนวณขนาดใหญ่ หลังจากประเด็นทางจริยธรรมใด ๆ ที่อาจเกิดขึ้นในการทดสอบคุณและเพื่อนร่วมงานของคุณได้รับความกังวลว่าการเรียนการสอนไม่อาจมีนักเรียนมากพอที่จะตรวจสอบความน่าเชื่อถือผลกระทบของแถบความคืบหน้า ในการคำนวณต่ำกว่าคุณสามารถสันนิษฐานได้ว่าครึ่งหนึ่งของนักเรียนที่จะได้รับแถบความคืบหน้าและครึ่งหนึ่งไม่ได้ นอกจากนี้คุณสามารถสันนิษฐานได้ว่ามีการแทรกแซงไม่มี ในคำอื่น ๆ ที่คุณสามารถสันนิษฐานได้ว่าผู้เข้าร่วมจะได้รับผลกระทบจากว่าพวกเขาได้รับการรักษาหรือการควบคุมเท่านั้น พวกเขาจะไม่ได้รับผลกระทบโดยไม่ว่าจะเป็นของคนอื่น ๆ ที่ได้รับการรักษาหรือการควบคุม (สำหรับหมายอย่างเป็นทางการเพิ่มเติมโปรดดูที่ Gerber and Green (2012) , Ch. 8) โปรดติดตามสมมติฐานเพิ่มเติมใด ๆ ที่คุณทำ
1. สมมติว่าแถบความคืบหน้าคาดว่าจะเพิ่มสัดส่วนของนักเรียนที่จบชั้นโดยจุดร้อยละ 1 สิ่งที่เป็นขนาดของกลุ่มตัวอย่างที่จำเป็นในการตรวจสอบความน่าเชื่อถือผลกระทบหรือไม่
2. สมมติว่าแถบความคืบหน้าคาดว่าจะเพิ่มสัดส่วนของนักเรียนที่จบชั้นเรียน 10 คะแนนร้อยละสิ่งที่เป็นขนาดของกลุ่มตัวอย่างที่จำเป็นในการตรวจสอบความน่าเชื่อถือผลกระทบหรือไม่
3. ตอนนี้คิดว่าคุณได้ทำการทดสอบและนักเรียนที่ได้เสร็จสิ้นทุกวัสดุการเรียนการสอนมีการดำเนินการสอบปลายภาค เมื่อคุณเปรียบเทียบคะแนนสอบปลายภาคของนักเรียนที่ได้รับแถบความคืบหน้าให้กับผู้ที่ไม่ได้คุณจะพบมากที่แปลกใจของคุณว่านักเรียนที่ไม่ได้รับแถบความคืบหน้าจริงคะแนนที่สูงขึ้น นี้หมายความว่าแถบความคืบหน้าเกิดจากนักเรียนได้เรียนรู้น้อยลงหรือไม่ สิ่งที่คุณสามารถเรียนรู้จากข้อมูลผลนี้หรือไม่? (คำแนะนำ: ดู Gerber and Green (2012) , Ch 7.)
[ , ] ในกระดาษน่ารัก, Lewis and Rao (2015) เต็มตาแสดงให้เห็นถึงข้อ จำกัด ทางสถิติพื้นฐานของการทดลองแม้ขนาดใหญ่ กระดาษซึ่ง แต่เดิมมีชื่อเร้าใจ "ในใกล้เป็นไปไม่ได้ในการวัดผลตอบแทนในการโฆษณา" -shows วิธีการที่ยากก็คือการวัดผลตอบแทนจากการลงทุนของโฆษณาออนไลน์ถึงแม้จะมีการทดลองดิจิตอลที่เกี่ยวข้องกับลูกค้านับล้าน โดยทั่วไปกระดาษที่แสดงให้เห็นอย่างชัดเจนว่ามันเป็นเรื่องยากที่จะประเมินผลการรักษาที่มีขนาดเล็กท่ามกลางข้อมูลผลที่มีเสียงดัง หรือระบุ diffently กระดาษที่แสดงให้เห็นว่าผลการรักษาโดยประมาณจะมีช่วงความเชื่อมั่นที่มีขนาดใหญ่เมื่อผลกระทบต่อการเบี่ยงเบนมาตรฐาน (\ (\ frac {\ Delta \ bar {y}} {\ Sigma} \)) อัตราการมีขนาดเล็ก บทเรียนที่สำคัญจากกระดาษทั่วไปนี้คือผลที่ได้จากการทดลองกับอัตราส่วนผลกระทบต่อการเบี่ยงเบนมาตรฐานขนาดเล็ก (เช่นผลตอบแทนการลงทุนของแคมเปญโฆษณา) จะพอใจ ความท้าทายของคุณจะได้รับการเขียนบันทึกไปยังคนในแผนกการตลาดของ บริษัท ของคุณ evaluting การทดลองวางแผนที่จะวัด ROI ของแคมเปญโฆษณา บันทึกของคุณควรได้รับการสนับสนุนด้วยกราฟผลของคอมพิวเตอร์จำลอง

ต่อไปนี้เป็นข้อมูลพื้นฐานบางอย่างที่คุณอาจต้อง ทั้งหมดของค่าตัวเลขเหล่านี้เป็นเรื่องปกติของการทดลองจริงรายงานใน Lewis and Rao (2015) :
- ผลตอบแทนการลงทุนเป็นตัวชี้วัดที่สำคัญสำหรับแคมเปญโฆษณาออนไลน์, ถูกกำหนดให้เป็นกำไรสุทธิจากแคมเปญ (กำไรขั้นต้นจากค่าใช้จ่ายในการรณรงค์ลบของการรณรงค์) หารด้วยค่าใช้จ่ายของการรณรงค์ ยกตัวอย่างเช่นแคมเปญที่ไม่มีผลกระทบต่อยอดขายจะมีผลตอบแทนการลงทุนของ -100% และแคมเปญที่สร้างผลกำไรเท่ากับค่าใช้จ่ายจะมีผลตอบแทนการลงทุนของ 0
- ยอดขายเฉลี่ยต่อลูกค้าเป็น $ 7 กับเบี่ยงเบนมาตรฐานของ $ 75
- แคมเปญที่คาดว่าจะเพิ่มยอดขายโดย $ 0.35 ต่อลูกค้าซึ่งสอดคล้องกับการเพิ่มขึ้นของกำไร $ 0.175 ต่อลูกค้า ในคำอื่น ๆ ที่มีอัตรากำไรขั้นต้นอยู่ที่ 50%
- ขนาดการวางแผนการทดลองเป็น 200,000 คนครึ่งหนึ่งในกลุ่มการรักษาและครึ่งหนึ่งในกลุ่มควบคุม
- ค่าใช้จ่ายของการรณรงค์คือ $ 0.14 ต่อผู้เข้าร่วม
เขียนบันทึก evaluting การทดลองนี้ คุณอยากจะแนะนำการเปิดตัวการทดลองครั้งนี้เป็นไปตามแผน? ถ้าเป็นเช่นนั้นทำไม? ถ้าไม่ได้สิ่งที่เปลี่ยนแปลงที่คุณอยากจะแนะนำ?

บันทึกที่ดีจะอยู่ที่กรณีนี้โดยเฉพาะ; บันทึกดีกว่าจะคุยจากกรณีนี้ในทางเดียว (เช่นแสดงให้เห็นว่าการเปลี่ยนแปลงการตัดสินใจเป็นหน้าที่ของอัตราส่วนผลกระทบต่อมาตรฐานการเบี่ยงเบน); และบันทึกที่ดีจะนำเสนอผลทั่วไปอย่างเต็มที่
[ , $ต้องใช้คณิตศาสตร์$ ] ทำเช่นเดียวกับคำถามก่อนหน้านี้ แต่แทนที่จะจำลองคุณควรใช้ผลการวิเคราะห์
[ , $ต้องใช้คณิตศาสตร์$ , ] ทำเช่นเดียวกับคำถามก่อนหน้านี้ แต่ใช้ทั้งการจำลองและการวิเคราะห์ผล
[ , $ต้องใช้คณิตศาสตร์$ , ] ลองจินตนาการว่าคุณได้เขียนบันทึกที่อธิบายไว้ข้างต้นโดยใช้การจำลองผลการวิเคราะห์หรือทั้งสองอย่างและใครบางคนจากแผนกการตลาดแนะนำให้ใช้ประมาณการความแตกต่างในความแตกต่างมากกว่าความแตกต่างในวิธีการประมาณการ (ดูมาตรา 4.6.2) . เขียนบันทึกสั้นใหม่อธิบายวิธีการที่ 0.4 ความสัมพันธ์ระหว่างการขายก่อนการทดลองและการขายหลังการทดลองจะเป็นการปรับเปลี่ยนข้อสรุปของคุณ
[ , $ต้องใช้คณิตศาสตร์$ ] เพื่อประเมินประสิทธิภาพของการบริการอาชีพใหม่ Web-based, สำนักงานบริการด้านอาชีพของมหาวิทยาลัยดำเนินการทดลองควบคุมแบบสุ่มในหมู่นักเรียน 10,000 เข้าปีสุดท้ายของโรงเรียน สมัครฟรีมีข้อมูลเข้าสู่ระบบในที่ไม่ซ้ำกันถูกส่งผ่านทางอีเมลเชิญพิเศษให้กับนักเรียน 5,000 สุ่มเลือกในขณะที่คนอื่น ๆ 5,000 นักเรียนในกลุ่มควบคุมและไม่ได้มีการสมัครสมาชิก สิบสองเดือนต่อมามีการสำรวจติดตาม (ไม่มีการตอบสนองที่ไม่ใช่) แสดงให้เห็นว่าทั้งในกลุ่มการรักษาและการควบคุม 70% ของนักเรียนมีความปลอดภัยจ้างงานเต็มเวลาในสาขาที่เลือกของพวกเขา (ตารางที่ 4.5) ดังนั้นจึงดูเหมือนว่าบริการบนเว็บก็ไม่มีผล

อย่างไรก็ตามนักวิทยาศาสตร์ข้อมูลที่ฉลาดที่มหาวิทยาลัยมองไปที่ข้อมูลบิตมากขึ้นอย่างใกล้ชิดและพบว่ามีเพียง 20% ของนักเรียนในกลุ่มทดลองที่เคยเข้าสู่ระบบบัญชีหลังจากที่ได้รับอีเมล ต่อไปและค่อนข้างน่าแปลกใจในหมู่ผู้ที่ได้ลงทะเบียนในเว็บไซต์เพียง 60% มีการรักษาความปลอดภัยการจ้างงานเต็มเวลาในสาขาที่เลือกของพวกเขาซึ่งต่ำกว่าอัตราที่สำหรับคนที่ไม่ได้เข้าสู่ระบบและต่ำกว่าอัตราสำหรับคนที่อยู่ใน เงื่อนไขการควบคุม (ตารางที่ 4.6)
1. ให้คำอธิบายสำหรับสิ่งที่อาจจะเกิดขึ้น
2. สิ่งที่เป็นสองวิธีที่แตกต่างกันในการคำนวณผลของการรักษาในการทดลองนี้ได้หรือไม่
3. ได้รับผลนี้บริการมหาวิทยาลัยอาชีพนี้ควรจัดให้มีอาชีพบริการบนเว็บเพื่อให้นักเรียนทุกคน? เพียงเพื่อจะชัดเจนนี้ไม่ได้เป็นคำถามที่มีคำตอบง่ายๆ
4. สิ่งที่พวกเขาควรจะทำอย่างไรต่อไปหรือไม่
คำแนะนำ: คำถามนี้นอกเหนือไปจากวัสดุที่กล่าวถึงในบทนี้ แต่อยู่ที่ปัญหาที่พบบ่อยในการทดลอง ประเภทของการออกแบบการทดลองนี้บางครั้งเรียกว่าการออกแบบให้กำลังใจผู้เข้าร่วมเพราะมีกำลังใจที่จะมีส่วนร่วมในการรักษา ปัญหานี้เป็นตัวอย่างของสิ่งที่เรียกว่าด้านเดียวไม่ปฏิบัติตาม (ดู Gerber and Green (2012) , Ch. 5)
[ ] หลังจากการตรวจสอบต่อไปก็ปรากฎว่าการทดลองที่อธิบายไว้ในคำถามก่อนหน้านี้เป็นที่ซับซ้อนมากยิ่งขึ้น ปรากฎว่า 10% ของคนที่อยู่ในกลุ่มควบคุมที่จ่ายสำหรับการเข้าถึงบริการและพวกเขาจบลงด้วยการที่มีอัตราการจ้างงาน 65% (ตารางที่ 4.7)
1. เขียนอีเมลสรุปสิ่งที่คุณคิดที่เกิดขึ้นและแนะนำหลักสูตรของการดำเนินการ
คำแนะนำ: คำถามนี้นอกเหนือไปจากวัสดุที่กล่าวถึงในบทนี้ แต่อยู่ที่ปัญหาที่พบบ่อยในการทดลอง ปัญหานี้เป็นตัวอย่างของสิ่งที่เรียกว่าสองด้านไม่ปฏิบัติตาม (ดู Gerber and Green (2012) , Ch. 6)

ตารางที่ 4.5: มุมมองอย่างง่ายของข้อมูลจากการทดลองบริการด้านอาชีพ
กลุ่ม	ขนาด	อัตราการจ้างงาน
เข้าถึงที่ได้รับไปยังเว็บไซต์	5,000	70%
ไม่ได้รับการเข้าถึงเว็บไซต์	5,000	70%

ตารางที่ 4.6: มุมมองที่สมบูรณ์ของข้อมูลจากการทดลองบริการด้านอาชีพ
กลุ่ม	ขนาด	อัตราการจ้างงาน
ได้รับการเข้าถึงเว็บไซต์และเข้าสู่ระบบ	1,000	60%
ได้รับการเข้าถึงเว็บไซต์และไม่เคยเข้าสู่ระบบ	4,000	85%
ไม่ได้รับการเข้าถึงเว็บไซต์	5,000	70%

ตารางที่ 4.7: มุมมองที่เต็มไปด้วยข้อมูลจากการทดลองบริการด้านอาชีพ
กลุ่ม	ขนาด	อัตราการจ้างงาน
ได้รับการเข้าถึงเว็บไซต์และเข้าสู่ระบบ	1,000	60%
ได้รับการเข้าถึงเว็บไซต์และไม่เคยเข้าสู่ระบบ	4,000	72.5%
ไม่ได้รับการเข้าถึงเว็บไซต์และชำระเงินสำหรับมัน	500	65%
ไม่ได้รับการเข้าถึงเว็บไซต์และไม่ได้จ่ายเงินสำหรับมัน	4,500	70.56%