บันทึกทางคณิตศาสตร์

ฉันคิดว่าวิธีที่ดีที่สุดในการทำความเข้าใจการทดลองคือกรอบ ผลลัพธ์ที่เป็นไปได้ (ซึ่งฉันได้กล่าวถึงในบันทึกทางคณิตศาสตร์ในบทที่ 2) กรอบผลลัพธ์ที่เป็นไปได้มีความสัมพันธ์ใกล้ชิดกับแนวคิดจากการสุ่มตัวอย่างจากการออกแบบตามที่อธิบายไว้ในบทที่ 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) ภาคผนวกนี้ได้รับการเขียนในลักษณะที่จะเน้นการเชื่อมต่อที่ การเน้นนี้ไม่ใช่แบบดั้งเดิม แต่ผมคิดว่าการเชื่อมต่อระหว่างการสุ่มตัวอย่างและการทดลองจะเป็นประโยชน์: นั่นหมายความว่าถ้าคุณรู้อะไรเกี่ยวกับการสุ่มตัวอย่างคุณก็รู้บางอย่างเกี่ยวกับการทดลองและในทางกลับกัน ที่ฉันจะแสดงในบันทึกย่อเหล่านี้กรอบผลลัพธ์ที่เป็นไปได้แสดงให้เห็นถึงความแรงของการทดลองแบบควบคุมแบบสุ่มสำหรับการประเมินผลกระทบเชิงสาเหตุและแสดงข้อ จำกัด ของสิ่งที่สามารถทำได้ด้วยการทดลองที่รันได้อย่างสมบูรณ์

ในภาคผนวกนี้ฉันจะอธิบายโครงร่างผลลัพธ์ที่เป็นไปได้ในการทำซ้ำเนื้อหาบางส่วนจากบันทึกทางคณิตศาสตร์ในบทที่ 2 เพื่อให้โน้ตเหล่านี้มีข้อมูลในตัว จากนั้นผมจะอธิบายถึงผลที่เป็นประโยชน์บางประการเกี่ยวกับความแม่นยำของการประมาณการผลการรักษาโดยรวมรวมทั้งการอภิปรายเกี่ยวกับการจัดสรรที่เหมาะสมและการประเมินความแตกต่างในความแตกต่าง ภาคผนวกนี้วาดขึ้นอย่างมากเกี่ยวกับ Gerber and Green (2012)

กรอบผลลัพธ์ที่เป็นไปได้

เพื่อเป็นการแสดงให้เห็นถึงกรอบผลลัพธ์ที่เป็นไปได้ให้กลับไปที่การทดลองของ Restivo และ van de Rijt เพื่อประมาณผลของการได้รับ barnstar ต่อการมีส่วนร่วมในอนาคตต่อวิกิพีเดีย กรอบผลลัพธ์ที่เป็นไปได้มีสามองค์ประกอบหลัก ได้แก่ หน่วย การรักษา และ ผลลัพธ์ที่อาจเกิดขึ้น ในกรณีของ Restivo และ van de Rijt หน่วยงาน เหล่านี้สมควรได้รับบรรณาธิการ - ผู้ที่อยู่ในอันดับ 1% ของผู้ร่วมสมทบซึ่งยังไม่ได้รับ barnstar เราสามารถจัดทำดัชนีบรรณาธิการเหล่านี้ได้โดย i=1Ni=1N การ รักษา ในการทดลองของพวกเขาคือ "barnstar" หรือ "no barnstar" และฉันจะเขียน Wi=1Wi=1 หากบุคคล ii อยู่ในสภาพบำบัดและ Wi=0Wi=0 มิฉะนั้น องค์ประกอบที่สามของกรอบผลลัพธ์ที่เป็นไปได้คือสิ่งที่สำคัญที่สุด: ผลลัพธ์ที่อาจเกิดขึ้น สิ่งเหล่านี้ยากมากที่จะเป็นแนวความคิดเนื่องจากเกี่ยวข้องกับผลลัพธ์ "ศักยภาพ" ซึ่งอาจเกิดขึ้นได้ สำหรับวิกิพีเดียแต่ละตัวบรรณาธิการสามารถคิดจำนวนการแก้ไขที่เธอจะทำในสภาพบำบัด ( Yi(1)Yi(1) ) และหมายเลขที่เธอจะทำในเงื่อนไขการควบคุม ( Yi(0)Yi(0) )

โปรดทราบว่าทางเลือกของหน่วยการรักษาและผลลัพธ์นี้จะกำหนดสิ่งที่สามารถเรียนรู้ได้จากการทดลองนี้ ตัวอย่างเช่นไม่มีข้อสันนิษฐานใด ๆ เพิ่มเติม Restivo and van de Rijt ไม่สามารถพูดอะไรเกี่ยวกับผลกระทบของ barnstars กับบรรณาธิการวิกิพีเดียทุกคนหรือเกี่ยวกับผลลัพธ์เช่นแก้ไขคุณภาพ โดยทั่วไปแล้วการเลือกหน่วยการรักษาและผลลัพธ์ต้องขึ้นอยู่กับเป้าหมายของการศึกษา

ผลสรุปที่ได้จากตารางที่ 4.5 - สามารถกำหนดผลกระทบเชิงสาเหตุของการรักษาคน ii เป็น

τi=Yi(1)Yi(0)(4.1)τi=Yi(1)Yi(0)(4.1)

สมการนี้เป็นวิธีที่ชัดเจนที่สุดในการกำหนดผลกระทบเชิงสาเหตุและถึงแม้จะเป็นเรื่องง่ายก็ตามกรอบนี้จะแสดงออกในหลายรูปแบบที่น่าสนใจและน่าสนใจ (Imbens and Rubin 2015)

ตารางที่ 4.5: ตารางแสดงผลที่อาจเกิดขึ้น
คน การแก้ไขในสภาพการรักษา การแก้ไขในสภาวะการควบคุม ผลการรักษา
1 Y1(1)Y1(1) Y1(0)Y1(0) τ1τ1
2 Y2(1)Y2(1) Y2(0)Y2(0) τ2τ2
ยังไม่มีข้อความ YN(1)YN(1) YN(0)YN(0) τNτN
หมายความ ˉY(1)¯Y(1) ˉY(0)¯Y(0) ˉτ¯τ

ถ้าเรากำหนด causality ในลักษณะนี้ แต่เราพบปัญหา ในเกือบทุกกรณีเราไม่ได้สังเกตเห็นผลที่อาจเกิดขึ้นทั้งสอง นั่นคือบรรณาธิการวิกิพีเดียที่เฉพาะเจาะจงได้รับ barnstar หรือไม่ ดังนั้นเราจึงสังเกตเห็นหนึ่งในผลที่อาจเกิดขึ้น - Yi(1)Yi(1) หรือ Yi(0)Yi(0) ไม่ใช่ทั้งสองอย่าง ไม่สามารถที่จะสังเกตเห็นผลลัพธ์ที่เป็นไปได้ทั้งสองอย่างนี้เป็นปัญหาสำคัญที่ Holland (1986) เรียกว่า ปัญหาพื้นฐานของการอนุมานสาเหตุ

โชคดีที่เมื่อเรากำลังทำวิจัยเราไม่ได้มีแค่หนึ่งคนเรามีคนจำนวนมากและนี่เป็นวิธีแก้ปัญหาพื้นฐานของการอนุมานสาเหตุ แทนที่จะพยายามประมาณผลการรักษาแต่ละระดับเราสามารถประมาณผลการรักษาโดยเฉลี่ยได้:

ATE=1NNi=1τi(4.2)ATE=1NNi=1τi(4.2)

นี่ยังคงแสดงออกมาในแง่ของ τiτi ซึ่งไม่สามารถสังเกตได้ แต่ด้วยพีชคณิตบางส่วน (Eq 2.8 ของ Gerber and Green (2012) ) เราได้รับ

ATE=1NNi=1Yi(1)1NNi=1Yi(0)(4.3)ATE=1NNi=1Yi(1)1NNi=1Yi(0)(4.3)

สมการ 4.3 แสดงให้เห็นว่าถ้าเราสามารถประมาณการประชากรผลเฉลี่ยอยู่ภายใต้การรักษา ( N1Ni=1Yi(1)N1Ni=1Yi(1) ) และประชากรผลเฉลี่ยภายใต้การควบคุม ( N1Ni=1Yi(1)N1Ni=1Yi(1) ) จากนั้นเราสามารถประมาณผลการรักษาโดยเฉลี่ยได้โดยไม่ต้องประมาณผลการรักษาใด ๆ สำหรับบุคคลใดบุคคลหนึ่ง

ตอนนี้ฉันได้กำหนดค่าประมาณของเราแล้ว - สิ่งที่เรากำลังพยายามประเมิน - ฉันจะหันไปหาวิธีที่เราสามารถประมาณค่าได้ด้วยข้อมูล ฉันชอบที่จะคิดเกี่ยวกับความท้าทายการประมาณนี้เป็นปัญหาการสุ่มตัวอย่าง (คิดย้อนกลับไปในบันทึกทางคณิตศาสตร์ในบทที่ 3) ลองจินตนาการว่าเราสุ่มเลือกคนบางคนที่จะสังเกตในสภาพการรักษาและเราสุ่มเลือกคนบางคนที่จะสังเกตในสภาพควบคุมแล้วเราสามารถประมาณการผลเฉลี่ยในแต่ละเงื่อนไข:

^ATE=1Nti:Wi=1Yi(1)average edits, treatment1Nci:Wi=0Yi(0)average edits, control(4.4)

ที่ Nt และ Nc คือจำนวนคนในเงื่อนไขการรักษาและการควบคุม สมการ 4.4 เป็นตัวประมาณค่าความแตกต่างของค่า เนื่องจากการออกแบบการสุ่มตัวอย่างเราจึงรู้ว่าคำที่หนึ่งเป็นตัวประมาณที่เป็นกลางสำหรับผลลัพธ์เฉลี่ยที่อยู่ภายใต้การรักษาและคำที่สองเป็นตัวประมาณที่เป็นกลางภายใต้การควบคุม

อีกวิธีหนึ่งในการพิจารณาว่าการสุ่มตัวอย่างแบบใดช่วยให้มั่นใจได้ว่าการเปรียบเทียบระหว่างกลุ่มควบคุมและกลุ่มควบคุมมีความยุติธรรมเนื่องจากการสุ่มตัวอย่างทำให้มั่นใจได้ว่าทั้งสองกลุ่มจะคล้ายกัน ความคล้ายคลึงนี้มีไว้สำหรับสิ่งที่เราได้วัด (กล่าวคือจำนวนการแก้ไขใน 30 วันก่อนการทดสอบ) และสิ่งที่เราไม่ได้วัด (เช่นเพศ) ความสามารถในการให้มีความสมดุลทั้งปัจจัยสังเกตและสังเกตเป็นสิ่งสำคัญ หากต้องการดูประสิทธิภาพของการปรับสมดุลอัตโนมัติกับปัจจัยที่ไม่ได้รับการสังเกตลองจินตนาการว่าการวิจัยในอนาคตพบว่าผู้ชายมีการตอบสนองต่อรางวัลมากกว่าผู้หญิง อาจเป็นโมฆะผลการทดลองของ Restivo และ van de Rijt หรือไม่? ไม่โดยการสุ่มตัวอย่างพวกเขามั่นใจว่าทุกคนที่ไม่ได้สังเกตเห็นจะสมดุลในความคาดหวัง การป้องกันที่ไม่รู้จักมีประสิทธิภาพมากและเป็นวิธีที่สำคัญที่การทดลองแตกต่างจากเทคนิคที่ไม่ใช่การทดลองที่อธิบายไว้ในบทที่ 2

นอกเหนือจากการกำหนดผลการรักษาสำหรับประชากรทั้งหมดแล้วยังมีความเป็นไปได้ในการกำหนดผลการรักษาสำหรับเซตย่อยของคน โดยปกติจะเรียกว่า ผลการรักษาโดยเฉลี่ยตามเงื่อนไข (CATE) ตัวอย่างเช่นในการศึกษาโดย Restivo และ van de Rijt ลองจินตนาการว่า Xi คือว่าตัวแก้ไขอยู่เหนือหรือต่ำกว่าค่าเฉลี่ยในการแก้ไขในช่วง 90 วันก่อนการทดสอบ หนึ่งสามารถคำนวณผลการรักษาแยกต่างหากสำหรับบรรณาธิการเบาและหนักเหล่านี้

กรอบผลลัพธ์ที่เป็นไปได้คือวิธีที่มีประสิทธิภาพในการคิดเกี่ยวกับการอนุมานและการทดลองเชิงสาเหตุ อย่างไรก็ตามมีความซับซ้อนอีกสองประการที่คุณควรคำนึงถึง ความซับซ้อนทั้งสองนี้มักถูกรวมเข้าด้วยกันภายใต้เงื่อนไข Stable Unit Treatment Value Assumption (SUTVA) ส่วนแรกของ SUTVA คือข้อสันนิษฐานว่าสิ่งเดียวที่สำคัญสำหรับผลของบุคคลคือ i ว่าบุคคลนั้นอยู่ในสภาพการรักษาหรือการควบคุม กล่าวอีกนัยหนึ่งสันนิษฐานว่าบุคคล i ไม่ได้รับผลกระทบจากการรักษาที่ให้กับคนอื่น บางครั้งเรียกว่า "ไม่มีการแทรกแซง" หรือ "ไม่มีการขยาย" และสามารถเขียนเป็น:

Yi(Wi,Wi)=Yi(Wi)Wi(4.5)

ที่ไหน Wi เป็นเวกเตอร์ของสถานะการรักษาสำหรับทุกคนยกเว้น i วิธีหนึ่งที่จะถูกละเมิดนี้ก็คือถ้าการรักษาจากคนหนึ่งคนหนึ่งรั่วไหลไปยังบุคคลอื่นไม่ว่าจะในทางบวกหรือทางลบ กลับไปที่การทดลองของ Restivo และ van de Rijt ลองนึกถึงเพื่อนสองคน i และ j และบุคคลนั้น i ได้รับ barnstar และ j ไม่ได้ ถ้า i ได้รับ barnstar ทำให้ j แก้ไขเพิ่มเติม (จากความรู้สึกของการแข่งขัน) หรือแก้ไขน้อย (หมดหวังหมด) จากนั้น SUTVA ถูกละเมิด นอกจากนี้ยังสามารถละเมิดหากผลกระทบของการรักษาขึ้นอยู่กับจำนวนรวมของคนอื่น ๆ ที่ได้รับการรักษา ตัวอย่างเช่นถ้า Restivo และ van de Rijt ให้ 1,000 หรือ 10,000 barnstars แทน 100 อาจส่งผลต่อการรับ barnstar

ปัญหาที่สองเข้าสู่ SUTVA คือข้อสันนิษฐานว่าการรักษาที่เกี่ยวข้องเท่านั้นเป็นสิ่งที่นักวิจัยให้ สมมติฐานนี้บางครั้งเรียกว่า ไม่มีการรักษาที่ซ่อนอยู่ หรือ excludibility ตัวอย่างเช่นใน Restivo และ van de Rijt อาจเป็นไปได้ว่าการให้นักวิจัยค้นพบว่าบรรณาธิการจะให้ความสำคัญกับหน้าบรรณาธิการที่ได้รับความนิยมและได้รับความนิยมในหน้าบรรณาธิการที่ได้รับความนิยมแทนที่จะได้รับรางวัล barnstar- ที่ทำให้เกิดการเปลี่ยนแปลงในการแก้ไขพฤติกรรม หากเป็นเช่นนั้นผลของ barnstar ไม่สามารถแยกความแตกต่างจากผลของการปรากฏบนหน้าบรรณาธิการยอดนิยม แน่นอนว่ายังไม่เป็นที่ชัดเจนว่าจากมุมมองทางวิทยาศาสตร์เรื่องนี้ควรพิจารณาว่าน่าสนใจหรือไม่สวย นั่นคือคุณอาจจินตนาการว่านักวิจัยบอกว่าผลของการได้รับ barnstar รวมถึงการรักษาตามมาทั้งหมดที่ barnstar เรียก หรือคุณอาจจินตนาการถึงสถานการณ์ที่การวิจัยต้องการแยกผลของ barnstars ออกจากสิ่งอื่น ๆ ทั้งหมด วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ก็คือการถามว่ามีอะไรที่นำไปสู่สิ่งที่ Gerber and Green (2012) (หน้า 41) เรียกว่า "การวิเคราะห์ความสมมาตร" หรือไม่? กล่าวอีกนัยหนึ่งคือมีอะไรอื่นนอกจากการรักษาที่ทำให้คนในเงื่อนไขการรักษาและควบคุมได้รับการปฏิบัติที่แตกต่างกันหรือไม่? ความกังวลเกี่ยวกับการทำลายสมมุติฐานเป็นสิ่งที่นำไปสู่ผู้ป่วยในกลุ่มควบคุมในการทดลองทางการแพทย์เพื่อรับประทานยาหลอก ด้วยวิธีนี้นักวิจัยสามารถมั่นใจได้ว่าข้อแตกต่างระหว่างสองเงื่อนไขคือยาจริงและไม่ใช่ประสบการณ์ในการรับประทานยา

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ SUTVA โปรดดูหัวข้อ 2.7 ของ Gerber and Green (2012) ส่วน 2.5 ของ Morgan and Winship (2014) และหัวข้อ Imbens and Rubin (2015) หัวข้อที่ 1.6

ความแม่นยำ

ในส่วนก่อนหน้าฉันได้อธิบายวิธีประเมินผลการรักษาโดยเฉลี่ย ในส่วนนี้ฉันจะให้ข้อมูลเกี่ยวกับความแปรปรวนของค่าประมาณเหล่านี้

ถ้าคุณคิดเกี่ยวกับการประเมินผลการรักษาโดยเฉลี่ยในการประมาณความแตกต่างระหว่างสองวิธีตัวอย่างนั้นเป็นไปได้ที่จะแสดงให้เห็นว่าข้อผิดพลาดมาตรฐานของผลการรักษาโดยเฉลี่ยคือ:

SE(^ATE)=1N1(mVar(Yi(0))Nm+(Nm)Var(Yi(1))m+2Cov(Yi(0),Yi(1)))(4.6)

ที่ m คนที่ได้รับมอบหมายให้รักษาและ Nm เพื่อควบคุม (ดู Gerber and Green (2012) , eq. 3.4) ดังนั้นเมื่อคิดถึงจำนวนผู้ที่จะได้รับการรักษาและจำนวนที่จะกำหนดให้ควบคุมคุณจะเห็นได้ว่าถ้า Var(Yi(0))Var(Yi(1)) แล้วคุณต้องการ mN/2 ตราบเท่าที่ค่าใช้จ่ายในการรักษาและควบคุมเหมือนกัน สมการ 4.6 ชี้แจงว่าเหตุใดการออกแบบการทดสอบของ Bond และเพื่อนร่วมงาน (2012) เกี่ยวกับผลกระทบของข้อมูลทางสังคมในการโหวต (รูปที่ 4.18) ไม่มีประสิทธิภาพทางสถิติ จำได้ว่ามีผู้เข้าร่วมการรักษา 98% ซึ่งหมายความว่าพฤติกรรมเฉลี่ยในสภาวะการควบคุมไม่ได้ประมาณอย่างถูกต้องเท่าที่จะเป็นได้ซึ่งหมายความว่าความแตกต่างโดยประมาณระหว่างสภาพการรักษาและการควบคุมไม่ได้ถูกประมาณอย่างถูกต้องเท่าที่จะเป็นไปได้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการจัดสรรผู้เข้าร่วมให้เหมาะสมกับเงื่อนไขรวมถึงค่าใช้จ่ายที่แตกต่างกันระหว่างเงื่อนไขโปรดดูที่ List, Sadoff, and Wagner (2011)

สุดท้ายในข้อความหลักฉันอธิบายว่าเครื่องประเมินค่าความแตกต่างในความแตกต่างซึ่งมักใช้ในการออกแบบผสมกันสามารถนำไปสู่ความแปรปรวนน้อยกว่าการประมาณค่าความแตกต่างระหว่างค่าซึ่งมักใช้ในระหว่างวิชา ออกแบบ. ถ้า Xi เป็นค่าของผลลัพธ์ก่อนการรักษาปริมาณที่เรากำลังพยายามประเมินด้วยวิธีแตกต่างกันคือ:

ATE=1NNi=1((Yi(1)Xi)(Yi(0)Xi))(4.7)

ข้อผิดพลาดมาตรฐานของปริมาณนั้นคือ (ดู Gerber and Green (2012) , eq. 4.4)

SE(^ATE)=1N1(Var(Yi(0)Xi)+Var(Yi(1)Xi)+2Cov(Yi(0)Xi,Yi(1)Xi))(4.8)

การเปรียบเทียบสมการ 4.6 และ eq. 4.8 แสดงให้เห็นว่าวิธีการที่แตกต่างกันในความแตกต่างจะมีข้อผิดพลาดมาตรฐานที่เล็กลงเมื่อ (ดู Gerber and Green (2012) , eq. 4.6)

Cov(Yi(0),Xi)Var(Xi)+Cov(Yi(1),Xi)Var(Xi)>1(4.9)

ประมาณเมื่อ Xi เป็นคำทำนายของ Yi(1) และ Yi(0) แล้วคุณจะได้รับการประเมินที่แม่นยำมากขึ้นจากวิธีการแตกต่างของความแตกต่างมากกว่าจากความแตกต่าง - ของหนึ่งหมายถึง วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ในบริบทของการทดลองของ Restivo และ van de Rijt ก็คือมีการเปลี่ยนแปลงตามธรรมชาติจำนวนมากที่ผู้คนทำการแก้ไขดังนั้นจึงทำให้การเปรียบเทียบเงื่อนไขการรักษาและการควบคุมยาก: เป็นการยากที่จะตรวจจับญาติ ผลเล็ก ๆ น้อย ๆ ในข้อมูลผลลัพธ์ที่มีเสียงดัง แต่ถ้าคุณแตกต่างจากความผันแปรที่เกิดขึ้นตามธรรมชาตินี้จะมีความผันแปรน้อยและทำให้ง่ายต่อการตรวจจับผลเล็ก ๆ น้อย ๆ

ดู Frison and Pocock (1992) เพื่อเปรียบเทียบความแตกต่างของความแตกต่างของความแตกต่างของความแตกต่างและวิธี ANCOVA ในการตั้งค่าทั่วไปที่มีการวัดหลายวิธีก่อนการรักษาและหลังการรักษา โดยเฉพาะอย่างยิ่งพวกเขาขอแนะนำ ANCOVA ซึ่งฉันไม่ได้กล่าวถึงที่นี่ นอกจากนี้ดู McKenzie (2012) สำหรับการอภิปรายเกี่ยวกับความสำคัญของมาตรการหลังการรักษาหลาย