บันทึกทางคณิตศาสตร์

ฉันคิดว่าวิธีที่ดีที่สุดในการทำความเข้าใจการทดลองคือกรอบ ผลลัพธ์ที่เป็นไปได้ (ซึ่งฉันได้กล่าวถึงในบันทึกทางคณิตศาสตร์ในบทที่ 2) กรอบผลลัพธ์ที่เป็นไปได้มีความสัมพันธ์ใกล้ชิดกับแนวคิดจากการสุ่มตัวอย่างจากการออกแบบตามที่อธิบายไว้ในบทที่ 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) ภาคผนวกนี้ได้รับการเขียนในลักษณะที่จะเน้นการเชื่อมต่อที่ การเน้นนี้ไม่ใช่แบบดั้งเดิม แต่ผมคิดว่าการเชื่อมต่อระหว่างการสุ่มตัวอย่างและการทดลองจะเป็นประโยชน์: นั่นหมายความว่าถ้าคุณรู้อะไรเกี่ยวกับการสุ่มตัวอย่างคุณก็รู้บางอย่างเกี่ยวกับการทดลองและในทางกลับกัน ที่ฉันจะแสดงในบันทึกย่อเหล่านี้กรอบผลลัพธ์ที่เป็นไปได้แสดงให้เห็นถึงความแรงของการทดลองแบบควบคุมแบบสุ่มสำหรับการประเมินผลกระทบเชิงสาเหตุและแสดงข้อ จำกัด ของสิ่งที่สามารถทำได้ด้วยการทดลองที่รันได้อย่างสมบูรณ์

ในภาคผนวกนี้ฉันจะอธิบายโครงร่างผลลัพธ์ที่เป็นไปได้ในการทำซ้ำเนื้อหาบางส่วนจากบันทึกทางคณิตศาสตร์ในบทที่ 2 เพื่อให้โน้ตเหล่านี้มีข้อมูลในตัว จากนั้นผมจะอธิบายถึงผลที่เป็นประโยชน์บางประการเกี่ยวกับความแม่นยำของการประมาณการผลการรักษาโดยรวมรวมทั้งการอภิปรายเกี่ยวกับการจัดสรรที่เหมาะสมและการประเมินความแตกต่างในความแตกต่าง ภาคผนวกนี้วาดขึ้นอย่างมากเกี่ยวกับ Gerber and Green (2012)

กรอบผลลัพธ์ที่เป็นไปได้

เพื่อเป็นการแสดงให้เห็นถึงกรอบผลลัพธ์ที่เป็นไปได้ให้กลับไปที่การทดลองของ Restivo และ van de Rijt เพื่อประมาณผลของการได้รับ barnstar ต่อการมีส่วนร่วมในอนาคตต่อวิกิพีเดีย กรอบผลลัพธ์ที่เป็นไปได้มีสามองค์ประกอบหลัก ได้แก่ หน่วย การรักษา และ ผลลัพธ์ที่อาจเกิดขึ้น ในกรณีของ Restivo และ van de Rijt หน่วยงาน เหล่านี้สมควรได้รับบรรณาธิการ - ผู้ที่อยู่ในอันดับ 1% ของผู้ร่วมสมทบซึ่งยังไม่ได้รับ barnstar เราสามารถจัดทำดัชนีบรรณาธิการเหล่านี้ได้โดย \(i = 1 \ldots N\) การ รักษา ในการทดลองของพวกเขาคือ "barnstar" หรือ "no barnstar" และฉันจะเขียน \(W_i = 1\) หากบุคคล \(i\) อยู่ในสภาพบำบัดและ \(W_i = 0\) มิฉะนั้น องค์ประกอบที่สามของกรอบผลลัพธ์ที่เป็นไปได้คือสิ่งที่สำคัญที่สุด: ผลลัพธ์ที่อาจเกิดขึ้น สิ่งเหล่านี้ยากมากที่จะเป็นแนวความคิดเนื่องจากเกี่ยวข้องกับผลลัพธ์ "ศักยภาพ" ซึ่งอาจเกิดขึ้นได้ สำหรับวิกิพีเดียแต่ละตัวบรรณาธิการสามารถคิดจำนวนการแก้ไขที่เธอจะทำในสภาพบำบัด ( \(Y_i(1)\) ) และหมายเลขที่เธอจะทำในเงื่อนไขการควบคุม ( \(Y_i(0)\) )

โปรดทราบว่าทางเลือกของหน่วยการรักษาและผลลัพธ์นี้จะกำหนดสิ่งที่สามารถเรียนรู้ได้จากการทดลองนี้ ตัวอย่างเช่นไม่มีข้อสันนิษฐานใด ๆ เพิ่มเติม Restivo and van de Rijt ไม่สามารถพูดอะไรเกี่ยวกับผลกระทบของ barnstars กับบรรณาธิการวิกิพีเดียทุกคนหรือเกี่ยวกับผลลัพธ์เช่นแก้ไขคุณภาพ โดยทั่วไปแล้วการเลือกหน่วยการรักษาและผลลัพธ์ต้องขึ้นอยู่กับเป้าหมายของการศึกษา

ผลสรุปที่ได้จากตารางที่ 4.5 - สามารถกำหนดผลกระทบเชิงสาเหตุของการรักษาคน \(i\) เป็น

\[ \tau_i = Y_i(1) - Y_i(0) \qquad(4.1)\]

สมการนี้เป็นวิธีที่ชัดเจนที่สุดในการกำหนดผลกระทบเชิงสาเหตุและถึงแม้จะเป็นเรื่องง่ายก็ตามกรอบนี้จะแสดงออกในหลายรูปแบบที่น่าสนใจและน่าสนใจ (Imbens and Rubin 2015)

ตารางที่ 4.5: ตารางแสดงผลที่อาจเกิดขึ้น
คน การแก้ไขในสภาพการรักษา การแก้ไขในสภาวะการควบคุม ผลการรักษา
1 \(Y_1(1)\) \(Y_1(0)\) \(\tau_1\)
2 \(Y_2(1)\) \(Y_2(0)\) \(\tau_2\)
\(\vdots\) \(\vdots\) \(\vdots\) \(\vdots\)
ยังไม่มีข้อความ \(Y_N(1)\) \(Y_N(0)\) \(\tau_N\)
หมายความ \(\bar{Y}(1)\) \(\bar{Y}(0)\) \(\bar{\tau}\)

ถ้าเรากำหนด causality ในลักษณะนี้ แต่เราพบปัญหา ในเกือบทุกกรณีเราไม่ได้สังเกตเห็นผลที่อาจเกิดขึ้นทั้งสอง นั่นคือบรรณาธิการวิกิพีเดียที่เฉพาะเจาะจงได้รับ barnstar หรือไม่ ดังนั้นเราจึงสังเกตเห็นหนึ่งในผลที่อาจเกิดขึ้น - \(Y_i(1)\) หรือ \(Y_i(0)\) ไม่ใช่ทั้งสองอย่าง ไม่สามารถที่จะสังเกตเห็นผลลัพธ์ที่เป็นไปได้ทั้งสองอย่างนี้เป็นปัญหาสำคัญที่ Holland (1986) เรียกว่า ปัญหาพื้นฐานของการอนุมานสาเหตุ

โชคดีที่เมื่อเรากำลังทำวิจัยเราไม่ได้มีแค่หนึ่งคนเรามีคนจำนวนมากและนี่เป็นวิธีแก้ปัญหาพื้นฐานของการอนุมานสาเหตุ แทนที่จะพยายามประมาณผลการรักษาแต่ละระดับเราสามารถประมาณผลการรักษาโดยเฉลี่ยได้:

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)\]

นี่ยังคงแสดงออกมาในแง่ของ \(\tau_i\) ซึ่งไม่สามารถสังเกตได้ แต่ด้วยพีชคณิตบางส่วน (Eq 2.8 ของ Gerber and Green (2012) ) เราได้รับ

\[ \text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)\]

สมการ 4.3 แสดงให้เห็นว่าถ้าเราสามารถประมาณการประชากรผลเฉลี่ยอยู่ภายใต้การรักษา ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) และประชากรผลเฉลี่ยภายใต้การควบคุม ( \(N^{-1} \sum_{i=1}^N Y_i(1)\) ) จากนั้นเราสามารถประมาณผลการรักษาโดยเฉลี่ยได้โดยไม่ต้องประมาณผลการรักษาใด ๆ สำหรับบุคคลใดบุคคลหนึ่ง

ตอนนี้ฉันได้กำหนดค่าประมาณของเราแล้ว - สิ่งที่เรากำลังพยายามประเมิน - ฉันจะหันไปหาวิธีที่เราสามารถประมาณค่าได้ด้วยข้อมูล ฉันชอบที่จะคิดเกี่ยวกับความท้าทายการประมาณนี้เป็นปัญหาการสุ่มตัวอย่าง (คิดย้อนกลับไปในบันทึกทางคณิตศาสตร์ในบทที่ 3) ลองจินตนาการว่าเราสุ่มเลือกคนบางคนที่จะสังเกตในสภาพการรักษาและเราสุ่มเลือกคนบางคนที่จะสังเกตในสภาพควบคุมแล้วเราสามารถประมาณการผลเฉลี่ยในแต่ละเงื่อนไข:

\[ \widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)\]

ที่ \(N_t\) และ \(N_c\) คือจำนวนคนในเงื่อนไขการรักษาและการควบคุม สมการ 4.4 เป็นตัวประมาณค่าความแตกต่างของค่า เนื่องจากการออกแบบการสุ่มตัวอย่างเราจึงรู้ว่าคำที่หนึ่งเป็นตัวประมาณที่เป็นกลางสำหรับผลลัพธ์เฉลี่ยที่อยู่ภายใต้การรักษาและคำที่สองเป็นตัวประมาณที่เป็นกลางภายใต้การควบคุม

อีกวิธีหนึ่งในการพิจารณาว่าการสุ่มตัวอย่างแบบใดช่วยให้มั่นใจได้ว่าการเปรียบเทียบระหว่างกลุ่มควบคุมและกลุ่มควบคุมมีความยุติธรรมเนื่องจากการสุ่มตัวอย่างทำให้มั่นใจได้ว่าทั้งสองกลุ่มจะคล้ายกัน ความคล้ายคลึงนี้มีไว้สำหรับสิ่งที่เราได้วัด (กล่าวคือจำนวนการแก้ไขใน 30 วันก่อนการทดสอบ) และสิ่งที่เราไม่ได้วัด (เช่นเพศ) ความสามารถในการให้มีความสมดุลทั้งปัจจัยสังเกตและสังเกตเป็นสิ่งสำคัญ หากต้องการดูประสิทธิภาพของการปรับสมดุลอัตโนมัติกับปัจจัยที่ไม่ได้รับการสังเกตลองจินตนาการว่าการวิจัยในอนาคตพบว่าผู้ชายมีการตอบสนองต่อรางวัลมากกว่าผู้หญิง อาจเป็นโมฆะผลการทดลองของ Restivo และ van de Rijt หรือไม่? ไม่โดยการสุ่มตัวอย่างพวกเขามั่นใจว่าทุกคนที่ไม่ได้สังเกตเห็นจะสมดุลในความคาดหวัง การป้องกันที่ไม่รู้จักมีประสิทธิภาพมากและเป็นวิธีที่สำคัญที่การทดลองแตกต่างจากเทคนิคที่ไม่ใช่การทดลองที่อธิบายไว้ในบทที่ 2

นอกเหนือจากการกำหนดผลการรักษาสำหรับประชากรทั้งหมดแล้วยังมีความเป็นไปได้ในการกำหนดผลการรักษาสำหรับเซตย่อยของคน โดยปกติจะเรียกว่า ผลการรักษาโดยเฉลี่ยตามเงื่อนไข (CATE) ตัวอย่างเช่นในการศึกษาโดย Restivo และ van de Rijt ลองจินตนาการว่า \(X_i\) คือว่าตัวแก้ไขอยู่เหนือหรือต่ำกว่าค่าเฉลี่ยในการแก้ไขในช่วง 90 วันก่อนการทดสอบ หนึ่งสามารถคำนวณผลการรักษาแยกต่างหากสำหรับบรรณาธิการเบาและหนักเหล่านี้

กรอบผลลัพธ์ที่เป็นไปได้คือวิธีที่มีประสิทธิภาพในการคิดเกี่ยวกับการอนุมานและการทดลองเชิงสาเหตุ อย่างไรก็ตามมีความซับซ้อนอีกสองประการที่คุณควรคำนึงถึง ความซับซ้อนทั้งสองนี้มักถูกรวมเข้าด้วยกันภายใต้เงื่อนไข Stable Unit Treatment Value Assumption (SUTVA) ส่วนแรกของ SUTVA คือข้อสันนิษฐานว่าสิ่งเดียวที่สำคัญสำหรับผลของบุคคลคือ \(i\) ว่าบุคคลนั้นอยู่ในสภาพการรักษาหรือการควบคุม กล่าวอีกนัยหนึ่งสันนิษฐานว่าบุคคล \(i\) ไม่ได้รับผลกระทบจากการรักษาที่ให้กับคนอื่น บางครั้งเรียกว่า "ไม่มีการแทรกแซง" หรือ "ไม่มีการขยาย" และสามารถเขียนเป็น:

\[ Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)\]

ที่ไหน \(\mathbf{W_{-i}}\) เป็นเวกเตอร์ของสถานะการรักษาสำหรับทุกคนยกเว้น \(i\) วิธีหนึ่งที่จะถูกละเมิดนี้ก็คือถ้าการรักษาจากคนหนึ่งคนหนึ่งรั่วไหลไปยังบุคคลอื่นไม่ว่าจะในทางบวกหรือทางลบ กลับไปที่การทดลองของ Restivo และ van de Rijt ลองนึกถึงเพื่อนสองคน \(i\) และ \(j\) และบุคคลนั้น \(i\) ได้รับ barnstar และ \(j\) ไม่ได้ ถ้า \(i\) ได้รับ barnstar ทำให้ \(j\) แก้ไขเพิ่มเติม (จากความรู้สึกของการแข่งขัน) หรือแก้ไขน้อย (หมดหวังหมด) จากนั้น SUTVA ถูกละเมิด นอกจากนี้ยังสามารถละเมิดหากผลกระทบของการรักษาขึ้นอยู่กับจำนวนรวมของคนอื่น ๆ ที่ได้รับการรักษา ตัวอย่างเช่นถ้า Restivo และ van de Rijt ให้ 1,000 หรือ 10,000 barnstars แทน 100 อาจส่งผลต่อการรับ barnstar

ปัญหาที่สองเข้าสู่ SUTVA คือข้อสันนิษฐานว่าการรักษาที่เกี่ยวข้องเท่านั้นเป็นสิ่งที่นักวิจัยให้ สมมติฐานนี้บางครั้งเรียกว่า ไม่มีการรักษาที่ซ่อนอยู่ หรือ excludibility ตัวอย่างเช่นใน Restivo และ van de Rijt อาจเป็นไปได้ว่าการให้นักวิจัยค้นพบว่าบรรณาธิการจะให้ความสำคัญกับหน้าบรรณาธิการที่ได้รับความนิยมและได้รับความนิยมในหน้าบรรณาธิการที่ได้รับความนิยมแทนที่จะได้รับรางวัล barnstar- ที่ทำให้เกิดการเปลี่ยนแปลงในการแก้ไขพฤติกรรม หากเป็นเช่นนั้นผลของ barnstar ไม่สามารถแยกความแตกต่างจากผลของการปรากฏบนหน้าบรรณาธิการยอดนิยม แน่นอนว่ายังไม่เป็นที่ชัดเจนว่าจากมุมมองทางวิทยาศาสตร์เรื่องนี้ควรพิจารณาว่าน่าสนใจหรือไม่สวย นั่นคือคุณอาจจินตนาการว่านักวิจัยบอกว่าผลของการได้รับ barnstar รวมถึงการรักษาตามมาทั้งหมดที่ barnstar เรียก หรือคุณอาจจินตนาการถึงสถานการณ์ที่การวิจัยต้องการแยกผลของ barnstars ออกจากสิ่งอื่น ๆ ทั้งหมด วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ก็คือการถามว่ามีอะไรที่นำไปสู่สิ่งที่ Gerber and Green (2012) (หน้า 41) เรียกว่า "การวิเคราะห์ความสมมาตร" หรือไม่? กล่าวอีกนัยหนึ่งคือมีอะไรอื่นนอกจากการรักษาที่ทำให้คนในเงื่อนไขการรักษาและควบคุมได้รับการปฏิบัติที่แตกต่างกันหรือไม่? ความกังวลเกี่ยวกับการทำลายสมมุติฐานเป็นสิ่งที่นำไปสู่ผู้ป่วยในกลุ่มควบคุมในการทดลองทางการแพทย์เพื่อรับประทานยาหลอก ด้วยวิธีนี้นักวิจัยสามารถมั่นใจได้ว่าข้อแตกต่างระหว่างสองเงื่อนไขคือยาจริงและไม่ใช่ประสบการณ์ในการรับประทานยา

สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ SUTVA โปรดดูหัวข้อ 2.7 ของ Gerber and Green (2012) ส่วน 2.5 ของ Morgan and Winship (2014) และหัวข้อ Imbens and Rubin (2015) หัวข้อที่ 1.6

ความแม่นยำ

ในส่วนก่อนหน้าฉันได้อธิบายวิธีประเมินผลการรักษาโดยเฉลี่ย ในส่วนนี้ฉันจะให้ข้อมูลเกี่ยวกับความแปรปรวนของค่าประมาณเหล่านี้

ถ้าคุณคิดเกี่ยวกับการประเมินผลการรักษาโดยเฉลี่ยในการประมาณความแตกต่างระหว่างสองวิธีตัวอย่างนั้นเป็นไปได้ที่จะแสดงให้เห็นว่าข้อผิดพลาดมาตรฐานของผลการรักษาโดยเฉลี่ยคือ:

\[ SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)\]

ที่ \(m\) คนที่ได้รับมอบหมายให้รักษาและ \(Nm\) เพื่อควบคุม (ดู Gerber and Green (2012) , eq. 3.4) ดังนั้นเมื่อคิดถึงจำนวนผู้ที่จะได้รับการรักษาและจำนวนที่จะกำหนดให้ควบคุมคุณจะเห็นได้ว่าถ้า \(\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))\) แล้วคุณต้องการ \(m \approx N / 2\) ตราบเท่าที่ค่าใช้จ่ายในการรักษาและควบคุมเหมือนกัน สมการ 4.6 ชี้แจงว่าเหตุใดการออกแบบการทดสอบของ Bond และเพื่อนร่วมงาน (2012) เกี่ยวกับผลกระทบของข้อมูลทางสังคมในการโหวต (รูปที่ 4.18) ไม่มีประสิทธิภาพทางสถิติ จำได้ว่ามีผู้เข้าร่วมการรักษา 98% ซึ่งหมายความว่าพฤติกรรมเฉลี่ยในสภาวะการควบคุมไม่ได้ประมาณอย่างถูกต้องเท่าที่จะเป็นได้ซึ่งหมายความว่าความแตกต่างโดยประมาณระหว่างสภาพการรักษาและการควบคุมไม่ได้ถูกประมาณอย่างถูกต้องเท่าที่จะเป็นไปได้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการจัดสรรผู้เข้าร่วมให้เหมาะสมกับเงื่อนไขรวมถึงค่าใช้จ่ายที่แตกต่างกันระหว่างเงื่อนไขโปรดดูที่ List, Sadoff, and Wagner (2011)

สุดท้ายในข้อความหลักฉันอธิบายว่าเครื่องประเมินค่าความแตกต่างในความแตกต่างซึ่งมักใช้ในการออกแบบผสมกันสามารถนำไปสู่ความแปรปรวนน้อยกว่าการประมาณค่าความแตกต่างระหว่างค่าซึ่งมักใช้ในระหว่างวิชา ออกแบบ. ถ้า \(X_i\) เป็นค่าของผลลัพธ์ก่อนการรักษาปริมาณที่เรากำลังพยายามประเมินด้วยวิธีแตกต่างกันคือ:

\[ \text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)\]

ข้อผิดพลาดมาตรฐานของปริมาณนั้นคือ (ดู Gerber and Green (2012) , eq. 4.4)

\[ SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)\]

การเปรียบเทียบสมการ 4.6 และ eq. 4.8 แสดงให้เห็นว่าวิธีการที่แตกต่างกันในความแตกต่างจะมีข้อผิดพลาดมาตรฐานที่เล็กลงเมื่อ (ดู Gerber and Green (2012) , eq. 4.6)

\[ \frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)\]

ประมาณเมื่อ \(X_i\) เป็นคำทำนายของ \(Y_i(1)\) และ \(Y_i(0)\) แล้วคุณจะได้รับการประเมินที่แม่นยำมากขึ้นจากวิธีการแตกต่างของความแตกต่างมากกว่าจากความแตกต่าง - ของหนึ่งหมายถึง วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ในบริบทของการทดลองของ Restivo และ van de Rijt ก็คือมีการเปลี่ยนแปลงตามธรรมชาติจำนวนมากที่ผู้คนทำการแก้ไขดังนั้นจึงทำให้การเปรียบเทียบเงื่อนไขการรักษาและการควบคุมยาก: เป็นการยากที่จะตรวจจับญาติ ผลเล็ก ๆ น้อย ๆ ในข้อมูลผลลัพธ์ที่มีเสียงดัง แต่ถ้าคุณแตกต่างจากความผันแปรที่เกิดขึ้นตามธรรมชาตินี้จะมีความผันแปรน้อยและทำให้ง่ายต่อการตรวจจับผลเล็ก ๆ น้อย ๆ

ดู Frison and Pocock (1992) เพื่อเปรียบเทียบความแตกต่างของความแตกต่างของความแตกต่างของความแตกต่างและวิธี ANCOVA ในการตั้งค่าทั่วไปที่มีการวัดหลายวิธีก่อนการรักษาและหลังการรักษา โดยเฉพาะอย่างยิ่งพวกเขาขอแนะนำ ANCOVA ซึ่งฉันไม่ได้กล่าวถึงที่นี่ นอกจากนี้ดู McKenzie (2012) สำหรับการอภิปรายเกี่ยวกับความสำคัญของมาตรการหลังการรักษาหลาย