ບັນທຶກຄະນິດສາດ

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

ບັນທຶກຄະນິດສາດ

ຂ້າພະເຈົ້າຄິດວ່າວິທີທີ່ດີທີ່ສຸດທີ່ຈະເຂົ້າໃຈປະສົບການແມ່ນຂອບໃຈ ທີ່ໄດ້ຮັບຜົນປະໂຫຍດ (ເຊິ່ງຂ້ອຍໄດ້ສົນທະນາໃນບັນທຶກຄະນິດສາດໃນພາກທີ 2). ຂອບເຂດຜົນຜະລິດທີ່ມີທ່າແຮງມີຄວາມສໍາພັນໃກ້ຊິດກັບແນວຄວາມຄິດຈາກການຄິດໄລ່ແບບການອອກແບບທີ່ຂ້ອຍໄດ້ອະທິບາຍຢູ່ໃນພາກທີ 3 (Aronow and Middleton 2013; Imbens and Rubin 2015, chap. 6) . ເອກະສານນີ້ໄດ້ຖືກຂຽນໄວ້ໃນລັກສະນະດັ່ງກ່າວເພື່ອເນັ້ນຫນັກໃສ່ການເຊື່ອມຕໍ່ນັ້ນ. ການເນັ້ນຫນັກໃສ່ຄວາມຫມາຍນີ້ແມ່ນບໍ່ແມ່ນແບບດັ້ງເດີມ, ແຕ່ຂ້ອຍຄິດວ່າການເຊື່ອມຕໍ່ລະຫວ່າງຕົວຢ່າງແລະການທົດລອງແມ່ນເປັນປະໂຫຍດ: ມັນຫມາຍຄວາມວ່າຖ້າທ່ານຮູ້ບາງຢ່າງກ່ຽວກັບຕົວຢ່າງແລ້ວທ່ານຮູ້ບາງສິ່ງບາງຢ່າງກ່ຽວກັບການທົດລອງແລະໃນທາງກັບກັນ. ໃນຂະນະທີ່ຂ້ອຍຈະສະແດງໃຫ້ເຫັນໃນຂໍ້ສັງເກດເຫລົ່ານີ້ຂອບເຂດຜົນສະທ້ອນອາດສະແດງໃຫ້ເຫັນເຖິງຄວາມເຂັ້ມແຂງຂອງການທົດລອງຄວບຄຸມແບບສຸ່ມທີ່ສໍາລັບການຄາດຄະເນຜົນກະທົບທາງດ້ານຜົນກະທົບແລະມັນສະແດງໃຫ້ເຫັນເຖິງຄວາມຈໍາກັດຂອງສິ່ງທີ່ສາມາດເຮັດໄດ້ດ້ວຍການທົດລອງປະຕິບັດຢ່າງສົມບູນ.

ໃນເອກະສານຊ້ອນນີ້, ຂ້ອຍຈະອະທິບາຍກອບຜົນລັບທີ່ອາດເກີດຂື້ນ, ຊ້ໍາບາງເອກະສານຈາກບັນທຶກຄະນິດສາດໃນພາກທີ 2 ເພື່ອເຮັດໃຫ້ບັນທຶກເຫລົ່ານີ້ມີຫຼາຍຕົນເອງ. ຫຼັງຈາກນັ້ນ, ຂ້າພະເຈົ້າຈະອະທິບາຍຜົນໄດ້ຮັບປະໂຫຍດບາງຢ່າງກ່ຽວກັບຄວາມຖືກຕ້ອງຂອງການຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ, ລວມທັງການປຶກສາຫາລືກ່ຽວກັບການຈັດສັນທີ່ດີທີ່ສຸດແລະການຄິດໄລ່ຄວາມແຕກຕ່າງໃນຄວາມແຕກຕ່າງ. ເອກະສານຊ້ອນທ້າຍນີ້ແມ່ນມາຈາກ Gerber and Green (2012) .

ຂອບໃຈຜົນປະໂຫຍດຂອບ

ເພື່ອສະແດງໃຫ້ເຫັນຜົນກະທົບກ່ຽວກັບຂອບເຂດຜົນກະທົບທີ່ອາດເກີດຂື້ນ, ໃຫ້ກັບຄືນຫາການທົດລອງ Restivo ແລະ van de Rijt ເພື່ອປະເມີນຜົນຂອງການໄດ້ຮັບ barnstar ກ່ຽວກັບການປະກອບສ່ວນໃນອະນາຄົດກັບ Wikipedia. ຂອບເຂດຜົນຜະລິດທີ່ມີທ່າແຮງມີສາມອົງປະກອບຕົ້ນຕໍຄື: ຫນ່ວຍງານ , ການປິ່ນປົວ , ແລະ ຜົນໄດ້ຮັບທີ່ອາດເກີດຂື້ນ . ໃນກໍລະນີຂອງ Restivo ແລະ van de Rijt, ຫນ່ວຍງານ ໄດ້ຮັບລາງວັນທີ່ເຫມາະສົມ - ຜູ້ທີ່ຢູ່ໃນອັນດັບ 1% ຂອງຜູ້ປະກອບສ່ວນ - ຜູ້ທີ່ຍັງບໍ່ທັນໄດ້ຮັບ barnstar. ພວກເຮົາສາມາດ index ດັດແກ້ເຫຼົ່ານີ້ໂດຍ $i = 1 \ldots N$ . ການ ປິ່ນປົວ ໃນການທົດລອງຂອງພວກມັນແມ່ນ "barnstar" ຫຼື "no barnstar", ແລະຂ້ອຍຈະຂຽນ $W_i = 1$ ຖ້າບຸກຄົນ $i$ ຢູ່ໃນສະພາບການປິ່ນປົວແລະ $W_i = 0$ ອື່ນ. ອົງປະກອບທີສາມຂອງກອບຜົນລັບທີ່ເປັນໄປໄດ້ແມ່ນສິ່ງທີ່ສໍາຄັນທີ່ສຸດຄື ຜົນໄດ້ຮັບທີ່ອາດເກີດຂື້ນ . ເຫຼົ່ານີ້ແມ່ນມີຄວາມຫຍຸ້ງຍາກທາງແນວຄິດຫຼາຍກວ່າຍ້ອນວ່າພວກເຂົາມີຜົນກະທົບ "ທີ່ມີທ່າແຮງ" - ສິ່ງທີ່ສາມາດເກີດຂື້ນໄດ້. ສໍາລັບບັນນາທິການ Wikipedia ແຕ່ລະຄົນສາມາດຈິນຕະນາການຈໍານວນການດັດແກ້ທີ່ນາງຈະເຮັດໃນສະພາບການປິ່ນປົວ ( $Y_i(1)$ ) ແລະເລກທີ່ນາງຈະເຮັດໃນເງື່ອນໄຂຄວບຄຸມ ( $Y_i(0)$ )

ໃຫ້ສັງເກດວ່າທາງເລືອກຂອງຫນ່ວຍງານ, ການປິ່ນປົວ, ແລະຜົນໄດ້ຮັບເຫຼົ່ານີ້ກໍານົດສິ່ງທີ່ສາມາດຮຽນຮູ້ຈາກການທົດລອງນີ້. ຕົວຢ່າງເຊັ່ນໂດຍບໍ່ມີຂໍ້ສົມມຸດເພີ່ມເຕີມ, Restivo ແລະ van de Rijt ບໍ່ສາມາດເວົ້າຫຍັງກ່ຽວກັບຜົນກະທົບຂອງ barnstars ກ່ຽວກັບບັນນາທິການ Wikipedia ທັງຫມົດຫຼືຜົນໄດ້ຮັບເຊັ່ນ: ການແກ້ໄຂຄຸນນະພາບ. ໂດຍທົ່ວໄປ, ການເລືອກເອົາຫົວຫນ່ວຍ, ການປິ່ນປົວ, ແລະຜົນໄດ້ຮັບແມ່ນອີງໃສ່ເປົ້າຫມາຍຂອງການສຶກສາ.

ເນື່ອງຈາກຜົນໄດ້ຮັບເຫຼົ່ານີ້ທີ່ໄດ້ຖືກສະຫຼຸບໃນຕາຕະລາງ 4.5-ຫນຶ່ງສາມາດກໍານົດຜົນກະທົບທາງສາເຫດຂອງການປິ່ນປົວສໍາລັບບຸກຄົນທີ່ $i$ ເປັນ

$\tau_i = Y_i(1) - Y_i(0) \qquad(4.1)$

ສໍາລັບຂ້າພະເຈົ້າ, ສົມຜົນນີ້ແມ່ນວິທີທີ່ຊັດເຈນທີ່ສຸດໃນການກໍານົດຜົນກະທົບທາງດ້ານຜົນກະທົບແລະ, ເຖິງແມ່ນວ່າງ່າຍດາຍທີ່ສຸດ, ກອບນີ້ກໍ່ຈະເປັນໄປໄດ້ໂດຍທົ່ວໄປໃນຫຼາຍວິທີທີ່ສໍາຄັນແລະຫນ້າສົນໃຈ (Imbens and Rubin 2015) .

ຕາຕະລາງ 4.5: ຕາຕະລາງຜົນໄດ້ຮັບທີ່ມີທ່າແຮງ
ບຸກຄົນ	ການແກ້ໄຂໃນສະພາບການປິ່ນປົວ	ການແກ້ໄຂໃນສະພາບການຄວບຄຸມ	ຜົນກະທົບການປິ່ນປົວ
1	$Y_1(1)$	$Y_1(0)$	$\tau_1$
2	$Y_2(1)$	$Y_2(0)$	$\tau_2$
$\vdots$	$\vdots$	$\vdots$	$\vdots$
N	$Y_N(1)$	$Y_N(0)$	$\tau_N$
ຫມາຍຄວາມວ່າ	$\bar{Y}(1)$	$\bar{Y}(0)$	$\bar{\tau}$

ຖ້າພວກເຮົາກໍານົດເຫດຜົນໃນທາງນີ້, ຢ່າງໃດກໍຕາມ, ພວກເຮົາຈະແລ່ນເຂົ້າໄປໃນບັນຫາ. ໃນເກືອບທຸກໆກໍລະນີ, ພວກເຮົາບໍ່ໄດ້ສັງເກດເບິ່ງຜົນໄດ້ຮັບທັງສອງຢ່າງ. ນັ້ນແມ່ນ, ບັນນາທິການຂອງ Wikipedia ສະເພາະໃດຫນຶ່ງໄດ້ຮັບການ barnstar ຫຼືບໍ່. ດັ່ງນັ້ນ, ພວກເຮົາສັງເກດເຫັນຫນຶ່ງໃນຜົນໄດ້ຮັບທີ່ມີທ່າແຮງ - $Y_i(1)$ ຫຼື $Y_i(0)$ - ແຕ່ບໍ່ແມ່ນທັງສອງ. ການບໍ່ສາມາດສັງເກດເບິ່ງຜົນໄດ້ຮັບທັງສອງແມ່ນບັນຫາທີ່ສໍາຄັນທີ່ Holland (1986) ເອີ້ນວ່າ ບັນຫາພື້ນຖານຂອງຄວາມຮູ້ສາເຫດ .

ໂຊກດີ, ໃນເວລາທີ່ພວກເຮົາກໍາລັງດໍາເນີນການຄົ້ນຄວ້າ, ພວກເຮົາບໍ່ພຽງແຕ່ມີຄົນຫນຶ່ງ, ພວກເຮົາມີຫລາຍໆຄົນ, ແລະນີ້ສະຫນອງວິທີການປະມານບັນຫາພື້ນຖານຂອງການເປັນສາເຫດ Inference. ແທນທີ່ຈະພະຍາຍາມປະເມີນຜົນຂອງການປິ່ນປົວແຕ່ລະລະດັບ, ພວກເຮົາສາມາດຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ:

$\text{ATE} = \frac{1}{N} \sum_{i=1}^N \tau_i \qquad(4.2)$

ນີ້ແມ່ນຍັງສະແດງອອກໃນແງ່ຂອງ $\tau_i$ ຊຶ່ງບໍ່ສາມາດຄວບຄຸມໄດ້, ແຕ່ວ່າມີບາງອັນຄະລໍາ (Eq 2.8 ຂອງ Gerber and Green (2012) ) ພວກເຮົາໄດ້ຮັບ

$\text{ATE} = \frac{1}{N} \sum_{i=1}^N Y_i(1) - \frac{1}{N} \sum_{i=1}^N Y_i(0) \qquad(4.3)$

ສະມະການ 4.3 ສະແດງໃຫ້ເຫັນວ່າຖ້າພວກເຮົາສາມາດຄາດຄະເນຜົນໄດ້ຮັບໂດຍສະເລ່ຍຂອງປະຊາກອນພາຍໃຕ້ການປິ່ນປົວ ( $N^{-1} \sum_{i=1}^N Y_i(1)$ ) ແລະຜົນໄດ້ຮັບສະເລ່ຍຂອງປະຊາກອນພາຍໃຕ້ການຄວບຄຸມ ( $N^{-1} \sum_{i=1}^N Y_i(1)$ ), ຫຼັງຈາກນັ້ນ, ພວກເຮົາສາມາດປະເມີນຜົນຂອງການປິ່ນປົວໂດຍສະເລ່ຍ, ເຖິງແມ່ນວ່າບໍ່ມີການຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວສໍາລັບບຸກຄົນໃດຫນຶ່ງ.

ໃນປັດຈຸບັນທີ່ຂ້າພະເຈົ້າໄດ້ກໍານົດການຄາດຄະເນຂອງພວກເຮົາ - ສິ່ງທີ່ພວກເຮົາກໍາລັງພະຍາຍາມຄາດຄະເນ - ຂ້ອຍຈະເຮັດແນວໃດທີ່ພວກເຮົາສາມາດປະເມີນມັນດ້ວຍຂໍ້ມູນ. ຂ້າພະເຈົ້າຢາກຄິດກ່ຽວກັບສິ່ງທ້າທາຍນີ້ທີ່ເປັນບັນຫາທີ່ເປັນຕົວຢ່າງ (ຄິດວ່າກັບຄືນໄປບ່ອນຂໍ້ຄວາມຄະນິດສາດໃນພາກທີ 3). ຈິນຕະນາການວ່າພວກເຮົາໄດ້ເລືອກຄົນບາງຄົນໃຫ້ສັງເກດຢູ່ໃນສະພາບການປິ່ນປົວແລະພວກເຮົາໄດ້ເລືອກຄົນບາງຄົນໃຫ້ສັງເກດໃນສະພາບການຄວບຄຸມ, ຫຼັງຈາກນັ້ນພວກເຮົາສາມາດຄາດຄະເນຜົນໄດ້ຮັບສະເລ່ຍໃນແຕ່ລະສະພາບ:

$\widehat{\text{ATE}} = \underbrace{\frac{1}{N_t} \sum_{i:W_i=1} Y_i(1)}_{\text{average edits, treatment}} - \underbrace{\frac{1}{N_c} \sum_{i:W_i=0} Y_i(0)}_{\text{average edits, control}} \qquad(4.4)$

ບ່ອນທີ່ $N_t$ ແລະ $N_c$ ແມ່ນຈໍານວນຂອງຄົນໃນສະພາບການປິ່ນປົວແລະຄວບຄຸມ. ສະມະການ 4.4 ແມ່ນການຄິດໄລ່ຄວາມແຕກຕ່າງຂອງຄວາມຫມາຍ. ເນື່ອງຈາກການອອກແບບຕົວຢ່າງ, ພວກເຮົາຮູ້ວ່າໄລຍະທໍາອິດແມ່ນການຄາດຄະເນທີ່ບໍ່ສົມເຫດສົມຜົນສໍາລັບຜົນໄດ້ຮັບສະເລ່ຍພາຍໃຕ້ການປິ່ນປົວແລະໄລຍະທີສອງແມ່ນການຄາດຄະເນທີ່ບໍ່ສົມເຫດສົມຜົນພາຍໃຕ້ການຄວບຄຸມ.

ອີກທາງຫນຶ່ງທີ່ຈະຄິດກ່ຽວກັບການສຸ່ມຕົວຢ່າງແມ່ນເຮັດໃຫ້ແນ່ໃຈວ່າການປຽບທຽບລະຫວ່າງການປິ່ນປົວແລະກຸ່ມຄວບຄຸມແມ່ນຍຸດຕິທໍາເພາະວ່າການເຂົ້າໃຈແບບປະສົມປະສານໃຫ້ແນ່ໃຈວ່າທັງສອງກຸ່ມຈະຄ້າຍກັນ. ຄວາມຄ້າຍຄືກັນນີ້ຖືສໍາລັບສິ່ງທີ່ພວກເຮົາໄດ້ວັດແທກ (ບອກຈໍານວນການແກ້ໄຂໃນ 30 ມື້ກ່ອນການທົດລອງ) ແລະສິ່ງທີ່ພວກເຮົາບໍ່ໄດ້ວັດແທກ (ເວົ້າເພດ). ຄວາມສາມາດໃນການຮັບປະກັນຄວາມສົມດູນລະຫວ່າງປັດໃຈທີ່ ສັງເກດເຫັນ ແລະ ບໍ່ໄດ້ຮັບ ຜົນກະທົບແມ່ນສໍາຄັນ. ເພື່ອໃຫ້ເຫັນເຖິງອໍານາດຂອງການດຸ່ນດ່ຽງອັດຕະໂນມັດກ່ຽວກັບປັດໃຈທີ່ບໍ່ໄດ້ລະບຸ, ໃຫ້ຄິດວ່າການຄົ້ນຄວ້າໃນອະນາຄົດພົບເຫັນວ່າຜູ້ຊາຍມີຄວາມຕອບສະຫນອງຕໍ່ລາງວັນຫຼາຍກ່ວາແມ່ຍິງ. ຈະເຮັດໃຫ້ຜົນຂອງການທົດລອງ Restivo ແລະ van de Rijt ບໍ່ຖືກຕ້ອງບໍ? ບໍ່ໂດຍການ randomising, ພວກເຂົາເຈົ້າຮັບປະກັນວ່າ unobservables ທັງຫມົດຈະມີຄວາມສົມດູນ, ໃນຄວາມຄາດຫວັງ. ການປ້ອງກັນນີ້ຕໍ່ກັບການຮູ້ຈັກແມ່ນມີປະສິດທິພາບຫຼາຍ, ແລະມັນເປັນວິທີທີ່ສໍາຄັນທີ່ທົດລອງແຕກຕ່າງຈາກເຕັກນິກທີ່ບໍ່ມີການທົດລອງທີ່ໄດ້ອະທິບາຍໄວ້ໃນພາກທີ 2.

ນອກເຫນືອຈາກການກໍານົດຜົນກະທົບດ້ານການປິ່ນປົວສໍາລັບປະຊາກອນທັງຫມົດ, ມັນກໍ່ສາມາດກໍານົດຜົນກະທົບດ້ານການປິ່ນປົວສໍາລັບກຸ່ມຂອງຄົນ. ນີ້ແມ່ນເອີ້ນວ່າເປັນ ຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ (CATE). ຕົວຢ່າງ, ໃນການສຶກສາໂດຍ Restivo ແລະ van de Rijt, ຈົ່ງຈິນຕະນາການວ່າ $X_i$ ແມ່ນວ່າບັນນາທິການແມ່ນຢູ່ຂ້າງເທິງຫຼືຂ້າງລຸ່ມຂອງຈໍານວນປານກາງຂອງການດັດແກ້ໃນຊ່ວງ 90 ມື້ກ່ອນການທົດລອງ. ຫນຶ່ງສາມາດຄິດໄລ່ຜົນກະທົບການປິ່ນປົວແຍກຕ່າງຫາກສໍາລັບບັນນາທິການແສງສະຫວ່າງແລະຫນັກ.

ຂອບເຂດຜົນຜະລິດທີ່ມີທ່າແຮງແມ່ນເປັນວິທີທີ່ມີປະສິດທິພາບທີ່ຈະຄິດກ່ຽວກັບການຄິດໄລ່ແລະການທົດລອງ. ຢ່າງໃດກໍຕາມ, ມີສອງຄວາມສັບສົນເພີ່ມເຕີມທີ່ທ່ານຄວນຈະຮັກສາຢູ່ໃນໃຈ. ຄວາມສັບສົນສອງຢ່າງນີ້ມັກຈະຖືກປະສົມກັນພາຍໃນໄລຍະເວລາທີ່ ສົມເຫດສົມຜົນຂອງການຮັກສາຄວາມປອດໄພຂອງຫນ່ວຍງານທີ່ຫມັ້ນຄົງ (SUTVA). ສ່ວນທໍາອິດຂອງ SUTVA ແມ່ນການສົມມຸດວ່າສິ່ງດຽວທີ່ສໍາຄັນສໍາລັບຜົນຂອງບຸກຄົນ $i$ ແມ່ນວ່າຄົນນັ້ນຢູ່ໃນສະພາບການປິ່ນປົວຫຼືຄວບຄຸມ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມັນແມ່ນສົມມຸດວ່າບຸກຄົນທີ່ $i$ ບໍ່ໄດ້ຮັບຜົນກະທົບຈາກການປິ່ນປົວທີ່ໃຫ້ກັບຄົນອື່ນ. ນີ້ແມ່ນບາງຄັ້ງເອີ້ນວ່າ "ບໍ່ມີການແຊກແຊງ" ຫຼື "ບໍ່ມີບັນຫາ", ແລະສາມາດຂຽນເປັນ:

$Y_i(W_i, \mathbf{W_{-i}}) = Y_i(W_i) \quad \forall \quad \mathbf{W_{-i}} \qquad(4.5)$

ບ່ອນທີ່ $\mathbf{W_{-i}}$ ແມ່ນ vector ຂອງສະຖາບັນການປິ່ນປົວສໍາລັບທຸກຄົນຍົກເວັ້ນບຸກຄົນ $i$ . ວິທີຫນຶ່ງທີ່ສາມາດຖືກລະເມີດແມ່ນຖ້າວ່າການປິ່ນປົວຈາກຄົນຫນຶ່ງເກີດຂື້ນໃນຄົນອື່ນ, ບໍ່ວ່າຈະເປັນທາງບວກຫຼືທາງລົບ. ກັບຄືນໄປບ່ອນ Restivo ແລະການທົດລອງຂອງ van de Rijt, imagine ສອງຫມູ່ເພື່ອນ $i$ ແລະ $j$ ແລະບຸກຄົນທີ່ $i$ ໄດ້ຮັບ barnstar ແລະ $j$ ບໍ່ໄດ້. ຖ້າ $i$ ໄດ້ຮັບ barnstar ເຮັດໃຫ້ $j$ ແກ້ໄຂເພີ່ມເຕີມ (ອອກຈາກຄວາມຮູ້ສຶກຂອງການແຂ່ງຂັນ) ຫຼືແກ້ໄຂຫນ້ອຍລົງ (ຈາກຄວາມຫ່ວງໃຍ), ຫຼັງຈາກນັ້ນ SUTVA ໄດ້ຖືກລະເມີດ. ມັນຍັງສາມາດຖືກລະເມີດຖ້າຜົນກະທົບຂອງການປິ່ນປົວແມ່ນຂຶ້ນກັບຈໍານວນຄົນອື່ນທີ່ໄດ້ຮັບການປິ່ນປົວ. ຕົວຢ່າງເຊັ່ນຖ້າ Restivo ແລະ Van de Rijt ໄດ້ໃຫ້ອອກ 1,000 ຫຼື 10,000 barnstars ແທນທີ່ຈະ 100, ນີ້ອາດຈະມີຜົນກະທົບຕໍ່ຜົນກະທົບຂອງການໄດ້ຮັບ barnstar.

ບັນຫາທີສອງທີ່ເຂົ້າສູ່ SUTVA ແມ່ນການສົມມຸດວ່າການປິ່ນປົວທີ່ກ່ຽວຂ້ອງເທົ່ານັ້ນແມ່ນຫນຶ່ງໃນທີ່ນັກຄົ້ນຄວ້າໄດ້ສະຫນອງ; ການສົມມຸດຕິຖານນີ້ແມ່ນບາງຄັ້ງເອີ້ນວ່າ ບໍ່ມີການປິ່ນປົວເຊື່ອງໄວ້ ຫຼື ບໍ່ສາ ມາດ ເອົາຊະນະໄດ້ . ຕົວຢ່າງ, ໃນ Restivo ແລະ van de Rijt, ມັນອາດຈະເປັນກໍລະນີທີ່ໂດຍການໃຫ້ barnstar ນັກຄົ້ນຄວ້າທີ່ເຮັດໃຫ້ບັນນາທິການຈະໄດ້ຮັບການສະແດງໃນຫນ້າບັນນາທິການທີ່ນິຍົມແລະວ່າມັນແມ່ນຢູ່ໃນຫນ້າບັນນາທິການທີ່ນິຍົມແທນທີ່ຈະໄດ້ຮັບການ barnstar- ທີ່ເກີດຈາກການປ່ຽນແປງໃນພຶດຕິກໍາການດັດແກ້. ຖ້າວ່ານີ້ແມ່ນຄວາມຈິງ, ຫຼັງຈາກນັ້ນຜົນກະທົບຂອງ barnstar ແມ່ນບໍ່ສາມາດແຍກອອກຈາກຜົນກະທົບຂອງການຢູ່ໃນຫນ້າບັນນາທິການທີ່ນິຍົມ. ແນ່ນອນ, ມັນບໍ່ແມ່ນຄວາມຊັດເຈນວ່າ, ຈາກທັດສະນະທາງວິທະຍາສາດ, ນີ້ຄວນຖືວ່າເປັນສິ່ງທີ່ຫນ້າສົນໃຈຫຼືບໍ່ຫນ້າສົນໃຈ. ນັ້ນແມ່ນ, ທ່ານສາມາດຈິນຕະນາການນັກຄົ້ນຄວ້າບອກວ່າຜົນກະທົບຂອງການໄດ້ຮັບ barnstar ປະກອບມີການປິ່ນປົວທັງຫມົດຕໍ່ມາທີ່ barnstar ກະຕຸ້ນ. ຫຼືທ່ານສາມາດຈິນຕະນາການສະຖານະການທີ່ການຄົ້ນຄວ້າຈະຕ້ອງແຍກແຍກຜົນກະທົບຂອງ barnstars ຈາກສິ່ງອື່ນໆເຫຼົ່ານີ້ທັງຫມົດ. ວິທີຫນຶ່ງທີ່ຈະຄິດກ່ຽວກັບມັນແມ່ນການຖາມວ່າມີສິ່ງໃດແດ່ທີ່ນໍາໄປສູ່ສິ່ງທີ່ Gerber and Green (2012) (ຫນ້າ 41) ເອີ້ນວ່າ "ຄວາມແຕກແຍກໃນການສົມທຽບ"? ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມີສິ່ງໃດແດ່ນອກເຫນືອຈາກການປິ່ນປົວທີ່ເຮັດໃຫ້ຄົນໃນສະພາບການປິ່ນປົວແລະຄວບຄຸມທີ່ຈະຮັບການປິ່ນປົວທີ່ແຕກຕ່າງກັນ? ຄວາມກັງວົນກ່ຽວກັບການແຕກແຍກແບບສົມມາດແມ່ນສິ່ງທີ່ຄົນເຈັບນໍາຢູ່ໃນກຸ່ມຄວບຄຸມໃນການທົດລອງທາງການແພດເພື່ອໃຊ້ຢາຢາ placebo. ໂດຍວິທີນັ້ນ, ນັກຄົ້ນຄວ້າສາມາດແນ່ໃຈວ່າຄວາມແຕກຕ່າງກັນລະຫວ່າງສອງເງື່ອນໄຂແມ່ນຢາທີ່ແທ້ຈິງແລະບໍ່ແມ່ນປະສົບການໃນການກິນຢາ.

ສໍາລັບລາຍລະອຽດກ່ຽວກັບ SUTVA, ເບິ່ງພາກ 2.7 ຂອງ Gerber and Green (2012) , ພາກ 2.5 ຂອງ Morgan and Winship (2014) , ພາກ 1.6 ຂອງ Imbens and Rubin (2015) .

ຄວາມຖືກຕ້ອງ

ໃນພາກກ່ອນຫນ້າ, ຂ້າພະເຈົ້າໄດ້ອະທິບາຍວິທີການປະເມີນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍສະເລ່ຍ. ໃນພາກນີ້, ຂ້າພະເຈົ້າຈະໃຫ້ຄວາມຄິດກ່ຽວກັບການປ່ຽນແປງຂອງການຄາດຄະເນເຫຼົ່ານັ້ນ.

ຖ້າທ່ານຄິດກ່ຽວກັບການຄາດຄະເນຜົນກະທົບດ້ານການປິ່ນປົວໂດຍການຄາດຄະເນຄວາມແຕກຕ່າງກັນລະຫວ່າງສອງຕົວຢ່າງຕົວຢ່າງ, ມັນກໍ່ສາມາດສະແດງໃຫ້ເຫັນວ່າຄວາມຜິດພາດມາດຕະຖານຂອງຜົນກະທົບດ້ານການປິ່ນປົວສະເລ່ຍແມ່ນ:

$SE(\widehat{\text{ATE}}) = \sqrt{\frac{1}{N-1} \left(\frac{m \text{Var}(Y_i(0))}{N-m} + \frac{(N-m) \text{Var}(Y_i(1))}{m} + 2\text{Cov}(Y_i(0), Y_i(1)) \right)} \qquad(4.6)$

ບ່ອນທີ່ $m$ ຜູ້ທີ່ໄດ້ມອບຫມາຍໃຫ້ການປິ່ນປົວແລະ $Nm$ ເພື່ອຄວບຄຸມ (ເບິ່ງ Gerber and Green (2012) , eq 3.4). ດັ່ງນັ້ນ, ໃນເວລາທີ່ຄິດກ່ຽວກັບຈໍານວນຄົນທີ່ຈະມອບຫມາຍໃຫ້ການປິ່ນປົວແລະຈໍານວນຄົນທີ່ຈະມອບຫມາຍໃຫ້ຄວບຄຸມ, ທ່ານສາມາດເບິ່ງວ່າຖ້າ $\text{Var}(Y_i(0)) \approx \text{Var}(Y_i(1))$ , ຫຼັງຈາກນັ້ນທ່ານຕ້ອງການ $m \approx N / 2$ , ເທົ່າທີ່ຄ່າໃຊ້ຈ່າຍຂອງການປິ່ນປົວແລະການຄວບຄຸມແມ່ນຄືກັນ. ສະມະການ 4.6 ອະທິບາຍວ່າເປັນຫຍັງການອອກແບບຂອງການທົດລອງຂອງ Bond ແລະເພື່ອນຮ່ວມງານ (2012) ກ່ຽວກັບຜົນກະທົບຂອງຂໍ້ມູນຂ່າວສານທາງສັງຄົມໃນການລົງຄະແນນສຽງ (ຮູບພາບ 4.18) ບໍ່ມີປະສິດຕິພາບ. ຈື່ໄວ້ວ່າມັນມີ 98% ຂອງຜູ້ເຂົ້າຮ່ວມໃນສະພາບການປິ່ນປົວ. ນີ້ຫມາຍຄວາມວ່າພຶດຕິກໍາໃນເງື່ອນໄຂຄວບຄຸມບໍ່ໄດ້ຖືກຄາດຄະເນວ່າມັນຈະຖືກຕ້ອງ, ຊຶ່ງຫມາຍຄວາມວ່າຄວາມແຕກຕ່າງກັນລະຫວ່າງການປິ່ນປົວແລະສະພາບການຄວບຄຸມບໍ່ໄດ້ຖືກຄາດຄະເນວ່າມັນເປັນໄປໄດ້ຢ່າງຖືກຕ້ອງ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການຈັດສັນທີ່ດີທີ່ສຸດຂອງຜູ້ເຂົ້າຮ່ວມໃນເງື່ອນໄຂ, ລວມທັງຄ່າໃຊ້ຈ່າຍທີ່ແຕກຕ່າງກັນລະຫວ່າງເງື່ອນໄຂ, ເບິ່ງ List, Sadoff, and Wagner (2011) .

ສຸດທ້າຍ, ໃນບົດຄວາມຕົ້ນຕໍ, ຂ້າພະເຈົ້າໄດ້ອະທິບາຍວ່າວິທີການຄິດໄລ່ຄວາມແຕກຕ່າງໃນຄວາມແຕກຕ່າງທີ່ຖືກນໍາໃຊ້ໃນການອອກແບບປະສົມປະສານສາມາດນໍາໄປສູ່ຄວາມແຕກຕ່າງຫນ້ອຍກ່ວາຄ່າຄາດຫມາຍທີ່ແຕກຕ່າງກັນ, ອອກແບບ. ຖ້າ $X_i$ ແມ່ນມູນຄ່າຂອງຜົນໄດ້ຮັບກ່ອນການປິ່ນປົວ, ຫຼັງຈາກນັ້ນຈໍານວນທີ່ພວກເຮົາກໍາລັງພະຍາຍາມຄາດຄະເນດ້ວຍວິທີການແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງຄື:

$\text{ATE}' = \frac{1}{N} \sum_{i=1}^N ((Y_i(1) - X_i) - (Y_i(0) - X_i)) \qquad(4.7)$

ຂໍ້ຜິດພາດມາດຕະຖານຂອງປະລິມານນັ້ນແມ່ນ (ເບິ່ງ Gerber and Green (2012) , eq 4.4)

$SE(\widehat{\text{ATE}'}) = \sqrt{\frac{1}{N-1} \left( \text{Var}(Y_i(0) - X_i) + \text{Var}(Y_i(1) - X_i) + 2\text{Cov}(Y_i(0) - X_i, Y_i(1) - X_i) \right)} \qquad(4.8)$

ການປຽບທຽບ eq. 46 ແລະ eq 4.8 ສະແດງໃຫ້ເຫັນວ່າວິທີການທີ່ແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງຈະມີຂໍ້ຜິດພາດມາດຕະຖານຫນ້ອຍກວ່າ (ເບິ່ງ Gerber and Green (2012) , eq 4.6)

$\frac{\text{Cov}(Y_i(0), X_i)}{\text{Var}(X_i)} + \frac{\text{Cov}(Y_i(1), X_i)}{\text{Var}(X_i)} > 1\qquad(4.9)$

ປະມານ, ໃນເວລາທີ່ $X_i$ ເປັນນາຍຫຼາຍຂອງ $Y_i(1)$ ແລະ $Y_i(0)$ , ຫຼັງຈາກນັ້ນທ່ານສາມາດໄດ້ຮັບການຄາດຄະເນຊັດເຈນຫຼາຍຈາກວິທີການແຕກຕ່າງຈາກຄວາມແຕກຕ່າງກ່ວາຈາກ difference- ເປັນ ຂອງຫມາຍຄວາມວ່າຫນຶ່ງ. ວິທີຫນຶ່ງໃນການຄິດກ່ຽວກັບເລື່ອງນີ້ໃນການທົດລອງ Restivo ແລະ van de Rijt ແມ່ນວ່າມີການປ່ຽນແປງທາງທໍາມະຊາດໃນຈໍານວນເງິນທີ່ຄົນໄດ້ດັດແກ້, ດັ່ງນັ້ນນີ້ເຮັດໃຫ້ປຽບທຽບເງື່ອນໄຂການປິ່ນປົວແລະຄວບຄຸມທີ່ຍາກ: ມັນເປັນການຍາກທີ່ຈະກວດພົບຍາດພີ່ນ້ອງ ຜົນກະທົບຫນ້ອຍໃນຂໍ້ມູນຜົນໄດ້ຮັບທີ່ຮຸນແຮງ. ແຕ່ຖ້າທ່ານແຕກຕ່າງຈາກການປ່ຽນແປງທີ່ເກີດຂຶ້ນຕາມທໍາມະຊາດນີ້, ມັນມີການປ່ຽນແປງຫນ້ອຍ, ແລະມັນເຮັດໃຫ້ມັນງ່າຍຕໍ່ການກວດຜົນກະທົບເລັກນ້ອຍ.

ເບິ່ງ Frison and Pocock (1992) ສໍາລັບການປຽບທຽບທີ່ຊັດເຈນຂອງຄວາມແຕກຕ່າງຂອງຄວາມຫມາຍ, ຄວາມແຕກຕ່າງຂອງຄວາມແຕກຕ່າງແລະວິທີການ ANCOVA ໃນການຕັ້ງຄ່າທົ່ວໄປຫຼາຍບ່ອນທີ່ມີການວັດແທກຫຼາຍໆຄັ້ງກ່ອນການປິ່ນປົວແລະຫຼັງການປິ່ນປົວ. ໂດຍສະເພາະ, ພວກເຂົາແນະນໍາໃຫ້ ANCOVA, ເຊິ່ງຂ້າພະເຈົ້າບໍ່ໄດ້ກວມເອົາທີ່ນີ້. ນອກຈາກນັ້ນ, ເບິ່ງ McKenzie (2012) ສໍາລັບການປຶກສາຫາລືກ່ຽວກັບຄວາມສໍາຄັນຂອງຫຼາຍໆມາດຕະການຜົນການປິ່ນປົວຫຼັງຈາກການປິ່ນປົວ.