ຄໍາເຫັນເພີ່ມເຕີມ

ໃນພາກນີ້ໄດ້ຖືກອອກແບບໄດ້ຮັບການນໍາໃຊ້ເປັນກະສານອ້າງອີງ, ແທນທີ່ຈະກ່ວາຈະໄດ້ຮັບການອ່ານເປັນການເທື່ອເນື່ອງຈາກເປັນ.

  • ການນໍາສະເຫນີ (ພາກ 41)

ຄໍາຖາມກ່ຽວກັບອໍານາດໃນການຄົ້ນຄວ້າທາງສັງຄົມມັກຈະສະລັບສັບຊ້ອນແລະ intricate. ສໍາລັບວິທີການພື້ນຖານເພື່ອກໍ່ໃຫ້ເກີດໂດຍອີງໃສ່ລະ causal, ເບິ່ງ Pearl (2009) , ແລະສໍາລັບການວິທີການພື້ນຖານໂດຍອີງໃສ່ຜົນໄດ້ຮັບ, ເຫັນ Imbens and Rubin (2015) (ແລະເອກະສານຊ້ອນດ້ານວິຊາການໃນພາກນີ້). ສໍາລັບການປຽບທຽບລະຫວ່າງການເຫຼົ່ານີ້ທັງສອງວິທີການໃຫ້ເບິ່ງ Morgan and Winship (2014) . ສໍາລັບວິທີການຢ່າງເປັນທາງການກໍານົດ confound ໃຫ້ເບິ່ງ VanderWeele and Shpitser (2013) .

ຢູ່ໃນບົດທີ່, ຂ້າພະເຈົ້າສ້າງສິ່ງທີ່ເບິ່ງຄືຈະເປັນເສັ້ນສົດໃສລະຫວ່າງຄວາມສາມາດຂອງພວກເຮົາທີ່ຈະເຮັດໃຫ້ການຄາດຄະເນເຫດຈາກການທົດລອງແລະບໍ່ແມ່ນການທົດລອງ. ໃນຄວາມເປັນຈິງແລ້ວ, ຂ້າພະເຈົ້າຄິດວ່າຄວາມແຕກຕ່າງແມ່ນ blurrier. ສໍາລັບການຍົກຕົວຢ່າງ, ທຸກຄົນຍອມຮັບວ່າການສູບຢາເປັນສາເຫດຂອງມະເຮັງເຖິງແມ່ນວ່າພວກເຮົາໄດ້ບໍ່ເຄີຍໄດ້ເຮັດການທົດລອງການຄວບຄຸມບັນທີ່ກໍາລັງປະຊາຊົນໃນການສູບຢາ. ສໍາລັບການປິ່ນປົວຄວາມຍາວຫນັງສືທີ່ດີເລີດກ່ຽວກັບການເຮັດໃຫ້ການຄາດຄະເນເຫດຈາກຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງເບິ່ງ Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , ແລະ Dunning (2012) .

ບົດທີ່ 1 ແລະ 2 ຂອງ Freedman, Pisani, and Purves (2007) ສະເຫນີໃຫ້ມີການແນະນໍາທີ່ຈະແຈ້ງໃນຄວາມແຕກຕ່າງລະຫວ່າງການທົດລອງ, ການທົດລອງການຄວບຄຸມ, ແລະບັນການທົດລອງການຄວບຄຸມ.

Manzi (2012) ຈະນໍາ fascinating ແລະສາມາດອ່ານໄດ້ເຂົ້າໄປໃນ underpinnings philosophical ແລະທາງສະຖິຕິຂອງການທົດລອງການຄວບຄຸມບັນ. ນອກຈາກນີ້ຍັງມີຕົວຢ່າງທີ່ແທ້ຈິງ, ໂລກທີ່ຫນ້າສົນໃຈຂອງພະລັງງານຂອງການທົດລອງໃນທຸລະກິດ.

  • ສິ່ງທີ່ມີການທົດລອງ? (ພາກ 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) ສະຫນອງການແນະນໍາທີ່ດີທີ່ຈະລັກສະນະທີ່ສະຖິຕິຂອງການອອກແບບການທົດລອງແລະການວິເຄາະ. ນອກຈາກນັ້ນ, ມີການປິ່ນປົວທີ່ດີເລີດຂອງການນໍາໃຊ້ຂອງປະສົບການໃນຂົງເຂດທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍ: ເສດຖະສາດ (Bardsley et al. 2009) , sociology (Willer and Walker 2007; Jackson and Cox 2013) , ຈິດໃຈ (Aronson et al. 1989) , ວິທະຍາສາດທາງດ້ານການເມືອງ (Morton and Williams 2010) , ແລະນະໂຍບາຍທາງດ້ານສັງຄົມ (Glennerster and Takavarasha 2013) .

ຄວາມສໍາຄັນຂອງການຮັບສະຫມັກຜູ້ເຂົ້າຮ່ວມ (ຕົວຢ່າງ, ການເກັບຕົວຢ່າງ) ມັກຈະຢູ່ພາຍໃຕ້ການຍົກຍ້ອງໃນການຄົ້ນຄວ້າທົດລອງ. ຢ່າງໃດກໍຕາມ, ຖ້າຫາກວ່າຜົນກະທົບຂອງການປິ່ນປົວແມ່ນທີ່ແຕກຕ່າງໃນປະຊາກອນ, ຫຼັງຈາກນັ້ນການເກັບຕົວຢ່າງແມ່ນສໍາຄັນ. Longford (1999) ເຮັດໃຫ້ຈຸດນີ້ຢ່າງຊັດເຈນໃນເວລາທີ່ເຂົາສະຫນັບສະຫນຸນສໍາລັບນັກຄົ້ນຄວ້າຄິດປະສົບການເປັນການສໍາຫຼວດປະຊາກອນທີ່ມີການເກັບຕົວຢ່າງ haphazard.

  • ທັງສອງຂະຫນາດຂອງປະສົບການ: ການທົດລອງພາກສະຫນາມແລະການປຽບທຽບ, ດິຈິຕອນ (ເບິ່ງ 4.3)

dichotomy ທີ່ຂ້າພະເຈົ້ານໍາສະເຫນີລະຫວ່າງການທົດລອງແລະພາກສະຫນາມການທົດລອງເປັນການຊ່ວຍແບບງ່າຍດາຍ. ໃນຄວາມເປັນຈິງ, ການຄົ້ນຄວ້າອື່ນໆໄດ້ສະເຫນີປະເພດລາຍລະອຽດເພີ່ມເຕີມ, ໃນບໍ່ໂດຍສະເພາະທີ່ແຍກອອກໃນຮູບແບບຕ່າງໆຂອງການທົດລອງພາກສະຫນາມ (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . ນອກຈາກນັ້ນ, ມີສອງປະເພດຂອງການທົດລອງປະຕິບັດໂດຍວິທະຍາສາດສັງຄົມທີ່ບໍ່ເຫມາະ neatly ເຂົ້າໄປໃນການທົດລອງແລະພາກສະຫນາມ dichotomy:. ການທົດລອງການສໍາຫຼວດແລະປະສົບການທາງສັງຄົມການທົດລອງການສໍາຫລວດມີປະສົບການການນໍາໃຊ້ພື້ນຖານໂຄງລ່າງຂອງການສໍາຫຼວດທີ່ມີຢູ່ແລ້ວແລະປຽບທຽບການຕອບສະຫນອງກັບສະບັບທີ່ທາງເລືອກຂອງ ຄໍາຖາມດຽວກັນ (ບາງການທົດລອງການສໍາຫຼວດຖືກນໍາສະເຫນີໃນບົດທີ 3) ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການທົດລອງສໍາຫຼວດເບິ່ງ Mutz (2011) . ການທົດລອງສັງຄົມແມ່ນການທົດລອງບ່ອນທີ່ການປິ່ນປົວແມ່ນບາງນະໂຍບາຍທາງດ້ານສັງຄົມທີ່ສາມາດພຽງແຕ່ຈະໄດ້ຮັບການປະຕິບັດໂດຍລັດຖະບານ. ປະສົບການທາງສັງຄົມທີ່ກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບໂຄງການການປະເມີນຜົນ. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການທົດລອງນະໂຍບາຍ, ເບິ່ງ Orr (1998) , Glennerster and Takavarasha (2013) , ແລະ Heckman and Smith (1995) .

ຈໍານວນຂອງເອກະສານ A ໄດ້ເມື່ອທຽບໃສ່ການທົດລອງແລະພາກສະຫນາມການທົດລອງໃນບໍ່ມີຕົວຕົນ (Falk and Heckman 2009; Cialdini 2009) ແລະໃນແງ່ຂອງຜົນໄດ້ຮັບຂອງການທົດລອງສະເພາະໃນວິທະຍາສາດທາງດ້ານການເມືອງ (Coppock and Green 2015) , ເສດຖະກິດ (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) ແລະຈິດໃຈ (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ມີບໍລິການການອອກແບບການວິໄຈທີ່ດີສໍາຫລັບການປຽບທຽບຜົນໄດ້ຮັບຈາກການທົດລອງແລະພາກສະຫນາມການທົດລອງ.

ຄວາມກັງວົນກ່ຽວກັບການເຂົ້າຮ່ວມການປ່ຽນແປງພຶດຕິກໍາຂອງເຂົາເຈົ້າເນື່ອງຈາກວ່າເຂົາເຈົ້າຮູ້ວ່າພວກເຂົາເຈົ້າແມ່ນໄດ້ຖືກສັງເກດເຫັນຢ່າງໃກ້ຊິດບາງຄັ້ງກໍເອີ້ນວ່າຜົນກະທົບຄວາມຕ້ອງການ, ແລະພວກເຂົາເຈົ້າໄດ້ຮັບການສຶກສາໃນຈິດໃຈ (Orne 1962) ແລະເສດຖະກິດ (Zizzo 2009) . ເຖິງແມ່ນວ່າກ່ຽວຂ້ອງສ່ວນຫຼາຍແມ່ນມີປະສົບການທົດລອງ, ບັນຫາດຽວກັນນີ້ສາມາດເຮັດໃຫ້ເກີດບັນຫາສໍາລັບການປະສົບການພາກສະຫນາມເຊັ່ນດຽວກັນ. ໃນຄວາມເປັນຈິງ, ຜົນກະທົບຄວາມຕ້ອງການຍັງບາງຄັ້ງກໍເອີ້ນວ່າຜົນກະທົບ Hawthorne, ໃນໄລຍະທີ່ມາຈາກການທົດລອງພາກສະຫນາມ, ໂດຍສະເພາະປະສົບການ illumination ທີ່ມີຊື່ສຽງທີ່ໄດ້ເລີ່ມຕົ້ນໃນປີ 1924 ທີ່ Hawthorne Works ຂອງບໍລິສັດໄຟຟ້າຕາເວັນຕົກ (Adair 1984; Levitt and List 2011) . ປະສິດທິພາບຄວາມຕ້ອງການແລະຜົນກະທົບ Hawthorn ແມ່ນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບແນວຄວາມຄິດຂອງມາດຕະການ reactive ປຶກສາຫາລືໃນບົດທີ 2 (ເບິ່ງ Webb et al. (1966) ).

ປະຫວັດຂອງການທົດລອງພາກສະຫນາມໄດ້ຮັບການອະທິບາຍດ້ານເສດຖະກິດ (Levitt and List 2009) , ວິທະຍາສາດທາງດ້ານການເມືອງ (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , ຈິດໃຈ (Shadish 2002) , ແລະນະໂຍບາຍສາທາລະນະ (Shadish and Cook 2009) . ພື້ນທີ່ຫນຶ່ງຂອງວິທະຍາສາດທາງສັງຄົມທີ່ປະສົບການພາກສະຫນາມຢ່າງວ່ອງໄວໄດ້ກາຍເປັນຄູຊັດເຈນແມ່ນການພັດທະນາສາກົນ. ສໍາລັບການທົບທວນຄືນໃນທາງບວກຂອງການເຮັດວຽກທີ່ຢູ່ພາຍໃນເສດຖະສາດເບິ່ງ Banerjee and Duflo (2009) , ແລະສໍາລັບການປະເມີນຜົນທີ່ສໍາຄັນເບິ່ງ Deaton (2010) . ສໍາລັບການທົບທວນຄືນວຽກງານນີ້ໃນວິທະຍາສາດທາງດ້ານການເມືອງເຫັນ Humphreys and Weinstein (2009) . ສຸດທ້າຍ, ສິ່ງທ້າທາຍດ້ານຈັນຍາບັນທີ່ກ່ຽວຂ້ອງກັບການທົດລອງພາກສະຫນາມໄດ້ຮັບການສໍາຫລວດໃນວິທະຍາສາດທາງດ້ານການເມືອງ (Humphreys 2015; Desposato 2016b) ແລະເສດຖະສາດການພັດທະນາ (Baele 2013) .

ຢູ່ໃນບົດທີ່, ຂ້າພະເຈົ້າແນະນໍາວ່າຂໍ້ມູນຂ່າວສານທາງສ່ວນຫນ້າຂອງການປິ່ນປົວສາມາດຖືກນໍາໃຊ້ເພື່ອປັບປຸງຄວາມແມ່ນຍໍາຂອງຜົນກະທົບການປິ່ນປົວປະມານ, ແຕ່ວ່າບໍ່ມີການໂຕ້ວາທີກ່ຽວກັບວິທີການນີ້: Freedman (2008) , Lin (2013) , ແລະ Berk et al. (2013) ; ເບິ່ງ Bloniarz et al. (2016) ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມ.

  • ການເຄື່ອນຍ້າຍຫຼັງຈາກປະສົບງ່າຍດາຍ (ພາກ 44)

ຂ້າພະເຈົ້າໄດ້ຮັບຄັດເລືອກທີ່ຈະສຸມໃສ່ສາມແນວຄວາມຄິດ: ຄວາມຖືກຕ້ອງ, heterogeneity ຂອງຜົນກະທົບການປິ່ນປົວ, ແລະກົນໄກການ. ແນວຄວາມຄິດດັ່ງກ່າວມີຊື່ທີ່ແຕກຕ່າງກັນໃນຂົງເຂດທີ່ແຕກຕ່າງກັນ. ສໍາລັບການຍົກຕົວຢ່າງ, ນັກຈິດຕະສາດແນວໂນ້ມທີ່ຈະຍ້າຍອອກຫຼັງຈາກປະສົບການງ່າຍດາຍໂດຍການສຸມໃສ່ຜູ້ໄກ່ເກ່ຍແລະປານກາງ (Baron and Kenny 1986) . ຄວາມຄິດຂອງຜູ້ໄກ່ເກ່ຍແມ່ນ captured ໂດຍສິ່ງທີ່ຂ້າພະເຈົ້າໂທຫາກົນໄກການ, ແລະຄວາມຄິດຂອງແລແມ່ນ captured ໂດຍສິ່ງທີ່ຂ້າພະເຈົ້າໂທຫາຄວາມຖືກຕ້ອງພາຍນອກ (ຕົວຢ່າງ, ຜົນໄດ້ຮັບຂອງການທົດລອງໄດ້ຈະແຕກຕ່າງກັນຖ້າຫາກວ່າມັນໄດ້ດໍາເນີນການໃນສະຖານະການທີ່ແຕກຕ່າງກັນ) ແລະ heterogeneity ຂອງຜົນກະທົບການປິ່ນປົວ ( ຕົວຢ່າງ, ມີຜົນກະທົບຂະຫນາດໃຫຍ່ສໍາລັບປະຊາຊົນບາງກ່ວາປະຊາຊົນອື່ນໆ).

ການທົດລອງຂອງ Schultz et al. (2007) ສະແດງໃຫ້ເຫັນວິທີການທິດສະດີທາງສັງຄົມສາມາດຖືກນໍາໃຊ້ເພື່ອອອກແບບການປະສິດທິພາບ. ສໍາລັບການໂຕ້ຖຽງທົ່ວໄປເພີ່ມເຕີມກ່ຽວກັບພາລະບົດບາດຂອງທິດສະດີໃນການອອກແບບການປະສິດທິພາບ, ເບິ່ງ Walton (2014) .

  • ຄວາມຖືກຕ້ອງ (Section 441)

ແນວຄວາມຄິດຂອງຄວາມຖືກຕ້ອງພາຍໃນແລະພາຍນອກໄດ້ຮັບການນໍາສະເຫນີຄັ້ງທໍາອິດໃນ Campbell (1957) . ເບິ່ງ Shadish, Cook, and Campbell (2001) ສໍາລັບປະຫວັດລາຍລະອຽດເພີ່ມເຕີມແລະລະອຽດລະມັດລະວັງຂອງຄວາມຖືກຕ້ອງສະຫລຸບສະຖິຕິ, ການນໍາໃຊ້ພາຍໃນ, ໂຄງການກໍ່ສ້າງຄວາມຖືກຕ້ອງ, ແລະຄວາມຖືກຕ້ອງພາຍນອກ.

ສໍາລັບສະພາບລວມຂອງບັນຫາທີ່ກ່ຽວຂ້ອງກັບຄວາມຖືກຕ້ອງສະຫລຸບສະຖິຕິໃນການທົດລອງເປັນເບິ່ງ Gerber and Green (2012) (ສໍາລັບການທັດສະນະວິທະຍາສາດສັງຄົມ) ແລະ Imbens and Rubin (2015) (ສໍາລັບການທັດສະນະທາງສະຖິຕິ). ບັນຫາບາງຢ່າງຂອງຄວາມຖືກຕ້ອງສະຫລຸບສະຖິຕິທີ່ເກີດຂຶ້ນໂດຍສະເພາະໃນການທົດລອງພາກສະຫນາມອອນໄລນ໌ປະກອບດ້ວຍບັນຫາດັ່ງກ່າວເປັນວິທີການປະສິດທິພາບ computationally ສໍາລັບການສ້າງໄລຍະຄວາມຫມັ້ນໃຈທີ່ມີຂໍ້ມູນຂຶ້ນ (Bakshy and Eckles 2013) .

ຄວາມຖືກຕ້ອງພາຍໃນປະເທດສາມາດມີຄວາມຫຍຸ້ງຍາກເພື່ອຮັບປະກັນໃນການທົດລອງພາກສະຫນາມສະລັບສັບຊ້ອນ. ເບິ່ງ, ສໍາລັບການຍົກຕົວຢ່າງ, Gerber and Green (2000) , Imai (2005) , ແລະ Gerber and Green (2005) ສໍາລັບການໂຕ້ວາທີກ່ຽວກັບການປະຕິບັດຂອງການທົດລອງພາກສະຫນາມສະລັບສັບຊ້ອນກ່ຽວກັບການລົງຄະແນນສຽງ. Kohavi et al. (2012) ແລະ Kohavi et al. (2013) ໃຫ້ຄໍາແນະນໍາເປັນຄວາມທ້າທາຍຂອງຄວາມຖືກຕ້ອງໄລຍະຫ່າງໃນການທົດລອງພາກສະຫນາມອອນໄລນ໌.

ຫນຶ່ງຄວາມກັງວົນທີ່ສໍາຄັນທີ່ມີຄວາມຖືກຕ້ອງພາຍໃນແມ່ນບັນຫາກ່ຽວກັບການສຸ່ມ. ວິທີຫນຶ່ງທີ່ມີທ່າແຮງການກວດສອບບັນຫາກ່ຽວກັບການສຸ່ມແມ່ນເພື່ອປຽບທຽບກຸ່ມການປິ່ນປົວແລະການຄວບຄຸມໃນລັກສະນະສັງເກດການ. ປະເພດຂອງການປຽບທຽບນີ້ແມ່ນເອີ້ນວ່າການກວດກາການດຸ່ນດ່ຽງ. ເບິ່ງ Hansen and Bowers (2008) ສໍາລັບວິທີການສະຖິຕິການດຸ່ນດ່ຽງການກວດສອບ, ແລະເບິ່ງ Mutz and Pemantle (2015) ສໍາລັບຄວາມກັງວົນກ່ຽວກັບການກວດສອບການດຸ່ນດ່ຽງ. ສໍາລັບການຍົກຕົວຢ່າງ, ການນໍາໃຊ້ຄວາມສົມດຸນກວດສອບ Allcott (2011) ພົບວ່າມີຫຼັກຖານບາງຢ່າງທີ່ສຸ່ມແມ່ນບໍ່ໄດ້ປະຕິບັດຢ່າງຖືກຕ້ອງໃນສາມຂອງປະສົບການໃນບາງສ່ວນຂອງປະສົບການ OPower (ເບິ່ງຕາຕະລາງ 2 ສະຖານທີ່ 2, 6, 8). ສໍາລັບວິທີການອື່ນໆ, ເບິ່ງ Imbens and Rubin (2015) , ບົດທີ 21.

ຄວາມກັງວົນທີ່ສໍາຄັນອື່ນໆທີ່ກ່ຽວຂ້ອງກັບຄວາມຖືກຕ້ອງພາຍໃນປະເທດ: 1) ຫນຶ່ງຂ້າງບໍ່ປະຕິບັດຕາມ, ບ່ອນທີ່ທຸກຄົນບໍ່ໄດ້ຢູ່ໃນກຸ່ມການປິ່ນປົວໃນຕົວຈິງແລ້ວໄດ້ຮັບການປິ່ນປົວ, 2) ສອງຂ້າງທີ່ບໍ່ແມ່ນປະຕິບັດຕາມ, ບ່ອນທີ່ທຸກຄົນບໍ່ໄດ້ຢູ່ໃນກຸ່ມການປິ່ນປົວໄດ້ຮັບການປິ່ນປົວແລະບາງ ປະຊາຊົນໃນກຸ່ມການຄວບຄຸມໄດ້ຮັບການປິ່ນປົວ, 3) ການຂັດສີ, ບ່ອນທີ່ຜົນໄດ້ຮັບແມ່ນບໍ່ໄດ້ວັດແທກສໍາລັບຜູ້ເຂົ້າຮ່ວມຈໍານວນຫນຶ່ງ, ແລະ 4) ​​ການແຊກແຊງ, ບ່ອນທີ່ການປິ່ນປົວການໄຫລໃນໄລຍະຈາກປະຊາຊົນຢູ່ໃນສະພາບການປິ່ນປົວຂອງປະຊາຊົນຢູ່ໃນສະພາບຄວບຄຸມໄດ້. ເບິ່ງ Gerber and Green (2012) ຫມວດທີ 5, 6, 7, 8 ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບແຕ່ລະຂອງບັນຫາເຫຼົ່ານີ້.

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບໂຄງການກໍ່ສ້າງຄວາມຖືກຕ້ອງ, ເບິ່ງ Westen and Rosenthal (2003) , ແລະສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບຄວາມຖືກຕ້ອງກໍ່ສ້າງໃນແຫຼ່ງຂໍ້ມູນຂໍ້ມູນຂະຫນາດໃຫຍ່, Lazer (2015) ແລະບົດທີ 2 ຂອງປຶ້ມນີ້.

ລັກສະນະຂອງຄວາມຖືກຕ້ອງພາຍນອກແມ່ນການຕັ້ງຄ່າທີ່ເປັນການແຊກແຊງແມ່ນການທົດສອບ. Allcott (2015) ສະຫນອງການປິ່ນປົວທິດສະດີແລະຕົວຈິງລະມັດລະວັງຂອງອະຄະຕິໄວ້ເລືອກນໍາ. ບັນຫານີ້ແມ່ນໄດ້ຖືກປຶກສາຫາລືໃນ Deaton (2010) . ນອກຈາກຈະຖືກຈໍາລອງແບບໃນສະຖານທີ່ຈໍານວນຫຼາຍ, ການແຊກແຊງພະລັງງານບ້ານ Report ຍັງໄດ້ຮັບການສຶກສາອິສະລະໂດຍກຸ່ມຄົ້ນຄ້ວາຫຼາຍ (ຕົວຢ່າງ:, Ayres, Raseman, and Shih (2013) ).

  • ທີ່ແຕກຕ່າງຂອງຜົນກະທົບການປິ່ນປົວ (Section 442)

ສໍາລັບສະພາບລວມທີ່ດີເລີດຂອງ heterogeneity ຂອງຜົນກະທົບການປິ່ນປົວໃນການທົດລອງພາກສະຫນາມ, ເບິ່ງພາກທີ 12 ຂອງ Gerber and Green (2012) . ສໍາລັບການແນະນໍາກັບ heterogeneity ຂອງຜົນກະທົບການປິ່ນປົວໃນການທົດລອງທາງການແພດ, ເບິ່ງ Kent and Hayward (2007) , Longford (1999) , ແລະ Kravitz, Duan, and Braslow (2004) . ທີ່ແຕກຕ່າງຂອງຜົນກະທົບການປິ່ນປົວທົ່ວໄປສຸມໃສ່ການແຕກຕ່າງກັນຕາມລັກສະນະທາງສ່ວນຫນ້າຂອງການປິ່ນປົວ. ຖ້າຫາກວ່າທ່ານມີຄວາມສົນໃຈໃນ heterogeneity ໂດຍອີງໃສ່ຜົນໄດ້ຮັບກ່ອນການປິ່ນປົວ, ຫຼັງຈາກນັ້ນວິທີການສະລັບສັບຊ້ອນຫຼາຍຈໍາເປັນຕ້ອງເຊັ່ນ stratification ອໍານວຍການ (Frangakis and Rubin 2002) ; ເບິ່ງ Page et al. (2015) ສໍາລັບການທົບທວນຄືນໄດ້.

ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍປະມານ heterogeneity ຂອງຜົນກະທົບການປິ່ນປົວການນໍາໃຊ້ regression ແຂບໄດ້, ແຕ່ວິທີການໃຫມ່ອີງໃສ່ການຮຽນຮູ້ຂອງເຄື່ອງ, ສໍາລັບການຍົກຕົວຢ່າງ Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ແລະ Athey and Imbens (2016a) .

ມີຄວາມສົງໄສບາງຢ່າງກ່ຽວກັບການຄົ້ນພົບຂອງ heterogeneity ຂອງຜົນກະທົບເນື່ອງຈາກບັນຫາການສົມທຽບຫຼາຍແລະ ". ການຫາປາ" ມີຫຼາກຫຼາຍຂອງວິທີການທາງສະຖິຕິທີ່ສາມາດຊ່ວຍໃຫ້ຄວາມກັງວົນຢູ່ກ່ຽວກັບການປຽບທຽບຫຼາຍແມ່ນເປັນ (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . ວິທີການຫນຶ່ງທີ່ຈະກັງວົນກ່ຽວກັບ "ປາ" ເປັນທາງສ່ວນຫນ້າຂອງການຈົດທະບຽນ, ຊຶ່ງໄດ້ກາຍມາເປັນທົ່ວໄປເພີ່ມຂຶ້ນໃນຈິດໃຈ (Nosek and Lakens 2014) , ວິທະຍາສາດທາງດ້ານການເມືອງ (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ແລະເສດຖະສາດ (Olken 2015) .

ໃນການສຶກສາຂອງ Costa and Kahn (2013) ພຽງແຕ່ປະມານເຄິ່ງຫນຶ່ງຂອງຄົວເຮືອນໃນການທົດລອງທີ່ສາມາດໄດ້ຮັບການຕິດພັນກັບການຂໍ້ມູນຂ່າວສານຂອງພົນລະເມືອງໄດ້. ອ່ານມີຄວາມສົນໃຈໃນລາຍລະອຽດແລະບັນຫາທີ່ເປັນໄປໄດ້ກັບການວິເຄາະນີ້ຄວນເບິ່ງເອກະສານຕົ້ນສະບັບ.

  • ກົນໄກການ (Section 443)

ກົນໄກການມີຄວາມສໍາຄັນ incredibly, ແຕ່ພວກເຂົາເຈົ້າເຮັດໃຫ້ອອກຈະມີຄວາມຫຍຸ້ງຍາກຫຼາຍເພື່ອສຶກສາ. ການຄົ້ນຄວ້າກ່ຽວກັບກົນໄກທີ່ກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບການສຶກສາຂອງຜູ້ໄກ່ເກ່ຍໃນຈິດໃຈ (ແຕ່ເບິ່ງ VanderWeele (2009) ສໍາລັບການປຽບທຽບທີ່ຊັດເຈນລະຫວ່າງສອງແນວຄວາມຄິດ). ວິທີການສະຖິຕິເພື່ອຊອກຫາກົນໄກ, ເຊັ່ນ: ວິທີການພັດທະນາໃນ Baron and Kenny (1986) , ແມ່ນຂ້ອນຂ້າງທົ່ວໄປ. ແຕ່ຫນ້າເສຍດາຍ, ມັນ turns ໃຫ້ເຫັນວ່າວິທການນັ້ນຂຶ້ນກັບການສົມມຸດຖານທີ່ເຂັ້ມແຂງບາງ (Bullock, Green, and Ha 2010) ແລະທໍລະມານໃນເວລາທີ່ມີກົນໄກທີ່ຫຼາກຫຼາຍ, ເປັນຫນຶ່ງອາດຈະຄາດຫວັງວ່າໃນສະຖານະການຈໍານວນຫຼາຍ (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ແລະ Imai and Yamamoto (2013) ສະເຫນີວິທີທາງສະຖິຕິບາງການປັບປຸງ. ນອກຈາກນັ້ນ, VanderWeele (2015) ສະຫນອງການປິ່ນປົວບັນຂອງຄວາມຍາວປາທີ່ມີຈໍານວນຂອງຜົນການຄົ້ນຫາທີ່ສໍາຄັນ, ລວມທັງວິທີທີ່ສົມບູນແບບການວິເຄາະທີ່ລະອຽດອ່ອນ.

A ວິທີການແຍກຕ່າງຫາກໄດ້ສຸມໃສ່ປະສົບການທີ່ພະຍາຍາມໃນການຈັດການກົນໄກການໂດຍກົງ (ຕົວຢ່າງ, ໃຫ້ sailors ວິຕາມິນ C). ແຕ່ຫນ້າເສຍດາຍ, ໃນຈໍານວນຫຼາຍການຕັ້ງຄ່າວິທະຍາສາດສັງຄົມມັກຈະມີຫຼາຍກົນໄກແລະມັນເປັນການຍາກໃນການອອກແບບການປິ່ນປົວທີ່ມີການປ່ຽນແປງໂດຍບໍ່ມີການປ່ຽນແປງຄົນອື່ນ. ວິທີການບາງຢ່າງທີ່ຈະທົດລອງກົນໄກການປ່ຽນແປງອະທິບາຍໃນ Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , ແລະ Pirlott and MacKinnon (2016) .

ສຸດທ້າຍ, ກົນໄກຍັງມີປະຫວັດຍາວໃນປັດຊະຍາຂອງວິທະຍາສາດໄດ້ອະທິບາຍໂດຍ Hedström and Ylikoski (2010) .

  • ການນໍາໃຊ້ສະພາບແວດລ້ອມທີ່ມີຢູ່ແລ້ວ (ພາກ 4.5.1.1)

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການນໍາໃຊ້ຂອງການສຶກສາການົດຫມາຍຕອບແລະການສຶກສາການກວດສອບໃນການວັດແທກການຈໍາແນກເບິ່ງ Pager (2007) .

  • ການກໍ່ສ້າງການທົດລອງຂອງທ່ານເອງ (ພາກ 4.5.1.2)

ວິທີທົ່ວໄປທີ່ສຸດໃນການທົດແທນທີ່ເຂົ້າຮ່ວມການທົດລອງທີ່ທ່ານສ້າງເປັນ Amazon ກົນ Turk (MTurk). ເນື່ອງຈາກວ່າ MTurk mimics ລ​​ັກສະນະຂອງຫ້ອງປະຕິບັດການທົດລອງໃນການຊ່ວຍຈ່າຍປະຊາຊົນພື້ນເມືອງເພື່ອໃຫ້ສໍາເລັດວຽກງານທີ່ພວກເຂົາເຈົ້າຈະບໍ່ໄດ້ເຮັດແນວໃດສໍາລັບນັກຄົ້ນຄວ້າຟຣີຫຼາຍຄົນທີ່ໄດ້ເລີ່ມຕົ້ນແລ້ວນໍາໃຊ້ Turkers (ພະນັກງານໃນ MTurk) ເປັນຜູ້ເຂົ້າຮ່ວມໃນການທົດລອງວິຊາຂອງມະນຸດທີ່ໄດ້ຮັບໃນການເກັບກໍາຂໍ້ມູນໄດ້ໄວແລະລາຄາຖືກກວ່າເດີມ ສົບການກ່ຽວກັບວິທະຍາເຂດການຫ້ອງທົດລອງ (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

ມີຄວາມເຂັ້ມແຂງທີ່ໃຫຍ່ທີ່ສຸດຂອງການທົດລອງກັບຜູ້ເຂົ້າຮ່ວມຄັດເລືອກຈາກ MTurk ມີລໍາລຽງຂົນສົ່ງ: ພວກເຂົາເຈົ້າອະນຸຍາດໃຫ້ນັກຄົ້ນຄວ້າເພື່ອການທົດແທນທີ່ເຂົ້າຮ່ວມຢ່າງວ່ອງໄວແລະເປັນທີ່ຕ້ອງການ. ໃນຂະນະທີ່ປະສົບການທົດລອງສາມາດໃຊ້ເວລາອາທິດທີ່ຈະດໍາເນີນການແລະປະສົບການພາກສະຫນາມສາມາດໃຊ້ເວລາເດືອນເພື່ອໄປຕັ້ງ, ການທົດລອງມີຜູ້ເຂົ້າຮ່ວມຄັດເລືອກຈາກ MTurk ສາມາດໄດ້ຮັບການດໍາເນີນການໃນວັນເວລາ. ສໍາລັບການຍົກຕົວຢ່າງ, Berinsky, Huber, and Lenz (2012) ສາມາດທົດແທນທີ່ 400 ຫົວຂໍ້ໃດຫນຶ່ງໃນມື້ດຽວກັບການມີສ່ວນຮ່ວມໃນການທົດລອງ 8 ນາທີ. ນອກຈາກນັ້ນ, ຜູ້ເຂົ້າຮ່ວມເຫຼົ່ານີ້ສາມາດໄດ້ຮັບການບັນຈຸສໍາລັບຈຸດປະສົງໃດ virtually (ລວມທັງການສໍາຫຼວດແລະການຮ່ວມມືມະຫາຊົນ, ປຶກສາຫາລືໃນບົດທີ່ 3 ແລະ 5). ຄວາມງ່າຍຂອງການການທົດແທນທີ່ນີ້ຫມາຍຄວາມວ່ານັກວິໄຈສາມາດດໍາເນີນການລໍາດັບຂອງປະສົບການທີ່ກ່ຽວຂ້ອງໃນການຢ່າງວ່ອງໄວ.

ກ່ອນທີ່ຈະທົດແທນຜູ້ເຂົ້າຮ່ວມຈາກ MTurk ສໍາລັບການທົດລອງຂອງທ່ານເອງ, ມີສີ່ສິ່ງທີ່ສໍາຄັນທີ່ຈະຮູ້ວ່າ. ຫນ້າທໍາອິດ, ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍມີຄວາມສົງໄສບໍ່ແມ່ນສະເພາະປະສົບການທີ່ກ່ຽວຂ້ອງກັບ Turkers. ເນື່ອງຈາກວ່າບໍ່ຄ່ອຍເຊື່ອງ່າຍໆນີ້ບໍ່ແມ່ນສະເພາະ, ມັນເປັນການຍາກທີ່ຈະຕອບໂຕ້ກັບຫຼັກຖານ. ຢ່າງໃດກໍຕາມ, ຫຼັງຈາກເວລາຫຼາຍປີຂອງການສຶກສາການນໍາໃຊ້ Turkers, ພວກເຮົາສາມາດໃນປັດຈຸບັນສະຫຼຸບວ່າບໍ່ຄ່ອຍເຊື່ອງ່າຍໆນີ້ແມ່ນບໍ່ມີຄວາມຈໍາເປັນໂດຍສະເພາະແມ່ນ. ມີການສຶກສາຈໍານວນຫຼາຍການປຽບທຽບປະຊາກອນຂອງ Turkers ເພື່ອປະຊາກອນແລະການສຶກສາຈໍານວນຫຼາຍການປຽບທຽບຜົນໄດ້ຮັບຂອງການທົດລອງກັບ Turkers ກັບຜົນໄດ້ຮັບຈາກປະຊາກອນອື່ນໆ. ໄດ້ຮັບທັງຫມົດເຮັດວຽກນີ້, ຂ້າພະເຈົ້າຄິດວ່າວິທີທີ່ດີທີ່ສຸດສໍາລັບທ່ານທີ່ຈະຄິດກ່ຽວກັບການມັນເປັນທີ່ Turkers ເປັນຕົວຢ່າງສະດວກສະບາຍສົມເຫດສົມຜົນ, ຄືກັນກັບນັກສຶກສາແຕ່ເລັກນ້ອຍທີ່ແຕກຕ່າງກັນຫຼາຍ (Berinsky, Huber, and Lenz 2012) . ດັ່ງນັ້ນ, ພຽງແຕ່ເປັນນັກສຶກສາເປັນປະຊາກອນທີ່ເຫມາະສົມສໍາລັບບາງຄົນແຕ່ບໍ່ແມ່ນທັງຫມົດຄົ້ນຄວ້າທົດລອງ, Turkers ເປັນປະຊາກອນທີ່ເຫມາະສົມສໍາລັບບາງຄົນແຕ່ບໍ່ໄດ້ຄົ້ນຄ້ວາທັງຫມົດ. ຖ້າຫາກວ່າທ່ານກໍາລັງເຮັດວຽກຮ່ວມກັບ Turkers, ຫຼັງຈາກນັ້ນມັນເຮັດໃຫ້ຄວາມຮູ້ສຶກທີ່ຈະອ່ານຈໍານວນຫຼາຍຂອງການສຶກສາປຽບທຽບເຫຼົ່ານີ້ແລະເຂົ້າໃຈ nuances ຂອງເຂົາເຈົ້າ.

ຄັ້ງທີສອງ, ນັກຄົ້ນຄວ້າໄດ້ພັດທະນາທີ່ດີທີ່ສຸດ, ການປະຕິບັດສໍາລັບການເພີ່ມຂຶ້ນຄວາມຖືກຕ້ອງພາຍໃນຂອງປະ Turk, ແລະທ່ານຄວນຈະຮຽນຮູ້ກ່ຽວກັບການແລະປະຕິບັດຕາມການເຫຼົ່ານີ້ທີ່ດີທີ່ສຸດ, ການປະຕິບັດ (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . ສໍາລັບການຍົກຕົວຢ່າງ, ນັກຄົ້ນຄວ້າການນໍາໃຊ້ Turkers ຄວນທີ່ຈະໃຊ້ລ່ອນເອົາຜູ້ເຂົ້າຮ່ວມ inattentive (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ແຕ່ເບິ່ງ DJ Hauser and Schwarz (2015b) ແລະ DJ Hauser and Schwarz (2015a) ). ຖ້າຫາກວ່າທ່ານບໍ່ເອົາຜູ້ເຂົ້າຮ່ວມ inattentive, ຫຼັງຈາກນັ້ນຜົນກະທົບຂອງການປິ່ນປົວທີ່ສາມາດໄດ້ຮັບການລ້າງອອກໂດຍສິ່ງລົບກວນນໍາສະເຫນີຈາກຜູ້ເຂົ້າຮ່ວມ inattentive, ແລະໃນການປະຕິບັດຈໍານວນຂອງຜູ້ເຂົ້າຮ່ວມ inattentive ສາມາດຢ່າງຫຼວງຫຼາຍ. ໃນການທົດລອງຂອງ Huber ແລະເພື່ອນຮ່ວມງານໄດ້ (2012) ປະມານ 30% ຂອງຜູ້ເຂົ້າຮ່ວມສົບຜົນສໍາເລັດຂັ້ນພື້ນຖານເອົາໃຈໃສ່ຂະຫຍະ. ບັນຫາອີກປະການຫນຶ່ງທົ່ວໄປທີ່ມີ Turkers ແມ່ນຜູ້ເຂົ້າຮ່ວມທີ່ບໍ່ແມ່ນ naive (Chandler et al. 2015) .

ທີສາມ, ພີ່ນ້ອງກັບບາງຮູບແບບອື່ນໆຂອງການທົດລອງດິຈິຕອນ, ການທົດລອງ MTurk ບໍ່ສາມາດຂະຫຍາຍການ; Stewart et al. (2015) ການຄາດຄະເນວ່າໃນເວລາໃດກໍຕາມມີພຽງແຕ່ປະມານ 7,000 ຄົນໃນ MTurk.

ສຸດທ້າຍ, ທ່ານຄວນຈະຮູ້ວ່າ MTurk ແມ່ນຊຸມຊົນທີ່ມີກົດລະບຽບຂອງຕົນເອງແລະບັນທັດຖານ (Mason and Suri 2012) . ໃນວິທີການດຽວກັນວ່າທ່ານຈະພະຍາຍາມເພື່ອຊອກຫາກ່ຽວກັບວັດທະນະທໍາຂອງປະເທດບ່ອນທີ່ທ່ານໄດ້ຖືກໄປດໍາເນີນການປະສົບການຂອງທ່ານ, ທ່ານຄວນຈະພະຍາຍາມເພື່ອຊອກຫາເພີ່ມເຕີມກ່ຽວກັບວັດທະນະທໍາແລະມາດຕະຖານຂອງ Turkers (Salehi et al. 2015) . ແລະ, ທ່ານຄວນຈະຮູ້ວ່າ Turkers ຈະເວົ້າກ່ຽວກັບປະສົບການຂອງທ່ານຖ້າຫາກວ່າທ່ານເຮັດແນວໃດບາງສິ່ງບາງຢ່າງທີ່ບໍ່ເຫມາະສົມຫຼືຜິດຈັນຍາ (Gray et al. 2016) .

MTurk ເປັນວິທີທີ່ສະດວກ incredibly ກັບການທົດແທນທີ່ເຂົ້າຮ່ວມໃນການທົດລອງຂອງທ່ານ, ບໍ່ວ່າຈະເປັນການທົດລອງຄ້າຍຄື, ເຊັ່ນ Huber, Hill, and Lenz (2012) , ຫຼືພາກສະຫນາມຄ້າຍຄືຫຼາຍ, ເຊັ່ນ: Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ແລະ Mao et al. (2016) .

  • ການກໍ່ສ້າງຜະລິດຕະພັນຂອງທ່ານເອງ (ພາກ 4.5.1.3)

ຖ້າຫາກວ່າທ່ານກໍາລັງຄິດຂອງຄວາມພະຍາຍາມໃນການສ້າງຜະລິດຕະພັນຂອງທ່ານເອງ, ຂ້າພະເຈົ້າແນະນໍາໃຫ້ທ່ານອ່ານຄໍາແນະນໍາສະຫນອງໃຫ້ໂດຍກຸ່ມ MovieLens ໃນ Harper and Konstan (2015) . A ຄວາມເຂົ້າໃຈທີ່ສໍາຄັນຈາກປະສົບການຂອງເຂົາເຈົ້າແມ່ນວ່າສໍາລັບແຕ່ລະໂຄງການສົບຜົນສໍາເລັດມີຈໍານວນຫຼາຍ, ການລົ້ມເຫຼວຫຼາຍ. ສໍາລັບການຍົກຕົວຢ່າງ, ກຸ່ມ MovieLens ເປີດຕົວຜະລິດຕະພັນອື່ນໆເຊັ່ນ: GopherAnswers ທີ່ມີຄວາມລົ້ມເຫຼວທີ່ສົມບູນ (Harper and Konstan 2015) . ຕົວຢ່າງຂອງການເປັນນັກຄົ້ນຄວ້າເພາະໃນຂະນະທີ່ພະຍາຍາມເພື່ອສ້າງຜະລິດຕະພັນອີກປະການຫນຶ່ງແມ່ນຄວາມພະຍາຍາມ Edward Castronova ຂອງການກໍ່ສ້າງເປັນເກມອອນໄລນ໌ເອີ້ນວ່າ Arden. ເຖິງວ່າຈະມີ $ 250,000 ໃນສະຫນອງທຶນ, ໂຄງການນີ້ແມ່ນ flop ໄດ້ (Baker 2008) . ໂຄງການເຊັ່ນ: GopherAnswers ແລະ Arden ແຕ່ຫນ້າເສຍດາຍມີຫຼາຍທົ່ວໄປກ່ວາໂຄງການເຊັ່ນ: MovieLens. ສຸດທ້າຍ, ໃນເວລາທີ່ຂ້າພະເຈົ້າເວົ້າວ່າຂ້າພະເຈົ້າບໍ່ຮູ້ວ່າຂອງນັກຄົ້ນຄວ້າອື່ນໆທີ່ໄດ້ສ້າງສົບຜົນສໍາເລັດຜະລິດຕະພັນສໍາລັບການທົດລອງຊ້ໍາໃນທີ່ນີ້ແມ່ນເງື່ອນໄຂຂອງຂ້າພະເຈົ້າ: 1) ຜູ້ເຂົ້າຮ່ວມນໍາໃຊ້ຜະລິດຕະພັນເນື່ອງຈາກວ່າສິ່ງທີ່ມັນສະຫນອງໃຫ້ເຂົາເຈົ້າ (ຕົວຢ່າງ:, ພວກເຂົາເຈົ້າຍັງບໍ່ໄດ້ຊໍາລະເງິນແລະພວກເຂົາເຈົ້າແມ່ນບໍ່ ອາສາສະຫມັກຊ່ວຍເຫຼືອວິທະຍາສາດ) ແລະ 2) ຜະລິດຕະພັນທີ່ໄດ້ຮັບການນໍາໃຊ້ສໍາລັບການຫຼາຍກ່ວາຫນຶ່ງທົດລອງທີ່ແຕກຕ່າງກັນ (ຕົວຢ່າງ, ບໍ່ໄດ້ທົດລອງດຽວກັນເວລາຫຼາຍກັບລອຍນ້ໍາຜູ້ເຂົ້າຮ່ວມທີ່ແຕກຕ່າງກັນ). ຖ້າຫາກວ່າທ່ານຮູ້ຈັກຕົວຢ່າງອື່ນໆ, ກະລຸນາໃຫ້ຂ້າພະເຈົ້າຮູ້ວ່າ.

  • ມີຄູ່ຮ່ວມງານທີ່ມີອໍານາດ (Section 452)

ຂ້າພະເຈົ້າໄດ້ຍິນຄວາມຄິດຂອງ Quadrant Pasteur ຂອງປຶກສາຫາລືຄວາມທີ່ບໍລິສັດເຕັກໂນໂລຊີ, ແລະມັນຈະຊ່ວຍໃຫ້ການຈັດຕັ້ງຄວາມພະຍາຍາມຄົ້ນຄ້ວາຢູ່ກູໂກ (Spector, Norvig, and Petrov 2012) .

ພັນທະບັດແລະການສຶກສາເພື່ອນຮ່ວມງານ ' (2012) ຍັງພະຍາຍາມໃນການກວດສອບຜົນກະທົບຂອງການປິ່ນປົວເຫຼົ່ານີ້ກ່ຽວກັບຫມູ່ເພື່ອນຂອງຜູ້ທີ່ໄດ້ຮັບໃຫ້ເຂົາເຈົ້າ. ເນື່ອງຈາກວ່າການອອກແບບການທົດລອງໄດ້, spillover ເຫຼົ່ານີ້ແມ່ນມີຄວາມຫຍຸ້ງຍາກໃນການກວດສອບຄວາມສະອາດ; ອ່ານທີ່ສົນໃຈຄວນເບິ່ງ Bond et al. (2012) ສໍາລັບການສົນທະນາຢ່າງລະອຽດຫຼາຍ. ການທົດລອງນີ້ແມ່ນສ່ວນຫນຶ່ງຂອງປະເພນີຂອງປະສົບການໃນວິທະຍາສາດທາງດ້ານການເມືອງກ່ຽວກັບຄວາມພະຍາຍາມເພື່ອສົ່ງເສີມການລົງຄະແນນສຽງ (Green and Gerber 2015) . ເຫຼົ່ານີ້ປະສົບການໄດ້ຮັບການອອກ, ການລົງຄະແນນສຽງມີຢູ່ທົ່ວໄປໃນສ່ວນຫນຶ່ງຍ້ອນວ່າເຂົາເຈົ້າແມ່ນຢູ່ໃນ Pasteur ຂອງ Quadrant. ນັ້ນແມ່ນ, ມີຈໍານວນຫຼາຍປະຊາຊົນຜູ້ທີ່ມີແຮງຈູງໃຈທີ່ຈະເພີ່ມທະວີການລົງຄະແນນສຽງແລະລົງຄະແນນສຽງສາມາດເປັນພຶດຕິກໍາທີ່ຫນ້າສົນໃຈທີ່ຈະທົດສອບທິດສະດີທົ່ວໄປເພີ່ມເຕີມກ່ຽວກັບການປ່ຽນແປງພຶດຕິກໍາແລະອິດທິພົນທາງສັງຄົມ.

ການຄົ້ນຄວ້າອື່ນໆໄດ້ສະຫນອງໃຫ້ຄໍາແນະນໍາກ່ຽວກັບການໃຊ້ການທົດລອງພາກສະຫນາມທີ່ມີອົງການຈັດຕັ້ງຄູ່ຮ່ວມງານດັ່ງກ່າວເປັນພາກສ່ວນທາງດ້ານການເມືອງ, ອົງການ NGO, ແລະທຸລະກິດ (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . ບາງຄົນໄດ້ສະເຫນີຄໍາແນະນໍາກ່ຽວກັບວິທີການຮ່ວມມືກັບອົງການຈັດຕັ້ງສາມາດສົ່ງຜົນກະທົບການອອກແບບການວິໄຈ (Green, Calfano, and Aronow 2014; King et al. 2007) . ການຮ່ວມມືຍັງສາມາດນໍາໄປສູ່ຄໍາຖາມດ້ານຈັນຍາບັນ (Humphreys 2015; Nickerson and Hyde 2016) .

  • ຄໍາແນະນໍາການອອກແບບ (ພາກ 46)

ຖ້າຫາກວ່າທ່ານກໍາລັງສ້າງແຜນການວິເຄາະກ່ອນທີ່ຈະໃຊ້ປະສົບການຂອງທ່ານ, ຂ້າພະເຈົ້າໄດ້ແນະນໍາວ່າທ່ານຈະເລີ່ມຕົ້ນໂດຍການອ່ານຄໍາແນະນໍາການລາຍງານ. The CONSORT (ລາຍວຽກງົບມາດຕະຖານຂອງການທົດລອງ) ຄໍາແນະນໍາໄດ້ຖືກພັດທະນາໃນຢາປົວພະຍາດ (Schulz et al. 2010) ແລະການແກ້ໄຂສໍາລັບການຄົ້ນຄ້ວາສັງຄົມ (Mayo-Wilson et al. 2013) . A ທີ່ກໍານົດໄວ້ທີ່ກ່ຽວຂ້ອງຂອງຄໍາແນະນໍາໄດ້ຮັບການພັດທະນາໂດຍບັນນາທິການຂອງວາລະສານຂອງການທົດລອງວິທະຍາສາດທາງດ້ານການເມືອງໄດ້ (Gerber et al. 2014) (ເບິ່ງ Mutz and Pemantle (2015) ແລະ Gerber et al. (2015) ). ສຸດທ້າຍ, ແນວທາງການລາຍງານໄດ້ຮັບການພັດທະນາໃນຈິດໃຈ (Group 2008) , ແລະເບິ່ງ Simmons, Nelson, and Simonsohn (2011) .

ຖ້າຫາກວ່າທ່ານສ້າງແຜນການວິເຄາະທີ່ທ່ານຄວນພິຈາລະນາທາງສ່ວນຫນ້າຂອງການລົງທະບຽນມັນເນື່ອງຈາກວ່າທາງສ່ວນຫນ້າຂອງການຈົດທະບຽນຈະເພີ່ມທະວີການຄວາມເຊື່ອຫມັ້ນວ່າຄົນອື່ນມີຢູ່ໃນຜົນໄດ້ຮັບຂອງທ່ານ. ນອກຈາກນັ້ນ, ຖ້າຫາກວ່າທ່ານກໍາລັງເຮັດວຽກຮ່ວມກັບຄູ່ຮ່ວມງານ, ມັນຈະຈໍາກັດຄວາມສາມາດຄູ່ຮ່ວມງານຂອງທ່ານມີການປ່ຽນແປງການວິເຄາະຫລັງຈາກໄດ້ເຫັນຜົນໄດ້ຮັບ. ທາງສ່ວນຫນ້າຂອງການຈົດທະບຽນແມ່ນກາຍມາເປັນເພີ່ມຂຶ້ນໃນຈິດໃຈ (Nosek and Lakens 2014) , ວິທະຍາສາດທາງດ້ານການເມືອງ (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ແລະເສດຖະສາດ (Olken 2015) .

ໃນຂະນະທີ່ການສ້າງແຜນການທາງສ່ວນຫນ້າຂອງການວິເຄາະຂອງທ່ານທີ່ທ່ານຄວນຈະຮູ້ວ່ານັກຄົ້ນຄວ້າບາງຄົນຍັງນໍາໃຊ້ regression ແລະວິທີການທີ່ກ່ຽວຂ້ອງເພື່ອປັບປຸງຄວາມແມ່ນຍໍາຂອງຜົນກະທົບການປິ່ນປົວປະມານໄດ້, ແລະບໍ່ມີການໂຕ້ວາທີກ່ຽວກັບວິທີການນີ້: Freedman (2008) , Lin (2013) , ແລະ Berk et al. (2013) ; ເບິ່ງ Bloniarz et al. (2016) ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມ.

ຄໍາແນະນໍາການອອກແບບສະເພາະສໍາລັບການທົດລອງພາກສະຫນາມອອນໄລນ໌ແມ່ນນໍາສະເຫນີຍັງຢູ່ໃນ Konstan and Chen (2007) ແລະ Chen and Konstan (2015) .

  • ສ້າງສູນຂໍ້ມູນຄ່າໃຊ້ຈ່າຍຂອງຕົວປ່ຽນແປງ (Section 461)

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການທົດລອງ MusicLab, ເບິ່ງ Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , ແລະ Salganik (2007) . ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບຜູ້ຊະນະທັງຫມົດຕະຫຼາດ, ເບິ່ງ Frank and Cook (1996) . ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບໂຊກ Untangle ແລະສີມືແຮງງານຫຼາຍໂດຍທົ່ວໄປ, ເບິ່ງ Mauboussin (2012) , Watts (2012) , ແລະ Frank (2016) .

ຜູ້ຕາງຫນ້າ: ມີວິທີການອື່ນເພື່ອກໍາຈັດການຊໍາລະຜູ້ເຂົ້າຮ່ວມທີ່ນັກຄົ້ນຄວ້າຄວນຈະນໍາໃຊ້ລະມັດລະວັງເປັນ. ໃນຈໍານວນຫຼາຍການທົດລອງພາກສະຫນາມອອນໄລນ໌ຜູ້ເຂົ້າຮ່ວມກໍາລັງຮ່າງພື້ນຖານເຂົ້າໄປໃນການທົດລອງແລະການຊົດເຊີຍບໍ່. ຕົວຢ່າງຂອງວິທີການນີ້ປະກອບມີ Restivo ແລະ van de Rijt ຂອງ (2012) ການທົດລອງກ່ຽວກັບຜົນຕອບແທນໃນວິກິພີເດຍແລະພັນທະບັດແລະເພື່ອນຮ່ວມງານຂອງ (2012) ການທົດລອງກ່ຽວກັບການສະຫນັບສະຫນູນປະຊາຊົນລົງຄະແນນສຽງ. ປະສົບການເຫຼົ່ານີ້ບໍ່ໄດ້ກໍ່ມີສູນຄ່າໃຊ້ຈ່າຍຂອງຕົວປ່ຽນແປງ, ພວກເຂົາເຈົ້າມີສູນຄ່າໃຊ້ຈ່າຍຂອງຕົວປ່ຽນແປງທີ່ຈະຄົ້ນຄ້ວາ. ເຖິງແມ່ນວ່າຄ່າໃຊ້ຈ່າຍຂອງຈໍານວນຫຼາຍຂອງປະສົບການເຫຼົ່ານີ້ແມ່ນມີຂະຫນາດນ້ອຍທີ່ສຸດທີ່ຈະເຂົ້າຮ່ວມແຕ່ລະຄົນ, ຄ່າໃຊ້ຈ່າຍໃນຂະຫນາດນ້ອຍທີ່ກໍາຫນົດຈໍານວນ enormous ຂອງຜູ້ເຂົ້າຮ່ວມສາມາດເພີ່ມຂຶ້ນຢ່າງໄວວາ. ນັກຄົ້ນຄວ້າເຮັດວຽກການທົດລອງອອນໄລນ໌ massive ມັກຈະໃຫ້ເຫດຜົນສໍາຄັນຂອງຜົນກະທົບການປິ່ນປົວປະມານຂະຫນາດນ້ອຍໂດຍການເວົ້າວ່າຜົນກະທົບຂະຫນາດນ້ອຍເຫລົ່ານີ້ສາມາດກາຍເປັນສິ່ງສໍາຄັນໃນເວລາທີ່ການນໍາໃຊ້ຈໍານວນຫຼາຍປະຊາຊົນ. ອົບຮົມແນວຄິດດຽວກັນຄືກັນອ້ອຍຕ້ອຍໃຊ້ໄດ້ກັບຄ່າໃຊ້ຈ່າຍທີ່ນັກຄົ້ນຄວ້າບັງຄັບກ່ຽວກັບຜູ້ເຂົ້າຮ່ວມ. ຖ້າຫາກວ່າປະສົບການຂອງທ່ານເຮັດໃຫ້ຫນຶ່ງລ້ານຄົນທີ່ຈະເສຍນາທີ, ການທົດລອງແມ່ນບໍ່ເປັນອັນຕະລາຍຫຼາຍທີ່ຈະບຸກຄົນທີ່ສະເພາະໃດຫນຶ່ງ, ແຕ່ວ່າໃນລວມມັນໄດ້ສູນເສຍເກືອບສອງປີຂອງການທີ່ໃຊ້ເວລາ.

ວິທີການທີ່ຈະສ້າງການຊໍາລະເງິນຄ່າໃຊ້ຈ່າຍຂອງຕົວປ່ຽນແປງສູນໃຫ້ຜູ້ເຂົ້າຮ່ວມຄົນອື່ນແມ່ນການນໍາໃຊ້ lottery, ວິທີການທີ່ໄດ້ຖືກນໍາໃຊ້ໃນການວິໄຈການສໍາຫຼວດການ (Halpern et al. 2011) . ສຸດທ້າຍ, ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການອອກແບບສະຫນຸກສະຫນານຜູ້ຊົມໃຊ້ເປັນປະສົບການເບິ່ງ Toomim et al. (2011) .

  • ທົດແທນ, ປັບປຸງ, ແລະຫຼຸດຜ່ອນການ (Section 462)

ຕໍ່ໄປນີ້ແມ່ນຄວາມຫມາຍດັ້ງເດີມຂອງສາມ R, ຈາກມີ Russell and Burch (1959) :

"ການທົດແທນຫມາຍຄວາມວ່າການທົດແທນທີ່ສໍາລັບການສະຕິດໍາລົງຊີວິດສັດທີ່ສູງຂຶ້ນຂອງວັດສະດຸ insentient. ການຫຼຸດຜ່ອນຄວາມຫມາຍຄວາມວ່າການຫຼຸດຜ່ອນຄວາມໃນຈໍານວນຂອງສັດນໍາໃຊ້ເພື່ອໄດ້ຮັບການຂໍ້ມູນຂອງຈໍານວນເງິນທີ່ໄດ້ຮັບແລະຊັດເຈນໄດ້. ການກັ່ນຕອງຫມາຍຄວາມວ່າການຫຼຸດລົງໃນການເກີດຄວາມຮຸນແຮງຂອງວິທີການມະນຸດໄດ້ນໍາໃຊ້ກັບສັດເຫຼົ່ານັ້ນທີ່ຍັງມີການໄດ້ຮັບການນໍາໃຊ້. "

ສາມ R ວ່າຂ້າພະເຈົ້າສະເຫນີບໍ່ແທນຫຼັກການພື້ນຖານດ້ານຈັນຍາບັນທີ່ອະທິບາຍໃນບົດທີ 6 ແນ່ນອນວ່າ, ພວກເຂົາເຈົ້າແມ່ນການສະບັບລະອຽດເພີ່ມເຕີມຫນຶ່ງໃນບັນດາຫຼັກການພື້ນຖານ, ການເຮັດ, ໂດຍສະເພາະສໍາລັບການສ້າງຕັ້ງຂອງປະສົບການຂອງມະນຸດ.

ໃນເວລາທີ່ພິຈາລະນາ Contagion ອາລົມ, ມີສາມບັນຫາທີ່ບໍ່ແມ່ນດ້ານຈັນຍາບັນທີ່ຈະຮັກສາຢູ່ໃນໃຈໃນເວລາທີ່ການແປຄວາມຫມາຍທົດລອງນີ້. ຫນ້າທໍາອິດ, ມັນບໍ່ແມ່ນຈະແຈ້ງແນວໃດລາຍລະອຽດທີ່ແທ້ຈິງຂອງການທົດລອງເຊື່ອມຕໍ່ກັບການຮຽກຮ້ອງທາງທິດສະດີ; ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມີຄໍາຖາມກ່ຽວກັບໂຄງການກໍ່ສ້າງຄວາມຖືກຕ້ອງ. ມັນເປັນທີ່ຈະແຈ້ງວ່າໃນທາງບວກແລະທາງລົບນັບຄໍາສັບຕ່າງໆແມ່ນຕົວຈິງແລ້ວຕົວຊີ້ວັດທີ່ດີຂອງລັດອາລົມຂອງຜູ້ເຂົ້າຮ່ວມເພາະວ່າ 1) ມັນບໍ່ຈະແຈ້ງວ່າຄໍາເວົ້າທີ່ວ່າປະຊາຊົນຕອບເປັນຕົວຊີ້ວັດທີ່ດີຂອງຄວາມຮູ້ສຶກຂອງເຂົາເຈົ້າແລະ 2) ມັນເປັນທີ່ຈະແຈ້ງວ່າ ໂດຍສະເພາະເຕັກນິກການວິເຄາະຄວາມຮູ້ສຶກທີ່ນັກຄົ້ນຄວ້າທີ່ນໍາໃຊ້ແມ່ນສາມາດທີ່ຈະເຊື່ອຖືໄດ້ສະຫຼຸບຄວາມຮູ້ສຶກ (Beasley and Mason 2015; Panger 2016) . ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ອາດຈະມີມາດຕະການທີ່ບໍ່ດີຂອງສັນຍານລໍາອຽງ. ຄັ້ງທີສອງ, ການອອກແບບແລະການວິເຄາະຂອງການທົດລອງໄດ້ບອກພວກເຮົາບໍ່ມີຫຍັງກ່ຽວກັບຜູ້ທີ່ໄດ້ຮັບຜົນກະທົບຫຼາຍທີ່ສຸດ (ຕົວຢ່າງ, ບໍ່ມີການວິເຄາະຂອງ heterogeneity ຂອງຜົນກະທົບການປິ່ນປົວທີ່ບໍ່ມີ) ແລະກົນໄກອັນໃດທີ່ອາດຈະເປັນ. ໃນກໍລະນີນີ້, ນັກຄົ້ນຄວ້າໄດ້ມີຈໍານວນຂອງຂໍ້ມູນກ່ຽວກັບຜູ້ເຂົ້າຮ່ວມ, ແຕ່ພວກເຂົາເຈົ້າໄດ້ຖືກຮັບການປິ່ນປົວເປັນເປັນເຄື່ອງມືໃນການວິເຄາະ. ທີສາມ, ຂະຫນາດຜົນກະທົບໃນການທົດລອງດັ່ງກ່າວນີ້ແມ່ນມີຂະຫນາດນ້ອຍຫຼາຍ; ຄວາມແຕກຕ່າງກັນລະຫວ່າງສະພາບການປິ່ນປົວແລະຄວບຄຸມການແມ່ນປະມານ 1 ໃນ 1,000 ຄໍາ. ໃນເອກະສານຂອງເຂົາເຈົ້າ, Kramer ແລະເພື່ອນຮ່ວມງານເຮັດໃຫ້ກໍລະນີທີ່ຜົນກະທົບຂອງຂະຫນາດນີ້ເປັນສິ່ງສໍາຄັນເນື່ອງຈາກວ່າຫຼາຍຮ້ອຍຄົນຂອງລ້ານຂອງປະຊາຊົນເຂົ້າເຖິງຂ່າວຂອງພວກເຂົາອາຫານໃນແຕ່ລະມື້. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ພວກເຂົາໂຕ້ຖຽງວ່າເຖິງແມ່ນວ່າຜົນກະທົບທີ່ມີຂະຫນາດນ້ອຍສໍາລັບແຕ່ລະຄົນພວກເຂົາເຈົ້າແມ່ນຂະຫນາດໃຫຍ່ໃນລວມ. ເຖິງແມ່ນວ່າຖ້າຫາກວ່າທ່ານໄດ້ຍອມຮັບການໂຕ້ຖຽງນີ້, ມັນແມ່ນຍັງບໍ່ທັນຈະແຈ້ງວ່າຜົນກະທົບຂອງຂະຫນາດນີ້ເປັນສິ່ງສໍາຄັນກ່ຽວກັບຄໍາຖາມວິທະຍາສາດໂດຍທົ່ວໄປເພີ່ມເຕີມກ່ຽວກັບໂລກຕິດຕໍ່ທາງດ​​້ານຈິດໃຈ. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບສະຖານະການທີ່ຜົນກະທົບຂະຫນາດນ້ອຍມີຄວາມສໍາຄັນເບິ່ງ Prentice and Miller (1992) .

ໃນແງ່ຂອງການຄັ້ງທໍາອິດ R (ການທົດແທນ), ປຽບທຽບ Contagion ການທົດລອງທາງດ້ານຈິດໃຈ (Kramer, Guillory, and Hancock 2014) ແລະໂລກຕິດຕໍ່ທາງດ້ານຈິດໃຈການທົດລອງທໍາມະຊາດ (Coviello et al. 2014) ສະເຫນີບົດຮຽນທົ່ວໄປກ່ຽວກັບການຄ້າ, ການແຂ່ງຂັນທີ່ກ່ຽວຂ້ອງກັບການເຄື່ອນຍ້າຍຈາກ ປະສົບການປະສົບການທໍາມະຊາດ (ແລະວິທີການອື່ນໆເຊັ່ນ: ໂຍບາຍຄວາມລັບທີ່ຄວາມພະຍາຍາມທີ່ຈະປະມານປະສົບການໃນຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງ, ໃຫ້ເບິ່ງບົດທີ 2). ນອກເຫນືອໄປຈາກຜົນປະໂຫຍດດ້ານຈັນຍາບັນ, ການປ່ຽນຈາກການທົດລອງການສຶກສາທີ່ບໍ່ແມ່ນການທົດລອງຍັງຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າເພື່ອສຶກສາການປິ່ນປົວທີ່ພວກເຂົາເຈົ້າແມ່ນການຂົນສົ່ງບໍ່ສາມາດທີ່ຈະໃຊ້. ຜົນປະໂຫຍດດ້ານຈັນຍາບັນແລະລໍາລຽງຂົນສົ່ງເຫຼົ່ານີ້ມາຢູ່ໃນຄ່າໃຊ້ຈ່າຍ, ຢ່າງໃດກໍຕາມ. ມີປະສົບການທໍາມະຊາດຄົ້ນຄ້ວາມີການຄວບຄຸມຫນ້ອຍໃນໄລຍະສິ່ງທີ່ຕ້ອງການການທົດແທນທີ່ຂອງຜູ້ເຂົ້າຮ່ວມ, ບັນ, ແລະລັກສະນະຂອງການປິ່ນປົວໄດ້. ສໍາລັບການຍົກຕົວຢ່າງ, ຫນຶ່ງໃນຂອບເຂດຈໍາກັດຂອງລິມານນໍ້າຝົນເປັນການປິ່ນປົວແມ່ນວ່າມັນທັງເພີ່ມຕໍາແຫນ່ງແລະຫຼຸດລົງການປະຕິເສດ. ໃນການສຶກສາທົດລອງ, ຢ່າງໃດກໍຕາມ, Kramer ແລະເພື່ອນຮ່ວມງານມີຄວາມສາມາດໃນການປັບຕໍາແຫນ່ງແລະປະຕິເສດອິດສະຫຼະ.

ວິທີການໂດຍສະເພາະແມ່ນການນໍາໃຊ້ used ໂດຍ Coviello et al. (2014) ໄດ້ກໍານົດຕື່ມອີກໃນ Coviello, Fowler, and Franceschetti (2014) . ສໍາລັບການແນະນໍາໃຫ້ການປ່ຽນແປງຄໍາເຫັນ Angrist and Pischke (2009) (ຫນ້ອຍຢ່າງເປັນທາງການ) ຫຼື Angrist, Imbens, and Rubin (1996) (ຢ່າງເປັນທາງການເພີ່ມເຕີມ). ສໍາລັບການປະເມີນບໍ່ຄ່ອຍເຊື່ອງ່າຍໆຂອງການປ່ຽນແປງຄໍາເຫັນ Deaton (2010) , ແລະສໍາລັບການແນະນໍາຕົວແປຄໍາທີ່ນໍາໃຊ້ເຄື່ອງມືທີ່ອ່ອນແອ (ຝົນຕົກຫນັກເປັນເຄື່ອງມືທີ່ອ່ອນແອ), ເບິ່ງ Murray (2006) .

ຫຼາຍໂດຍທົ່ວໄປ, ການແນະນໍາທີ່ດີທີ່ຈະທົດລອງທໍາມະຊາດແມ່ນ Dunning (2012) , ແລະ Rosenbaum (2002) , Rosenbaum (2009) , ແລະ Shadish, Cook, and Campbell (2001) ສະເຫນີແນວຄວາມຄິດທີ່ດີກ່ຽວກັບການຄາດຄະເນຜົນກະທົບ causal ໂດຍບໍ່ມີການປະສົບການ.

ໃນຂໍ້ກໍານົດຂອງສອງ R (ການກັ່ນຕອງ), ມີວິທະຍາສາດແລະລໍາລຽງຂົນສົ່ງການຄ້າ, ການແຂ່ງຂັນໃນເວລາພິຈາລະນາການປ່ຽນແປງການອອກແບບຂອງ Contagion ຄວາມຮູ້ສຶກຈາກການສະກັດຂໍ້ຄວາມເພື່ອສົ່ງເສີມຂໍ້ຄວາມ. ສໍາລັບການຍົກຕົວຢ່າງ, ມັນອາດຈະເປັນກໍລະນີທີ່ການປະຕິບັດດ້ານວິຊາການຂອງອາຫານຂ່າວສານທີ່ເຮັດໃຫ້ມັນເປັນຢ່າງງ່າຍຕໍ່ການເຮັດການທົດລອງກັບສະກັດຂໍ້ຄວາມແທນທີ່ຈະກ່ວາທົດລອງທີ່ມີການຊຸກຍູ້ການ posts (ສັງເກດວ່າການທົດລອງມີການສະກັດຂໍ້ຄວາມສາມາດໄດ້ຮັບການປະຕິບັດເປັນຊັ້ນໃນ ເທິງຂອງລະບົບຂ່າວສານອາຫານໂດຍບໍ່ມີການຄວາມຕ້ອງການສໍາລັບການປ່ຽນແປງຂອງລະບົບທີ່ຕິດພັນ) ໃດຫນຶ່ງ. ວິທະຍາສາດ, ຢ່າງໃດກໍຕາມ, ທິດສະດີຂອງການແກ້ໄຂໂດຍການທົດລອງບໍ່ໄດ້ຢ່າງຊັດເຈນແນະນໍາໃຫ້ຫນຶ່ງການອອກແບບໃນໄລຍະອື່ນໆ.

ແຕ່ຫນ້າເສຍດາຍ, ຂ້າພະເຈົ້າບໍ່ຮູ້ຈັກຄົ້ນຄ້ວາກ່ອນຢ່າງຫຼວງຫຼາຍກ່ຽວກັບຄຸນນະທໍາຂອງພີ່ນ້ອງກັດແລະການຊຸກຍູ້ການເນື້ອຫາໃນອາຫານຂ່າວ. ນອກຈາກນີ້, ຂ້າພະເຈົ້າບໍ່ໄດ້ເຫັນການຄົ້ນຄວ້າຫຼາຍກ່ຽວກັບການປັບປຸງການປິ່ນປົວທີ່ຈະເຮັດໃຫ້ເຂົາເຈົ້າເປັນອັນຕະລາຍຫນ້ອຍ; ຍົກເວັ້ນຫນຶ່ງແມ່ນ Jones and Feamster (2015) , ທີ່ພິຈາລະນາກໍລະນີຂອງການວັດແທກຂອງ censorship ອິນເຕີເນັດ (ກະທູ້ຂ້າພະເຈົ້າປຶກສາຫາລືໃນບົດທີ 6 ໃນການພົວພັນກັບການສຶກສາ Encore ໄດ້ (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

ໃນແງ່ຂອງການທີສາມ R (Reduction), ການແນະນໍາທີ່ດີທີ່ຈະວິເຄາະພະລັງງານປະເພນີແມ່ນ Cohen (1988) . ຄວາມແປປວນທາງສ່ວນຫນ້າຂອງການປິ່ນປົວສາມາດໄດ້ຮັບການມີຢູ່ໃນຂັ້ນຕອນຂອງການອອກແບບແລະຂັ້ນຕອນຂອງການວິເຄາະຂອງການທົດລອງ; ບົດທີ 4 ຂອງ Gerber and Green (2012) ຈະນໍາທີ່ດີທີ່ຈະວິທີການທັງສອງ, ແລະ Casella (2008) ສະຫນອງການປິ່ນປົວເພີ່ມເຕີມໃນຄວາມເລິກ. ເຕັກນິກທີ່ນໍາໃຊ້ຂໍ້ມູນທາງສ່ວນຫນ້າຂອງການປິ່ນປົວນີ້ໃນການສຸ່ມປົກກະຕິໄດ້ຖືກເອີ້ນວ່າສະກັດທັງການອອກແບບການທົດລອງຫລືການອອກແບບການທົດລອງ stratified (ຄໍາສັບທີ່ບໍ່ໄດ້ນໍາໃຊ້ຢ່າງຕໍ່ເນື່ອງໃນທົ່ວຊຸມຊົນ) ເຕັກນິກການເຫຼົ່ານີ້ແມ່ນໄດ້ຢ່າງເລິກເຊິ່ງກັບເຕັກນິກການສຸ່ມຕົວຢ່າງແບບແບ່ງຊັ້ນປຶກສາຫາລືໃນບົດທີ 3. ເບິ່ງ Higgins, Sävje, and Sekhon (2016) ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການນໍາໃຊ້ການອອກແບບເຫຼົ່ານີ້ໃນການທົດລອງຂະຫນາດໃຫຍ່. ຄວາມແປປວນທາງສ່ວນຫນ້າຂອງການປິ່ນປົວສາມາດໄດ້ຮັບການມີຢູ່ໃນຂັ້ນຕອນຂອງການການວິເຄາະ. McKenzie (2012) ການຄົ້ນວິທີການແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງຂອງການວິເຄາະປະສົບການພາກສະຫນາມໃນລາຍລະອຽດຫຼາຍກວ່າເກົ່າ. ເບິ່ງ Carneiro, Lee, and Wilhelm (2016) ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການຄ້າ, ການແຂ່ງຂັນລະຫວ່າງວິທີການທີ່ແຕກຕ່າງກັນເພື່ອເພີ່ມທະວີການຈະຢູ່ໃນການຄາດຄະເນຜົນກະທົບຂອງການປິ່ນປົວ. ສຸດທ້າຍ, ໃນເວລາທີ່ຕັດສິນໃຈບໍ່ວ່າຈະເປັນເພື່ອພະຍາຍາມຈະປະກອບມີຄວາມແປປວນທາງສ່ວນຫນ້າຂອງການປິ່ນປົວຢູ່ໃນການອອກແບບຫລືການວິເຄາະຂັ້ນຕອນຂອງການ (ຫຼືທັງສອງຢ່າງ), ມີປັດໄຈທີ່ຈະພິຈາລະນາ. ໃນການສ້າງຕັ້ງເປັນບ່ອນທີ່ນັກຄົ້ນຄວ້າຕ້ອງການທີ່ຈະສະແດງໃຫ້ເຫັນວ່າພວກເຂົາເຈົ້າບໍ່ແມ່ນ "ການຫາປາ" (Humphreys, Sierra, and Windt 2013) , ການນໍາໃຊ້ຄວາມແປປວນທາງສ່ວນຫນ້າຂອງການປິ່ນປົວໃນຂັ້ນຕອນຂອງການອອກແບບທີ່ສາມາດຈະເປັນປະໂຫຍດ (Higgins, Sävje, and Sekhon 2016) . ໃນສະຖານະທີ່ຜູ້ເຂົ້າຮ່ວມມາຮອດຕາມລໍາດັບ, ການທົດລອງພາກສະຫນາມອອນໄລນ໌ໂດຍສະເພາະແມ່ນ, ການນໍາໃຊ້ຂໍ້ມູນຂ່າວສານທາງສ່ວນຫນ້າຂອງການປິ່ນປົວໃນຂັ້ນຕອນຂອງການອອກແບບໂຄງການອາດຈະມີຄວາມຫຍຸ້ງຍາກລໍາລຽງຂົນສົ່ງ, ເບິ່ງສໍາລັບການຍົກຕົວຢ່າງ Xie and Aurisset (2016) .

ມັນແມ່ນຕົກເປັນມູນຄ່າເພີ່ມນ້ອຍຂອງ intuition ກ່ຽວກັບວ່າເປັນຫຍັງຄວາມແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງສາມາດໃຫ້ປະສິດທິພາບຫຼາຍກ່ວາຄວາມແຕກຕ່າງກັນໃນວິທີການ. ຜົນໄດ້ຮັບອອນໄລນ໌ຈໍານວນຫຼາຍມີການປ່ຽນແປງສູງຫຼາຍ (ເບິ່ງຕົວຢ່າງ, Lewis and Rao (2015) ແລະ Lamb et al. (2015) ) ແລະມີຄວາມຫມັ້ນຄົງໃນໄລຍະທີ່ໃຊ້ເວລາ. ໃນກໍລະນີນີ້, ຄະແນນການປ່ຽນແປງຈະມີການປ່ຽນແປງຢ່າງຫຼວງຫຼາຍຂະຫນາດນ້ອຍ, ເພີ່ມທະວີພະລັງງານຂອງການທົດສອບທາງສະຖິຕິໄດ້. ຫນຶ່ງໃນເຫດຜົນນີ້ໄດ້ເຂົ້າໄປໃກ້ບໍ່ໄດ້ນໍາໃຊ້ສ່ວນຫຼາຍແມ່ນວ່າກ່ອນທີ່ຈະອາຍຸສູງສຸດດິຈິຕອນມັນບໍ່ແມ່ນທົ່ວໄປທີ່ຈະມີຜົນໄດ້ຮັບທາງສ່ວນຫນ້າຂອງການປິ່ນປົວ. A ວິທີການຊີມັງຈະຄິດວ່າກ່ຽວກັບມັນເປັນຈິນຕະນາການການທົດລອງເພື່ອວັດແທກເບິ່ງວ່າເປັນປົກກະຕິອອກກໍາລັງກາຍສະເພາະໃດຫນຶ່ງຈະເຮັດໃຫ້ການສູນເສຍນ້ໍາ. ຖ້າຫາກວ່າທ່ານເຮັດແນວໃດມີວິທີການແຕກຕ່າງກັນໃນວິທີການ, ການຄາດຄະເນຂອງທ່ານຈະມີການປ່ຽນແປງທີ່ມາຈາກການປ່ຽນແປງໃນນ້ໍາໃນປະຊາກອນ. ຖ້າຫາກວ່າທ່ານເຮັດແນວໃດມີວິທີການແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງກັນ, ຢ່າງໃດກໍຕາມ, ວ່າການປ່ຽນແປງຕາມທໍາມະຊາດທີ່ເກີດຂຶ້ນໃນນ້ໍາໄດ້ຮັບການໂຍກຍ້າຍອອກແລະທ່ານສາມາດໄດ້ຢ່າງງ່າຍດາຍການກວດສອບຄວາມແຕກຕ່າງກັນທີ່ເກີດຈາກການປິ່ນປົວ.

ຫນຶ່ງໃນວິທີທີ່ສໍາຄັນເພື່ອຫຼຸດຜ່ອນຈໍານວນຂອງຜູ້ເຂົ້າຮ່ວມໃນການທົດລອງຂອງທ່ານແມ່ນເພື່ອດໍາເນີນການວິເຄາະພະລັງງານ, ເຊິ່ງ Kramer ແລະເພື່ອນຮ່ວມງານສາມາດເຮັດໄດ້ໂດຍອີງໃສ່ຂະຫນາດຜົນກະທົບທີ່ສັງເກດເຫັນຈາກປະສົບການທໍາມະຊາດໂດຍ Coviello et al. (2014) ຫຼືກ່ອນຫນ້ານັ້ນການຄົ້ນຄວ້າທີ່ບໍ່ແມ່ນການທົດລອງໂດຍ Kramer (2012) (ໃນຄວາມເປັນຈິງເຫຼົ່ານີ້ແມ່ນກິດຈະກໍາຢູ່ໃນຕອນທ້າຍຂອງບົດນີ້). ສັງເກດເຫັນວ່າການນໍາໃຊ້ການວິເຄາະພະລັງງານນີ້ແມ່ນນ້ອຍທີ່ແຕກຕ່າງກັນກ່ວາປົກກະຕິ. ໃນອາຍຸສູງສຸດປຽບທຽບໄດ້, ນັກຄົ້ນຄວ້າໂດຍທົ່ວໄປໄດ້ວິເຄາະພະລັງງານທີ່ຈະເຮັດໃຫ້ແນ່ໃຈວ່າການສຶກສາຂອງເຂົາເຈົ້າແມ່ນບໍ່ມີຂະຫນາດນ້ອຍເກີນໄປ (ie, ພາຍໃຕ້ການທີ່ມີອໍານາດ). ໃນປັດຈຸບັນ, ຢ່າງໃດກໍຕາມ, ນັກຄົ້ນຄວ້າຄວນຈະເຮັດການວິເຄາະພະລັງງານທີ່ຈະເຮັດໃຫ້ແນ່ໃຈວ່າການສຶກສາຂອງເຂົາເຈົ້າແມ່ນບໍ່ໃຫຍ່ເກີນໄປ (ie, ໃນໄລຍະທີ່ມີອໍານາດ).

ສຸດທ້າຍ, ຂ້າພະເຈົ້າພິຈາລະນາການເພີ່ມສີ່ R: repurpose. ນັ້ນແມ່ນ, ຖ້າຫາກວ່ານັກຄົ້ນຄວ້າຊອກຫາດ້ວຍຕົນເອງກັບການທົດລອງຫຼາຍກ່ວາພວກເຂົາເຈົ້າຈໍາເປັນຕ້ອງໄດ້ແກ້ໄຂຄໍາຖາມຄົ້ນຄ້ວາຂອງເຂົາເຈົ້າຕົ້ນສະບັບ, ພວກເຂົາເຈົ້າຄວນ repurpose ຂໍ້ມູນທີ່ຈະຖາມຄໍາຖາມໃຫມ່. ສໍາລັບການຍົກຕົວຢ່າງ, ຈິນຕະນາການທີ່ Kramer ແລະເພື່ອນຮ່ວມງານໄດ້ນໍາໃຊ້ການຄາດຄະເນຄວາມແຕກຕ່າງກັນໃນຄວາມແຕກຕ່າງແລະພົບເຫັນດ້ວຍຕົນເອງທີ່ມີຂໍ້ມູນຫຼາຍກ່ວາທີ່ຈໍາເປັນເພື່ອແກ້ໄຂຄໍາຖາມຄົ້ນຄ້ວາຂອງເຂົາເຈົ້າ. ແທນທີ່ຈະກ່ວາບໍ່ໄດ້ນໍາໃຊ້ຂໍ້ມູນໃນຂອບເຂດ fullest ໄດ້, ພວກເຂົາເຈົ້າສາມາດມີການສຶກສາຂະຫນາດຂອງຜົນກະທົບເປັນການເຮັດວຽກກັບທາງສ່ວນຫນ້າຂອງການປິ່ນປົວສະແດງອອກທາງອາລົມ. ພຽງແຕ່ເປັນ Schultz et al. (2007) ພົບວ່າຜົນກະທົບຂອງການປິ່ນປົວແມ່ນທີ່ແຕກຕ່າງກັນສໍາລັບການແສງສະຫວ່າງແລະຕົກຫນັກຜູ້ໃຊ້, ບາງທີອາດມີຜົນກະທົບຂອງອາຫານຂ່າວທີ່ແຕກຕ່າງກັນສໍາລັບປະຊາຊົນຜູ້ທີ່ໄດ້ມີແນວໂນ້ມເພື່ອມີຄວາມສຸກ (ຫຼື sad) ຂໍ້ຄວາມ. Repurposing ສາມາດນໍາໄປສູ່ການ "ການຫາປາ" (Humphreys, Sierra, and Windt 2013) ແລະ "p ການ hack" (Simmons, Nelson, and Simonsohn 2011) , ແຕ່ການເຫຼົ່ານີ້ມີຂະຫນາດໃຫຍ່ addressable ກັບປະສົມປະສານຂອງການລາຍງານຄວາມຊື່ສັດ (Simmons, Nelson, and Simonsohn 2011) , ທາງສ່ວນຫນ້າຂອງການຈົດທະບຽນ (Humphreys, Sierra, and Windt 2013) , ແລະວິທີການຮຽນຮູ້ຂອງເຄື່ອງທີ່ພະຍາຍາມເພື່ອຫຼີກເວັ້ນການໃນໄລຍະ, fitting.