3.4.3 ຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນ: ຂໍ້ມູນຕົວຢ່າງ

ການແປພາສານີ້ໄດ້ສ້າງຕັ້ງຂື້ນໂດຍຄອມພິວເຕີ. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

3.4.3 ຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນ: ຂໍ້ມູນຕົວຢ່າງ

ບໍ່ແມ່ນທັງຫມົດຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນແມ່ນດຽວກັນ. ພວກເຮົາສາມາດເພີ່ມການຄວບຄຸມເພີ່ມເຕີມກ່ຽວກັບໃນຕອນທ້າຍທາງຫນ້າ.

ວິທີການ Wang ແລະເພື່ອນຮ່ວມງານນໍາໃຊ້ເພື່ອປະເມີນຜົນໄດ້ຮັບຂອງການເລືອກຕັ້ງປະທານປະເທດສະຫະລັດປີ 2012 ຂຶ້ນຢູ່ທັງຫມົດກ່ຽວກັບການປັບປຸງໃນການວິເຄາະຂໍ້ມູນ. ວ່າແມ່ນ, ພວກເຂົາເຈົ້າເກັບກໍາການຕອບສະຫນອງຈໍານວນຫຼາຍເທົ່າທີ່ພວກເຂົາສາມາດເຮັດໄດ້ແລະຫຼັງຈາກນັ້ນພະຍາຍາມທີ່ຈະ Re: ນ້ໍາໃຫ້ເຂົາເຈົ້າ. A ຍຸດທະສາດທີ່ສົມບູນສໍາລັບການເຮັດວຽກຮ່ວມກັບການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນອາດຈະເປັນທີ່ຈະມີການຄວບຄຸມໃນໄລຍະຂະບວນການເກັບກໍາຂໍ້ມູນ.

ໄດ້ຍົກຕົວຢ່າງ simplest ຂອງຂະບວນການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນຫນ້າຈະເປັນການຄວບຄຸມບາງສ່ວນເປັນການເກັບຕົວຢ່າງໂຄຕາ, ວິທີການທີ່ຈະໄປກັບຄືນໄປບ່ອນໃນມື້ທໍາອິດຂອງການຄົ້ນຄວ້າສໍາຫຼວດ. ໃນການເກັບຕົວຢ່າງໂຄຕາ, ນັກຄົ້ນຄວ້າແບ່ງປະຊາກອນເປັນກຸ່ມທີ່ແຕກຕ່າງກັນ (ຕົວຢ່າງ, ຊາຍຫນຸ່ມ, ຍິງຫນຸ່ມ, ແລະອື່ນໆ) ແລະໂກຕາຫຼັງຈາກນັ້ນກໍານົດໄວ້ສໍາລັບການຈໍານວນຂອງປະຊາຊົນທີ່ຈະໄດ້ຮັບການຄັດເລືອກໃນແຕ່ລະກຸ່ມ. ຕອບໄດ້ຖືກຄັດເລືອກໃນລັກສະນະ haphazard ຈົນກ່ວານັກຄົ້ນຄວ້າໄດ້ພົບກັບໂກຕາຂອງເຂົາເຈົ້າໃນແຕ່ລະກຸ່ມ. ເນື່ອງຈາກວ່າຂອງໂກຕ້ານັ້ນ, ຕົວຢ່າງທີ່ໄດ້ຮັບການລັກສະນະຄືປະຊາກອນເປົ້າຫມາຍດັ່ງກ່າວກ່ວາຈະເປັນຄວາມຈິງຖ້າບໍ່ດັ່ງນັ້ນ, ແຕ່ເນື່ອງຈາກວ່າອາດຈະເປັນການລວມເປັນທີ່ຮູ້ຈັກນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍບໍ່ຄ່ອຍເຊື່ອງ່າຍໆຂອງການເກັບຕົວຢ່າງໂຄຕາ. ໃນຄວາມເປັນຈິງ, ການເກັບຕົວຢ່າງໂຄຕານີ້ແມ່ນສາເຫດຂອງການເປັນ "Dewey Defeats Truman" ຄວາມຜິດພາດໃນ 1948 ໂພດັບປະທານປະເທດ. ເນື່ອງຈາກວ່າມັນສະຫນອງການຄວບຄຸມໃນໄລຍະຂະບວນການສຸ່ມຕົວຢ່າງທີ່, ຢ່າງໃດກໍຕາມ, ຫນຶ່ງສາມາດເບິ່ງວິທີການເກັບຕົວຢ່າງໂກຕາອາດຈະມີຄວາມໄດ້ປຽບບາງໃນໄລຍະການເກັບກໍາຂໍ້ມູນການຄວບຄຸມຢ່າງສົມບູນ.

ການເຄື່ອນຍ້າຍຫຼັງຈາກການເກັບຕົວຢ່າງໂຄຕາ, ວິທີການທີ່ທັນສະໄຫມເພີ່ມເຕີມຕໍ່ກັບການຄວບຄຸມຂະບວນການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນໃນປັດຈຸບັນທີ່ເປັນໄປໄດ້. ຫນຶ່ງວິທີການດັ່ງກ່າວໄດ້ຖືກເອີ້ນວ່າຂໍ້ມູນຕົວຢ່າງ, ແລະມັນໄດ້ຖືກນໍາໃຊ້ໂດຍໃຫ້ບໍລິການຄະນະກໍາມະອອນໄລນ໌ການຄ້າ. ໃນຮູບແບບ simplest ຂອງຕົນ, ຂໍ້ມູນຕົວຢ່າງຮຽກຮ້ອງໃຫ້ທັງສອງແຫລ່ງຂໍ້ມູນ: 1) ການລົງທະບຽນສົມບູນຂອງປະຊາກອນແລະ 2) ຄະນະກໍາມະຂະຫນາດໃຫຍ່ຂອງອາສາສະຫມັກ. ມັນເປັນສິ່ງສໍາຄັນທີ່ອາສາສະຫມັກບໍ່ຈໍາເປັນຕ້ອງຈະເປັນຕົວຢ່າງຂອງການຄາດຄະເນຈາກປະຊາກອນໃດຫນຶ່ງ; ຈະເນັ້ນຫນັກໃສ່ວ່າມີຄວາມຕ້ອງການສໍາລັບການຄັດເລືອກເຂົ້າໃນຄະນະທີ່ບໍ່ມີ, ຂ້າພະເຈົ້າຈະໂທຫາມັນເປັນຄະນະກໍາມະເປື້ອນ. ນອກຈາກນັ້ນ, ທັງສອງສະມາຊິກປະຊາກອນແລະຄະນະກໍາມະເປື້ອນຕ້ອງປະກອບມີຂໍ້ມູນຊ່ວຍບາງຢ່າງກ່ຽວກັບແຕ່ລະຄົນ, ໃນຕົວຢ່າງນີ້, ຂ້າພະເຈົ້າຈະພິຈາລະນາອາຍຸສູງສຸດແລະການຮ່ວມເພດ, ແຕ່ວ່າໃນສະຖານະການຈິງຂໍ້ມູນຊ່ວຍນີ້ສາມາດຈະມີຫຼາຍລາຍລະອຽດ. ເຄັດລັບຂອງຂໍ້ມູນຕົວຢ່າງແມ່ນການເລືອກເອົາຕົວຢ່າງຈາກຄະນະກໍາມະເປື້ອນໃນວິທີການທີ່ສາມາດຜະລິດຕົວຢ່າງທີ່ມີລັກສະນະເຊັ່ນຕົວຢ່າງອາດຈະເປັນ.

ຕົວຢ່າງຂໍ້ມູນຈະເລີ່ມຕົ້ນໃນເວລາທີ່ເປັນຕົວຢ່າງຂອງການຄາດຄະເນຈໍາລອງແມ່ນໄດ້ມາຈາກປະຊາກອນທີ່ລົງທະບຽນ; ຕົວຢ່າງຈໍາລອງນີ້ຈະກາຍເປັນຕົວຢ່າງເປົ້າຫມາຍ. ຫຼັງຈາກນັ້ນ, ໂດຍອີງໃສ່ຂໍ້ມູນຊ່ວຍໄດ້, ໃນກໍລະນີຕົວຢ່າງເປົ້າຫມາຍດັ່ງກ່າວແມ່ນສອດຄ່ອງກັບປະຊາຊົນໃນຄະນະກໍາມະເປື້ອນທີ່ຈະປະກອບເປັນຕົວຢ່າງຂອງການຈັບຄູ່. ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າມີແມ່ຍິງອາຍຸ 25 ປີຢູ່ໃນຕົວຢ່າງເປົ້າຫມາຍດັ່ງກ່າວ, ຫຼັງຈາກນັ້ນນັກຄົ້ນຄວ້າເຫັນວ່າເປັນແມ່ຍິງ 25 ປີອາຍຸຈາກຄະນະກໍາມະເປື້ອນຈະຢູ່ໃນຕົວຢ່າງຈັບຄູ່. ສຸດທ້າຍ, ສະມາຊິກຂອງກຸ່ມຕົວຢ່າງຈັບຄູ່ໄດ້ຖືກສໍາພາດໃນການຜະລິດທີ່ກໍານົດໄວ້ສຸດທ້າຍຂອງການຕອບ.

ເຖິງແມ່ນວ່າຕົວຢ່າງຈັບຄູ່ຄ້າຍຄືຕົວຢ່າງເປົ້າຫມາຍດັ່ງກ່າວ, ມັນເປັນສິ່ງສໍາຄັນເພື່ອຈື່ຈໍາວ່າຕົວຢ່າງຈັບຄູ່ບໍ່ແມ່ນຕົວຢ່າງຫນ້າເປັນ. ຕົວຢ່າງຈັບຄູ່ພຽງແຕ່ສາມາດມີຄໍາວ່າຕົວຢ່າງເປົ້າຫມາຍກ່ຽວກັບຂໍ້ມູນຊ່ວຍເປັນທີ່ຮູ້ຈັກ (ຕົວຢ່າງ, ອາຍຸແລະເພດ), ແຕ່ບໍ່ໄດ້ຢູ່ໃນລັກສະນະ unmeasured. ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າປະຊາຊົນກ່ຽວກັບການຄະນະກໍາມະເປື້ອນທີ່ມີແນວໂນ້ມທີ່ຈະທຸກຍາກຫຼັງຈາກທັງຫມົດ, ຫນຶ່ງໃນເຫດຜົນທີ່ຈະເຂົ້າຮ່ວມຄະນະກໍາມະການສໍາຫຼວດແມ່ນເພື່ອຫາເງິນ, ຫຼັງຈາກນັ້ນເຖິງແມ່ນວ່າຖ້າຫາກວ່າຕົວຢ່າງຈັບຄູ່ຄ້າຍຄືຕົວຢ່າງເປົ້າຫມາຍດັ່ງກ່າວໃນເງື່ອນໄຂຂອງການອາຍຸສູງສຸດແລະການຮ່ວມເພດມັນຈະຍັງຄົງມີ ມີອະຄະຕິຕໍ່ປະຊາຊົນຜູ້ທຸກຍາກ. magic ຂອງການເກັບຕົວຢ່າງຈະເປັນຄວາມຈິງເປັນສິ່ງທີ່ຈະອອກກົດລະບຽບບັນຫາກ່ຽວກັບການທັງລັກສະນະການວັດແທກແລະ unmeasured (ຈຸດທີ່ແມ່ນສອດຄ່ອງກັບການສົນທະນາຂອງໂຍບາຍຄວາມລັບສໍາລັບການສະຫຼຸບເຫດຈາກການສຶກສາການສັງເກດການໃນຫມວດທີ 2 ຂອງພວກເຮົາ).

ໃນການປະຕິບັດ, ຂໍ້ມູນຕົວຢ່າງຂຶ້ນຢູ່ກັບການມີຄະນະກໍາມະຂະຫນາດໃຫຍ່ແລະຫຼາກຫຼາຍຊະນິດ eager ເພື່ອໃຫ້ສໍາເລັດການສໍາຫຼວດ, ແລະດັ່ງນັ້ນມັນແມ່ນເຮັດໂດຍສ່ວນໃຫຍ່ບໍລິສັດທີ່ສາມາດທີ່ຈະພັດທະນາແລະຮັກສາຄະນະກໍາມະການດັ່ງກ່າວເປັນ. ນອກຈາກນີ້, ໃນການປະຕິບັດ, ມີຄວາມສາມາດບັນຫາກ່ຽວກັບການຈັບຄູ່ (ບາງຄັ້ງກໍເປັນການແຂ່ງຂັນທີ່ດີສໍາລັບຜູ້ໃດຜູ້ຫນຶ່ງໃນຕົວຢ່າງເປົ້າຫມາຍດັ່ງກ່າວບໍ່ໄດ້ມີຢູ່ໃນຄະນະກໍາມະ) ແລະບໍ່ມີການຕອບສະຫນອງ (ບາງຄັ້ງປະຊາຊົນໃນຕົວຢ່າງຈັບຄູ່ປະຕິເສດທີ່ຈະເຂົ້າຮ່ວມໃນການສໍາຫຼວດ). ເພາະສະນັ້ນ, ໃນການປະຕິບັດ, ຄົ້ນຄ້ວາການດໍາເນີນການຂໍ້ມູນຕົວຢ່າງຍັງປະຕິບັດປະເພດຂອງການປັບຕອບ stratification ບາງຢ່າງທີ່ຈະເຮັດໃຫ້ການຄາດຄະເນ.

ມັນເປັນການຍາກທີ່ຈະສະຫນອງການຮັບປະກັນທາງທິດສະດີທີ່ເປັນປະໂຫຍດກ່ຽວກັບຂໍ້ມູນຕົວຢ່າງ, ແຕ່ວ່າໃນການປະຕິບັດມັນກໍສາມາດເຮັດວຽກໄດ້ດີ. ສໍາລັບການຍົກຕົວຢ່າງ, Stephen Ansolabehere ແລະ Brian Schaffner (2014) ເມື່ອທຽບໃສ່ສາມການສໍາຫຼວດຂະຫນານຂອງປະມານ 1,000 ຄົນໄດ້ດໍາເນີນການໃນປີ 2010 ການນໍາໃຊ້ສາມຕົວຢ່າງທີ່ແຕກຕ່າງກັນແລະສໍາພາດວິທີການ: mail, ໂທລະສັບ, ແລະຄະນະກໍາມະການນໍາໃຊ້ອິນເຕີເນັດຂໍ້ມູນຕົວຢ່າງແລະການປັບຕົວໄປສະນີ, stratification. ການຄາດຄະເນຈາກສາມວິທີການແມ່ນຂ້ອນຂ້າງຄ້າຍຄືກັນກັບການຄາດຄະເນຈາກມາດຕະຖານຄຸນນະພາບສູງເຊັ່ນ: ການສໍາຫຼວດໃນປະຈຸບັນປະຊາກອນ (CPS) ແລະການສໍາພາດສຸຂະພາບແຫ່ງຊາດການສໍາຫຼວດ (NHIS). ຫຼາຍໂດຍສະເພາະ, ທັງສອງໃນອິນເຕີເນັດແລະອີເມລການສໍາຫຼວດໄດ້ໄປໂດຍສະເລ່ຍຂອງ 3 ຈຸດສ່ວນຮ້ອຍແລະການສໍາຫຼວດໂທລະສັບເຈົ້າໄປ 4 ຈຸດສ່ວນຮ້ອຍ. ຄວາມຜິດພາດຂະຫນາດໃຫຍ່ນີ້ແມ່ນປະມານສິ່ງທີ່ຈະຄາດຫວັງຈາກຕົວຢ່າງຂອງການປະມານ 1,000 ຄົນ. ເຖິງແມ່ນວ່າບໍ່ມີທິບາຍຮູບແບບການເຫຼົ່ານີ້ຜະລິດຂໍ້ມູນຢ່າງຫຼວງຫຼາຍທີ່ດີກວ່າ, ທັງໃນອິນເຕີເນັດແລະໂທລະສັບແບບສໍາຫລວດ (ທີ່ໄດ້ມື້ຫຼືອາທິດ) ໄດ້ຢ່າງໄວກັບພາກສະຫນາມກ່ວາການສໍາຫຼວດ mail (ຊຶ່ງໄດ້ແປດເດືອນ), ແລະການສໍາຫຼວດອິນເຕີເນັດ, ການນໍາໃຊ້ used ມູນຕົວຢ່າງ, ລາຄາຖືກກ່ວາອີກສອງທິບາຍຮູບແບບ.

ໃນການສະຫລຸບ, ວິທະຍາສາດສັງຄົມແລະ statisticians ແມ່ນ incredibly ບໍ່ຄ່ອຍເຊື່ອງ່າຍໆຂອງອ້າງອິງຈາກການເຫຼົ່ານີ້ຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນ, ໃນສ່ວນຫນຶ່ງຍ້ອນວ່າເຂົາເຈົ້າໄດ້ຖືກທີ່ກ່ຽວຂ້ອງກັບບາງຄວາມອາຍຂອງການຄົ້ນຄວ້າສໍາຫຼວດເຊັ່ນ: ການສໍາຫລວດວັນນະຄະດີສໍາຄັນ. ໃນສ່ວນຫນຶ່ງ, ຂ້າພະເຈົ້າຕົກລົງເຫັນດີດ້ວຍຄວາມສົງໄສນີ້: ຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນ unadjusted ມີແນວໂນ້ມໃນການຜະລິດຄາດຄະເນທີ່ບໍ່ດີ. ຢ່າງໃດກໍຕາມ, ຖ້າຫາກວ່ານັກຄົ້ນຄວ້າສາມາດປັບສໍາລັບຄວາມລໍາອຽງໃນຂະບວນການສຸ່ມຕົວຢ່າງ (ຕົວຢ່າງ:, ໄປສະນີ, stratification) ຫຼືຄວບຄຸມຂະບວນການສຸ່ມຕົວຢ່າງທີ່ສົມຄວນ (ຕົວຢ່າງ, ຕົວຢ່າງ matching), ພວກເຂົາເຈົ້າສາມາດຜະລິດຄາດຄະເນທີ່ດີກວ່າ, ແລະເຖິງແມ່ນວ່າການຄາດຄະເນຂອງຄຸນນະພາບທີ່ພຽງພໍສໍາລັບຈຸດປະສົງຫລາຍທີ່ສຸດ. ແນ່ນອນ, ມັນຈະເປັນການດີກວ່າທີ່ຈະເຮັດການເກັບຕົວຢ່າງອາດຈະປະຕິບັດຢ່າງສົມບູນ, ແຕ່ວ່າບໍ່ມີຕໍ່ໄປອີກແລ້ວປະກົດວ່າຈະເປັນທາງເລືອກທີ່ມີເຫດຜົນ.

ທັງສອງຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນແລະຕົວຢ່າງອາດຈະແຕກຕ່າງກັນໃນຄຸນນະພາບຂອງເຂົາເຈົ້າ, ແລະປະຈຸບັນມັນເປັນໄປໄດ້ກໍລະນີທີ່ການຄາດຄະເນທີ່ສຸດຈາກຕົວຢ່າງອາດຈະເປັນທີ່ຫນ້າເຊື່ອຖືຫລາຍກວ່າການຄາດຄະເນຈາກຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນ. ແຕ່ວ່າ, ເຖິງແມ່ນວ່າໃນປັດຈຸບັນ, ການຄາດຄະເນຈາກດີດໍາເນີນການຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນອາດຈະດີກ່ວາການຄາດຄະເນຈາກຕົວຢ່າງອາດຈະບໍ່ດີພໍ, ດໍາເນີນການ. ນອກຈາກນັ້ນ, ຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນມີຢ່າງຫຼວງຫຼາຍລາຄາຖືກກວ່າ. ດັ່ງນັ້ນ, ມັນປະກົດວ່າຫນ້າຈະເປັນທີ່ vs ການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນມີຄ່າໃຊ້ຈ່າຍ, ຄຸນນະພາບການຄ້າໄປ (ຮູບ 36). ເບິ່ງໄປຂ້າງຫນ້າ, ຂ້າພະເຈົ້າຄາດຫວັງວ່າການຄາດຄະເນຈາກດີເຮັດຕົວຢ່າງບໍ່ອາດຈະກາຍເປັນລາຄາຖືກກວ່າແລະດີກວ່າເກົ່າ. ນອກຈາກນັ້ນ, ເນື່ອງຈາກວ່າລາຍລະອຽດໃນການສໍາຫຼວດໂທລະສັບໂທລະສັບພື້ນຖານແລະອັດຕາການເພີ່ມຂຶ້ນຂອງການບໍ່ຕອບສະຫນອງໄດ້, ຂ້າພະເຈົ້າຄາດຫວັງວ່າຕົວຢ່າງອາດຈະກາຍເປັນລາຄາແພງຫຼາຍແລະມີຄຸນນະພາບຕ່ໍາ. ເນື່ອງຈາກວ່າເຫຼົ່ານີ້ແນວໂນ້ມໃນໄລຍະຍາວ, ຂ້າພະເຈົ້າຄິດວ່າການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນຈະມີຄວາມສໍາຄັນຫລາຍຂຶ້ນໃນຍຸກທີ່ສາມຂອງການຄົ້ນຄ້ວາການສໍາຫຼວດ.

ຕົວເລກ 36: ການເກັບຕົວຢ່າງອາດຈະຢູ່ໃນການປະຕິບັດແລະການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນມີທັງຂະຫນາດໃຫຍ່, ປະເພດທີ່ແຕກຕ່າງ. ໂດຍທົ່ວໄປ, ບໍ່ມີຄ່າໃຊ້ຈ່າຍ, ຄວາມຜິດພາດການຄ້າໄປ, ມີການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນເປັນຄ່າໃຊ້ຈ່າຍຕ່ໍາແຕ່ຄວາມຜິດພາດທີ່ສູງຂຶ້ນ. ຢ່າງໃດກໍຕາມ, ດີເຮັດຕົວຢ່າງບໍ່ອາດຈະສາມາດຜະລິດຕະພັນການຄາດຄະເນທີ່ດີກວ່າກ່ວາການເກັບຕົວຢ່າງອາດຈະບໍ່ດີພໍເຮັດໄດ້. ໃນອະນາຄົດ, ຂ້າພະເຈົ້າຄາດຫວັງວ່າການເກັບຕົວຢ່າງທີ່ບໍ່ແມ່ນການຄາດຄະເນຈະໄດ້ຮັບທີ່ດີກວ່າແລະລາຄາຖືກກວ່າໃນຂະນະທີ່ການເກັບຕົວຢ່າງອາດຈະຮ້າຍແຮງຂຶ້ນແລະລາຄາແພງຫຼາຍ.