2.4.3.2 ໂຍບາຍຄວາມລັບ

ໂຍບາຍຄວາມລັບສ້າງການປຽບທຽບຄວາມຍຸຕິທໍາໂດຍ pruning ໄປກໍລະນີ.

ການປຽບທຽບຄວາມຍຸຕິທໍາສາມາດມາຈາກທັງບັນສາມາດຄວບຄຸມການທົດລອງຫລືການທົດລອງທໍາມະຊາດ. ແຕ່, ບໍ່ມີສະຖານະການຈໍານວນຫຼາຍທີ່ທ່ານສາມາດດໍາເນີນການທົດລອງທີ່ເຫມາະສົມແລະລັກສະນະຍັງບໍ່ທັນໄດ້ສະຫນອງໃຫ້ເປັນການທົດລອງທໍາມະຊາດ. ໃນການປັບຄ່າເຫຼົ່ານີ້, ວິທີການທີ່ດີທີ່ສຸດເພື່ອສ້າງເປັນການປຽບທຽບທີ່ເປັນທັມໂຍບາຍຄວາມລັບ. ໃນການແຂ່ງຂັນ, ນັກຄົ້ນຄວ້າໄດ້ເບິ່ງຜ່ານຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງເພື່ອສ້າງຄູ່ຂອງປະຊາຊົນທີ່ຄ້າຍຄືກັນເວັ້ນເສຍແຕ່ວ່າມີໃຜໄດ້ຮັບການປິ່ນປົວແລະອີກຄົນຫນຶ່ງຍັງບໍ່ທັນໄດ້. ໃນຂະບວນການຂອງໂຍບາຍຄວາມລັບ, ນັກຄົ້ນຄວ້າກໍາລັງຕົວຈິງຍັງ pruning; ທີ່ເປັນ, ການຖິ້ມໄພ່ກໍລະນີທີ່ບໍ່ມີການສົມທຽບຢ່າງຈະແຈ້ງ. ດັ່ງນັ້ນ, ວິທີການນີ້ຈະໄດ້ຮັບການເພີ່ມເຕີມທີ່ເອີ້ນວ່າຖືກ​​ຕ້ອງກົງກັບແລະ pruning, ແຕ່ຂ້າພະເຈົ້າຈະຕິດຢູ່ກັບໄລຍະປະເພນີ: ການແຂ່ງຂັນ.

A ຍົກຕົວຢ່າງທີ່ສວຍງາມຂອງພະລັງງານຂອງແຜນຍຸດທະສາດກັບແຫລ່ງຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງ massive ໂຍບາຍຄວາມລັບໄດ້ມາຈາກການຄົ້ນຄວ້າກ່ຽວກັບພຶດຕິກໍາຜູ້ບໍລິໂພກໂດຍ Liran Einav ແລະເພື່ອນຮ່ວມງານໄດ້ (2015) . Einav ແລະເພື່ອນຮ່ວມງານມີຄວາມສົນໃຈໃນການປະມູນສະຖານທີ່ສຸດ eBay, ແລະໃນການອະທິບາຍການເຮັດວຽກຂອງເຂົາເຈົ້າ, ຂ້າພະເຈົ້າຈະສຸມໃສ່ການລັກຫນຶ່ງໂດຍສະເພາະ: ຜົນກະທົບຂອງການປະມູນລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບການປະມູນ, ເຊັ່ນ: ລາຄາຂາຍຫຼືອາດຈະຂາຍໄດ້.

ວິທີ naive ທີ່ສຸດທີ່ຈະຕອບຄໍາຖາມກ່ຽວກັບຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນທີ່ລາຄາຂາຍໄດ້ຈະເປັນການພຽງແຕ່ຄິດໄລ່ລາຄາສຸດທ້າຍສໍາລັບການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ. ວິທີການນີ້ຈະເປັນການດີຖ້າຫາກວ່າທ່ານພຽງແຕ່ຕ້ອງການທີ່ຈະຄາດຄະເນລາຄາຂາຍຂອງລາຍຮັບທີ່ໄດ້ຮັບການເອົາໃຈໃສ່ໃນ eBay ໃນລາຄາເລີ່ມຕົ້ນທີ່ໄດ້ຮັບ. ແຕ່, ຖ້າຫາກວ່າຄໍາຖາມຂອງທ່ານແມ່ນສິ່ງທີ່ເປັນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບຂອງຕະຫຼາດວິທີການນີ້ຈະບໍ່ເຮັດວຽກເນື່ອງຈາກວ່າມັນບໍ່ໄດ້ອີງໃສ່ການປຽບທຽບຄວາມຍຸຕິທໍາ; ການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ຕ່ໍາອາດຈະຂ້ອນຂ້າງແຕກຕ່າງກັນຈາກການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນ (ຕົວຢ່າງ:, ພວກເຂົາເຈົ້າອາດຈະເປັນສໍາລັບປະເພດທີ່ແຕກຕ່າງກັນຂອງສິນຄ້າຫລືປະກອບມີປະເພດທີ່ແຕກຕ່າງກັນຂອງຜູ້ຂາຍ).

ຖ້າຫາກວ່າທ່ານມີຄວາມເປັນຫ່ວງຢູ່ແລ້ວກ່ຽວກັບການເຮັດໃຫ້ການປຽບທຽບຄວາມຍຸຕິທໍາ, ທ່ານອາດຈະຂ້າມວິທີການ naive ແລະພິຈາລະນາການເຮັດວຽກການທົດລອງພາກສະຫນາມບ່ອນທີ່ທ່ານຈະຂາຍລະລາຍການເວົ້າວ່າ, ກອຟສະໂມສອນທີ່ມີກໍານົດໄວ້ແນ່ນອນຂອງການປະມູນຕົວກໍານົດການ, ເວົ້າວ່າ, ການຂົນສົ່ງຟຣີ, ການປະມູນ ເປີດສໍາລັບສອງອາທິດ, ແລະອື່ນໆ, ແຕ່ວ່າມີການເຂົ້າກໍານົດລາຄາເລີ່ມຕົ້ນ. ໂດຍການປຽບທຽບຜົນໄດ້ຮັບຂອງຕະຫຼາດທີ່ໄດ້ຮັບ, ການທົດລອງພາກສະຫນາມນີ້ຈະສະເຫນີໃຫ້ມີມາດຕະການທີ່ຊັດເຈນຂອງຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນທີ່ລາຄາຂາຍ. ແຕ່ວ່າ, ມາດຕະການນີ້ພຽງແຕ່ຈະນໍາໃຊ້ກັບຜະລິດຕະພັນຫນຶ່ງໂດຍສະເພາະແລະທີ່ກໍານົດໄວ້ຂອງຕົວກໍານົດການປະມູນ. ຜົນໄດ້ຮັບອາດຈະເປັນທີ່ແຕກຕ່າງກັນ, ສໍາລັບການຍົກຕົວຢ່າງ, ສໍາລັບປະເພດທີ່ແຕກຕ່າງກັນຂອງຜະລິດຕະພັນ. ໂດຍບໍ່ມີການທິດສະດີທີ່ເຂັ້ມແຂງ, ມັນເປັນການຍາກທີ່ຈະປະເມີນຈາກນີ້ການທົດລອງດຽວໃນລະດັບອັນເຕັມທີ່ຂອງປະສົບການທີ່ເປັນໄປໄດ້ທີ່ຈະສາມາດໄດ້ຮັບການດໍາເນີນການ. ນອກຈາກນັ້ນ, ການທົດລອງພາກສະຫນາມມີລາຄາແພງພໍວ່າມັນຈະເປັນການຄໍານວນເພື່ອດໍາເນີນການຢ່າງພຽງພໍຂອງເຂົາເຈົ້າເພື່ອໃຫ້ກວມເອົາພື້ນທີ່ຕົວກໍານົດການທັງຫມົດຂອງຜະລິດຕະພັນແລະປະເພດສິນຄ້າ.

ໃນກົງກັນຂ້າມກັບວິທີການ naive ແລະວິທີການທົດລອງ, Einav ແລະເພື່ອນຮ່ວມງານມີວິທີການທີສາມ: ຂໍ້ມູນ. ສິ່ງທີ່ສໍາຄັນຕົ້ນຕໍຂອງແຜນຍຸດທະສາດຂອງເຂົາເຈົ້າແມ່ນເພື່ອຄົ້ນພົບສິ່ງທີ່ຄ້າຍຄືກັນກັບການທົດລອງພາກສະຫນາມທີ່ໄດ້ເກີດຂຶ້ນແລ້ວໃນ eBay. ສໍາລັບການຍົກຕົວຢ່າງ, ຮູບ 26 ສະແດງໃຫ້ເຫັນບາງສ່ວນຂອງລາຍຊື່ຂອງ 31 ສໍາລັບການແທ້ກອຟຄັບ-a ດຽວກັນ Taylormade Burner 09 Driver, ການຂາຍໂດຍແທ້ດຽວກັນ seller- "budgetgolfer". ຢ່າງໃດກໍຕາມ, ລາຍການເຫຼົ່ານີ້ມີຄຸນລັກສະນະທີ່ແຕກຕ່າງກັນເລັກນ້ອຍ. Eleven ຂອງເຂົາເຈົ້າໃຫ້ຄົນຂັບສໍາລັບລາຄາການສ້ອມແຊມຂອງ $ 12499, ໃນຂະນະທີ່ອີກ 20 ມີການປະມູນທີ່ມີວັນທີ່ສິ້ນສຸດທີ່ແຕກຕ່າງກັນ. ນອກຈາກນັ້ນ, ບັນຊີລາຍການມີຄ່າທໍານຽມຂົນສົ່ງທີ່ແຕກຕ່າງກັນ, ບໍ່ວ່າຈະ $ 799 ຫຼື $ 999. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມັນແມ່ນການເປັນຖ້າຫາກວ່າ "budgetgolfer" ກໍາລັງເຮັດວຽກການທົດລອງສໍາລັບນັກຄົ້ນຄວ້າໄດ້.

ລາຍການຂອງ Taylormade Burner 09 Driver ການຂາຍໂດຍ "budgetgolfer" ແມ່ນຕົວຢ່າງຫນຶ່ງຂອງການທີ່ກໍານົດໄວ້ຈັບຄູ່ຂອງລາຍະການ, ບ່ອນທີ່ລາຍການດຽວກັນຄືກັນອ້ອຍຕ້ອຍຈະຖືກຂາຍໄດ້ໂດຍທັງຮ້ານຄ້າດຽວກັນຄືກັນອ້ອຍຕ້ອຍແຕ່ວ່າແຕ່ລະເວລາທີ່ມີລັກສະນະທີ່ແຕກຕ່າງກັນເລັກນ້ອຍ. ພາຍໃນບັນທຶກ massive ຂອງ eBay ມີການຮູ້ຫນັງສືຫຼາຍຮ້ອຍຄົນພັນຂອງຊຸດການຈັບຄູ່ທີ່ກ່ຽວຂ້ອງກັບລ້ານຍະ. ດັ່ງນັ້ນ, ແທນທີ່ຈະກ່ວາການປຽບທຽບລາຄາສຸດທ້າຍສໍາລັບການປະມູນທັງຫມົດໃນລາຄາເລີ່ມຕົ້ນທີ່ໄດ້ຮັບ, Einav ແລະເພື່ອນຮ່ວມງານເຮັດໃຫ້ການປຽບທຽບຢູ່ໃນຊຸດການຈັບຄູ່. ໃນຄໍາສັ່ງທີ່ຈະສົມທົບການຜົນໄດ້ຮັບຈາກການປຽບທຽບພາຍໃນຫຼາຍຮ້ອຍຄົນຂອງພັນຂອງຊຸດການຈັບຄູ່, Einav ແລະເພື່ອນຮ່ວມງານ Re: ສະແດງລາຄາເລີ່ມຕົ້ນແລະລາຄາສຸດທ້າຍໃນແງ່ຂອງມູນຄ່າການກະສານອ້າງອີງຂອງແຕ່ລະລາຍການ (ຕົວຢ່າງ, ລາຄາຂາຍຂອງຕົນໂດຍສະເລ່ຍ). ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າ Taylormade Burner 09 Driver ມີມູນຄ່າກະສານອ້າງອີງຂອງ $ 100 (ຕາມຍອດຂາຍຂອງຕົນ), ຫຼັງຈາກນັ້ນລາຄາເລີ່ມຕົ້ນທີ່ $ 10 ຈະໄດ້ຮັບການສະແດງອອກເປັນ 01 ແລະລາຄາສຸດທ້າຍຂອງ $ 120 ຈະໄດ້ຮັບການສະແດງອອກເປັນ 12.

ຕົວເລກ 26: ຕົວຢ່າງຂອງການທີ່ກໍານົດໄວ້ຈັບຄູ່. ນີ້ແມ່ນແນ່ນອນສະໂມສອນ Golf ດຽວກັນ (ເປັນ Taylormade Burner 09 Driver) ການຂາຍໂດຍບຸກຄົນທີ່ດຽວກັນຄືກັນອ້ອຍຕ້ອຍ (budgetgolfer), ແຕ່ບາງສ່ວນຂອງການຂາຍດັ່ງກ່າວໄດ້ຮັບການປະຕິບັດເງື່ອນໄຂທີ່ແຕກຕ່າງກັນ (ຕົວຢ່າງ:, ລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ). ຕົວເລກການປະຕິບັດຈາກ Einav et al. (2015).

ຕົວເລກ 26: ຕົວຢ່າງຂອງການທີ່ກໍານົດໄວ້ຈັບຄູ່. ນີ້ແມ່ນແນ່ນອນສະໂມສອນ Golf ດຽວກັນ (ເປັນ Taylormade Burner 09 Driver) ການຂາຍໂດຍບຸກຄົນທີ່ດຽວກັນຄືກັນອ້ອຍຕ້ອຍ ( "budgetgolfer"), ແຕ່ວ່າບາງສ່ວນຂອງການຂາຍດັ່ງກ່າວໄດ້ຮັບການປະຕິບັດເງື່ອນໄຂທີ່ແຕກຕ່າງກັນ (ຕົວຢ່າງ, ລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ). ຕົວເລກການປະຕິບັດຈາກ Einav et al. (2015) .

ໃຫ້ຈື່ໄວ້ວ່າ Einav ແລະເພື່ອນຮ່ວມງານມີຄວາມສົນໃຈໃນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບການປະມູນ. ຫນ້າທໍາອິດ, ການນໍາໃຊ້ຖົດຖອຍເຊີງເສັ້ນພວກເຂົາເຈົ້າຄາດຄະເນວ່າລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນຫຼຸດລົງເປັນໄປໄດ້ຂອງການຂາຍ, ແລະການທີ່ລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນເພີ່ມທະວີການລາຄາຂາຍສຸດທ້າຍ, ເງື່ອນໄຂກ່ຽວກັບການຂາຍທີ່ເກີດຂຶ້ນ. ດ້ວຍຕົນເອງ, ການຄາດຄະເນ, ທີ່ເຫຼົ່ານີ້ແມ່ນໄດ້ສະເລ່ຍໃນໄລຍະຜະລິດຕະພັນທັງຫມົດແລະຮັບໃຊ້ຄວາມສໍາພັນເຊີງເສັ້ນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະສຸດທ້າຍຜົນໄດ້ຮັບ, ບໍ່ແມ່ນທັງຫມົດທີ່ຫນ້າສົນໃຈທີ່. ແຕ່, Einav ແລະເພື່ອນຮ່ວມງານກໍໄດ້ນໍາໃຊ້ການຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອປະເມີນຊະນິດຂອງການຄົ້ນພົບລະອຽດເພີ່ມເຕີມ. ຫນ້າທໍາອິດ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ຄາດຄະເນເຫຼົ່ານີ້ແຍກຕ່າງຫາກສໍາລັບລາຍການຂອງລາຄາທີ່ແຕກຕ່າງກັນແລະໂດຍບໍ່ມີການນໍາໃຊ້ຖົດຖອຍເຊີງເສັ້ນ. ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນວ່າໃນຂະນະທີ່ຄວາມສໍາພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະຄາດຄະເນການຂອງການຂາຍແມ່ນຮູບແຂບ, ສາຍພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາຂາຍເປັນຢ່າງຊັດເຈນບໍ່ແມ່ນແຂບ (ຮູບ 27). ໂດຍສະເພາະ, ສໍາລັບລາຄາເລີ່ມຕົ້ນລະຫວ່າງ 005 ແລະ 085, ລາຄາເລີ່ມຕົ້ນໄດ້ມີຜົນກະທົບພຽງເລັກນ້ອຍຫຼາຍກ່ຽວກັບລາຄາຂາຍ, ການຄົ້ນພົບທີ່ໄດ້ສໍາເລັດພາດໂອກາດນີ້ໃນການວິເຄາະທີ່ໄດ້ສົມມຸດເປັນສາຍພົວພັນ, ຮູບແຂບໄດ້.

ຮູບ 27: ຄວາມສໍາພັນລະຫວ່າງລາຄາເລີ່ມປະມູນແລະຄາດຄະເນການຂອງການຂາຍ (ຊ້າຍ) ແລະລາຄາຂາຍ (ກະດານຂວາ). ມີປະມານເປັນຄວາມສໍາພັນເຊີງເສັ້ນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະຄາດຄະເນການຂອງການຂາຍ, ແຕ່ວ່າບໍ່ມີຄວາມສໍາພັນທີ່ບໍ່ແມ່ນແຂບລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາຂາຍ; ສໍາລັບການເລີ່ມຕົ້ນລາຄາລະຫວ່າງ 005 ແລະ 085, ລາຄາເລີ່ມຕົ້ນໄດ້ມີຜົນກະທົບພຽງເລັກນ້ອຍຫຼາຍກ່ຽວກັບລາຄາຂາຍ. ໃນທັງສອງກໍລະນີ, ສາຍພົວພັນທີ່ມີພື້ນຖານເອກະລາດຂອງມູນຄ່າສິນຄ້າ. ລະເຫຼົ່ານີ້ມີການແຜ່ພັນ 4a ຮູບແລະ 4b Einav et al. (2015).

ຮູບ 27: ຄວາມສໍາພັນລະຫວ່າງລາຄາເລີ່ມປະມູນແລະຄາດຄະເນການຂອງການຂາຍ (ຊ້າຍ) ແລະລາຄາຂາຍ (ກະດານຂວາ). ມີປະມານເປັນຄວາມສໍາພັນເຊີງເສັ້ນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະຄາດຄະເນການຂອງການຂາຍ, ແຕ່ວ່າບໍ່ມີຄວາມສໍາພັນທີ່ບໍ່ແມ່ນແຂບລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາຂາຍ; ສໍາລັບການເລີ່ມຕົ້ນລາຄາລະຫວ່າງ 005 ແລະ 085, ລາຄາເລີ່ມຕົ້ນໄດ້ມີຜົນກະທົບພຽງເລັກນ້ອຍຫຼາຍກ່ຽວກັບລາຄາຂາຍ. ໃນທັງສອງກໍລະນີ, ສາຍພົວພັນທີ່ມີພື້ນຖານເອກະລາດຂອງມູນຄ່າສິນຄ້າ. ລະເຫຼົ່ານີ້ມີການແຜ່ພັນ 4a ຮູບແລະ 4b Einav et al. (2015) .

ຄັ້ງທີສອງ, ແທນທີ່ຈະກ່ວາສະເລ່ຍໃນໄລຍະລາຍການທັງຫມົດ, Einav ແລະເພື່ອນຮ່ວມງານກໍໄດ້ນໍາໃຊ້ການຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອປະເມີນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນສໍາລັບການ 23 ປະເພດທີ່ແຕກຕ່າງກັນຂອງລາຍການລາຍການ (ຕົວຢ່າງ:, ອຸປະກອນສັດລ້ຽງ, ເອເລັກໂຕຣນິກ, ແລະຫນ້າຈົດຈໍາກິລາ) (ຮູບສະແດງທີ 28) ໄດ້. ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບການທີ່ແຕກຕ່າງກັນຫຼາຍກວ່າລາຍການດັ່ງກ່າວເປັນລາຄາທີ່ລະນຶກ, ການເລີ່ມຕົ້ນມີຜົນກະທົບຂະຫນາດນ້ອຍກ່ຽວກັບການຄາດຄະເນການຂອງການຂາຍແລະຜົນກະທົບຂະຫນາດໃຫຍ່ກ່ຽວກັບລາຄາຂາຍສຸດທ້າຍ. ນອກຈາກນັ້ນ, ສໍາລັບລາຍການດັ່ງກ່າວ commodified ຫຼາຍເປັນດີວີດີແລະວິດີໂອລາຄາເລີ່ມຕົ້ນມີເກືອບຜົນກະທົບຕໍ່ລາຄາສຸດທ້າຍທີ່ບໍ່ມີ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ໂດ​​ຍສະເລ່ຍທີ່ລວມຜົນໄດ້ຮັບຈາກ 23 ປະເພດທີ່ແຕກຕ່າງກັນຂອງລາຍການ hides ຂໍ້ມູນທີ່ສໍາຄັນກ່ຽວກັບຄວາມແຕກຕ່າງລະຫວ່າງລາຍການເຫຼົ່ານີ້.

ຮູບ 28: ຜົນການຄົ້ນຫາສະແດງໃຫ້ເຫັນການຄາດຄະເນຈາກແຕ່ລະປະເພດເປັນສ່ວນບຸກຄົນ; ການ dot ແຂງໃນການຄາດຄະເນສໍາລັບການປະເພດທັງຫມົດມາລວມກັນ, ຕາຕະລາງ 11 (Einav et al. 2015, ຕາຕະລາງ 11). ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບການທີ່ແຕກຕ່າງກັນຫຼາຍກວ່າລາຍການ, ເຊັ່ນ: ລະນຶກ, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຂະຫນາດນ້ອຍກ່ຽວກັບການຄາດຄະເນການຂອງການຂາຍ (x-axis) ແລະຜົນກະທົບຂະຫນາດໃຫຍ່ກ່ຽວກັບລາຄາຂາຍສຸດທ້າຍ (y-axis) ໄດ້.

ຮູບ 28: ຜົນການຄົ້ນຫາສະແດງໃຫ້ເຫັນການຄາດຄະເນຈາກແຕ່ລະປະເພດເປັນສ່ວນບຸກຄົນ; ການ dot ແຂງໃນການຄາດຄະເນສໍາລັບການປະເພດທັງຫມົດມາລວມກັນ (Einav et al. 2015, Table 11) . ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບການທີ່ແຕກຕ່າງກັນຫຼາຍກວ່າລາຍການ, ເຊັ່ນ: ລະນຶກ, ລາຄາເລີ່ມຕົ້ນມີຜົນກະທົບຂະຫນາດນ້ອຍກ່ຽວກັບການຄາດຄະເນການຂອງການຂາຍ (x-axis) ແລະຜົນກະທົບຂະຫນາດໃຫຍ່ກ່ຽວກັບລາຄາຂາຍສຸດທ້າຍ (y-axis) ໄດ້.

ເຖິງແມ່ນວ່າຖ້າຫາກວ່າທ່ານບໍ່ສົນໃຈໂດຍສະເພາະແມ່ນໃນການປະມູນໃນ eBay, ທ່ານມີຄວາມຊົມເຊີຍວິທີການທີ່ຮູບ 27 ແລະຮູບທີ່ 28 ສະເຫນີຄວາມເຂົ້າໃຈທີ່ດີຂຶ້ນຂອງ eBay ກ່ວາການຄາດຄະເນ regression ແຂບໄດ້ງ່າຍດາຍທີ່ສົມມຸດສາຍພົວພັນ, ຮູບແຂບແລະສົມທົບການປະເພດທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍຂອງລາຍການລາຍການ. ການຄາດຄະເນລະອຽດເພີ່ມເຕີມເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນພະລັງງານຂອງການກໍານົດໃນຂໍ້ມູນຂະຫນາດໃຫຍ່ໄດ້; ການຄາດຄະເນເຫຼົ່ານີ້ຈະມີທາງເປັນໄປໄດ້ໂດຍບໍ່ມີການຈໍານວນ enormous ຂອງການທົດລອງພາກສະຫນາມ, ເຊ​​ິ່ງຈະໄດ້ມີລາຄາແພງຫ້າມໄດ້.

ແນ່ນອນ, ພວກເຮົາຄວນຈະມີຄວາມຫມັ້ນໃຈຫນ້ອຍໃນຜົນໄດ້ຮັບຂອງການສຶກສາຂໍ້ມູນໃນດ້ານກ່ວາພວກເຮົາຈະຢູ່ໃນຜົນໄດ້ຮັບຂອງການທົດລອງປຽບທຽບໄດ້. ໃນເວລາທີ່ການປະເມີນຜົນໄດ້ຮັບຈາກການສຶກສາຂໍ້ມູນໃດຫນຶ່ງ, ມີສອງຄວາມກັງວົນທີ່ສໍາຄັນ. ຫນ້າທໍາອິດ, ພວກເຮົາຕ້ອງຈື່ໄວ້ວ່າພວກເຮົາພຽງແຕ່ສາມາດຮັບປະກັນການປຽບທຽບຄວາມຍຸຕິທໍາໃນສິ່ງທີ່ໄດ້ຖືກນໍາໃຊ້ສໍາລັບຄໍາວ່າ. ໃນຜົນໄດ້ຮັບຕົ້ນຕໍຂອງເຂົາເຈົ້າ, Einav ແລະເພື່ອນຮ່ວມງານບໍ່ຄືກັນອ້ອຍຕ້ອຍໂຍບາຍຄວາມລັບກ່ຽວກັບການລັກສະນະສີ່: ຈໍານວນຜູ້ຂາຍ ID, ປະເພດຂອງລາຍການ, ຫົວຂໍ້ລາຍການ, ແລະຄໍາບັນຍາຍ. ຖ້າຫາກວ່າລາຍການລາຍການທີ່ແຕກຕ່າງກັນໃນວິທີການທີ່ບໍ່ໄດ້ຖືກນໍາໃຊ້ສໍາລັບຂໍ້ມູນທີ່ສາມາດສ້າງເປັນການປຽບທຽບບໍ່ຍຸດຕິທໍາ. ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າ "budgetgolfer" ລົດລາຄາສໍາລັບ Taylormade Burner 09 Driver ໃນລະດູຫນາວ (ໃນເວລາທີ່ສະໂມສອນ Golf ເປັນທີ່ນິຍົມນ້ອຍ), ຫຼັງຈາກນັ້ນມັນຈະສາມາດປະກົດວ່າຕ່ໍາລາຄາເລີ່ມຕົ້ນທີ່ນໍາໄປສູ່ການຕ່ໍາລາຄາສຸດທ້າຍ, ໃນເວລາໃນຄວາມເປັນຈິງນີ້ຈະເປັນຂອງປອມຕາມລະດູການ ການປ່ຽນແປງໃນຄວາມຕ້ອງການ. ໂດຍທົ່ວໄປ, ວິທີການທີ່ດີທີ່ສຸດກັບບັນຫານີ້ເບິ່ງຄືວ່າຈະພະຍາຍາມປະເພດທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍຂອງຂໍ້ມູນ. ສໍາລັບການຍົກຕົວຢ່າງ, Einav ແລະເພື່ອນຮ່ວມງານເຮັດເລື້ມຄືນການວິເຄາະຂອງພວກເຂົາທີ່ກໍານົດຈັບຄູ່ປະກອບມີລາຍການລາຍການກ່ຽວກັບການຂາຍພາຍໃນຫນຶ່ງປີ, ພາຍໃນຫນຶ່ງເດືອນ, ແລະ contemporaneously. ການເຮັດໃຫ້ປ່ອງຢ້ຽມທີ່ໃຊ້ເວລາ tighter ຫຼຸດລົງຈໍານວນຊຸດຈັບຄູ່, ແຕ່ການຫຼຸດຜ່ອນຄວາມກັງວົນກ່ຽວກັບການປ່ຽນແປງຕາມລະດູການ. Fortunately, ພວກເຂົາພົບວ່າຜົນໄດ້ຮັບແມ່ນບໍ່ປ່ຽນແປງໂດຍການປ່ຽນແປງເຫຼົ່ານີ້ຢູ່ໃນເງື່ອນໄຂໂຍບາຍຄວາມລັບ. ໃນວັນນະຄະດີໂຍບາຍຄວາມລັບ, ປະເພດຂອງຄວາມກັງວົນນີ້ແມ່ນປົກກະຕິແລ້ວສະແດງອອກໃນຂໍ້ກໍານົດຂອງການສັງເກດການແລະ unobserved, ແຕ່ຄວາມຄິດທີ່ສໍາຄັນແມ່ນແທ້ທີ່ນັກຄົ້ນຄວ້າແມ່ນມີພຽງແຕ່ການສ້າງການປຽບທຽບຄວາມຍຸຕິທໍາກ່ຽວກັບຄຸນນະສົມບັດການນໍາໃຊ້ໃນການແຂ່ງຂັນ.

ຄວາມກັງວົນທີ່ສໍາຄັນທີ່ສອງໃນເວລາທີ່ການແປຄວາມຫມາຍຜົນໄດ້ຮັບໂຍບາຍຄວາມລັບແມ່ນວ່າພວກເຂົາເຈົ້າພຽງແຕ່ສະຫມັກຂໍເອົາຂໍ້ມູນການຈັບຄູ່ ພວກເຂົາເຈົ້າບໍ່ໄດ້ນໍາໃຊ້ກັບກໍລະນີທີ່ບໍ່ສາມາດຈັບຄູ່. ສໍາລັບການຍົກຕົວຢ່າງ, ໂດຍການຈໍາກັດການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າທີ່ຈະລາຍການທີ່ມີລາຍຊື່ຫລາຍ Einav ແລະເພື່ອນຮ່ວມງານແມ່ນສຸມໃສ່ການຂາຍເປັນມືອາຊີບແລະເຄິ່ງອາຊີບ. ດັ່ງນັ້ນ, ໃນເວລາທີ່ການແປຄວາມຫມາຍປຽບທຽບເຫຼົ່ານີ້ພວກເຮົາຕ້ອງຈື່ໄວ້ວ່າພວກເຂົາເຈົ້າພຽງແຕ່ສະຫມັກຂໍເອົາການຍ່ອຍຂອງ eBay ນີ້.

ໂຍບາຍຄວາມລັບເປັນຍຸດທະສາດທີ່ມີອໍານາດສໍາລັບການຊອກຫາການປຽບທຽບຄວາມຍຸຕິທໍາໃນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່. ວິທະຍາສາດສັງຄົມຈໍານວນຫຼາຍ, ກົງກັບຄວາມຮູ້ສຶກຄືສອງທີ່ດີທີ່ສຸດເພື່ອປະສົບການ, ແຕ່ວ່າເປັນຄວາມເຊື່ອທີ່ວ່າຄວນຈະໄດ້ຮັບການປັບປຸງເລັກນ້ອຍເປັນ. ໂຍບາຍຄວາມລັບໃນຂໍ້ມູນຂະຫນາດໃຫຍ່ອາດຈະດີກ່ວາຈໍານວນຂະຫນາດນ້ອຍຂອງການທົດລອງພາກສະຫນາມໃນເວລາທີ່: 1) heterogeneity ໃນຜົນກະທົບເປັນສິ່ງສໍາຄັນແລະ 2) ມີການສັງເກດການທີ່ດີສໍາລັບຄໍາວ່າ. ຕາຕະລາງ 2.4 ມີບາງຕົວຢ່າງອື່ນໆຂອງວິທີການຈັບຄູ່ສາມາດໄດ້ຮັບການນໍາໃຊ້ກັບແຫລ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່.

ຕາຕະລາງ 2.4: ຕົວຢ່າງຂອງການສຶກສາທີ່ນໍາໃຊ້ຂໍ້ມູນເພື່ອຊອກຫາການປຽບທຽບຄວາມຍຸຕິທໍາພາຍໃນຕາມຮອຍດິຈິຕອນ.
ຈຸດສຸມສໍາຄັນ ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ ການຂຽນກ່າວອ້າງ
ຜົນກະທົບຂອງການຍິງກ່ຽວກັບຄວາມຮຸນແຮງຕໍາຫຼວດ ການບັນທຶກການແລະ frisk ຢຸດເຊົາການ Legewie (2016)
ຜົນກະທົບຂອງເດືອນກັນຍາ 11, 2001 ໃນຄອບຄົວແລະປະເທດເພື່ອນບ້ານ ການບັນທຶກການລົງຄະແນນສຽງແລະການບັນທຶກການບໍລິຈາກ Hersh (2013)
contagion ສັງຄົມ ການສື່ສານແລະການຮັບຮອງເອົາຜະລິດຕະພັນຂໍ້ມູນ Aral, Muchnik, and Sundararajan (2009)

ໃນການສະຫລຸບ, ວິທີການ naive ກັບການຄາດຄະເນຜົນກະທົບ causal ຈາກຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງເປັນອັນຕະລາຍ. ຢ່າງໃດກໍຕາມ, ຍຸດທະສາດສໍາລັບການເຮັດໃຫ້ການຄາດຄະເນເຫດນອນຕາມຕໍ່ເນື່ອງຈາກ strongest ການ weakest ໄດ້, ນັກຄົ້ນຄວ້າແລະສາມາດຄົ້ນພົບກັບຄວາມຍຸຕິທໍາພາຍໃນຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງ. ການຂະຫຍາຍຕົວຂອງສະເຫມີໄປ, ສຸດ, ລະບົບຂໍ້ມູນຂະຫນາດໃຫຍ່ເພີ່ມຄວາມສາມາດຂອງພວກເຮົາໃຫ້ປະສິດທິຜົນການນໍາໃຊ້ທັງສອງວິທີການທີ່ມີຢູ່ແລ້ວ: ປະສົບການທໍາມະຊາດແລະມູນ.