ໂຍບາຍຄວາມລັບສ້າງການປຽບທຽບຄວາມຍຸຕິທໍາໂດຍ pruning ໄປກໍລະນີ.
ການປຽບທຽບຄວາມຍຸຕິທໍາສາມາດມາຈາກທັງບັນສາມາດຄວບຄຸມການທົດລອງຫລືການທົດລອງທໍາມະຊາດ. ແຕ່, ບໍ່ມີສະຖານະການຈໍານວນຫຼາຍທີ່ທ່ານສາມາດດໍາເນີນການທົດລອງທີ່ເຫມາະສົມແລະລັກສະນະຍັງບໍ່ທັນໄດ້ສະຫນອງໃຫ້ເປັນການທົດລອງທໍາມະຊາດ. ໃນການປັບຄ່າເຫຼົ່ານີ້, ວິທີການທີ່ດີທີ່ສຸດເພື່ອສ້າງເປັນການປຽບທຽບທີ່ເປັນທັມໂຍບາຍຄວາມລັບ. ໃນການແຂ່ງຂັນ, ນັກຄົ້ນຄວ້າໄດ້ເບິ່ງຜ່ານຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງເພື່ອສ້າງຄູ່ຂອງປະຊາຊົນທີ່ຄ້າຍຄືກັນເວັ້ນເສຍແຕ່ວ່າມີໃຜໄດ້ຮັບການປິ່ນປົວແລະອີກຄົນຫນຶ່ງຍັງບໍ່ທັນໄດ້. ໃນຂະບວນການຂອງໂຍບາຍຄວາມລັບ, ນັກຄົ້ນຄວ້າກໍາລັງຕົວຈິງຍັງ pruning; ທີ່ເປັນ, ການຖິ້ມໄພ່ກໍລະນີທີ່ບໍ່ມີການສົມທຽບຢ່າງຈະແຈ້ງ. ດັ່ງນັ້ນ, ວິທີການນີ້ຈະໄດ້ຮັບການເພີ່ມເຕີມທີ່ເອີ້ນວ່າຖືກຕ້ອງກົງກັບແລະ pruning, ແຕ່ຂ້າພະເຈົ້າຈະຕິດຢູ່ກັບໄລຍະປະເພນີ: ການແຂ່ງຂັນ.
A ຍົກຕົວຢ່າງທີ່ສວຍງາມຂອງພະລັງງານຂອງແຜນຍຸດທະສາດກັບແຫລ່ງຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງ massive ໂຍບາຍຄວາມລັບໄດ້ມາຈາກການຄົ້ນຄວ້າກ່ຽວກັບພຶດຕິກໍາຜູ້ບໍລິໂພກໂດຍ Liran Einav ແລະເພື່ອນຮ່ວມງານໄດ້ (2015) . Einav ແລະເພື່ອນຮ່ວມງານມີຄວາມສົນໃຈໃນການປະມູນສະຖານທີ່ສຸດ eBay, ແລະໃນການອະທິບາຍການເຮັດວຽກຂອງເຂົາເຈົ້າ, ຂ້າພະເຈົ້າຈະສຸມໃສ່ການລັກຫນຶ່ງໂດຍສະເພາະ: ຜົນກະທົບຂອງການປະມູນລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບການປະມູນ, ເຊັ່ນ: ລາຄາຂາຍຫຼືອາດຈະຂາຍໄດ້.
ວິທີ naive ທີ່ສຸດທີ່ຈະຕອບຄໍາຖາມກ່ຽວກັບຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນທີ່ລາຄາຂາຍໄດ້ຈະເປັນການພຽງແຕ່ຄິດໄລ່ລາຄາສຸດທ້າຍສໍາລັບການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ແຕກຕ່າງກັນ. ວິທີການນີ້ຈະເປັນການດີຖ້າຫາກວ່າທ່ານພຽງແຕ່ຕ້ອງການທີ່ຈະຄາດຄະເນລາຄາຂາຍຂອງລາຍຮັບທີ່ໄດ້ຮັບການເອົາໃຈໃສ່ໃນ eBay ໃນລາຄາເລີ່ມຕົ້ນທີ່ໄດ້ຮັບ. ແຕ່, ຖ້າຫາກວ່າຄໍາຖາມຂອງທ່ານແມ່ນສິ່ງທີ່ເປັນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບຂອງຕະຫຼາດວິທີການນີ້ຈະບໍ່ເຮັດວຽກເນື່ອງຈາກວ່າມັນບໍ່ໄດ້ອີງໃສ່ການປຽບທຽບຄວາມຍຸຕິທໍາ; ການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ຕ່ໍາອາດຈະຂ້ອນຂ້າງແຕກຕ່າງກັນຈາກການປະມູນທີ່ມີລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນ (ຕົວຢ່າງ:, ພວກເຂົາເຈົ້າອາດຈະເປັນສໍາລັບປະເພດທີ່ແຕກຕ່າງກັນຂອງສິນຄ້າຫລືປະກອບມີປະເພດທີ່ແຕກຕ່າງກັນຂອງຜູ້ຂາຍ).
ຖ້າຫາກວ່າທ່ານມີຄວາມເປັນຫ່ວງຢູ່ແລ້ວກ່ຽວກັບການເຮັດໃຫ້ການປຽບທຽບຄວາມຍຸຕິທໍາ, ທ່ານອາດຈະຂ້າມວິທີການ naive ແລະພິຈາລະນາການເຮັດວຽກການທົດລອງພາກສະຫນາມບ່ອນທີ່ທ່ານຈະຂາຍລະລາຍການເວົ້າວ່າ, ກອຟສະໂມສອນທີ່ມີກໍານົດໄວ້ແນ່ນອນຂອງການປະມູນຕົວກໍານົດການ, ເວົ້າວ່າ, ການຂົນສົ່ງຟຣີ, ການປະມູນ ເປີດສໍາລັບສອງອາທິດ, ແລະອື່ນໆ, ແຕ່ວ່າມີການເຂົ້າກໍານົດລາຄາເລີ່ມຕົ້ນ. ໂດຍການປຽບທຽບຜົນໄດ້ຮັບຂອງຕະຫຼາດທີ່ໄດ້ຮັບ, ການທົດລອງພາກສະຫນາມນີ້ຈະສະເຫນີໃຫ້ມີມາດຕະການທີ່ຊັດເຈນຂອງຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນທີ່ລາຄາຂາຍ. ແຕ່ວ່າ, ມາດຕະການນີ້ພຽງແຕ່ຈະນໍາໃຊ້ກັບຜະລິດຕະພັນຫນຶ່ງໂດຍສະເພາະແລະທີ່ກໍານົດໄວ້ຂອງຕົວກໍານົດການປະມູນ. ຜົນໄດ້ຮັບອາດຈະເປັນທີ່ແຕກຕ່າງກັນ, ສໍາລັບການຍົກຕົວຢ່າງ, ສໍາລັບປະເພດທີ່ແຕກຕ່າງກັນຂອງຜະລິດຕະພັນ. ໂດຍບໍ່ມີການທິດສະດີທີ່ເຂັ້ມແຂງ, ມັນເປັນການຍາກທີ່ຈະປະເມີນຈາກນີ້ການທົດລອງດຽວໃນລະດັບອັນເຕັມທີ່ຂອງປະສົບການທີ່ເປັນໄປໄດ້ທີ່ຈະສາມາດໄດ້ຮັບການດໍາເນີນການ. ນອກຈາກນັ້ນ, ການທົດລອງພາກສະຫນາມມີລາຄາແພງພໍວ່າມັນຈະເປັນການຄໍານວນເພື່ອດໍາເນີນການຢ່າງພຽງພໍຂອງເຂົາເຈົ້າເພື່ອໃຫ້ກວມເອົາພື້ນທີ່ຕົວກໍານົດການທັງຫມົດຂອງຜະລິດຕະພັນແລະປະເພດສິນຄ້າ.
ໃນກົງກັນຂ້າມກັບວິທີການ naive ແລະວິທີການທົດລອງ, Einav ແລະເພື່ອນຮ່ວມງານມີວິທີການທີສາມ: ຂໍ້ມູນ. ສິ່ງທີ່ສໍາຄັນຕົ້ນຕໍຂອງແຜນຍຸດທະສາດຂອງເຂົາເຈົ້າແມ່ນເພື່ອຄົ້ນພົບສິ່ງທີ່ຄ້າຍຄືກັນກັບການທົດລອງພາກສະຫນາມທີ່ໄດ້ເກີດຂຶ້ນແລ້ວໃນ eBay. ສໍາລັບການຍົກຕົວຢ່າງ, ຮູບ 26 ສະແດງໃຫ້ເຫັນບາງສ່ວນຂອງລາຍຊື່ຂອງ 31 ສໍາລັບການແທ້ກອຟຄັບ-a ດຽວກັນ Taylormade Burner 09 Driver, ການຂາຍໂດຍແທ້ດຽວກັນ seller- "budgetgolfer". ຢ່າງໃດກໍຕາມ, ລາຍການເຫຼົ່ານີ້ມີຄຸນລັກສະນະທີ່ແຕກຕ່າງກັນເລັກນ້ອຍ. Eleven ຂອງເຂົາເຈົ້າໃຫ້ຄົນຂັບສໍາລັບລາຄາການສ້ອມແຊມຂອງ $ 12499, ໃນຂະນະທີ່ອີກ 20 ມີການປະມູນທີ່ມີວັນທີ່ສິ້ນສຸດທີ່ແຕກຕ່າງກັນ. ນອກຈາກນັ້ນ, ບັນຊີລາຍການມີຄ່າທໍານຽມຂົນສົ່ງທີ່ແຕກຕ່າງກັນ, ບໍ່ວ່າຈະ $ 799 ຫຼື $ 999. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມັນແມ່ນການເປັນຖ້າຫາກວ່າ "budgetgolfer" ກໍາລັງເຮັດວຽກການທົດລອງສໍາລັບນັກຄົ້ນຄວ້າໄດ້.
ລາຍການຂອງ Taylormade Burner 09 Driver ການຂາຍໂດຍ "budgetgolfer" ແມ່ນຕົວຢ່າງຫນຶ່ງຂອງການທີ່ກໍານົດໄວ້ຈັບຄູ່ຂອງລາຍະການ, ບ່ອນທີ່ລາຍການດຽວກັນຄືກັນອ້ອຍຕ້ອຍຈະຖືກຂາຍໄດ້ໂດຍທັງຮ້ານຄ້າດຽວກັນຄືກັນອ້ອຍຕ້ອຍແຕ່ວ່າແຕ່ລະເວລາທີ່ມີລັກສະນະທີ່ແຕກຕ່າງກັນເລັກນ້ອຍ. ພາຍໃນບັນທຶກ massive ຂອງ eBay ມີການຮູ້ຫນັງສືຫຼາຍຮ້ອຍຄົນພັນຂອງຊຸດການຈັບຄູ່ທີ່ກ່ຽວຂ້ອງກັບລ້ານຍະ. ດັ່ງນັ້ນ, ແທນທີ່ຈະກ່ວາການປຽບທຽບລາຄາສຸດທ້າຍສໍາລັບການປະມູນທັງຫມົດໃນລາຄາເລີ່ມຕົ້ນທີ່ໄດ້ຮັບ, Einav ແລະເພື່ອນຮ່ວມງານເຮັດໃຫ້ການປຽບທຽບຢູ່ໃນຊຸດການຈັບຄູ່. ໃນຄໍາສັ່ງທີ່ຈະສົມທົບການຜົນໄດ້ຮັບຈາກການປຽບທຽບພາຍໃນຫຼາຍຮ້ອຍຄົນຂອງພັນຂອງຊຸດການຈັບຄູ່, Einav ແລະເພື່ອນຮ່ວມງານ Re: ສະແດງລາຄາເລີ່ມຕົ້ນແລະລາຄາສຸດທ້າຍໃນແງ່ຂອງມູນຄ່າການກະສານອ້າງອີງຂອງແຕ່ລະລາຍການ (ຕົວຢ່າງ, ລາຄາຂາຍຂອງຕົນໂດຍສະເລ່ຍ). ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າ Taylormade Burner 09 Driver ມີມູນຄ່າກະສານອ້າງອີງຂອງ $ 100 (ຕາມຍອດຂາຍຂອງຕົນ), ຫຼັງຈາກນັ້ນລາຄາເລີ່ມຕົ້ນທີ່ $ 10 ຈະໄດ້ຮັບການສະແດງອອກເປັນ 01 ແລະລາຄາສຸດທ້າຍຂອງ $ 120 ຈະໄດ້ຮັບການສະແດງອອກເປັນ 12.
ໃຫ້ຈື່ໄວ້ວ່າ Einav ແລະເພື່ອນຮ່ວມງານມີຄວາມສົນໃຈໃນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນກ່ຽວກັບຜົນໄດ້ຮັບການປະມູນ. ຫນ້າທໍາອິດ, ການນໍາໃຊ້ຖົດຖອຍເຊີງເສັ້ນພວກເຂົາເຈົ້າຄາດຄະເນວ່າລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນຫຼຸດລົງເປັນໄປໄດ້ຂອງການຂາຍ, ແລະການທີ່ລາຄາເລີ່ມຕົ້ນທີ່ສູງຂຶ້ນເພີ່ມທະວີການລາຄາຂາຍສຸດທ້າຍ, ເງື່ອນໄຂກ່ຽວກັບການຂາຍທີ່ເກີດຂຶ້ນ. ດ້ວຍຕົນເອງ, ການຄາດຄະເນ, ທີ່ເຫຼົ່ານີ້ແມ່ນໄດ້ສະເລ່ຍໃນໄລຍະຜະລິດຕະພັນທັງຫມົດແລະຮັບໃຊ້ຄວາມສໍາພັນເຊີງເສັ້ນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະສຸດທ້າຍຜົນໄດ້ຮັບ, ບໍ່ແມ່ນທັງຫມົດທີ່ຫນ້າສົນໃຈທີ່. ແຕ່, Einav ແລະເພື່ອນຮ່ວມງານກໍໄດ້ນໍາໃຊ້ການຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອປະເມີນຊະນິດຂອງການຄົ້ນພົບລະອຽດເພີ່ມເຕີມ. ຫນ້າທໍາອິດ, Einav ແລະເພື່ອນຮ່ວມງານໄດ້ຄາດຄະເນເຫຼົ່ານີ້ແຍກຕ່າງຫາກສໍາລັບລາຍການຂອງລາຄາທີ່ແຕກຕ່າງກັນແລະໂດຍບໍ່ມີການນໍາໃຊ້ຖົດຖອຍເຊີງເສັ້ນ. ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນວ່າໃນຂະນະທີ່ຄວາມສໍາພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະຄາດຄະເນການຂອງການຂາຍແມ່ນຮູບແຂບ, ສາຍພົວພັນລະຫວ່າງລາຄາເລີ່ມຕົ້ນແລະລາຄາຂາຍເປັນຢ່າງຊັດເຈນບໍ່ແມ່ນແຂບ (ຮູບ 27). ໂດຍສະເພາະ, ສໍາລັບລາຄາເລີ່ມຕົ້ນລະຫວ່າງ 005 ແລະ 085, ລາຄາເລີ່ມຕົ້ນໄດ້ມີຜົນກະທົບພຽງເລັກນ້ອຍຫຼາຍກ່ຽວກັບລາຄາຂາຍ, ການຄົ້ນພົບທີ່ໄດ້ສໍາເລັດພາດໂອກາດນີ້ໃນການວິເຄາະທີ່ໄດ້ສົມມຸດເປັນສາຍພົວພັນ, ຮູບແຂບໄດ້.
ຄັ້ງທີສອງ, ແທນທີ່ຈະກ່ວາສະເລ່ຍໃນໄລຍະລາຍການທັງຫມົດ, Einav ແລະເພື່ອນຮ່ວມງານກໍໄດ້ນໍາໃຊ້ການຂະຫນາດໃຫຍ່ຂອງຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອປະເມີນຜົນກະທົບຂອງລາຄາເລີ່ມຕົ້ນສໍາລັບການ 23 ປະເພດທີ່ແຕກຕ່າງກັນຂອງລາຍການລາຍການ (ຕົວຢ່າງ:, ອຸປະກອນສັດລ້ຽງ, ເອເລັກໂຕຣນິກ, ແລະຫນ້າຈົດຈໍາກິລາ) (ຮູບສະແດງທີ 28) ໄດ້. ການຄາດຄະເນເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນວ່າສໍາລັບການທີ່ແຕກຕ່າງກັນຫຼາຍກວ່າລາຍການດັ່ງກ່າວເປັນລາຄາທີ່ລະນຶກ, ການເລີ່ມຕົ້ນມີຜົນກະທົບຂະຫນາດນ້ອຍກ່ຽວກັບການຄາດຄະເນການຂອງການຂາຍແລະຜົນກະທົບຂະຫນາດໃຫຍ່ກ່ຽວກັບລາຄາຂາຍສຸດທ້າຍ. ນອກຈາກນັ້ນ, ສໍາລັບລາຍການດັ່ງກ່າວ commodified ຫຼາຍເປັນດີວີດີແລະວິດີໂອລາຄາເລີ່ມຕົ້ນມີເກືອບຜົນກະທົບຕໍ່ລາຄາສຸດທ້າຍທີ່ບໍ່ມີ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ໂດຍສະເລ່ຍທີ່ລວມຜົນໄດ້ຮັບຈາກ 23 ປະເພດທີ່ແຕກຕ່າງກັນຂອງລາຍການ hides ຂໍ້ມູນທີ່ສໍາຄັນກ່ຽວກັບຄວາມແຕກຕ່າງລະຫວ່າງລາຍການເຫຼົ່ານີ້.
ເຖິງແມ່ນວ່າຖ້າຫາກວ່າທ່ານບໍ່ສົນໃຈໂດຍສະເພາະແມ່ນໃນການປະມູນໃນ eBay, ທ່ານມີຄວາມຊົມເຊີຍວິທີການທີ່ຮູບ 27 ແລະຮູບທີ່ 28 ສະເຫນີຄວາມເຂົ້າໃຈທີ່ດີຂຶ້ນຂອງ eBay ກ່ວາການຄາດຄະເນ regression ແຂບໄດ້ງ່າຍດາຍທີ່ສົມມຸດສາຍພົວພັນ, ຮູບແຂບແລະສົມທົບການປະເພດທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍຂອງລາຍການລາຍການ. ການຄາດຄະເນລະອຽດເພີ່ມເຕີມເຫຼົ່ານີ້ສະແດງໃຫ້ເຫັນພະລັງງານຂອງການກໍານົດໃນຂໍ້ມູນຂະຫນາດໃຫຍ່ໄດ້; ການຄາດຄະເນເຫຼົ່ານີ້ຈະມີທາງເປັນໄປໄດ້ໂດຍບໍ່ມີການຈໍານວນ enormous ຂອງການທົດລອງພາກສະຫນາມ, ເຊິ່ງຈະໄດ້ມີລາຄາແພງຫ້າມໄດ້.
ແນ່ນອນ, ພວກເຮົາຄວນຈະມີຄວາມຫມັ້ນໃຈຫນ້ອຍໃນຜົນໄດ້ຮັບຂອງການສຶກສາຂໍ້ມູນໃນດ້ານກ່ວາພວກເຮົາຈະຢູ່ໃນຜົນໄດ້ຮັບຂອງການທົດລອງປຽບທຽບໄດ້. ໃນເວລາທີ່ການປະເມີນຜົນໄດ້ຮັບຈາກການສຶກສາຂໍ້ມູນໃດຫນຶ່ງ, ມີສອງຄວາມກັງວົນທີ່ສໍາຄັນ. ຫນ້າທໍາອິດ, ພວກເຮົາຕ້ອງຈື່ໄວ້ວ່າພວກເຮົາພຽງແຕ່ສາມາດຮັບປະກັນການປຽບທຽບຄວາມຍຸຕິທໍາໃນສິ່ງທີ່ໄດ້ຖືກນໍາໃຊ້ສໍາລັບຄໍາວ່າ. ໃນຜົນໄດ້ຮັບຕົ້ນຕໍຂອງເຂົາເຈົ້າ, Einav ແລະເພື່ອນຮ່ວມງານບໍ່ຄືກັນອ້ອຍຕ້ອຍໂຍບາຍຄວາມລັບກ່ຽວກັບການລັກສະນະສີ່: ຈໍານວນຜູ້ຂາຍ ID, ປະເພດຂອງລາຍການ, ຫົວຂໍ້ລາຍການ, ແລະຄໍາບັນຍາຍ. ຖ້າຫາກວ່າລາຍການລາຍການທີ່ແຕກຕ່າງກັນໃນວິທີການທີ່ບໍ່ໄດ້ຖືກນໍາໃຊ້ສໍາລັບຂໍ້ມູນທີ່ສາມາດສ້າງເປັນການປຽບທຽບບໍ່ຍຸດຕິທໍາ. ສໍາລັບການຍົກຕົວຢ່າງ, ຖ້າຫາກວ່າ "budgetgolfer" ລົດລາຄາສໍາລັບ Taylormade Burner 09 Driver ໃນລະດູຫນາວ (ໃນເວລາທີ່ສະໂມສອນ Golf ເປັນທີ່ນິຍົມນ້ອຍ), ຫຼັງຈາກນັ້ນມັນຈະສາມາດປະກົດວ່າຕ່ໍາລາຄາເລີ່ມຕົ້ນທີ່ນໍາໄປສູ່ການຕ່ໍາລາຄາສຸດທ້າຍ, ໃນເວລາໃນຄວາມເປັນຈິງນີ້ຈະເປັນຂອງປອມຕາມລະດູການ ການປ່ຽນແປງໃນຄວາມຕ້ອງການ. ໂດຍທົ່ວໄປ, ວິທີການທີ່ດີທີ່ສຸດກັບບັນຫານີ້ເບິ່ງຄືວ່າຈະພະຍາຍາມປະເພດທີ່ແຕກຕ່າງກັນຈໍານວນຫຼາຍຂອງຂໍ້ມູນ. ສໍາລັບການຍົກຕົວຢ່າງ, Einav ແລະເພື່ອນຮ່ວມງານເຮັດເລື້ມຄືນການວິເຄາະຂອງພວກເຂົາທີ່ກໍານົດຈັບຄູ່ປະກອບມີລາຍການລາຍການກ່ຽວກັບການຂາຍພາຍໃນຫນຶ່ງປີ, ພາຍໃນຫນຶ່ງເດືອນ, ແລະ contemporaneously. ການເຮັດໃຫ້ປ່ອງຢ້ຽມທີ່ໃຊ້ເວລາ tighter ຫຼຸດລົງຈໍານວນຊຸດຈັບຄູ່, ແຕ່ການຫຼຸດຜ່ອນຄວາມກັງວົນກ່ຽວກັບການປ່ຽນແປງຕາມລະດູການ. Fortunately, ພວກເຂົາພົບວ່າຜົນໄດ້ຮັບແມ່ນບໍ່ປ່ຽນແປງໂດຍການປ່ຽນແປງເຫຼົ່ານີ້ຢູ່ໃນເງື່ອນໄຂໂຍບາຍຄວາມລັບ. ໃນວັນນະຄະດີໂຍບາຍຄວາມລັບ, ປະເພດຂອງຄວາມກັງວົນນີ້ແມ່ນປົກກະຕິແລ້ວສະແດງອອກໃນຂໍ້ກໍານົດຂອງການສັງເກດການແລະ unobserved, ແຕ່ຄວາມຄິດທີ່ສໍາຄັນແມ່ນແທ້ທີ່ນັກຄົ້ນຄວ້າແມ່ນມີພຽງແຕ່ການສ້າງການປຽບທຽບຄວາມຍຸຕິທໍາກ່ຽວກັບຄຸນນະສົມບັດການນໍາໃຊ້ໃນການແຂ່ງຂັນ.
ຄວາມກັງວົນທີ່ສໍາຄັນທີ່ສອງໃນເວລາທີ່ການແປຄວາມຫມາຍຜົນໄດ້ຮັບໂຍບາຍຄວາມລັບແມ່ນວ່າພວກເຂົາເຈົ້າພຽງແຕ່ສະຫມັກຂໍເອົາຂໍ້ມູນການຈັບຄູ່ ພວກເຂົາເຈົ້າບໍ່ໄດ້ນໍາໃຊ້ກັບກໍລະນີທີ່ບໍ່ສາມາດຈັບຄູ່. ສໍາລັບການຍົກຕົວຢ່າງ, ໂດຍການຈໍາກັດການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າທີ່ຈະລາຍການທີ່ມີລາຍຊື່ຫລາຍ Einav ແລະເພື່ອນຮ່ວມງານແມ່ນສຸມໃສ່ການຂາຍເປັນມືອາຊີບແລະເຄິ່ງອາຊີບ. ດັ່ງນັ້ນ, ໃນເວລາທີ່ການແປຄວາມຫມາຍປຽບທຽບເຫຼົ່ານີ້ພວກເຮົາຕ້ອງຈື່ໄວ້ວ່າພວກເຂົາເຈົ້າພຽງແຕ່ສະຫມັກຂໍເອົາການຍ່ອຍຂອງ eBay ນີ້.
ໂຍບາຍຄວາມລັບເປັນຍຸດທະສາດທີ່ມີອໍານາດສໍາລັບການຊອກຫາການປຽບທຽບຄວາມຍຸຕິທໍາໃນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່. ວິທະຍາສາດສັງຄົມຈໍານວນຫຼາຍ, ກົງກັບຄວາມຮູ້ສຶກຄືສອງທີ່ດີທີ່ສຸດເພື່ອປະສົບການ, ແຕ່ວ່າເປັນຄວາມເຊື່ອທີ່ວ່າຄວນຈະໄດ້ຮັບການປັບປຸງເລັກນ້ອຍເປັນ. ໂຍບາຍຄວາມລັບໃນຂໍ້ມູນຂະຫນາດໃຫຍ່ອາດຈະດີກ່ວາຈໍານວນຂະຫນາດນ້ອຍຂອງການທົດລອງພາກສະຫນາມໃນເວລາທີ່: 1) heterogeneity ໃນຜົນກະທົບເປັນສິ່ງສໍາຄັນແລະ 2) ມີການສັງເກດການທີ່ດີສໍາລັບຄໍາວ່າ. ຕາຕະລາງ 2.4 ມີບາງຕົວຢ່າງອື່ນໆຂອງວິທີການຈັບຄູ່ສາມາດໄດ້ຮັບການນໍາໃຊ້ກັບແຫລ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່.
ຈຸດສຸມສໍາຄັນ | ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ | ການຂຽນກ່າວອ້າງ |
---|---|---|
ຜົນກະທົບຂອງການຍິງກ່ຽວກັບຄວາມຮຸນແຮງຕໍາຫຼວດ | ການບັນທຶກການແລະ frisk ຢຸດເຊົາການ | Legewie (2016) |
ຜົນກະທົບຂອງເດືອນກັນຍາ 11, 2001 ໃນຄອບຄົວແລະປະເທດເພື່ອນບ້ານ | ການບັນທຶກການລົງຄະແນນສຽງແລະການບັນທຶກການບໍລິຈາກ | Hersh (2013) |
contagion ສັງຄົມ | ການສື່ສານແລະການຮັບຮອງເອົາຜະລິດຕະພັນຂໍ້ມູນ | Aral, Muchnik, and Sundararajan (2009) |
ໃນການສະຫລຸບ, ວິທີການ naive ກັບການຄາດຄະເນຜົນກະທົບ causal ຈາກຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງເປັນອັນຕະລາຍ. ຢ່າງໃດກໍຕາມ, ຍຸດທະສາດສໍາລັບການເຮັດໃຫ້ການຄາດຄະເນເຫດນອນຕາມຕໍ່ເນື່ອງຈາກ strongest ການ weakest ໄດ້, ນັກຄົ້ນຄວ້າແລະສາມາດຄົ້ນພົບກັບຄວາມຍຸຕິທໍາພາຍໃນຂໍ້ມູນທີ່ບໍ່ແມ່ນການທົດລອງ. ການຂະຫຍາຍຕົວຂອງສະເຫມີໄປ, ສຸດ, ລະບົບຂໍ້ມູນຂະຫນາດໃຫຍ່ເພີ່ມຄວາມສາມາດຂອງພວກເຮົາໃຫ້ປະສິດທິຜົນການນໍາໃຊ້ທັງສອງວິທີການທີ່ມີຢູ່ແລ້ວ: ປະສົບການທໍາມະຊາດແລະມູນ.