ບໍ່ວ່າຈະເປັນຂໍ້ມູນໃຫຍ່ຂອງທ່ານ, ມັນອາດຈະບໍ່ມີຂໍ້ມູນທີ່ທ່ານຕ້ອງການ.
ແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ທີ່ສຸດແມ່ນ ບໍ່ຄົບຖ້ວນ , ໃນຄວາມຮູ້ສຶກວ່າພວກເຂົາບໍ່ມີຂໍ້ມູນທີ່ທ່ານຕ້ອງການສໍາລັບການຄົ້ນຄວ້າຂອງທ່ານ. ນີ້ແມ່ນລັກສະນະທົ່ວໄປຂອງຂໍ້ມູນທີ່ຖືກສ້າງຂື້ນເພື່ອຈຸດປະສົງອື່ນນອກຈາກການຄົ້ນຄວ້າ. ນັກວິທະຍາສາດສັງຄົມຫຼາຍຄົນໄດ້ປະສົບຜົນສໍາເລັດໃນການຈັດການກັບຄວາມບໍ່ຄົບຖ້ວນເຊັ່ນ: ການສໍາຫຼວດທີ່ມີຢູ່ແລ້ວເຊິ່ງບໍ່ໄດ້ຖາມຄໍາຖາມທີ່ຈໍາເປັນ. ແຕ່ຫນ້າເສຍດາຍ, ບັນຫາທີ່ບໍ່ຄົບຖ້ວນແມ່ນມີຄວາມຮຸນແຮງຫຼາຍໃນຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງ. ໃນປະສົບການຂອງຂ້ອຍຂໍ້ມູນໃຫຍ່ມັກຈະຫາຍໄປສາມປະເພດຂໍ້ມູນທີ່ເປັນປະໂຫຍດສໍາລັບການຄົ້ນຄ້ວາທາງດ້ານສັງຄົມ: ຂໍ້ມູນປະຊາກອນກ່ຽວກັບຜູ້ເຂົ້າຮ່ວມ, ພຶດຕິກໍາກ່ຽວກັບເວທີອື່ນໆແລະຂໍ້ມູນໃນການປະຕິບັດທິດສະດີທິດສະດີ.
ບັນດາສາມປະເພດຂອງການບໍ່ຄົບຖ້ວນ, ບັນຫາຂອງຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນໃນການປະຕິບັດການກໍ່ສ້າງທາງທິດສະດີແມ່ນຄວາມຫຍຸ້ງຍາກທີ່ສຸດໃນການແກ້ໄຂ. ແລະໃນປະສົບການຂອງຂ້ອຍ, ມັນມັກຈະຖືກມອງຂ້າມໂດຍບັງເອີນ. ປະມານ, ການ ສ້າງທິດສະດີ ແມ່ນຄວາມຄິດທີ່ບໍ່ມີຕົວຕົນທີ່ນັກວິທະຍາສາດສັງຄົມວິໄຈແລະ ປະຕິບັດ ການສ້າງທິດສະດີຫມາຍເຖິງການສະເຫນີວິທີການເກັບກໍາຂໍ້ມູນທີ່ມີຂໍ້ສັງເກດ. ແຕ່ຫນ້າເສຍດາຍ, ຂະບວນການງ່າຍດາຍນີ້ມັກຈະເປັນການຍາກທີ່ສຸດ. ຕົວຢ່າງ, ໃຫ້ຄິດວ່າພະຍາຍາມທີ່ຈະທົດສອບການຮ້ອງຂໍທີ່ງ່າຍດາຍເບິ່ງຄືວ່າຜູ້ທີ່ມີຄວາມສະຫລາດຫຼາຍໄດ້ຮັບເງິນຫຼາຍ. ໃນຄໍາສັ່ງເພື່ອທົດສອບການຮ້ອງຂໍນີ້, ທ່ານຈະຕ້ອງໄດ້ວັດແທກ "ຄວາມຮູ້". ແຕ່ວ່າແມ່ນຫຍັງທີ່ເປັນຄວາມຮູ້? Gardner (2011) ໄດ້ໂຕ້ຖຽງວ່າມີຕົວຈິງ 8 ແບບທີ່ແຕກຕ່າງກັນທາງດ້ານຄວາມຮູ້. ແລະມີວິທີການທີ່ສາມາດວັດແທກໄດ້ຢ່າງຖືກຕ້ອງໃດໆໃນຮູບແບບຂອງຄວາມຮູ້ເຫຼົ່ານີ້? ເຖິງວ່າຈະມີຈໍານວນຫລາຍຂອງການເຮັດວຽກໂດຍຈິດວິທະຍາ, ຄໍາຖາມເຫຼົ່ານີ້ຍັງບໍ່ມີຄໍາຕອບຢ່າງຊັດເຈນ.
ດັ່ງນັ້ນ, ເຖິງແມ່ນວ່າຄໍາຮ້ອງຂໍທີ່ຂ້ອນຂ້າງງ່າຍດາຍ - ຜູ້ທີ່ມີຄວາມຮູ້ທາງປັນຍາຫຼາຍໄດ້ຮັບເງິນຫຼາຍ - ກໍ່ສາມາດມີຄວາມຫຍຸ້ງຍາກໃນການປະເມີນຜົນຈິງຍ້ອນວ່າມັນອາດຈະຍາກໃນການດໍາເນີນວຽກງານສ້າງທິດສະດີໃນຂໍ້ມູນ. ຕົວຢ່າງຂອງການກໍ່ສ້າງທາງທິດສະດີທີ່ມີຄວາມສໍາຄັນແຕ່ຍາກໃນການດໍາເນີນງານປະກອບມີ "ມາດຕະຖານ", "ທຶນທາງສັງຄົມ" ແລະ "ປະຊາທິປະໄຕ". ນັກວິທະຍາສາດສັງຄົມເອີ້ນການແຂ່ງຂັນລະຫວ່າງການສ້າງສັນແລະການ ສ້າງ ຂໍ້ມູນທີ່ ມີຄວາມຖືກຕ້ອງ (Cronbach and Meehl 1955) . ໃນຖານະທີ່ບັນຊີລາຍຊື່ສັ້ນຂອງການກໍ່ສ້າງນີ້ຊີ້ໃຫ້ເຫັນວ່າການສ້າງຄວາມຖືກຕ້ອງເປັນບັນຫາທີ່ນັກວິທະຍາສາດສັງຄົມໄດ້ຮັບການສະຫນັບສະຫນູນສໍາລັບເວລາດົນນານ. ແຕ່ໃນປະສົບການຂອງຂ້ອຍ, ບັນຫາຂອງການສ້າງຄວາມຍຸຕິທໍາແມ່ນຍິ່ງໃຫຍ່ກວ່າເມື່ອເຮັດວຽກກັບຂໍ້ມູນທີ່ບໍ່ໄດ້ສ້າງຂື້ນເພື່ອຈຸດປະສົງຂອງການຄົ້ນຄວ້າ (Lazer 2015) .
ໃນເວລາທີ່ທ່ານກໍາລັງປະເມີນຜົນຜົນການຄົ້ນຄວ້າ, ວິທີການທີ່ທັນສະໄຫມແລະເປັນປະໂຫຍດເພື່ອປະເມີນຄວາມຖືກຕ້ອງຂອງການກໍ່ສ້າງແມ່ນເພື່ອເອົາຜົນໄດ້ຮັບ, ເຊິ່ງສະແດງອອກໃນການກໍ່ສ້າງແລະສະແດງອອກໃນຂໍ້ມູນທີ່ນໍາໃຊ້. ຕົວຢ່າງ, ພິຈາລະນາສອງການຄົ້ນຄວ້າ hypothetical ທີ່ອ້າງວ່າສະແດງໃຫ້ເຫັນວ່າຜູ້ທີ່ມີຫຼາຍທາງສະຫລາດໄດ້ຮັບເງິນຫຼາຍ. ໃນການສຶກສາຄັ້ງທໍາອິດ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນພົບວ່າຜູ້ທີ່ມີປະສົບຜົນສໍາເລັດໃນການທົດສອບ Raven Progressive Matrices Test - ການທົດສອບທີ່ດີທີ່ສຸດຂອງການວິເຄາະທາງດ້ານການວິເຄາະ (Carpenter, Just, and Shell 1990) ມີລາຍໄດ້ສູງຂຶ້ນໃນລາຍຮັບອາກອນຂອງພວກເຂົາ. ໃນການສຶກສາຄັ້ງທີສອງ, ນັກຄົ້ນຄວ້າໄດ້ຄົ້ນພົບວ່າຜູ້ທີ່ຢູ່ໃນ Twitter ທີ່ໃຊ້ຄໍາສັບທີ່ຍາວດົນມັກຈະເວົ້າເຖິງຍີ່ຫໍ້ທີ່ມີຄວາມຫລາກຫລາຍ. ໃນທັງສອງກໍລະນີ, ນັກຄົ້ນຄວ້າເຫຼົ່ານີ້ສາມາດອ້າງວ່າພວກເຂົາໄດ້ສະແດງໃຫ້ເຫັນວ່າຄົນທີ່ມີຄວາມສະຫລາດຫຼາຍໄດ້ຮັບເງິນຫຼາຍ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ໃນການສຶກສາຄັ້ງທໍາອິດ, ການສ້າງທິດສະດີແມ່ນຖືກປະຕິບັດໄດ້ດີໂດຍຂໍ້ມູນ, ໃນຂະນະທີ່ໃນຄັ້ງທີສອງພວກເຂົາບໍ່ໄດ້. ນອກຈາກນັ້ນ, ດັ່ງທີ່ຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນ, ຂໍ້ມູນເພີ່ມເຕີມບໍ່ໄດ້ແກ້ໄຂບັນຫາໂດຍອັດຕະໂນມັດດ້ວຍການສ້າງຄວາມຖືກຕ້ອງ. ທ່ານຄວນສົງໄສຜົນໄດ້ຮັບຂອງການສຶກສາຄັ້ງທີສອງວ່າມັນມີຄວາມຫມາຍຫຍັງກ່ຽວກັບລ້ານ tweets, billion tweets, ຫຼື trillion tweets. ສໍາລັບນັກຄົ້ນຄວ້າທີ່ບໍ່ຄຸ້ນເຄີຍກັບຄວາມຄິດຂອງການສ້າງຄວາມຖືກຕ້ອງ, ຕາຕະລາງ 2.2 ສະຫນອງບາງຕົວຢ່າງຂອງການສຶກສາທີ່ມີການນໍາໃຊ້ທາງທິດສະດີການນໍາໃຊ້ຂໍ້ມູນທັກສະດິຈິຕອນ.
ແຫຼ່ງຂໍ້ມູນ | ການສ້າງທິດສະດີ | ອ້າງອິງ |
---|---|---|
ບັນທຶກອີເມວຈາກວິທະຍາໄລ (meta ຂໍ້ມູນເທົ່ານັ້ນ) | ຄວາມສໍາພັນທາງສັງຄົມ | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
ສື່ມວນຊົນສັງຄົມກ່ຽວກັບ Weibo | ການພົວພັນພົນລະເມືອງ | Zhang (2016) |
ບັນທຶກອີເມວຈາກບໍລິສັດ (meta ຂໍ້ມູນແລະຂໍ້ຄວາມທີ່ສົມບູນ) | ວັດທະນະທໍາໃນອົງການຈັດຕັ້ງ | Srivastava et al. (2017) |
ເຖິງແມ່ນວ່າບັນຫາຂອງຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນສໍາລັບການເກັບກໍາຂໍ້ມູນທາງທິດສະດີແມ່ນຍາກທີ່ຈະແກ້ໄຂ, ມີວິທີແກ້ໄຂທົ່ວໄປຕໍ່ປະເພດທົ່ວໄປຂອງການບໍ່ຄົບຖ້ວນທົ່ວໄປ: ຂໍ້ມູນປະຊາກອນບໍ່ຄົບຖ້ວນແລະຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນກ່ຽວກັບພຶດຕິກໍາໃນເວທີອື່ນໆ. ການແກ້ໄຂຄັ້ງທໍາອິດແມ່ນເພື່ອເກັບຂໍ້ມູນທີ່ທ່ານຕ້ອງການ; ຂ້ອຍຈະບອກທ່ານກ່ຽວກັບເລື່ອງນີ້ໃນບົດທີ 3 ເມື່ອຂ້ອຍບອກທ່ານກ່ຽວກັບການສໍາຫຼວດ. ວິທີແກ້ໄຂຫຼັກທີສອງແມ່ນເຮັດສິ່ງທີ່ນັກວິທະຍາສາດຂໍ້ມູນເອີ້ນວ່າ ການອ້າງອີງຜູ້ໃຊ້ ແລະນັກວິທະຍາສາດສັງຄົມເອີ້ນການ ຈໍາແນກ . ໃນວິທີການນີ້, ນັກຄົ້ນຄ້ວາໃຊ້ຂໍ້ມູນທີ່ພວກເຂົາມີຢູ່ບາງຄົນທີ່ຈະຄິດເຖິງຄຸນລັກສະນະຂອງຄົນອື່ນ. ການແກ້ໄຂທີສາມທີ່ເປັນໄປໄດ້ແມ່ນການສົມທົບແຫຼ່ງຂໍ້ມູນຫຼາຍ. ຂະບວນການນີ້ແມ່ນບາງຄັ້ງເອີ້ນວ່າ ການເຊື່ອມຕໍ່ບັນທຶກ . ການປຽບທຽບທີ່ຂ້ອຍມັກໃນຂະບວນການນີ້ໄດ້ຖືກຂຽນໂດຍ Dunn (1946) ໃນວັກທໍາອິດຂອງເອກະສານທໍາອິດທີ່ເຄີຍຂຽນກ່ຽວກັບການເຊື່ອມຕໍ່ບັນທຶກ:
"ບຸກຄົນທຸກຄົນໃນໂລກສ້າງປື້ມບັນທຶກຂອງຊີວິດ. ຫນັງສືນີ້ເລີ່ມຕົ້ນດ້ວຍການເກີດລູກແລະສິ້ນສຸດລົງດ້ວຍຄວາມຕາຍ. ຫນ້າຂອງມັນແມ່ນບັນທຶກຂອງບັນດາເຫດການທີ່ສໍາຄັນໃນຊີວິດ. ການເຊື່ອມຕໍ່ບັນທຶກແມ່ນຊື່ທີ່ໄດ້ຮັບການຈັດຕັ້ງປະຕິບັດຫນ້າເວັບຕ່າງໆໃນປຶ້ມນີ້ເປັນປະລິມານ. "
ໃນເວລາທີ່ Dunn wrote passage ທີ່ລາວໄດ້ຄິດວ່າປື້ມບັນທຶກຂອງຊີວິດສາມາດປະກອບມີເຫດການທີ່ສໍາຄັນເຊັ່ນ: ການເກີດລູກ, ການແຕ່ງງານ, ການຢ່າຮ້າງ, ແລະຄວາມຕາຍ. ເຖິງຢ່າງໃດກໍ່ຕາມ, ໃນປັດຈຸບັນຂໍ້ມູນຂ່າວສານກ່ຽວກັບປະຊາຊົນຫຼາຍປານໃດຖືກບັນທຶກແລ້ວ, ປື້ມບັນທຶກຂອງຊີວິດອາດຈະເປັນຮູບພາບທີ່ມີລາຍລະອຽດສະເພາະ, ຖ້າວ່າຫນ້າຕ່າງໆເຫຼົ່ານີ້ (ເຊັ່ນ, ການຕິດຕາມດິຈິຕອນຂອງພວກເຮົາ) ສາມາດຖືກຜູກກັນໄດ້. ປື້ມບັນທຶກຂອງຊີວິດນີ້ອາດຈະເປັນຊັບພະຍາກອນທີ່ຍິ່ງໃຫຍ່ສໍາລັບນັກຄົ້ນຄວ້າ. ແຕ່ມັນຍັງສາມາດຖືກເອີ້ນວ່າ ຖານຂໍ້ມູນຂອງ ruin (Ohm 2010) ຊຶ່ງສາມາດໃຊ້ສໍາລັບທຸກປະເພດທີ່ບໍ່ຖືກຕ້ອງຕາມທີ່ຂ້ອຍຈະອະທິບາຍໃນບົດທີ 6 (ຈັນຍາບັນ).