ບາງສ່ວນຂອງຂໍ້ມູນທີ່ບໍລິສັດແລະລັດຖະບານມີຄວາມສໍາຄັນ.
ບໍລິສັດປະກັນໄພສຸຂະພາບໄດ້ລາຍລະອຽດຂໍ້ມູນກ່ຽວກັບການດູແລທາງການແພດທີ່ໄດ້ຮັບໂດຍລູກຄ້າຂອງເຂົາເຈົ້າ. ຂໍ້ມູນນີ້ສາມາດໄດ້ຮັບການນໍາໃຊ້ສໍາລັບການຄົ້ນຄວ້າທີ່ສໍາຄັນກ່ຽວກັບສຸຂະພາບ, ແຕ່ຖ້າຫາກວ່າມັນໄດ້ກາຍເປັນສາທາລະນະມັນອາດຈະສາມາດນໍາໄປສູ່ການສ້າງຄວາມເສຍຫາຍທາງດ້ານຈິດໃຈ (ຕົວຢ່າງ, ຄວາມອາຍ) ແລະອັນຕະລາຍທາງເສດຖະກິດ (ຕົວຢ່າງ, ການສູນເສຍຂອງການຈ້າງງານ). ໄກຈາກທີ່ແຕກຕ່າງກັນ, ຈໍານວນຫຼາຍແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ຈະມີຂໍ້ມູນທີ່ລະອຽດອ່ອນ. ລັກສະນະລະອຽດອ່ອນຂອງຂໍ້ມູນນີ້ແມ່ນສ່ວນຫນຶ່ງຂອງເຫດຜົນທີ່ວ່າແຫລ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ມັກຈະສາມາດເຂົ້າເຖິງ (ການອະທິບາຍຂ້າງເທິງ).
ວິທີຫນຶ່ງທີ່ນັກຄົ້ນຄວ້າພະຍາຍາມທີ່ຈະຈັດການກັບສະຖານະການນີ້ເປັນໄປ, ກໍານົດຊຸດຂໍ້ມູນທີ່ມີຂໍ້ມູນທີ່ລະອຽດອ່ອນ. ແຕ່ວ່າ, ເປັນຂ້າພະເຈົ້າຈະສະແດງໃຫ້ເຫັນໃນລາຍລະອຽດໃນບົດທີ 6 (ຈັນຍາບັນ) ວິທີການນີ້ຈໍາກັດຢ່າງຮຸນແຮງໃນວິທີການທີ່ຍັງບໍ່ໄດ້ຍົກຍ້ອງຢ່າງກວ້າງຂວາງໂດຍທັງສອງວິທະຍາສາດສັງຄົມແລະວິທະຍາສາດຂໍ້ມູນ.
ໃນການສະຫລຸບ, ແຫຼ່ງຂໍ້ມູນຂໍ້ມູນຂະຫນາດໃຫຍ່ຂອງມື້ນີ້ (ແລະມື້ອື່ນ) ໂດຍທົ່ວໄປມີລັກສະນະສິບ. ຈໍານວນຫຼາຍຂອງຄຸນສົມບັດ, ຂະຫນາດໃຫຍ່, ສະເຫມີໄປ, ສຸດ, ແລະດີ nonreactive, ມາຈາກຄວາມຈິງທີ່ຢູ່ໃນບໍລິສັດອາຍຸສູງສຸດດິຈິຕອນແລະລັດຖະບານສາມາດເກັບກໍາຂໍ້ມູນຢູ່ໃນລະດັບທີ່ເປັນໄປບໍ່ໄດ້ໃນເມື່ອກ່ອນໄດ້. ແລະ, ຈໍານວນຫຼາຍຂອງທີ່ບໍ່ດີຄຸນສົມບັດ, ບໍ່ຄົບຖ້ວນ, ສາມາດເຂົ້າເຖິງ, ຜູ້ຕາງຫນ້າທີ່ບໍ່ແມ່ນ, ພຽງການລອຍລົມ, ເຮັດໃຫ້ຈໍານົນສູດການຄິດໄລ່, ສາມາດເຂົ້າເຖິງ, ເປື້ອນ, ແລະທີ່ສໍາຄັນ, ມາຈາກຄວາມຈິງທີ່ວ່າຂໍ້ມູນທີ່ບໍ່ໄດ້ເກັບກໍາໂດຍນັກຄົ້ນຄວ້າສໍາລັບນັກຄົ້ນຄວ້າ. ຄວາມເຂົ້າໃຈລັກສະນະເຫຼົ່ານີ້ແມ່ນເປັນບາດກ້າວທໍາອິດມີຄວາມຈໍາເປັນທີ່ຈະຮຽນຮູ້ຈາກຂໍ້ມູນຂະຫນາດໃຫຍ່. ແລະ, ໃນປັດຈຸບັນພວກເຮົາເຮັດໃຫ້ການຄົ້ນຄວ້າແຜນຍຸດທະສາດທີ່ພວກເຮົາສາມາດນໍາໃຊ້ກັບຂໍ້ມູນນີ້.