ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ສາມາດໄດ້ຮັບການ loaded ມີ junk ແລະຂີ້ເຫຍື້ອ.
ນັກຄົ້ນຄວ້າບາງຄົນເຊື່ອວ່າແຫຼ່ງຂໍ້ມູນໃຫຍ່, ໂດຍສະເພາະແມ່ນແຫຼ່ງຂໍ້ມູນອອນໄລນ໌, ແມ່ນຖືກຕ້ອງເພາະວ່າມັນຖືກເກັບລວບລວມໂດຍອັດຕະໂນມັດ. ໃນຄວາມເປັນຈິງ, ຜູ້ທີ່ເຮັດວຽກກັບແຫລ່ງຂໍ້ມູນໃຫຍ່ຮູ້ວ່າພວກເຂົາມັກຈະ ເປື້ອນ . ດັ່ງນັ້ນ, ພວກເຂົາມັກຈະປະກອບມີຂໍ້ມູນທີ່ບໍ່ສະທ້ອນໃຫ້ເຫັນເຖິງການກະທໍາທີ່ແທ້ຈິງຂອງນັກຄົ້ນຄວ້າ. ນັກວິທະຍາສາດສັງຄົມສ່ວນຫຼາຍມັກຄຸ້ນເຄີຍກັບຂະບວນການທໍາຄວາມສະອາດຂໍ້ມູນການສໍາຫຼວດທາງສັງຄົມຂະຫນາດໃຫຍ່, ແຕ່ການທໍາຄວາມສະອາດແຫຼ່ງຂໍ້ມູນໃຫຍ່ເບິ່ງຄືວ່າມີຄວາມຫຍຸ້ງຍາກຫຼາຍ. ຂ້າພະເຈົ້າຄິດວ່າແຫຼ່ງທີ່ມາຂອງຄວາມຫຍຸ້ງຍາກນີ້ແມ່ນແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ທີ່ສຸດທີ່ບໍ່ເຄີຍໃຊ້ເພື່ອການຄົ້ນຄວ້າ, ດັ່ງນັ້ນພວກມັນບໍ່ໄດ້ຖືກເກັບລວບລວມ, ເກັບໄວ້ແລະບັນທຶກໄວ້ໃນຮູບແບບທີ່ເຮັດໃຫ້ການທໍາຄວາມສະອາດຂໍ້ມູນ.
ຂໍ້ມູນອັນຕະລາຍຂອງຂໍ້ມູນດັກດິຈິຕອນທີ່ບໍ່ເປັນລະບຽບແມ່ນສະແດງໃຫ້ເຫັນໂດຍນັກສຶກສາຂອງ Back and colleagues (2010) ກ່ຽວກັບການຕອບໂຕ້ທາງຈິດໃຈຕໍ່ການໂຈມຕີຂອງວັນທີ 11 ເດືອນກັນຍາປີ 2001 ທີ່ຂ້າພະເຈົ້າໄດ້ກ່າວມາໃນເບື້ອງຕົ້ນໃນບົດນີ້. ນັກຄົ້ນຄວ້າມັກຈະສຶກສາການຕອບສະຫນອງຕໍ່ເຫດການທີ່ຫນ້າເສົ້າໂສກໂດຍນໍາໃຊ້ຂໍ້ມູນທີ່ລວບລວມໃນໄລຍະເດືອນຫຼືຫລາຍປີ. ແຕ່, ກັບຄືນໄປບ່ອນແລະເພື່ອນຮ່ວມງານໄດ້ພົບເຫັນແຫຼ່ງຂໍ້ມູນສະເຫມີກ່ຽວກັບການຮວບຮວມດິຈິຕອນ - ຂໍ້ຄວາມທີ່ຖືກບັນທຶກໄວ້ໂດຍອັດຕະໂນມັດຈາກ 85,000 ຄົນທີ່ເປັນເຄື່ອງຄອມພິວເຕີຂອງອາເມຣິກາ - ແລະນີ້ໄດ້ຊ່ວຍໃຫ້ພວກເຂົາສຶກສາຄວາມຮູ້ສຶກໃນເວລາທີ່ດີກວ່າ. ພວກເຂົາສ້າງຕາຕະລາງທາງດ້ານອາລົມຂອງນາທີ 11 ໂດຍການຂຽນເນື້ອໃນທາງດ້ານຈິດໃຈຂອງຂໍ້ຄວາມ pager ໂດຍຮ້ອຍລະຂອງຄໍາທີ່ກ່ຽວຂ້ອງກັບ (1) ຄວາມໂສກເສົ້າ (ເຊັ່ນ: "ຮ້ອງໄຫ້" ແລະ "ຄວາມໂສກເສົ້າ"), (2) ຄວາມກັງວົນ ( ຕົວຢ່າງ, "ກັງວົນ" ແລະ "ຄວາມຢ້ານກົວ") ແລະ (3) ຄວາມໂມໂຫ (ເຊັ່ນ "ຄວາມກຽດຊັງ" ແລະ "ຄວາມສໍາຄັນ"). ພວກເຂົາພົບວ່າຄວາມໂສກເສົ້າແລະຄວາມກັງວົນໄດ້ປ່ຽນແປງຕະຫລອດມື້ໂດຍບໍ່ມີຮູບແບບທີ່ເຂັ້ມແຂງ, ແຕ່ວ່າມີຄວາມກົດຂີ່ຂົ່ມເຫັງຕະຫຼອດມື້. ການຄົ້ນຄ້ວານີ້ເບິ່ງຄືວ່າເປັນການສະແດງທີ່ດີເລີດຂອງອໍານາດຂອງແຫຼ່ງຂໍ້ມູນສະເຫມີໄປ: ຖ້າຫາກວ່າແຫຼ່ງຂໍ້ມູນແບບດັ້ງເດີມໄດ້ຖືກນໍາໃຊ້, ມັນຈະເປັນໄປບໍ່ໄດ້ທີ່ຈະໄດ້ຮັບການຕອບສະຫນອງຕໍ່ການຕອບສະຫນອງທັນທີທັນໃດໃນກໍລະນີທີ່ບໍ່ຄາດຄິດ.
ພຽງແຕ່ຫນຶ່ງປີຕໍ່ມາ, Cynthia Pury (2011) ໄດ້ເບິ່ງຂໍ້ມູນຫຼາຍຢ່າງຢ່າງລະອຽດ. ນາງໄດ້ຄົ້ນພົບວ່າຈໍານວນຂໍ້ຄວາມໃຈຮ້າຍທີ່ໃຫຍ່ທີ່ສຸດທີ່ເກີດຂື້ນໄດ້ຖືກສ້າງຂື້ນໂດຍຄົນດຽວກັນແລະພວກເຂົາແມ່ນທັງຫມົດດຽວກັນ. ນີ້ແມ່ນສິ່ງທີ່ຂໍ້ຄວາມທີ່ໃຈຮ້າຍທີ່ກ່າວວ່າ:
"ເຄື່ອງ Reboot NT [name] ຢູ່ໃນຫ້ອງການ [name] ທີ່ເບີ [ສະຖານທີ່]: ສໍາຄັນ: [ວັນແລະເວລາ]"
ຂໍ້ຄວາມເຫຼົ່ານີ້ຖືກລະບຸວ່າເປັນຄວາມໃຈຮ້າຍເພາະວ່າພວກເຂົາລວມຄໍາວ່າ "CRITICAL" ເຊິ່ງອາດຈະຫມາຍເຖິງຄວາມໃຈຮ້າຍແຕ່ວ່າໃນກໍລະນີນີ້ບໍ່ໄດ້. ການຖອນຂໍ້ຄວາມທີ່ເກີດຂື້ນໂດຍການຕິດຕັ້ງແບບອັດຕະໂນມັດແບບດຽວນີ້ຈະລົບລ້າງຄວາມກົດດັນທີ່ເກີດຂື້ນໃນໄລຍະເວລາ (ຮູບທີ່ 2.4). ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຜົນໄດ້ຮັບຕົ້ນຕໍໃນ Back, Küfner, and Egloff (2010) ແມ່ນປອມຂອງຄົນດຽວ. ດັ່ງທີ່ຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນ, ການວິເຄາະງ່າຍດາຍກ່ຽວກັບຂໍ້ມູນຂ້ອນຂ້າງສັບສົນແລະສັບສົນມີທ່າແຮງທີ່ຈະເຮັດຜິດຢ່າງຜິດປົກກະຕິ.
ໃນຂະນະທີ່ຂໍ້ມູນເປື້ອນທີ່ຖືກສ້າງຂຶ້ນໂດຍບໍ່ຕັ້ງໃຈ - ເຊັ່ນວ່າຈາກເຄື່ອງສຽງທີ່ມີສຽງຂີ້ຮ້າຍຫນຶ່ງ - ສາມາດພົບໄດ້ໂດຍນັກຄົ້ນຄວ້າຢ່າງລະມັດລະວັງ, ກໍ່ມີລະບົບອອນລາຍບາງຢ່າງທີ່ດຶງດູດຜູ້ສົ່ງອີເມວຂີ້ເຫຍື້ອ. ຜູ້ spammers ເຫຼົ່ານີ້ຢ່າງຈິງຈັງສ້າງຂໍ້ມູນປອມ, ແລະ - ມັກຈະໄດ້ຮັບຜົນກະທົບຈາກຜົນກໍາໄລ - ເຮັດວຽກຍາກທີ່ຈະເຮັດໃຫ້ການຂີ້ເຫຍື້ອຂອງພວກເຂົາຖືກປິດບັງ. ຕົວຢ່າງ, ກິດຈະກໍາທາງດ້ານການເມືອງກ່ຽວກັບ Twitter ເບິ່ງຄືວ່າປະກອບມີຢ່າງຫນ້ອຍບາງຂີ້ເຫຍື້ອທີ່ສົມເຫດສົມຜົນ, ຕາມເຫດຜົນທາງດ້ານການເມືອງບາງຢ່າງຖືກສ້າງຂື້ນໂດຍເຈດຕະນາເພື່ອເບິ່ງຫຼາຍກວ່າທີ່ພວກເຂົາເປັນຕົວຈິງ (Ratkiewicz et al. 2011) . ແຕ່ຫນ້າເສຍດາຍ, ການຖອນ spam ໂດຍເຈດຕະນານີ້ກໍ່ສາມາດມີຄວາມຫຍຸ້ງຍາກຫຼາຍ.
ແນ່ນອນວ່າສິ່ງທີ່ຖືກພິຈາລະນາຂໍ້ມູນເປື້ອນສາມາດອີງໃສ່ບາງສ່ວນໃນຄໍາຖາມການຄົ້ນຄວ້າ. ຕົວຢ່າງເຊັ່ນ, ການດັດແກ້ຫຼາຍໆກັບ Wikipedia ແມ່ນສ້າງຂື້ນໂດຍອັດຕະໂນມັດ bots (Geiger 2014) . ຖ້າທ່ານມີຄວາມສົນໃຈກັບນິເວດວິທະຍາຂອງ Wikipedia, ຫຼັງຈາກນັ້ນ, ການແກ້ໄຂທີ່ສ້າງຂື້ນນີ້ແມ່ນສໍາຄັນ. ແຕ່ຖ້າທ່ານສົນໃຈວິທີທີ່ມະນຸດປະກອບສ່ວນກັບວິກິພີເດຍ, ຫຼັງຈາກນັ້ນການແກ້ໄຂທີ່ສ້າງຂື້ນຄວນຈະຖືກຍົກເວັ້ນ.
ບໍ່ມີເຕັກນິກສະຖິຕິສະເພາະຫຼືວິທີການທີ່ສາມາດຮັບປະກັນວ່າທ່ານໄດ້ອະນາໄມຂໍ້ມູນເປື້ອນຂອງທ່ານຢ່າງພຽງພໍ. ໃນທີ່ສຸດ, ຂ້າພະເຈົ້າຄິດວ່າວິທີທີ່ດີທີ່ສຸດເພື່ອຫຼີກເວັ້ນການຖືກຫລອກລວງໂດຍຂໍ້ມູນເປື້ອນກໍ່ຄືການເຂົ້າໃຈຫຼາຍເທົ່າທີ່ເປັນໄປໄດ້ກ່ຽວກັບວິທີການສ້າງຂໍ້ມູນຂອງທ່ານ.