2.3.2.1 ບໍ່ສົມບູນ

ເລື່ອງທີ່ບໍ່ມີວິທີການ "ຂະຫນາດໃຫຍ່" "ຂໍ້ມູນຂະຫນາດໃຫຍ່" ຂອງທ່ານມັນອາດຈະບໍ່ມີຂໍ້ມູນທີ່ທ່ານຕ້ອງການ.

ທີ່ສຸດແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ບໍ່ຄົບຖ້ວນ, ໃນຄວາມຮູ້ສຶກວ່າພວກເຂົາເຈົ້າບໍ່ມີຂໍ້ມູນທີ່ທ່ານຈະຕ້ອງການສໍາລັບການຄົ້ນຄ້ວາຂອງທ່ານ. ນີ້ແມ່ນຄຸນນະສົມບັດທົ່ວໄປຂອງຂໍ້ມູນທີ່ໄດ້ຮັບການສ້າງຕັ້ງສໍາລັບຈຸດປະສົງອື່ນນອກຈາກການຄົ້ນຄວ້າ. ວິທະຍາສາດສັງຄົມຈໍານວນຫຼາຍໄດ້ມີປະສົບການຂອງການຈັດການກັບຄວາມບໍ່ສົມບູນ, ເຊັ່ນ: ການສໍາຫຼວດທີ່ມີຢູ່ແລ້ວທີ່ບໍ່ໄດ້ຮ້ອງຂໍໃຫ້ຄໍາຖາມທີ່ທ່ານຕ້ອງການຢາກໄດ້. ແຕ່ຫນ້າເສຍດາຍ, ບັນຫາຂອງຄວາມບໍ່ສົມບູນທີ່ມີແນວໂນ້ມທີ່ຈະຫຼາຍທີ່ສຸດໃນຂໍ້ມູນຂະຫນາດໃຫຍ່. ໃນປະສົບການຂອງຂ້າພະເຈົ້າ, ຂໍ້ມູນຂະຫນາດໃຫຍ່ມັກຈະເຮັດໃຫ້ໄດ້ຮັບການຫາຍສາມປະເພດຂອງຂໍ້ມູນທີ່ເປັນປະໂຫຍດສໍາລັບການຄົ້ນຄ້ວາສັງຄົມ: ປະຊາກອນ, ພຶດຕິກໍາໃນເວທີການອື່ນໆ, ແລະຂໍ້ມູນການ operationalize ກໍ່ສ້າງທິດສະດີ.

ທັງສາມຂອງແບບຟອມເຫຼົ່ານີ້ຂອງຄວາມບໍ່ສົມບູນແມ່ນສະແດງໃຫ້ເຫັນໃນການສຶກສາໂດຍ Gueorgi Kossinets ແລະ Duncan Watts ເປັນ (2006) ກ່ຽວກັບການ evolution ຂອງເຄືອຂ່າຍທາງສັງຄົມຢູ່ໃນວິທະຍາໄລໄດ້. Kossinets ແລະ Watts ເລີ່ມຕົ້ນທີ່ມີບັນທຶກອີເມລ໌ຈາກວິທະຍາໄລໄດ້, ທີ່ມີຂໍ້ມູນຊັດເຈນກ່ຽວກັບຜູ້ທີ່ຖືກສົ່ງອີເມວເພື່ອຜູ້ທີ່ຢູ່ທີ່ໃຊ້ເວລາ (ນັກຄົ້ນຄວ້າໄດ້ບໍ່ມີການເຂົ້າເຖິງເນື້ອໃນຂອງອີເມວໄດ້). ການບັນທຶກການອີເມວເຫຼົ່ານີ້ສຽງຄືຊຸດຂໍ້ມູນທີ່ເຮັດໃຫ້ປະລາດ, ແຕ່ວ່າ, ພວກເຂົາເຈົ້າແມ່ນ, ເຖິງວ່າຈະມີຂະຫນາດແລະ granularity, ພື້ນຖານທີ່ບໍ່ຄົບຖ້ວນຂອງເຂົາເຈົ້າ. ສໍາລັບການຍົກຕົວຢ່າງ, ຂໍ້ມູນບັນທຶກອີເມວບໍ່ປະກອບມີຂໍ້ມູນກ່ຽວກັບຄຸນລັກສະນະຂອງພົນລະເມືອງຂອງນັກສຶກສາ, ເຊັ່ນ: ບົດບາດຍິງຊາຍແລະອາຍຸສູງສຸດ. ນອກຈາກນັ້ນ, ຂໍ້ມູນບັນທຶກອີເມວບໍ່ປະກອບມີຂໍ້ມູນກ່ຽວກັບການສື່ສານຜ່ານສື່ມວນຊົນອື່ນໆ, ເຊັ່ນ: ໂທລະສັບ, ຂໍ້ຄວາມ, ຫຼືການສົນທະນາໃບຫນ້າເພື່ອໃບຫນ້າ. ສຸດທ້າຍ, ຂໍ້ມູນບັນທຶກອີເມວບໍ່ໄດ້ໂດຍກົງປະກອບດ້ວຍຂໍ້ມູນກ່ຽວກັບສາຍພົວພັນ, ການກໍ່ສ້າງທິດສະດີໃນທິດສະດີທີ່ມີຢູ່ແລ້ວຈໍານວນຫຼາຍ. ຕໍ່ມາໃນພາກ, ໃນເວລາທີ່ຂ້າພະເຈົ້າສົນທະນາກ່ຽວກັບຍຸດທະສາດການຄົ້ນຄວ້າ, ທ່ານຈະເບິ່ງວິທີການ Kossinets ແລະ Watts ແກ້ໄຂບັນຫາເຫຼົ່ານີ້.

ຂອງສາມປະເພດຂອງການບໍ່ຄົບຖ້ວນ, ບັນຫາຂອງຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນເພື່ອ operationalize ກໍ່ສ້າງທິດສະດີແມ່ນຍາກທີ່ສຸດທີ່ຈະແກ້ໄຂ, ແລະໃນປະສົບການຂອງຂ້າພະເຈົ້າ, ມັນມັກຈະເບິ່ງຂ້າມອຸບັດຕິເຫດໂດຍວິທະຍາສາດຂໍ້ມູນ. ປະມານ, ການກໍ່ສ້າງທິດສະດີແນວຄວາມຄິດບໍ່ມີຕົວຕົນທີ່ວິທະຍາສາດສັງຄົມການສຶກສາ, ແຕ່ວ່າ, ແຕ່ຫນ້າເສຍດາຍ, ການກໍ່ສ້າງເຫຼົ່ານີ້ບໍ່ສາມາດຈະໄດ້ຮັບການກໍານົດແບ່ງຂັ້ນຄຸ້ມຄອງແລະການວັດແທກ. ສໍາລັບຕົວຢ່າງ, ໃຫ້ຈິນຕະນາການຄວາມພະຍາຍາມທີ່ຈະສັງເກດການທົດສອບການຮ້ອງຂໍງ່າຍດາຍປາກົດຂື້ນວ່າປະຊາຊົນຜູ້ທີ່ມີຄວາມສະຫລາດຫລາຍຂຶ້ນມີລາຍໄດ້ເງິນຫຼາຍ. ໃນຄໍາສັ່ງທີ່ຈະທົດສອບການຮ້ອງຂໍນີ້ທ່ານຈະຈໍາເປັນຕ້ອງວັດແທກ "ທາງ." ແຕ່ວ່າ, ສິ່ງທີ່ເປັນທາງ? ສໍາລັບການຍົກຕົວຢ່າງ, Gardner (2011) ທັດສະນະວ່າມີຈິງແປດຮູບແບບທີ່ແຕກຕ່າງກັນຂອງທາງ. ແລະ, ມີຂັ້ນຕອນທີ່ຖືກຕ້ອງສາມາດວັດແທກທຸກຮູບແບບການເຫຼົ່ານີ້ຂອງທາງ? ເຖິງວ່າຈະມີຈໍານວນ enormous ຂອງການເຮັດວຽກໂດຍນັກຈິດຕະສາດ, ຄໍາຖາມເຫຼົ່ານີ້ຍັງບໍ່ມີຄໍາຕອບ unambiguous. ດັ່ງນັ້ນ, ເຖິງແມ່ນວ່າຂ້ອນຂ້າງງ່າຍດາຍການຮ້ອງຂໍ, ປະຊາຊົນຜູ້ທີ່ມີຄວາມສະຫລາດຫລາຍຂຶ້ນມີລາຍໄດ້ເງິນຫຼາຍສາມາດຈະຍາກທີ່ຈະປະເມີນຕົວຈິງເນື່ອງຈາກວ່າມັນສາມາດເປັນການຍາກທີ່ຈະ operationalize ກໍ່ສ້າງທິດສະດີໃນຂໍ້ມູນ. ຕົວຢ່າງອື່ນໆຂອງການກໍ່ສ້າງທິດສະດີທີ່ມີຄວາມສໍາຄັນແຕ່ຍາກທີ່ຈະ operationalize ແກ່ "ມາດຕະຖານ", "ນະຄອນຫຼວງທາງດ້ານສັງຄົມ," ແລະ "ຊາທິປະໄຕ." ວິທະຍາສາດສັງຄົມໃຫ້ໂທຫາລະຫວ່າງການກໍ່ສ້າງທິດສະດີແລະຂໍ້ມູນການກໍ່ສ້າງຄວາມຖືກຕ້ອງ (Cronbach and Meehl 1955) . ແລະ, ເປັນບັນຊີລາຍຊື່ຂອງການກໍ່ສ້າງນີ້ຊີ້ໃຫ້ເຫັນ, ໂຄງການກໍ່ສ້າງຄວາມຖືກຕ້ອງບັນຫາທີ່ວິທະຍາສາດສັງຄົມໄດ້ຕໍ່ສູ້ກັບສໍາລັບການໃຊ້ເວລາດົນນານທີ່ສຸດ, ເຖິງແມ່ນວ່າໃນເວລາທີ່ພວກເຂົາເຈົ້າໄດ້ເຮັດວຽກຮ່ວມກັບຂໍ້ມູນທີ່ໄດ້ເກັບກໍາສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າ. ໃນເວລາທີ່ເຮັດວຽກຮ່ວມກັບຂໍ້ມູນທີ່ເກັບສໍາລັບຈຸດປະສົງອື່ນນອກຈາກການຄົ້ນຄວ້າ, ບັນຫາຂອງການກໍ່ສ້າງຄວາມຖືກຕ້ອງແມ່ນຕ່າງໆຕາມທີ່ໃຈທີ່ທ້າທາຍ (Lazer 2015) .

ໃນເວລາທີ່ທ່ານກໍາລັງອ່ານຫນັງສືພິມຄົ້ນຄ້ວາ, ວິທີທາງໄວແລະເປັນປະໂຫຍດຫນຶ່ງໃນການປະເມີນຄວາມກັງວົນກ່ຽວກັບການກໍ່ສ້າງທີ່ຖືກຕ້ອງທີ່ຈະໃຊ້ເວລາການຮ້ອງຂໍຕົ້ນຕໍໃນເຈ້ຍໄດ້, ເຊິ່ງປົກກະຕິຈະສະແດງໃນຂໍ້ກໍານົດຂອງການກໍ່ສ້າງແລະກໍາລັງສະແດງອອກໃນຂໍ້ກໍານົດຂອງຂໍ້ມູນທີ່ນໍາໃຊ້. ສໍາລັບການຍົກຕົວຢ່າງ, ພິຈາລະນາທັງສອງການສຶກສາການສົມມຸດຖານວ່າຂໍໃຫ້ສະແດງໃຫ້ເຫັນວ່າປະຊາຊົນຫຼາຍທາງຫາເງິນເພີ່ມເຕີມ:

  • ການສຶກສາ 1: ປະຊາຊົນຜູ້ທີ່ໄດ້ຄະແນນດີໃນ Raven Progressive Matrices ການທົດສອບ, ການທົດສອບການສຶກສາດີຂອງທາງການວິເຄາະ (Carpenter, Just, and Shell 1990) -have ລາຍໄດ້ລາຍງານທີ່ສູງຂຶ້ນໃນການຄືນພາສີຂອງເຂົາເຈົ້າ
  • ການສຶກສາ 2: ປະຊາຊົນກ່ຽວກັບ Twitter ທີ່ນໍາໃຊ້ຄໍາສັບຕ່າງໆຕໍ່ໄປອ​​ີກແລ້ວມີແນວໂນ້ມທີ່ຈະບອກຍີ່ຫໍ້ luxury

ໃນທັງສອງກໍລະນີ, ນັກຄົ້ນຄວ້າສາມາດຫມັ້ນໃຈວ່າພວກເຂົາເຈົ້າໄດ້ສະແດງໃຫ້ເຫັນວ່າປະຊາຊົນສະຫລາດຫລາຍຂຶ້ນມີລາຍໄດ້ເງິນຫຼາຍ. ແຕ່ວ່າ, ໃນການສຶກສາຄັ້ງທໍາອິດໃນການກໍ່ສ້າງທິດສະດີແມ່ນ operationalized ດີໂດຍຂໍ້ມູນ, ແລະໃນຄັ້ງທີສອງພວກເຂົາເຈົ້າແມ່ນບໍ່. ນອກຈາກນັ້ນ, ເປັນຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນ, ຂໍ້ມູນເພີ່ມເຕີມບໍ່ອັດຕະໂນມັດແກ້ໄຂບັນຫາກ່ຽວກັບການກໍ່ສ້າງຄວາມຖືກຕ້ອງ. ທ່ານຄວນສົງໃສຜົນໄດ້ຮັບຂອງການສຶກສາ 2 ບໍ່ວ່າຈະເປັນມັນມີສ່ວນຮ່ວມເປັນລ້ານເລັດ, ເປັນຕື້ເລັດ, ຫຼືເປັນພັນຕື້ tweets. ສໍາລັບນັກຄົ້ນຄວ້າບໍ່ຄຸ້ນເຄີຍກັບແນວຄວາມຄິດຂອງໂຄງການກໍ່ສ້າງຄວາມຖືກຕ້ອງ, ຕາຕະລາງ 2.2 ສະແດງຕົວຢ່າງບາງສ່ວນຂອງການສຶກສາທີ່ໄດ້ operationalized ກໍ່ສ້າງທິດສະດີການນໍາໃຊ້ຂໍ້ມູນການຕິດຕາມດິຈິຕອນ.

ຕາຕະລາງ 2.2: ຕົວຢ່າງຂອງການຕາມຮອຍດິຈິຕອນທີ່ໄດ້ຖືກນໍາໃຊ້ເປັນມາດຕະການຂອງແນວຄວາມຄິດທິດສະດີບໍ່ມີຕົວຕົນຫຼາຍ. ວິທະຍາສາດສັງຄົມໃຫ້ໂທນີ້ຄວາມຖືກຕ້ອງຫາການກໍ່ສ້າງແລະມັນເປັນສິ່ງທີ່ທ້າທາຍທີ່ສໍາຄັນກັບການນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ສໍາລັບການຄົ້ນຄ້ວາສັງຄົມ (Lazer 2015) .
ຕິດຕາມດິຈິຕອນ ການກໍ່ສ້າງທິດສະດີ ການຂຽນກ່າວອ້າງ
ຂໍ້ມູນບັນທຶກອີເມລ໌ຈາກວິທະຍາໄລ (meta-ຂໍ້ມູນເທົ່ານັ້ນ) ສາຍພົວພັນສັງຄົມ Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
ກະທູ້ສື່ມວນຊົນສັງຄົມກ່ຽວກັບການ Weibo ການມີສ່ວນຮ່ວມຂອງພົນລະເມືອງ Zhang (2016)
ຂໍ້ມູນບັນທຶກອີເມລ໌ຈາກບໍລິສັດ (meta-ຂໍ້ມູນແລະຄວາມສໍາເລັດ) ເຫມາະວັດທະນະທໍາໃນອົງກອນ Goldberg et al. (2015)

ເຖິງແມ່ນວ່າບັນຫາຂອງຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນສໍາລັບການກໍ່ສ້າງທິດສະດີການດໍາເນີນງານແມ່ນ pretty ການຍາກທີ່ຈະແກ້ໄຂ, ມີສາມວິທີແກ້ໄຂທົ່ວໄປກັບບັນຫາຂອງຂໍ້ມູນຂ່າວສານຂອງພົນລະເມືອງທີ່ບໍ່ຄົບຖ້ວນແລະຂໍ້ມູນທີ່ບໍ່ຄົບຖ້ວນກ່ຽວກັບພຶດຕິກໍາໃນເວທີການອື່ນໆ. ທໍາອິດແມ່ນເພື່ອຕົວຈິງເກັບກໍາຂໍ້ມູນທີ່ທ່ານຕ້ອງການ ຂ້າພະເຈົ້າຈະບອກທ່ານກ່ຽວກັບຕົວຢ່າງຂອງທີ່ຢູ່ໃນບົດທີ 3 ໃນເວລາທີ່ຂ້າພະເຈົ້າບອກທ່ານກ່ຽວກັບການສໍາຫຼວດ. ແຕ່ຫນ້າເສຍດາຍ, ປະເພດຂອງການເກັບກໍາຂໍ້ມູນນີ້ແມ່ນບໍ່ສະເຫມີໄປທີ່ເປັນໄປໄດ້. ການແກ້ໄຂຕົ້ນຕໍທີ່ສອງຄືການເຮັດໃນສິ່ງທີ່ວິທະຍາສາດຂໍ້ມູນໂທຫາຂໍ້ສະຫຼຸບທີ່ຜູ້ຊົມໃຊ້ເປັນເຫດຜົນແລະສິ່ງທີ່ວິທະຍາສາດສັງຄົມໃຫ້ໂທຫາການກ່າວຫາ. ໃນວິທີການນີ້, ນັກຄົ້ນຄວ້າການນໍາໃຊ້ຂໍ້ມູນທີ່ພວກເຂົາມີບາງຄົນທີ່ຈະສະຫຼຸບຄຸນລັກສະນະຂອງປະຊາຊົນອື່ນໆ. ທີສາມທີ່ເປັນໄປໄດ້ການແກ້ໄຂ, ທັງເປັນຫນຶ່ງນໍາໃຊ້ໂດຍ Kossinets ແລະ Watts ແມ່ນເພື່ອສົມທົບການແຫຼ່ງຂໍ້ມູນທີ່ຫຼາກຫຼາຍ. ຂະບວນການນີ້ເອີ້ນວ່າບາງຄັ້ງການໂຮມຫຼືການບັນທຶກການເຊື່ອມຕໍ່. ການປຽບທຽບ favorite ຂອງຂ້າພະເຈົ້າສໍາລັບຂະບວນການນີ້ໄດ້ສະເຫນີໃນວັກທໍາອິດຂອງເອກະສານທໍາອິດທີ່ສຸດທີ່ເຄີຍຂຽນກ່ຽວກັບບັນທຶກການເຊື່ອມຕໍ່ (Dunn 1946) :

"ຄົນຢູ່ໃນໂລກແຕ່ລະຄົນສ້າງປື້ມບັນທຶກຂອງການມີຊີວິດ. ປື້ມບັນນີ້ຈະເລີ່ມຕົ້ນກັບການເກີດແລະສິ້ນສຸດລົງດ້ວຍການເສຍຊີວິດ. ຫນ້າທີ່ຖືກສ້າງຂຶ້ນຈາກການບັນທຶກຂອງກິດຈະກໍາຫຼັກໃນຊີວິດ. ບັນທຶກການເຊື່ອມຕໍ່ແມ່ນຊື່ທີ່ມອບໃຫ້ຂະບວນການຂອງການປະກອບຫນ້າເວັບຕ່າງໆຂອງຫນັງສືເຫຼັ້ມນີ້ໄດ້ເຂົ້າໄປໃນປະລິມານໄດ້. "

passage ນີ້ໄດ້ລາຍລັກອັກສອນໃນ 1946, ແລະໃນເວລານັ້ນ, ປະຊາຊົນໄດ້ຄິດວ່າໃນປື້ມບັນທຶກຂອງການມີຊີວິດສາມາດປະກອບກິດຈະກໍາຂອງຊີວິດທີ່ສໍາຄັນເຊັ່ນການເກີດລູກ, ການແຕ່ງງານ, ການຢ່າຮ້າງ, ແລະການເສຍຊີວິດ. ຢ່າງໃດກໍຕາມ, ໃນປັດຈຸບັນວ່າຂໍ້ມູນຫຼາຍດັ່ງນັ້ນກ່ຽວກັບປະຊາຊົນມີກ​​ານບັນທຶກໃນປື້ມບັນທຶກຂອງການມີຊີວິດອາດຈະເປັນຮູບລາຍລະອຽດ incredibly, ຖ້າຫາກວ່າຫນ້າທີ່ແຕກຕ່າງກັນຜູ້ທີ່ (ie, ຕາມຮອຍດິຈິຕອນຂອງພວກເຮົາ), ສາມາດໄດ້ຮັບການຜູກພັນກັນ. ປື້ມບັນທຶກຂອງການມີຊີວິດນີ້ອາດຈະເປັນຊັບພະຍາກອນທີ່ຍິ່ງໃຫຍ່ສໍາລັບນັກຄົ້ນຄວ້າ. ແຕ່, ປື້ມບັນທຶກຂອງການມີຊີວິດຍັງສາມາດໄດ້ຮັບການເອີ້ນວ່າຖານຂໍ້ມູນຂອງ ruin (Ohm 2010) , ທີ່ສາມາດໄດ້ຮັບການນໍາໃຊ້ສໍາລັບທຸກປະເພດຂອງຈຸດປະສົງ unethical, ອະທິບາຍເພີ່ມເຕີມຂ້າງລຸ່ມນີ້ໃນເວລາທີ່ຂ້າພະເຈົ້າສົນທະນາກ່ຽວກັບທໍາມະຊາດທີ່ລະອຽດອ່ອນຂອງຂໍ້ມູນທີ່ເກັບກໍາຈາກແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ຂ້າງລຸ່ມນີ້ ແລະໃນບົດທີ 6 (ຈັນຍາບັນ).