ຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນແມ່ນບໍ່ດີສໍາລັບການທົ່ວໄປທີ່ບໍ່ແມ່ນຕົວຢ່າງ, ແຕ່ວ່າມັນສາມາດເປັນປະໂຫຍດສໍາລັບການປຽບທຽບໃນຕົວຢ່າງ.
ບາງນັກວິທະຍາສາດສັງຄົມມີຄວາມເຂົ້າໃຈກ່ຽວກັບການເຮັດວຽກກັບຂໍ້ມູນທີ່ມາຈາກຕົວຢ່າງ Random probabilistic ຈາກປະຊາກອນທີ່ຖືກກໍານົດໄວ້ເຊັ່ນ: ຜູ້ໃຫຍ່ທຸກຄົນໃນປະເທດໃດຫນຶ່ງ. ປະເພດຂໍ້ມູນນີ້ຖືກເອີ້ນວ່າຂໍ້ມູນ ຕົວແທນ ເນື່ອງຈາກວ່າຕົວຢ່າງ "ຕົວແທນ" ຂອງປະຊາກອນຂະຫນາດໃຫຍ່. ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍໄດ້ຮັບຂໍ້ມູນຕົວແທນແລະບາງຂໍ້ມູນທີ່ເປັນຕົວແທນແມ່ນຄໍາສັບຄ້າຍຄືກັນກັບວິທະຍາສາດທີ່ຫຍຸ້ງຍາກໃນຂະນະທີ່ຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນນັ້ນແມ່ນຄໍາສັບຄ້າຍຄືກັບຄວາມສັບສົນ. ໃນທີ່ຮຸນແຮງທີ່ສຸດ, ຜູ້ທີ່ບໍ່ຄຶກຄັກບາງຄົນທີ່ເຊື່ອວ່າບໍ່ມີຫຍັງສາມາດຮຽນຮູ້ຈາກຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນ. ຖ້າເປັນຄວາມຈິງ, ນີ້ອາດຈະກໍານົດຢ່າງເຂັ້ມງວດກ່ຽວກັບສິ່ງທີ່ສາມາດຮຽນຮູ້ຈາກແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງເພາະວ່າພວກເຂົາສ່ວນຫຼາຍແມ່ນບໍ່ແມ່ນຕົວແທນ. ໂຊກດີ, ຄວາມບໍ່ຄ່ອຍເຊື່ອງ່າຍໆເຫຼົ່ານີ້ມີພຽງແຕ່ສ່ວນຫນຶ່ງເທົ່ານັ້ນ. ມີເປົ້າຫມາຍການຄົ້ນຄ້ວາບາງຢ່າງທີ່ຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນແມ່ນບໍ່ເຫມາະສົມຢ່າງຊັດເຈນ, ແຕ່ວ່າມັນກໍ່ມີບາງຢ່າງທີ່ມັນເປັນປະໂຫຍດທີ່ສຸດ.
ເພື່ອເຂົ້າໃຈຄວາມແຕກຕ່າງນີ້, ໃຫ້ພິຈາລະນາປະຫວັດສາດວິທະຍາສາດ: ການສຶກສາຂອງ John Snow ຂອງ 1853-54 ໂຣກລະບາດໃນລອນດອນ. ໃນເວລານັ້ນ, ທ່ານຫມໍຫຼາຍຄົນເຊື່ອວ່າໂຣກໂຣກນີ້ແມ່ນເກີດຈາກ "ອາກາດທີ່ບໍ່ດີ", ແຕ່ວ່າ Snow ເຊື່ອວ່າມັນເປັນພະຍາດຕິດຕໍ່, ເຊິ່ງອາດຈະແຜ່ລາມໄປດ້ວຍນ້ໍາດື່ມທີ່ມີນ້ໍາປະປາ. ເພື່ອທົດສອບຄວາມຄິດນີ້, Snow ໄດ້ປະໂຫຍດຈາກສິ່ງທີ່ພວກເຮົາອາດຈະເອີ້ນວ່າການທົດລອງທໍາມະຊາດ. ເພິ່ນໄດ້ປຽບທຽບອັດຕາການໂຣກຂອງຄົວເຮືອນທີ່ບໍລິສັດສອງບໍລິສັດນ້ໍາທີ່ແຕກຕ່າງກັນຄື Lambeth ແລະ Southwark & Vauxhall. ບໍລິສັດເຫຼົ່ານີ້ໄດ້ຮັບໃຊ້ຄົວເຮືອນທີ່ຄ້າຍຄືກັນ, ແຕ່ວ່າພວກເຂົາແຕກຕ່າງກັນໄປໃນວິທີຫນຶ່ງທີ່ສໍາຄັນ: ໃນປີ 1849 - ສອງສາມປີກ່ອນການລະບາດ, Lambeth ໄດ້ຍ້າຍຈຸດນ້ໍາອອກມາຈາກການປ່ອຍນ້ໍາປະລິມານຢູ່ລອນດອນ, ໃນຂະນະທີ່ Southwark & Vauxhall ປ່ອຍທໍ່ນ້ໍາເຂົ້າ ການໄຫຼຂອງນ້ໍາປະປາ. ໃນເວລາທີ່ Snow ປະເມີນອັດຕາການເສຍຊີວິດຈາກໂຣກລະບາດໃນຄົວເຮືອນທີ່ໄດ້ຮັບການບໍລິການຈາກສອງບໍລິສັດ, ລາວໄດ້ພົບວ່າລູກຄ້າຂອງບໍລິສັດ Southwark & Vauxhall, ບໍລິສັດທີ່ໃຫ້ບໍລິການນ້ໍາປະເພດຂີ້ເຫຍື້ອ, ແມ່ນ 10 ເທົ່າທີ່ຈະຕາຍຈາກໂຣກລະບາດ. ຜົນໄດ້ຮັບນີ້ແມ່ນຫຼັກຖານທາງວິທະຍາສາດທີ່ເຂັ້ມແຂງສໍາລັບການໂຕ້ຖຽງຂອງ Snow ກ່ຽວກັບສາເຫດຂອງໂຣກ, ເຖິງແມ່ນວ່າມັນບໍ່ແມ່ນອີງໃສ່ຕົວຢ່າງຕົວແທນຂອງປະຊາຊົນໃນລອນດອນ.
ຂໍ້ມູນຈາກສອງບໍລິສັດເຫຼົ່ານີ້, ຢ່າງໃດກໍຕາມ, ຈະບໍ່ເຫມາະສົມສໍາລັບການຕອບຄໍາຖາມທີ່ແຕກຕ່າງກັນວ່າ: ອັດຕາການແຜ່ລະບາດຂອງໂຣກໃນປະເທດລອນດອນແມ່ນຫຍັງໃນລະຫວ່າງການລະບາດ? ສໍາລັບຄໍາຖາມທີສອງ, ເຊິ່ງແມ່ນສິ່ງສໍາຄັນ, ມັນຈະດີກວ່າທີ່ຈະມີຕົວຢ່າງຕົວແທນຂອງປະຊາຊົນຈາກລອນດອນ.
ໃນຖານະເປັນວຽກງານຂອງ Snow ສະແດງໃຫ້ເຫັນ, ມີຄໍາຖາມວິທະຍາສາດບາງຢ່າງທີ່ຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນສາມາດມີຜົນດີແລະມີບາງຄົນທີ່ບໍ່ເຫມາະສົມ. ວິທີດຽວທີ່ຈະແຍກແຍະສອງຄໍາຖາມເຫຼົ່ານີ້ແມ່ນວ່າຄໍາຖາມບາງຢ່າງແມ່ນກ່ຽວກັບການປຽບທຽບພາຍໃນຕົວຢ່າງແລະບາງແມ່ນກ່ຽວກັບການນໍາໃຊ້ທົ່ວໄປທີ່ບໍ່ແມ່ນຕົວຢ່າງ. ຄວາມແຕກຕ່າງນີ້ສາມາດສະແດງໃຫ້ເຫັນອີກຕໍ່ໄປໂດຍການສຶກສາແບບຄລາສສິກອື່ນໃນການສຶກສາລະບາດ: ການຄົ້ນຄວ້າແພດອັງກິດ, ເຊິ່ງມີບົດບາດສໍາຄັນໃນການສະແດງວ່າການສູບຢາເຮັດໃຫ້ເກີດມະເຮັງ. ໃນການສຶກສານີ້, Richard Doll ແລະ A. Bradford Hill ໄດ້ປະຕິບັດຕາມແພດປະມານ 25,000 ຄົນໃນເວລາຫລາຍປີແລະໄດ້ປຽບທຽບອັດຕາການເສຍຊີວິດຂອງພວກເຂົາໂດຍອີງໃສ່ຈໍານວນທີ່ພວກເຂົາສູບຢາໃນເວລາທີ່ການສຶກສາເລີ່ມຕົ້ນ. Doll and Hill (1954) ພົບວ່າມີຄວາມສໍາພັນໃນການຕອບສະຫນອງແລະຕອບສະຫນອງຢ່າງແຂງແຮງ: ຄົນທີ່ຖືກສູບຢາຫລາຍຂຶ້ນມັກຈະເປັນມະເຮັງປອດ. ແນ່ນອນ, ມັນຈະບໍ່ສະທ້ອນໃຫ້ເຫັນເຖິງອັດຕາການເກີດມະເລັງຂອງມະເຮັງໃນປະຊາຊົນທັງຫມົດຂອງປະເທດອັງກິດໂດຍອີງຕາມກຸ່ມແພດຜູ້ຊາຍນີ້, ແຕ່ການປຽບທຽບພາຍໃນຕົວຢ່າງຍັງສະແດງໃຫ້ເຫັນວ່າຢາສູບເຮັດໃຫ້ມະເຮັງປອດ.
ໃນປັດຈຸບັນທີ່ຂ້າພະເຈົ້າໄດ້ສະແດງຄວາມແຕກຕ່າງລະຫວ່າງການສົມທຽບພາຍໃນຕົວຢ່າງແລະການທົ່ວໄປທີ່ບໍ່ແມ່ນຕົວຢ່າງ, ສອງຄໍາເຕືອນແມ່ນຢູ່ໃນລໍາດັບ. ຫນ້າທໍາອິດ, ມີຄໍາຖາມທໍາມະຊາດກ່ຽວກັບຂົງເຂດທີ່ພົວພັນກັບຕົວຢ່າງຂອງແມ່ຍິງອັງກິດຊາຍຈະຖືຢູ່ໃນຕົວຢ່າງແມ່ຍິງອັງກິດ, ແພດຫມໍອັງກິດຫຼືຜູ້ຊາຍໂຮງງານຜູ້ຊາຍອັງກິດຫຼືຜູ້ຍິງໂຮງງານຂອງເຢຍລະມັນຫຼືຫຼາຍກຸ່ມອື່ນໆ. ຄໍາຖາມເຫຼົ່ານີ້ແມ່ນຫນ້າສົນໃຈແລະສໍາຄັນ, ແຕ່ພວກເຂົາແຕກຕ່າງຈາກຄໍາຖາມກ່ຽວກັບຂອບເຂດທີ່ພວກເຮົາສາມາດນໍາໃຊ້ຈາກຕົວຢ່າງໄປຫາປະຊາກອນ. ສັງເກດເຫັນຕົວຢ່າງວ່າທ່ານອາດສົງໃສວ່າຄວາມສໍາພັນລະຫວ່າງການສູບຢາແລະມະເຮັງທີ່ພົບເຫັນຢູ່ໃນແພດຊາຍອັງກິດອາດຈະຄ້າຍຄືກັບກຸ່ມຄົນອື່ນໆ. ຄວາມສາມາດຂອງທ່ານທີ່ຈະເຮັດການເວົ້າແບບນີ້ບໍ່ໄດ້ມາຈາກຄວາມຈິງທີ່ວ່າທ່ານຫມໍຊາຍອັງກິດຊາຍແມ່ນຕົວຢ່າງທີ່ສົມເຫດສົມຜົນຈາກປະຊາຊົນ; ແທນທີ່ຈະ, ມັນມາຈາກຄວາມເຂົ້າໃຈຂອງກົນໄກທີ່ເຊື່ອມໂຍງກັບການສູບຢາແລະມະເຮັງ. ດັ່ງນັ້ນ, ການໃຫຍ່ຫຼວງຈາກຕົວຢ່າງເຖິງປະຊາກອນທີ່ຖືກດຶງດູດແມ່ນສ່ວນຫນຶ່ງທີ່ເປັນບັນຫາທາງສະຖິຕິ, ແຕ່ຄໍາຖາມກ່ຽວກັບການ ຂົນສົ່ງ ຂອງຮູບແບບທີ່ພົບເຫັນໃນກຸ່ມຫນຶ່ງໄປຫາກຸ່ມອື່ນແມ່ນສ່ວນຫນຶ່ງທີ່ບໍ່ແມ່ນຄວາມຈິງ (Pearl and Bareinboim 2014; Pearl 2015) .
ໃນຈຸດນີ້, ຄວາມບໍ່ຄ່ອຍເຊື່ອງ່າຍໆອາດຊີ້ໃຫ້ເຫັນວ່າຮູບແບບສັງຄົມສ່ວນຫຼາຍແມ່ນອາດຈະເປັນການຂົນສົ່ງຫນ້ອຍກວ່າກຸ່ມຫຼາຍກວ່າການພົວພັນລະຫວ່າງການສູບຢາແລະມະເຮັງ. ແລະຂ້າພະເຈົ້າຕົກລົງເຫັນດີ. ຂອບເຂດທີ່ພວກເຮົາຄວນຄາດຫວັງວ່າຮູບແບບທີ່ຈະສາມາດນໍາໃຊ້ໄດ້ແມ່ນສຸດທ້າຍເປັນຄໍາຖາມວິທະຍາສາດທີ່ຕ້ອງໄດ້ຕັດສິນໃຈໂດຍອີງຕາມທິດສະດີແລະຫຼັກຖານ. ມັນບໍ່ຄວນຄິດວ່າຮູບແບບຈະເປັນການຂົນສົ່ງໂດຍອັດຕະໂນມັດ, ແຕ່ວ່າມັນບໍ່ຄວນຖືວ່າມັນຈະບໍ່ສາມາດຂົນສົ່ງໄດ້. ຄໍາຖາມເຫຼົ່ານີ້ບໍ່ມີຕົວຕົນກ່ຽວກັບການຂົນສົ່ງຈະເປັນເລື່ອງທີ່ຄຸ້ນເຄີຍກັບທ່ານຖ້າທ່ານໄດ້ປະຕິບັດຕາມການໂຕ້ວາທີກ່ຽວກັບວິທີການນັກຄົ້ນຄວ້າສາມາດຮຽນຮູ້ກ່ຽວກັບພຶດຕິກໍາຂອງມະນຸດໂດຍການສຶກສານັກຮຽນຊັ້ນປະຖົມ (Sears 1986, [@henrich_most_2010] ) . ເຖິງວ່າຈະມີການໂຕ້ຖຽງເຫຼົ່ານີ້, ແຕ່ມັນກໍ່ບໍ່ເຫມາະສົມທີ່ຈະເວົ້າວ່ານັກຄົ້ນຄວ້າບໍ່ສາມາດຮຽນຮູ້ຫຍັງຈາກການສຶກສານັກສຶກສາລະດັບປະລິນຍາຕີ.
ການວິນິດໄສທີສອງແມ່ນວ່ານັກຄົ້ນຄວ້າສ່ວນໃຫຍ່ທີ່ມີຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນແມ່ນບໍ່ລະມັດລະວັງກ່ຽວກັບ Snow ຫຼື Doll ແລະ Hill. ສະນັ້ນ, ເພື່ອສະແດງໃຫ້ເຫັນສິ່ງທີ່ສາມາດຜິດພາດໃນເວລາທີ່ນັກຄົ້ນຄວ້າພະຍາຍາມເຮັດແບບທົ່ວໄປທີ່ບໍ່ມີຕົວຕົນຈາກຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນ, ຂ້າພະເຈົ້າຢາກບອກທ່ານກ່ຽວກັບການສຶກສາການເລືອກຕັ້ງສະພາແຫ່ງຊາດເຢຍລະມັນໂດຍ Andranik Tumasjan ແລະເພື່ອນຮ່ວມງານ (2010) . ໂດຍການວິເຄາະຫລາຍກວ່າ 100.000 tweets, ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນວ່າອັດຕາສ່ວນຂອງ tweets ທີ່ກ່າວເຖິງພັກການເມືອງແມ່ນເທົ່າກັບອັດຕາສ່ວນຂອງສຽງທີ່ພັກໄດ້ຮັບໃນການເລືອກຕັ້ງສະພາແຫ່ງຊາດ (ຮູບທີ 2.3). ໃນທາງກົງກັນຂ້າມ, ຂໍ້ມູນ Twitter, ເຊິ່ງແມ່ນບໍ່ເສຍຄ່າ, ສາມາດທົດແທນການສໍາຫຼວດຄວາມຄິດເຫັນຂອງປະຊາຊົນແບບດັ້ງເດີມທີ່ມີລາຄາແພງເພາະວ່າພວກເຂົາເນັ້ນຫນັກໃສ່ຂໍ້ມູນທີ່ເປັນຕົວແທນ.
ໃຫ້ສິ່ງທີ່ທ່ານອາດຈະຮູ້ແລ້ວກ່ຽວກັບ Twitter, ທ່ານທັນທີຄວນຈະບໍ່ຄຶກຄັກຜົນໄດ້ຮັບນີ້. ຊາວເຢຍລະມັນໃນ Twitter ໃນປີ 2009 ບໍ່ແມ່ນຕົວເລືອກທີ່ສົມເຫດສົມຜົນຂອງຜູ້ລົງຄະແນນເຍຍລະມັນ, ແລະຜູ້ສະຫນັບສະຫນູນຂອງບາງຝ່າຍອາດຈະເຕືອນກ່ຽວກັບການເມືອງເລື້ອຍໆຫຼາຍກວ່າຜູ້ສະຫນັບສະຫນູນຂອງພາກສ່ວນອື່ນ. ດັ່ງນັ້ນ, ມັນເບິ່ງຄືວ່າແປກໃຈວ່າທັງຫມົດຂອງຄວາມເປັນຫ່ວງທີ່ເປັນໄປໄດ້ທີ່ທ່ານສາມາດຈິນຕະນາການຈະຖືກຍົກເລີກຢ່າງໃດເພື່ອວ່າຂໍ້ມູນນີ້ຈະຖືກສະທ້ອນໃຫ້ເຫັນໂດຍກົງຂອງຜູ້ລົງຄະແນນເຍຍລະມັນ. ໃນຄວາມເປັນຈິງ, ຜົນໄດ້ຮັບໃນ Tumasjan et al. (2010) ກາຍເປັນເລື່ອງທີ່ດີເກີນໄປທີ່ຈະເປັນຈິງ. ເອກະສານຕິດຕາມໂດຍ Andreas Jungherr, Pascal Jürgensແລະ Harald Schoen (2012) ຊີ້ໃຫ້ເຫັນວ່າການວິເຄາະຕົ້ນສະບັບໄດ້ຍົກເວັ້ນພັກການເມືອງທີ່ໄດ້ຮັບຄໍາແນະນໍາຫຼາຍທີ່ສຸດໃນ Twitter: ພັກ Pirate, ພັກຂະຫນາດນ້ອຍທີ່ຕໍ່ສູ້ລັດຖະບານ ຂອງອິນເຕີເນັດ. ໃນເວລາທີ່ພັກ Pirate ໄດ້ຖືກລວມເຂົ້າໃນການວິເຄາະ, Twitter ກ່າວເຖິງການຄາດເດົາຮ້າຍແຮງຂອງຜົນການເລືອກຕັ້ງ (ຮູບທີ່ 2.3). ຕົວຢ່າງນີ້ສະແດງໃຫ້ເຫັນວ່າ, ການນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນທີ່ໃຫຍ່ທີ່ສຸດເພື່ອເຮັດແນວທາງທົ່ວໄປທີ່ບໍ່ສາມາດສະແດງອອກອາດຈະຜິດພາດຫຼາຍ. ນອກຈາກນັ້ນ, ທ່ານຄວນສັງເກດເຫັນວ່າຄວາມຈິງທີ່ວ່າມີ 100 ໂຕນແມ່ນບໍ່ກ່ຽວຂ້ອງກັບພື້ນຖານ: ຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນທີ່ຍັງບໍ່ເປັນຕົວແທນແມ່ນຫົວຂໍ້ທີ່ຂ້ອຍຈະກັບຄືນມາໃນບົດທີ 3 ໃນເວລາທີ່ຂ້ອຍຈະປຶກສາຫາລື.
ເພື່ອສະຫຼຸບ, ແຫຼ່ງຂໍ້ມູນທີ່ໃຫຍ່ຫຼວງຫຼາຍບໍ່ແມ່ນຕົວຢ່າງທີ່ເປັນຕົວແທນຈາກບາງປະຊາກອນທີ່ຖືກກໍານົດໄວ້. ສໍາລັບຄໍາຖາມທີ່ຮຽກຮ້ອງໃຫ້ທົ່ວໄປຜົນໄດ້ຮັບຈາກຕົວຢ່າງໃຫ້ປະຊາກອນທີ່ມັນຖືກກັນ, ນີ້ເປັນບັນຫາທີ່ຮ້າຍແຮງ. ແຕ່ສໍາລັບຄໍາຖາມກ່ຽວກັບການປຽບທຽບໃນຕົວຢ່າງ, ຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນສາມາດມີປະສິດທິພາບ, ດັ່ງນັ້ນນັກວິຊາການຈະແຈ້ງກ່ຽວກັບລັກສະນະຂອງຕົວຢ່າງແລະການສະຫນັບສະຫນູນກ່ຽວກັບການຂົນສົ່ງທີ່ມີຫຼັກຖານທາງທິດສະດີຫຼືຫຼັກຖານ. ໃນຄວາມເປັນຈິງ, ຄວາມຫວັງຂອງຂ້າພະເຈົ້າແມ່ນວ່າແຫຼ່ງຂໍ້ມູນໃຫຍ່ຈະຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າສາມາດເຮັດໃຫ້ການປຽບທຽບຕົວຢ່າງຫຼາຍໃນກຸ່ມຕົວແທນທີ່ບໍ່ແມ່ນຕົວແທນຫຼາຍ, ແລະຄາດເດົາຂອງຂ້າພະເຈົ້າແມ່ນວ່າການຄາດຄະເນຈາກກຸ່ມທີ່ແຕກຕ່າງກັນຫຼາຍຈະເຮັດໃຫ້ການຄົ້ນຄວ້າທາງສັງຄົມຫຼາຍຂຶ້ນກວ່າການຄາດຄະເນດຽວກັນຈາກການທົດລອງແບບ probabilistic ຕົວຢ່າງ.