2.4.1 ສິ່ງທີ່ນັບ

ການນັບງ່າຍດາຍສາມາດທີ່ຫນ້າສົນໃຈຖ້າຫາກວ່າທ່ານສົມທົບການເປັນຄໍາຖາມທີ່ດີມີຂໍ້ມູນທີ່ດີ.

ເຖິງແມ່ນວ່າມັນຖືກຈັດໃສ່ໃນພາສາທີ່ມີຄວາມຊໍານິຊໍານານ, ຫຼາຍໆການຄົ້ນຄວ້າທາງສັງຄົມກໍ່ເປັນສິ່ງທີ່ນັບຖື. ໃນອາຍຸຂອງຂໍ້ມູນທີ່ໃຫຍ່, ນັກຄົ້ນຄວ້າສາມາດນັບຫຼາຍກວ່າແຕ່ກ່ອນ, ແຕ່ວ່າມັນບໍ່ໄດ້ຫມາຍຄວາມວ່າພວກເຂົາຄວນຈະເລີ່ມຕົ້ນນັບເພີ້ມຂຶ້ນ. ແທນທີ່ຈະ, ນັກຄົ້ນຄວ້າຄວນຖາມ: ສິ່ງທີ່ສິ່ງທີ່ຄວນນັບ? ນີ້ອາດຈະເບິ່ງຄືວ່າເປັນເລື່ອງທີ່ມີຄວາມສໍາຄັນທັງຫມົດ, ແຕ່ວ່າມັນມີຮູບແບບທົ່ວໄປບາງຢ່າງ.

ເລື້ອຍໆນັກສຶກສາຊຸກຍູ້ການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າໂດຍເວົ້າວ່າ: ຂ້ອຍຈະນັບສິ່ງທີ່ບໍ່ມີໃຜເຄີຍນັບມາກ່ອນ. ຕົວຢ່າງ, ນັກສຶກສາອາດຈະເວົ້າວ່າປະຊາຊົນຈໍານວນຫຼາຍໄດ້ສຶກສາອົບຮົມແຮງງານອົບພະຍົບແລະຫຼາຍຄົນກໍ່ໄດ້ສຶກສາຄູ່ແຝດ, ແຕ່ບໍ່ມີໃຜໄດ້ສຶກສາອົບຮົມຄູ່ແຝດ. ໃນປະສົບການຂອງຂ້າພະເຈົ້າ, ຍຸດທະສາດນີ້, ເຊິ່ງຂ້າພະເຈົ້າເອີ້ນວ່າ ແຮງຈູງໃຈໂດຍບໍ່ມີ , ບໍ່ມັກຈະເຮັດໃຫ້ການຄົ້ນຄວ້າທີ່ດີ. ການກະຕຸ້ນໂດຍການຂາດການແມ່ນຄ້າຍຄືກັນກັບເວົ້າວ່າມີຂຸມຫຼາຍກວ່ານັ້ນ, ແລະຂ້ອຍຈະເຮັດວຽກຍາກທີ່ຈະຕື່ມຂໍ້ມູນໃສ່. ແຕ່ບໍ່ຕ້ອງມີຂຸມທຸກຂື້ນ.

ແທນທີ່ຈະກະຕຸ້ນໂດຍການຂາດ, ຂ້ອຍຄິດວ່າຍຸດທະສາດທີ່ດີກວ່າແມ່ນເພື່ອຊອກຫາຄໍາຖາມທີ່ ສໍາຄັນທີ່ ຫນ້າສົນໃຈ ຫຼື ຫນ້າສົນໃຈ . ແຕ່ທັງສອງຄໍານີ້ແມ່ນຄວາມຫຍຸ້ງຍາກໃນການກໍານົດ, ແຕ່ວິທີຫນຶ່ງທີ່ຈະຄິດກ່ຽວກັບການຄົ້ນຄວ້າທີ່ສໍາຄັນແມ່ນວ່າມັນມີຜົນກະທົບບາງຢ່າງຫຼືອາຫານເຂົ້າໃນການຕັດສິນໃຈທີ່ສໍາຄັນໂດຍຜູ້ສ້າງນະໂຍບາຍ. ຕົວຢ່າງ, ການວັດແທກອັດຕາການຫວ່າງງານແມ່ນສໍາຄັນເພາະວ່າມັນເປັນຕົວຊີ້ວັດຂອງເສດຖະກິດທີ່ເຮັດໃຫ້ການຕັດສິນໃຈຂອງນະໂຍບາຍ. ໂດຍທົ່ວໄປ, ຂ້າພະເຈົ້າຄິດວ່ານັກຄົ້ນຄວ້າມີຄວາມຮູ້ສຶກດີກ່ຽວກັບສິ່ງທີ່ສໍາຄັນ. ດັ່ງນັ້ນ, ໃນສ່ວນທີ່ເຫຼືອຂອງພາກນີ້, ຂ້ອຍຈະສະຫນອງສອງຕົວຢ່າງທີ່ຂ້ອຍຄິດວ່າການນັບແມ່ນຫນ້າສົນໃຈ. ໃນກໍລະນີແຕ່ລະຄົນ, ນັກຄົ້ນຄວ້າບໍ່ໄດ້ນັບວ່າເປັນເລື່ອງຮຸນແຮງ; ແທນທີ່ຈະ, ພວກເຂົາເຈົ້າໄດ້ຖືກນັບເຂົ້າໃນການຕັ້ງຄ່າໂດຍສະເພາະທີ່ເປີດເຜີຍຂໍ້ມູນທີ່ສໍາຄັນເຂົ້າໄປໃນແນວຄິດທົ່ວໄປກ່ຽວກັບວິທີການເຮັດວຽກຂອງລະບົບສັງຄົມ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ຫຼາຍສິ່ງທີ່ເຮັດໃຫ້ການອອກກໍາລັງກາຍທີ່ຫນ້າສົນໃຈເຫຼົ່ານີ້ມີຄວາມຫນ້າສົນໃຈບໍ່ແມ່ນຂໍ້ມູນຕົວມັນເອງ, ມັນແມ່ນມາຈາກບັນດາແນວຄິດທົ່ວໄປເຫຼົ່ານີ້.

ຕົວຢ່າງຫນຶ່ງຂອງການຄິດໄລ່ງ່າຍໆແມ່ນມາຈາກການສຶກສາຂອງ Henry Farber (2015) ກ່ຽວກັບພຶດຕິກໍາຂອງຄົນຂັບລົດ taxi ນິວຢອກ. ເຖິງແມ່ນວ່າກຸ່ມນີ້ອາດຈະບໍ່ມີປະໂຫຍດຕົວຈິງ, ມັນແມ່ນສະຖານທີ່ ວິໄຈເຊີງຍຸດທະສາດ ສໍາລັບການທົດສອບສອງທິດສະດີການແຂ່ງຂັນໃນເສດຖະກິດແຮງງານ. ສໍາລັບຈຸດປະສົງຂອງການຄົ້ນຄວ້າຂອງ Farber, ມີສອງລັກສະນະທີ່ສໍາຄັນກ່ຽວກັບສະພາບແວດລ້ອມການເຮັດວຽກຂອງຄົນຂັບ taxi: (1) ຄ່າແຮງງານຊົ່ວໂມງຂອງພວກເຂົາ fluctuates ຈາກທຸກໆມື້, ໂດຍສ່ວນຫນຶ່ງແມ່ນກ່ຽວກັບປັດໄຈຕ່າງໆເຊັ່ນ: ສະພາບອາກາດແລະ (2) ວຽກສາມາດປ່ຽນແປງໄດ້ໃນແຕ່ລະມື້ໂດຍອີງຕາມການຕັດສິນໃຈຂອງເຂົາເຈົ້າ. ລັກສະນະເຫຼົ່ານີ້ນໍາໄປສູ່ຄໍາຖາມທີ່ຫນ້າສົນໃຈກ່ຽວກັບຄວາມສໍາພັນລະຫວ່າງຄ່າຈ້າງຊົ່ວໂມງແລະຊົ່ວໂມງເຮັດວຽກ. ແບບ Neoclassical ໃນເສດຖະສາດຄາດຄະເນວ່າຄົນຂັບລົດ taxi ຈະເຮັດວຽກຫຼາຍໃນວັນທີ່ພວກເຂົາມີຄ່າຈ້າງຊົ່ວໂມງສູງຂຶ້ນ. ອີກທາງເລືອກ, ຕົວແບບຈາກເສດຖະສາດການປະພຶດທີ່ຄາດເດົາກົງກັນຂ້າມ. ຖ້າຜູ້ຂັບຂີ່ກໍານົດເປົ້າຫມາຍລາຍໄດ້ສະເພາະ - ເວົ້າວ່າ $ 100 ຕໍ່ມື້ - ແລະເຮັດວຽກຈົນກ່ວາເປົ້າຫມາຍດັ່ງກ່າວໄດ້ຮັບການຕອບສະຫນອງ, ຫຼັງຈາກນັ້ນຄົນຂັບຈະສິ້ນສຸດເຮັດວຽກຫນ້ອຍລົງໃນມື້ທີ່ພວກເຂົາກໍາລັງເພີ່ມເຕີມ. ຕົວຢ່າງ: ຖ້າທ່ານເປັນຜູ້ທີ່ມີລາຍໄດ້ເປົ້າຫມາຍ, ທ່ານອາດຈະເຮັດວຽກສີ່ຊົ່ວໂມງໃນມື້ທີ່ດີ ($ 25 ຕໍ່ຊົ່ວໂມງ) ແລະຫ້າຊົ່ວໂມງໃນມື້ທີ່ບໍ່ດີ ($ 20 ຕໍ່ຊົ່ວໂມງ). ດັ່ງນັ້ນຜູ້ຂັບຂີ່ເຮັດວຽກຫລາຍຊົ່ວໂມງໃນເວລາທີ່ມີຄ່າຈ້າງຊົ່ວໂມງສູງຂຶ້ນ (ຕາມການຄາດຄະເນໂດຍຕົວແບບ neoclassical) ຫຼືຫຼາຍກວ່າຊົ່ວໂມງໃນມື້ທີ່ມີຄ່າຈ້າງຊົ່ວໂມງຕ່ໍາກວ່າ (ຕາມການຄາດຄະເນໂດຍຕົວແບບເສດຖະກິດທາງດ້ານພຶດຕິກໍາ)?

ເພື່ອຕອບສະຫນອງຄໍາຖາມນີ້ Farber ໄດ້ຮັບຂໍ້ມູນກ່ຽວກັບການເດີນທາງ taxi ທີ່ຖືກປະຕິບັດໂດຍລົດເມນິວຢອກຈາກປີ 2009 ຫາ 2013, ຂໍ້ມູນທີ່ມີຢູ່ໃນປະຈຸບັນສາທາລະນະ. ຂໍ້ມູນເຫຼົ່ານີ້ເຊິ່ງໄດ້ຖືກເກັບກໍາໂດຍເຄື່ອງເອເລັກໂຕຣນິກທີ່ເມືອງຕ້ອງການລົດແທັກຊີ່ເພື່ອນໍາໃຊ້ - ປະກອບມີຂໍ້ມູນກ່ຽວກັບການເດີນທາງແຕ່ລະຄົນ: ເວລາເລີ່ມຕົ້ນ, ຈຸດເລີ່ມຕົ້ນ, ເວລາ, ປາຍ, ຈຸດ, ແລະປາຍ (ຖ້າປາຍຖືກຈ່າຍດ້ວຍບັດເຄຣດິດ) ທີ່ຢູ່ ການນໍາໃຊ້ຂໍ້ມູນຂອງລົດເມ taxi ນີ້, Farber ພົບວ່າຄົນຂັບລົດສ່ວນຫຼາຍເຮັດວຽກຫຼາຍໃນມື້ທີ່ເງິນຄ່າຈ້າງສູງຂຶ້ນ, ສອດຄ່ອງກັບທິດສະດີ neoclassical.

ນອກເຫນືອຈາກການຄົ້ນພົບນີ້, Farber ສາມາດນໍາໃຊ້ຂະຫນາດຂອງຂໍ້ມູນສໍາລັບຄວາມເຂົ້າໃຈທີ່ດີຂຶ້ນກ່ຽວກັບຄວາມບໍ່ເທົ່າທຽມກັນແລະແບບເຄື່ອນໄຫວ. ລາວໄດ້ພົບເຫັນວ່າ, ໃນໄລຍະເວລາ, ຄົນຂັບລົດໃຫມ່ຮຽນຈົບໄປເຮັດວຽກຫຼາຍຊົ່ວໂມງໃນມື້ທີ່ມີຄ່າແຮງງານສູງ (ຕົວຢ່າງ, ພວກເຂົາຮຽນຮູ້ທີ່ຈະປະຕິບັດຕາມຕົວແບບ neoclassical ຄາດ). ແລະຜູ້ຂັບຂີ່ໃຫມ່ທີ່ປະຕິບັດຕົວຫຼາຍຂຶ້ນຄືຜູ້ທີ່ມີລາຍໄດ້ເປົ້າຫມາຍແມ່ນມັກຈະຫຼີກເວັ້ນການຂັບລົດ taxi. ທັງສອງການຄົ້ນພົບທີ່ຫນ້າເບົາ ໆ ເຫຼົ່ານີ້ເຊິ່ງຊ່ວຍອະທິບາຍພຶດຕິກໍາທີ່ສັງເກດເຫັນຂອງຄົນຂັບລົດປະຈຸບັນແມ່ນພຽງແຕ່ເປັນໄປໄດ້ຍ້ອນວ່າຂະຫນາດຂອງຊຸດຂໍ້ມູນ. ພວກເຂົາບໍ່ສາມາດທີ່ຈະກວດພົບໃນການສຶກສາກ່ອນຫນ້ານີ້ທີ່ນໍາໃຊ້ແຜ່ນເຈ້ຍຈາກຜູ້ຂັບຂີ່ລົດນ້ອຍໆໃນໄລຍະເວລາສັ້ນໆ (Camerer et al. 1997) .

ການສຶກສາຂອງ Farber ແມ່ນໃກ້ຊິດກັບສະຖານະການທີ່ດີທີ່ສຸດສໍາລັບການຄົ້ນຄວ້ານໍາໃຊ້ແຫລ່ງຂໍ້ມູນໃຫຍ່ເພາະວ່າຂໍ້ມູນທີ່ໄດ້ເກັບກໍາຈາກຕົວເມືອງແມ່ນໃກ້ຊິດກັບຂໍ້ມູນທີ່ Farber ໄດ້ເກັບກໍາ (ຄວາມແຕກຕ່າງຫນຶ່ງຄື Farber ຕ້ອງການຂໍ້ມູນໃນຈໍານວນທັງຫມົດ ເງິນຄ່າທໍານຽມ, ບວກກັບຄໍາແນະນໍາ - ແຕ່ຂໍ້ມູນໃນຕົວເມືອງລວມມີຄໍາແນະນໍາທີ່ຈ່າຍໂດຍບັດເຄຣດິດ). ຢ່າງໃດກໍຕາມ, ຂໍ້ມູນພຽງແຕ່ບໍ່ພຽງພໍ. ຈຸດສໍາຄັນຂອງການຄົ້ນຄວ້າຂອງ Farber ແມ່ນເຮັດໃຫ້ຄໍາຖາມທີ່ຫນ້າສົນໃຈກັບຂໍ້ມູນ, ຄໍາຖາມທີ່ມີຜົນກະທົບຫຼາຍກວ່ານີ້ເທົ່ານັ້ນ.

ຕົວຢ່າງທີສອງຂອງການນັບສິ່ງຕ່າງໆແມ່ນມາຈາກການຄົ້ນຄວ້າໂດຍ Gary King, Jennifer Pan ແລະ Molly Roberts (2013) ກ່ຽວກັບການຄວບຄຸມອອນໄລນ໌ໂດຍລັດຖະບານຈີນ. ໃນກໍລະນີນີ້, ນັກຄົ້ນຄວ້າໄດ້ລວບລວມຂໍ້ມູນໃຫຍ່ຂອງຕົນເອງແລະພວກເຂົາຕ້ອງແກ້ໄຂຂໍ້ເທັດຈິງທີ່ວ່າຂໍ້ມູນຂອງເຂົາເຈົ້າບໍ່ຄົບຖ້ວນ.

ກະສັດແລະເພື່ອນຮ່ວມງານໄດ້ຖືກກະຕຸ້ນໂດຍຄວາມຈິງທີ່ວ່າສື່ມວນຊົນທາງສັງຄົມໃນປະເທດຈີນຖືກຄຸມຂັງໂດຍເຄື່ອງອຸປະຖັມທີ່ມີຂະຫນາດໃຫຍ່ທີ່ຄິດວ່າປະກອບມີຫລາຍສິບພັນຄົນ. ນັກຄົ້ນຄວ້າແລະພົນລະເມືອງ, ຢ່າງໃດກໍຕາມ, ມີຄວາມຮູ້ສຶກພຽງເລັກນ້ອຍວ່າວິທີການກວດກາເຫຼົ່ານີ້ຕັດສິນໃຈລຶບເນື້ອຫາໃດ. ນັກວິຊາການຂອງປະເທດຈີນມີຄວາມຄາດຫວັງທີ່ແຕກຕ່າງກັນກ່ຽວກັບປະເພດຂອງບົດຄວາມທີ່ມັກຈະຖືກລຶບຖິ້ມ. ບາງຄົນຄິດວ່ານັກສືບກ່າວເນັ້ນຫນັກໃສ່ຂໍ້ຄວາມທີ່ສໍາຄັນຂອງລັດ, ໃນຂະນະທີ່ຄົນອື່ນຄິດວ່າພວກເຂົາສຸມໃສ່ການກະທູ້ທີ່ສົ່ງເສີມພຶດຕິກໍາລວມ, ເຊັ່ນການປະທ້ວງ. ການຄົ້ນພົບວ່າຄວາມຄາດຫວັງເຫຼົ່ານີ້ແມ່ນຖືກຕ້ອງມີຜົນກະທົບຕໍ່ວິທີການນັກວິທະຍາສາດເຂົ້າໃຈຈີນແລະລັດຖະບານອື່ນໆທີ່ເຂົ້າຮ່ວມໃນການກວດສອບ. ດັ່ງນັ້ນ, ທ່ານຄິງແລະເພື່ອນຮ່ວມງານຕ້ອງການປຽບທຽບບົດຄວາມທີ່ຖືກເຜີຍແຜ່ແລະຖືກລຶບຖິ້ມແລ້ວດ້ວຍຂໍ້ຄວາມທີ່ຖືກເຜີຍແຜ່ແລະບໍ່ເຄີຍຖືກລຶບ.

ການເກັບກໍາຂໍ້ຄວາມເຫຼົ່ານີ້ກ່ຽວຂ້ອງກັບວິສະວະກໍາ feat ເຮັດໃຫ້ປະລາດຂອງ crawling ຫຼາຍກ່ວາ 1,000 ສື່ມວນຊົນສັງຄົມຈີນເວັບໄຊທ໌, ແຕ່ລະຄົນມີຫນ້າທີ່ແຕກຕ່າງກັນຮູບແບບ, ການຊອກຫາຂໍ້ຄວາມທີ່ກ່ຽວຂ້ອງ, ແລະຫຼັງຈາກນັ້ນ revisiting ຂໍ້ຄວາມເຫຼົ່ານີ້ເພື່ອເຂົ້າໄປເບິ່ງທີ່ຖືກລຶບໄປແລ້ວຕໍ່ມາ. ນອກເຫນືອໄປຈາກບັນຫາວິສະວະກໍາປົກກະຕິທີ່ກ່ຽວຂ້ອງກັບຂະຫນາດຂະຫນາດໃຫຍ່ເວັບໄຊຕ໌ crawling, ໂຄງການນີ້ໄດ້ມີສິ່ງທ້າທາຍເພີ່ມວ່າມັນຈໍາເປັນທີ່ຈະໄວທີ່ສຸດເພາະວ່າກະທູ້ censored ຈໍານວນຫຼາຍກໍາລັງປະຕິບັດຢູ່ໃນຫນ້ອຍກວ່າ 24 ຊົ່ວໂມງ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ລວບລວມຂໍ້ມູນຊ້າຈະພາດ lots ຂອງຂໍ້ຄວາມທີ່ໄດ້ຮັບການເຊັນເຊີ. ນອກຈາກນັ້ນ, ຕົວກວາດເວັບຕ້ອງໄດ້ເຮັດທັງຫມົດເກັບກໍາຂໍ້ມູນນີ້ໃນຂະນະທີ່ evading ການຊອກຄົ້ນຫາຖ້າບໍ່ດັ່ງນັ້ນໄດ້ເວັບໄຊທ໌ສື່ມວນຊົນສັງຄົມປ້ອງກັນການເຂົ້າເຖິງຫຼືຖ້າບໍ່ດັ່ງນັ້ນການປ່ຽນແປງນະໂຍບາຍຂອງເຂົາເຈົ້າໃນການຕອບສະຫນອງການສຶກສາ.

ໃນເວລາທີ່ວຽກງານວິສະວະກໍາຂະຫນາດໃຫຍ່ດັ່ງກ່າວໄດ້ຖືກສໍາເລັດແລ້ວ, ທ່ານ King ແລະເພື່ອນຮ່ວມງານໄດ້ຮັບປະມານ 11 ລ້ານຫົວຂໍ້ກ່ຽວກັບຫົວຂໍ້ຕ່າງໆ 85 ທີ່ແຕກຕ່າງກັນ, ແຕ່ລະຄົນມີລະດັບຄວາມອ່ອນໄຫວທີ່ສົມມຸດ. ຕົວຢ່າງ, ຫົວຂໍ້ທີ່ມີຄວາມອ່ອນໄຫວສູງແມ່ນ Ai Weiwei, ນັກສິລະປິນທີ່ແຕກຕ່າງກັນ; ຫົວຂໍ້ຂອງຄວາມອ່ອນໄຫວລະຫວ່າງກາງແມ່ນການຊຸກຍູ້ແລະການຫຼຸດລົງຂອງສະກຸນເງິນຈີນ, ແລະຫົວຂໍ້ຂອງຄວາມອ່ອນໄຫວຕ່ໍາແມ່ນເຕະບານໂລກ. ໃນຈໍານວນ 11 ລ້ານຫົວຂໍ້ນີ້, ປະມານ 2 ລ້ານຄົນໄດ້ຖືກກວດສອບ. ຄວາມລຶກລັບບາງຢ່າງ, ທ່ານ King ແລະເພື່ອນຮ່ວມງານໄດ້ພົບວ່າບົດຂຽນກ່ຽວກັບຫົວຂໍ້ທີ່ມີຄວາມຮູ້ສຶກທີ່ມີຄວາມສັບສົນສູງໄດ້ຖືກກວດສອບພຽງແຕ່ເລັກນ້ອຍຫຼາຍກວ່າກະທູ້ກ່ຽວກັບຫົວຂໍ້ປານກາງແລະຫນ້ອຍ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ນັກສືບຈີນແມ່ນມີຄວາມຫນ້າຈະເປັນການກວດສອບການຕອບທີ່ກ່າວວ່າ Ai Weiwei ເປັນບົດຂຽນທີ່ກ່າວເຖິງເຕະບານໂລກ. ຜົນໄດ້ຮັບເຫຼົ່ານີ້ບໍ່ໄດ້ສະຫນັບສະຫນູນຄວາມຄິດທີ່ວ່າລັດຖະບານ censors ຂໍ້ຄວາມທັງຫມົດກ່ຽວກັບຫົວຂໍ້ທີ່ລະອຽດອ່ອນ.

ການຄິດໄລ່ງ່າຍໆນີ້ຂອງອັດຕາການກວດສອບໂດຍຫົວຂໍ້ອາດຈະເຮັດໃຫ້ຫຼອກລວງ, ຢ່າງໃດກໍຕາມ. ຍົກຕົວຢ່າງ, ລັດຖະບານອາດຈະກວດເບິ່ງຂໍ້ຄວາມທີ່ສະຫນັບສະຫນູນທ່ານ Ai Weiwei, ແຕ່ອອກຈາກຕໍາແຫນ່ງທີ່ສໍາຄັນກັບລາວ. ເພື່ອແນໃສ່ແຍກຂໍ້ແຕກຕ່າງລະຫວ່າງກະທູ້ຫຼາຍຢ່າງ, ພວກນັກຄົ້ນຄວ້າຕ້ອງໄດ້ວັດແທກ ຄວາມຄິດ ຂອງແຕ່ລະປະເທດ. ແຕ່ຫນ້າເສຍດາຍ, ເຖິງວ່າຈະມີວຽກຫຼາຍ, ວິທີການກວດສອບຄວາມຮູ້ສຶກຢ່າງເຕັມສ່ວນໂດຍໃຊ້ພົດຈະນານຸກົມທີ່ມີຢູ່ແລ້ວກໍ່ຍັງບໍ່ດີຢູ່ໃນຫຼາຍໆສະຖານະການ (ຄິດກັບບັນຫາທີ່ເກີດຂື້ນໃນໄລຍະເວລາທາງຈິດໃຈຂອງວັນທີ 11 ເດືອນກັນຍາປີ 2001 ທີ່ໄດ້ລະບຸໄວ້ໃນພາກ 2.3.9). ດັ່ງນັ້ນ, ຄົນແລະເພື່ອນຮ່ວມງານຕ້ອງມີວິທີການປ້າຍໂຄສະນາ 11 ລ້ານສື່ມວນຊົນສັງຄົມກ່ຽວກັບວ່າພວກເຂົາແມ່ນ (1) ວິຈານລັດ, (2) ສະຫນັບສະຫນູນລັດ, ຫຼື (3) ລາຍງານກ່ຽວກັບເຫດການທີ່ບໍ່ກ່ຽວຂ້ອງຫຼືຈິງ. ມັນຄ້າຍຄືກັບວຽກທີ່ໃຫຍ່, ແຕ່ພວກມັນໄດ້ແກ້ໄຂມັນໂດຍໃຊ້ທັກສະທີ່ມີປະສິດທິພາບທີ່ມີຢູ່ໃນວິທະຍາສາດຂໍ້ມູນແຕ່ວ່າມັນເປັນເລື່ອງທີ່ຫາຍາກໃນວິທະຍາສາດສັງຄົມ: ການຮຽນການເບິ່ງແຍງ ; ເບິ່ງຮູບທີ 2.5.

ຫນ້າທໍາອິດ, ໃນຂັ້ນຕອນທີ່ເອີ້ນວ່າ preprocessing , ນັກຄົ້ນຄວ້າໄດ້ປ່ຽນບົດຄວາມສື່ສັງຄົມມາເປັນ ຕາຕະລາງຂໍ້ມູນ , ເຊິ່ງມີຫນຶ່ງແຖວສໍາລັບແຕ່ລະເອກະສານແລະຄໍລໍາຫນຶ່ງທີ່ບັນທຶກໄວ້ວ່າມີຄໍາສັບໃດຫນຶ່ງ (ເຊັ່ນການປະທ້ວງຫຼືການຈາລະຈອນ) ທີ່ຢູ່ ຕໍ່ມາ, ກຸ່ມຜູ້ຊ່ວຍການຄົ້ນຄວ້າໄດ້ສະແດງຄວາມຮູ້ສຶກຂອງຕົວຢ່າງຂອງບົດຂຽນ. ຫຼັງຈາກນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ນໍາໃຊ້ຂໍ້ມູນທີ່ໄດ້ຮັບການຕິດສະຫລາກນີ້ເພື່ອສ້າງຮູບແບບການຮຽນເຄື່ອງເຊິ່ງສາມາດເຮັດໃຫ້ເກີດຄວາມຮູ້ສຶກຂອງການຕອບໂດຍອີງໃສ່ລັກສະນະຂອງມັນ. ສຸດທ້າຍ, ພວກເຂົາເຈົ້າໄດ້ນໍາໃຊ້ຮູບແບບນີ້ເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງທັງຫມົດ 11 ລ້ານໂພສ.

ດັ່ງນັ້ນ, ແທນທີ່ຈະອ່ານແລະຕິດແທດຕົວເລກ 11 ລ້ານຫົວ - ເຊິ່ງອາດຈະເປັນໄປບໍ່ໄດ້, ທ່ານຄິງແລະເພື່ອນຮ່ວມງານໄດ້ຕິດສະຫລາກໄວ້ພຽງເລັກນ້ອຍແລະຫຼັງຈາກນັ້ນນໍາໃຊ້ການຮຽນຮູ້ທີ່ມີປະຕິບັດເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງຂໍ້ຄວາມທັງຫມົດ. ຫຼັງຈາກທີ່ສໍາເລັດການວິເຄາະນີ້, ພວກເຂົາສາມາດສະຫຼຸບໄດ້ວ່າ, ຄວາມເປັນໄປໄດ້ຂອງການຖືກລຶບຖິ້ມແມ່ນບໍ່ກ່ຽວຂ້ອງກັບວ່າມັນເປັນເລື່ອງທີ່ສໍາຄັນຂອງລັດຫຼືສະຫນັບສະຫນູນລັດ.

ຮູບທີ່ 2.5: ແບບແຜນແບບງ່າຍໆຂອງຂັ້ນຕອນທີ່ໃຊ້ໂດຍ King, Pan ແລະ Roberts (2013) ເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງ 11 ລ້ານສື່ມວນຊົນສັງຄົມຈີນ. ຫນ້າທໍາອິດ, ໃນຂັ້ນຕອນການ preprocessing, ນັກຄົ້ນຄວ້າໄດ້ປ່ຽນບົດຄວາມສື່ມວນຊົນສັງຄົມເປັນ matrix ເຈ້ຍຂໍ້ມູນ (ເບິ່ງ Grimmer ແລະ Stewart (2013) ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມ). ຄັ້ງທີສອງ, ພວກເຂົາເຈົ້າໄດ້ຂຽນຄໍາສັ່ງຂອງຕົວຢ່າງຂະຫນາດນ້ອຍຂອງກະທູ້. ອັນທີສາມ, ພວກເຂົາໄດ້ຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ທີ່ໄດ້ຮັບມອບຫມາຍເພື່ອຈັດແບ່ງຄວາມຮູ້ສຶກຂອງຂໍ້ຄວາມ. ສີ່, ພວກເຂົາໃຊ້ຮູບແບບການຮຽນແບບທີ່ໄດ້ຮັບການເບິ່ງແຍງເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງຂໍ້ຄວາມທັງຫມົດ. ເບິ່ງ King, Pan, ແລະ Roberts (2013), ເອກະສານຊ້ອນທ້າຍ B ສໍາລັບຄໍາອະທິບາຍລາຍລະອຽດເພີ່ມເຕີມ.

ຮູບທີ່ 2.5: ແບບແຜນແບບງ່າຍໆຂອງຂັ້ນຕອນທີ່ໃຊ້ໂດຍ King, Pan, and Roberts (2013) ເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງ 11 ລ້ານສື່ມວນຊົນສັງຄົມຈີນ. ຫນ້າທໍາອິດ, ໃນຂັ້ນຕອນການ preprocessing , ນັກຄົ້ນຄວ້າໄດ້ປ່ຽນບົດຄວາມສື່ມວນຊົນສັງຄົມເປັນ matrix Grimmer and Stewart (2013) ຂໍ້ມູນ (ເບິ່ງ Grimmer and Stewart (2013) ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມ). ຄັ້ງທີສອງ, ພວກເຂົາເຈົ້າໄດ້ຂຽນຄໍາສັ່ງຂອງຕົວຢ່າງຂະຫນາດນ້ອຍຂອງກະທູ້. ອັນທີສາມ, ພວກເຂົາໄດ້ຝຶກອົບຮົມຮູບແບບການຮຽນຮູ້ທີ່ໄດ້ຮັບມອບຫມາຍເພື່ອຈັດແບ່ງຄວາມຮູ້ສຶກຂອງຂໍ້ຄວາມ. ສີ່, ພວກເຂົາໃຊ້ຮູບແບບການຮຽນແບບທີ່ໄດ້ຮັບການເບິ່ງແຍງເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງຂໍ້ຄວາມທັງຫມົດ. ເບິ່ງ King, Pan, and Roberts (2013) , ເອກະສານຊ້ອນທ້າຍ B ສໍາລັບຄໍາອະທິບາຍລາຍລະອຽດເພີ່ມເຕີມ.

ໃນທີ່ສຸດ, ທ່ານ King ແລະເພື່ອນຮ່ວມງານໄດ້ຄົ້ນພົບວ່າມີສາມປະເພດທີ່ຖືກປົກຄຸມຢ່າງເປັນປົກກະຕິ: pornography, criticism of censors, ແລະຜູ້ທີ່ມີຄວາມສາມາດປະຕິບັດງານຮ່ວມກັນ (ເຊັ່ນ, ຄວາມເປັນໄປໄດ້ທີ່ຈະນໍາໄປສູ່ການປະທ້ວງຂະຫນາດໃຫຍ່). ໂດຍສັງເກດເບິ່ງຈໍານວນຂໍ້ຄວາມທີ່ຖືກລຶບອອກແລະຂໍ້ຄວາມທີ່ບໍ່ຖືກລຶບ, ທ່ານ King ແລະເພື່ອນຮ່ວມງານສາມາດຮຽນຮູ້ວິທີການກວດສອບເຮັດວຽກໂດຍການສັງເກດແລະນັບ. ນອກຈາກນັ້ນ, ເຖິງແມ່ນວ່າຈະມີຫົວຂໍ້ທີ່ຈະເກີດຂື້ນຕະຫລອດຫນັງສືນີ້, ວິທີການຮຽນຮູ້ທີ່ໄດ້ຮັບການນໍາໃຊ້ - ການຕິດສະຫຼາກດ້ວຍຕົນເອງຜົນບາງແລະຫຼັງຈາກນັ້ນກໍ່ສ້າງຮູບແບບການຮຽນຮູ້ເຄື່ອງຈັກເພື່ອສະຫຼຸບສ່ວນທີ່ເຫຼືອ - ທີ່ຢູ່ ທ່ານຈະເຫັນຮູບທີ່ຄ້າຍຄືກັນກັບຮູບ 2.5 ຢູ່ໃນພາກທີ 3 (ຄໍາຖາມທີ່ຖາມ) ແລະ 5 (ສ້າງການຮ່ວມມືຢ່າງຫຼວງຫຼາຍ); ນີ້ແມ່ນຫນຶ່ງໃນຄໍາຄິດເຫັນທີ່ປະກົດຢູ່ໃນຫລາຍພາກ.

ຕົວຢ່າງເຫຼົ່ານີ້, ພຶດຕິກໍາການເຮັດວຽກຂອງຄົນຂັບ taxi ໃນນິວຢອກແລະພຶດຕິກໍາການກວດສອບສື່ມວນຊົນສັງຄົມຂອງລັດຖະບານຈີນສະແດງໃຫ້ເຫັນວ່າການຄິດໄລ່ງ່າຍໆຂອງແຫຼ່ງຂໍ້ມູນໃຫຍ່ສາມາດເຮັດໄດ້ໃນບາງສະຖານະການ. ໃນທັງສອງກໍລະນີ, ນັກຄົ້ນຄວ້າໄດ້ນໍາເອົາຄໍາຖາມທີ່ຫນ້າສົນໃຈໄປຫາແຫຼ່ງຂໍ້ມູນໃຫຍ່; ຂໍ້ມູນໂດຍຕົວມັນເອງບໍ່ພຽງພໍ.