ທີ່ສໍາຄັນ:
[ , ] confound ສູດການຄິດໄລ່ບັນຫາກັບກູໂກ Trends ໄຂ້ຫວັດໃຫຍ່ໄດ້. ອ່ານເອກະສານໂດຍ Lazer et al. (2014) , ແລະຂຽນສັ້ນ, email ຈະແຈ້ງກ່ຽວກັບວິສະວະກອນຢູ່ກູໂກອະທິບາຍບັນຫາແລະສະເຫນີແນວຄວາມຄິດຂອງວິທີການແກ້ໄຂບັນຫາໄດ້.
[ ] Bollen, Mao, and Zeng (2011) ອ້າງວ່າຂໍ້ມູນຈາກ Twitter ສາມາດຖືກນໍາໃຊ້ເພື່ອຄາດຄະເນຕະຫຼາດຫຼັກຊັບ. ການຄົ້ນພົບນີ້ເຮັດໃຫ້ການສ້າງຂອງ hedge ກອງທຶນການ Derwent Capital Markets, ການລົງທຶນໃນຕະຫຼາດຫຼັກຊັບຂຶ້ນຢູ່ກັບຂໍ້ມູນທີ່ເກັບມາຈາກ Twitter ໄດ້ (Jordan 2010) . ຫຼັກຖານອັນໃດທີ່ທ່ານຈະຕ້ອງການເພື່ອເຂົ້າໄປເບິ່ງກ່ອນທີ່ຈະວາງເງິນຂອງທ່ານໃນກອງທຶນທີ່?
[ ] ໃນຂະນະທີ່ບາງສະຫນັບສະຫນູນສຸຂະພາບຂອງສາທາລະນະ hail e ຢາສູບເປັນການຊ່ວຍເຫຼືອປະສິດທິຜົນສໍາລັບການຢຸດເຊົາການສູບຢາ, ຄົນອື່ນເຕືອນກ່ຽວກັບຄວາມສ່ຽງທີ່ອາດເກີດຂຶ້ນເຊັ່ນ: ສູງລະດັບຂອງ nicotine. ຈິນຕະນາການທີ່ເປັນນັກຄົ້ນຄວ້າຕັດສິນໃຈເພື່ອສຶກສາຄວາມຄິດເຫັນຂອງສາທາລະນະໄປ e ຢາສູບໂດຍການເກັບກໍາ e ຢາສູບທີ່ກ່ຽວຂ້ອງກັບຂໍ້ຄວາມ Twitter ແລະການດໍາເນີນການວິເຄາະຄວາມຮູ້ສຶກ.
[ ] ໃນເດືອນພະຈິກ 2009, Twitter ການປ່ຽນແປງຄໍາຖາມຢູ່ໃນຫ້ອງ tweet ຈາກ "ທ່ານກໍາລັງຈະເປັນແນວໃດເຮັດແນວໃດ?" ກັບ "ມີຫຍັງເກີດຂຶ້ນ?" (https://blog.twitter.com/2009/whats-happening).
[ ] Kwak et al. (2010) ວິເຄາະ 417 ລ້ານຜູ້ໃຊ້, 147 ຕື້ພົວພັນສັງຄົມ, 4262 ຫົວຂໍ້ trending, ແລະ 106 ລ້ານ tweets ຊ່ວງວັນທີ່ 6 ມິຖຸນາແລະ 31 ມິຖຸນາ 2009 ຕາມການວິເຄາະນີ້ພວກເຂົາເຈົ້າສະຫຼຸບໄດ້ວ່າ Twitter ບໍລິການຫລາຍເປັນສື່ກາງໃນການໃຫມ່ຂອງຂໍ້ມູນຂ່າວສານການແລກປ່ຽນກ່ວາ ເຄືອຂ່າຍສັງຄົມ.
[ ] "ທະວີດ" ໄດ້ຖືກນໍາໃຊ້ເພື່ອວັດແທກການອິດທິພົນແລະແຜ່ຂະຫຍາຍອິດທິພົນຂອງສະມາຊິກ. ໃນເບື້ອງຕົ້ນ, ຜູ້ໃຊ້ໄດ້ສໍາເນົາແລະການວາງ tweet ເຂົາເຈົ້າ liked, ໂຄດຄໍາສັ່ງຂອງຜູ້ຂຽນຕົ້ນສະບັບທີ່ / handle ຂອງຕົນ, ແລະຄູ່ມືການພິມ "RT" ກ່ອນທີ່ຈະ tweet ທີ່ຊີ້ໃຫ້ເຫັນວ່າມັນເປັນການ retweet ເປັນ. ຫຼັງຈາກນັ້ນ, ໃນ 2009 Twitter ເພີ່ມປຸ່ມ "retweet". ໃນເດືອນມິຖຸນາ 2016, Twitter ເຮັດໃຫ້ມັນເປັນໄປໄດ້ສໍາລັບຜູ້ໃຊ້ການ retweet tweets ຂອງເຂົາເຈົ້າເອງ (https://twitter.com/twitter/status/742749353689780224). ທ່ານຄິດວ່າການປ່ຽນແປງເຫຼົ່ານີ້ຄວນຈະມີຜົນກະທົບວິທີທີ່ທ່ານນໍາໃຊ້ "retweets" ໃນການຄົ້ນຄວ້າຂອງທ່ານ? ເປັນຫຍັງຫຼືເປັນຫຍັງຈຶ່ງບໍ່ໄດ້?
[ , , ] Michel et al. (2011) ການກໍ່ສ້າງເປັນຮ່າງກາຍທີ່ພົ້ນເດັ່ນຂື້ນຈາກຄວາມພະຍາຍາມຂອງກູໂກເພື່ອດິຈິທັນຫນັງສື. ການນໍາໃຊ້ການສະບັບທໍາອິດຂອງຮ່າງກາຍໄດ້, ເຊິ່ງໄດ້ຈັດພີມມາໃນປີ 2009 ແລະມີຫຼາຍກວ່າ 5 ລ້ານຫນັງສືດິຈິຕອ, ຜູ້ຂຽນວິເຄາະຄວາມຖີ່ຂອງການນໍາໃຊ້ຄໍາສັບໃນການການປ່ຽນແປງພາສາແລະແນວໂນ້ມວັດທະນະທໍາ. ທັນທີທີ່ກູໂກ Books Corpus ກາຍເປັນແຫລ່ງຂໍ້ມູນທີ່ນິຍົມສໍາລັບນັກຄົ້ນຄວ້າ, ແລະສະບັບທີ 2 ຂອງຖານຂໍ້ມູນດັ່ງກ່າວໄດ້ປ່ອຍອອກມາເມື່ອໃນປີ 2012.
ຢ່າງໃດກໍຕາມ, Pechenick, Danforth, and Dodds (2015) ເຕືອນວ່ານັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງໄດ້ຢ່າງເຕັມສ່ວນລັກສະນະຂອງຂະບວນການເກັບຕົວຢ່າງຂອງຮ່າງກາຍກ່ອນທີ່ຈະນໍາໃຊ້ມັນສໍາລັບການແຕ້ມບົດສະຫຼຸບຢ່າງກວ້າງຂວາງ. ບັນຫາຕົ້ນຕໍແມ່ນວ່າຮ່າງກາຍທີ່ເປັນຫ້ອງສະຫມຸດຄ້າຍຄື, ທີ່ມີຫນຶ່ງຂອງຫນັງສືແຕ່ລະຄົນ. ໃນຖານະເປັນຜົນ, ບຸກຄົນ, author ອຸດົມສົມບູນແມ່ນສາມາດເຫັນໄດ້ຊັດໃສ່ປະໂຫຍກໃຫມ່ເຂົ້າໄປໃນຄໍາສັບກູໂກ Books. ຍິ່ງໄປກວ່ານັ້ນ, ບົດເລື່ອງຕ່າງໆທີ່ວິທະຍາສາດປະກອບສ່ວນສໍາຄັນເພີ່ມຂຶ້ນຂອງຮ່າງກາຍໄດ້ຕະຫຼອດ 1900 ໄດ້. ໃນນອກຈາກນັ້ນ, ໂດຍການປຽບທຽບສອງສະບັບຂອງຊຸດຂໍ້ມູນ Fiction ພາສາອັງກິດ, Pechenick et al. ຫຼັກຖານທີ່ພົບເຫັນວ່າການກັ່ນຕອງທີ່ບໍ່ພຽງພໍໄດ້ຖືກນໍາໃຊ້ໃນການຜະລິດສະບັບທໍາອິດ. ທັງຫມົດຂອງຂໍ້ມູນທີ່ຈໍາເປັນສໍາລັບກິດຈະກໍາແມ່ນມີຢູ່ທີ່ນີ້: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[ , , , ] Penney (2016) ສໍາຫລວດບໍ່ວ່າຈະເປັນສາທາລະນະຢ່າງກວ້າງຂວາງກ່ຽວກັບການ NSA ເຝົ້າລະວັງ / PRISM (ie, ການເປີດເຜີຍ Snowden) ໃນເດືອນມິຖຸນາ 2013 ທີ່ກ່ຽວຂ້ອງກັບການຫຼຸດລົງແຫຼມແລະຢ່າງກະທັນຫັນໃນການຈະລາຈອນໄປຍັງບົດຄວາມວິກິພີເດຍກ່ຽວກັບຫົວຂໍ້ທີ່ຍົກສູງບົດບາດຄວາມເປັນສ່ວນຕົວ. ຖ້າເປັນດັ່ງນັ້ນ, ການປ່ຽນແປງໃນພຶດຕິກໍາຈະເປັນການສອດຄ່ອງກັບການຜົນກະທົບ chilling ຜົນຈາກການເຝົ້າລະວັງມະຫາຊົນ. ວິທີການຂອງ Penney (2016) ເອີ້ນວ່າບາງຄັ້ງການອອກແບບໄລຍະເວລາລົບກວນແລະທີ່ກ່ຽວຂ້ອງກັບວິທີການໃນພາກກ່ຽວກັບ approximating ປະສົບການຈາກຂໍ້ມູນການສັງເກດການ (Section 243).
ຈະເລືອກເອົາຫົວຂໍ້, Penney ຫມາຍເຖິງບັນຊີລາຍຊື່ທີ່ນໍາໃຊ້ໂດຍພະແນກປ້ອງກັນຄວາມ Homeland ສໍາລັບການຕິດຕາມແລະຕິດຕາມກວດກາສື່ມວນຊົນສັງຄົມ. ບັນຊີລາຍຊື່ DHS categorizes ຂໍ້ກໍານົດການຊອກຫາສະເພາະໃດຫນຶ່ງເຂົ້າໄປໃນລະດັບຂອງບັນຫາ, ເຊັ່ນ: "Concern ສຸຂະພາບ", "ຄວາມປອດໄພພື້ນຖານໂຄງລ່າງ," ແລະ "ການກໍ່ການຮ້າຍ. ເປັນ" ສໍາລັບກຸ່ມການສຶກສາ, Penney ໃຊ້ໄດ້ສີ່ສິບແປດຄໍາທີ່ກ່ຽວຂ້ອງກັບ "ກໍ່ການຮ້າຍ" (ເບິ່ງຕາຕະລາງ 8 ເອກະສານຊ້ອນ). ພຣະອົງໄດ້ຫຼັງຈາກນັ້ນລວມວິກິພີເດຍນັບເບິ່ງບົດຄວາມກ່ຽວກັບການເປັນພື້ນຖານປະຈໍາເດືອນສໍາລັບການທີ່ສອດຄ້ອງກັນສີ່ສິບແປດບົດຄວາມວິກິພີເດຍໃນໄລຍະໄລຍະເວລາສາມສິບສອງເດືອນ, ໃນຕອນເລີ່ມຕົ້ນຂອງເດືອນມັງກອນ 2012 ໃນຕອນທ້າຍຂອງເດືອນສິງຫາປີ 2014 ໄດ້ສ້າງຄວາມເຂັ້ມແຂງການໂຕ້ຖຽງຂອງຕົນ, ພຣະອົງຍັງໄດ້ສ້າງການປຽບທຽບຈໍານວນຫນຶ່ງ ກຸ່ມໂດຍການຕິດຕາມເບິ່ງບົດຄວາມກ່ຽວກັບຫົວຂໍ້ອື່ນໆ.
ໃນປັດຈຸບັນ, ທ່ານຈະເຮັດຊ້ໍາແລະການຂະຫຍາຍ Penney (2016) . ທັງຫມົດຂໍ້ມູນດິບທີ່ທ່ານຈະຕ້ອງການສໍາລັບກິດຈະກໍານີ້ສາມາດໃຊ້ໄດ້ຈາກວິກິພີເດຍ (https://dumps.wikimedia.org/other/pagecounts-raw/). ຫຼືທ່ານສາມາດໄດ້ຮັບມັນຈາກ wikipediatrend ຊຸດ R (Meissner and Team 2016) . ໃນເວລາທີ່ທ່ານຂຽນຂຶ້ນຕອບສະຫນອງຂອງທ່ານ, ກະລຸນາສັງເກດທີ່ແຫຼ່ງຂໍ້ມູນທີ່ທ່ານນໍາໃຊ້. (ຫມາຍເຫດ: ກິດຈະກໍາດຽວກັນນີ້ຍັງປາກົດຢູ່ໃນບົດທີ 6)
[ ] Efrati (2016) ບົດລາຍງານ, ໂດຍອີງໃສ່ຂໍ້ມູນທີ່ເປັນຄວາມລັບ, ວ່າ "ການແບ່ງປັນທັງຫມົດ" ກ່ຽວກັບເຟສບຸກໄດ້ຫຼຸດລົງປະມານປີປະມານ 55% ໃນໄລຍະປີໃນຂະນະທີ່ "ການແລກປ່ຽນການອອກອາກາດຕົ້ນສະບັບ" ລົງ 21% ໃນປີໃນໄລຍະປີ. ການຫຼຸດລົງດັ່ງກ່າວນີ້ແມ່ນສ້ວຍແຫຼມໂດຍສະເພາະແມ່ນກັບຜູ້ຊົມໃຊ້ເຟສບຸກຢູ່ພາຍໃຕ້ 30 ປີຂອງອາຍຸສູງສຸດ. ບົດລາຍງານສະຫຼຸດລົງໃນການສອງປັດໃຈ. ຫນຶ່ງແມ່ນການຂະຫຍາຍຕົວໃນຈໍານວນຂອງ "ເພື່ອນ" ປະຊາຊົນມີຢູ່ໃນເຟສບຸກໄດ້. ອື່ນໆແມ່ນວ່າບາງກິດຈະກໍາການແລກປ່ຽນໄດ້ຮອງແຮງງານກັບການສົ່ງຂໍ້ຄວາມແລະກັບຄູ່ແຂ່ງເຊັ່ນ SnapChat. ບົດລາຍງານຍັງໄດ້ເປີດເຜີຍມີສິດເທົ່າທຽມຫຼາຍເຟສບຸກໄດ້ພະຍາຍາມທີ່ຈະສະຫນັບສະຫນູນການແລກປ່ຽນ, ລວມທັງ tweaks ບົບ News Feed ທີ່ເຮັດໃຫ້ຂໍ້ຄວາມຕົ້ນສະບັບເປັນຄູຊັດເຈນຫຼາຍ, ເຊັ່ນດຽວກັນກັບການແຈ້ງເຕືອນແຕ່ລະໄລຍະຂອງຜູ້ຊົມໃຊ້ຂໍ້ຄວາມຕົ້ນສະບັບ "ໃນວັນນີ້" ເວລາຫຼາຍປີກ່ອນຫນ້ານີ້. ສົ່ງຜົນສະທ້ອນແນວໃດ, ຖ້າມີ, ບໍ່ຄົ້ນພົບເຫຼົ່ານີ້ມີສໍາລັບນັກຄົ້ນຄວ້າທີ່ຕ້ອງການໃຊ້ເຟສບຸກເປັນແຫລ່ງຂໍ້ມູນບໍ?
[ ] Tumasjan et al. (2010) ລາຍງານອັດຕາສ່ວນຂອງທະວີກ່າວເປັນພັກການເມືອງທີ່ສອດຄ່ອງອັດຕາສ່ວນຂອງຄະແນນສຽງທີ່ພັກທີ່ໄດ້ຮັບໃນການເລືອກຕັ້ງສະພາແຫ່ງຊາດເຢຍລະມັນໃນປີ 2009 (ຮູບສະແດງທີ 29) ໄດ້. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ມັນທີ່ວ່າທ່ານສາມາດນໍາໃຊ້ Twitter ການຄາດຄະເນການເລືອກຕັ້ງ. ທີ່ໃຊ້ເວລາການສຶກສານີ້ໄດ້ຈັດພີມມາໄດ້ມີການພິຈາລະນາທີ່ຫນ້າຕື່ນເຕັ້ນທີ່ສຸດເພາະວ່າມັນເບິ່ງຄືວ່າຈະແນະນໍາໃຫ້ການນໍາໃຊ້ທີ່ມີຄຸນຄ່າສໍາລັບການເປັນແຫຼ່ງທົ່ວໄປຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່.
ເນື່ອງຈາກລັກສະນະທີ່ບໍ່ດີຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່, ຢ່າງໃດກໍຕາມ, ທ່ານຄວນຈະທັນທີຈະບໍ່ຄ່ອຍເຊື່ອງ່າຍໆຂອງຜົນໄດ້ຮັບນີ້. ເຍຍລະມັນກ່ຽວກັບ Twitter ໃນປີ 2009 ໄດ້ເປັນກຸ່ມບໍ່ແມ່ນຜູ້ຕາງຫນ້າ, ແລະສະຫນັບສະຫນູນຂອງພັກຫນຶ່ງອາດຈະທະວີກ່ຽວກັບການເມືອງເລື້ອຍໆ. ດັ່ງນັ້ນ, ມັນເບິ່ງຄືວ່າປະຫລາດໃຈວ່າທັງຫມົດອະຄະຕິທີ່ເປັນໄປໄດ້ທີ່ທ່ານສາມາດຈິນຕະນາການ somehow ຈະຍົກເລີກການອອກ. ໃນຄວາມເປັນຈິງ, ຜົນໄດ້ຮັບໃນ Tumasjan et al. (2010) ໄດ້ຫັນອອກຈະດີເກີນໄປທີ່ຈະເປັນຄວາມຈິງ. ໃນເອກະສານຂອງເຂົາເຈົ້າ, Tumasjan et al. (2010) ພິຈາລະນາຫົກພາກສ່ວນທາງດ້ານການເມືອງ: Christian ຊາທິປະໄຕ (CDU), Christian ຊາທິປະໄຕສັງຄົມ (CSU), SPD, ການເປີດເສລີ (FDP), ຊ້າຍ (ຕາຍລິ້ງຄ໌), ແລະພັກສີຂຽວ (Gruning). ຢ່າງໃດກໍຕາມ, ໄດ້ກ່າວຫຼາຍທີ່ສຸດພັກການເມືອງເຢຍລະມັນກ່ຽວກັບ Twitter ໃນເວລາທີ່ພັກ Pirate (Piraten), ບຸກຄົນທີ່ຕໍ່ສູ້ກັບລະບຽບການຂອງລັດຖະບານຂອງອິນເຕີເນັດໄດ້. ໃນເວລາທີ່ພັກ Pirate ໄດ້ຖືກລວມເຂົ້າໃນການວິເຄາະ, Twitter ກ່າວຈະກາຍເປັນ predictor ທີ່ຮ້າຍແຮງຂອງຜົນການເລືອກຕັ້ງ (ຮູບສະແດງ 29) (Jungherr, Jürgens, and Schoen 2012) .
ຕໍ່ມາ, ນັກຄົ້ນຄວ້າອື່ນໆໃນທົ່ວໂລກໄດ້ນໍາໃຊ້ວິທີການດັ່ງກ່າວ fancier ການນໍາໃຊ້ການວິເຄາະຄວາມຮູ້ສຶກທີ່ຈະຈໍາແນກລະຫວ່າງທາງບວກແລະທາງລົບໄດ້ກ່າວເຖິງຂອງພາກສ່ວນ, ໃນຄໍາສັ່ງທີ່ຈະປັບປຸງຄວາມສາມາດຂອງຂໍ້ມູນ Twitter ໃນການຄາດຄະເນແນວພັນຂອງປະເພດທີ່ແຕກຕ່າງກັນຂອງການເລືອກຕັ້ງ (Gayo-Avello 2013; Jungherr 2015, Ch. 7.) . ນີ້ແມ່ນວິທີ Huberty (2015) ສະຫຼຸບຜົນໄດ້ຮັບຂອງຄວາມພະຍາຍາມເຫຼົ່ານີ້ເພື່ອຄາດຄະເນການເລືອກຕັ້ງ:
"ທັງຫມົດທີ່ຮູ້ຈັກວິທີການການຄາດການໂດຍອີງໃສ່ສື່ມວນຊົນສັງຄົມໄດ້ສົບຜົນສໍາເລັດໃນເວລາທີ່ຕ້ອງກັບຄວາມຕ້ອງການຂອງຄວາມຈິງຕໍ່, ຊອກຫາການເລືອກຕັ້ງພະຢາກອນ. ຄວາມລົ້ມເຫລວຂອງເຫຼົ່ານີ້ປາກົດວ່າຈະຍ້ອນກັບຄຸນສົມບັດພື້ນຖານຂອງສື່ມວນຊົນສັງຄົມ, ແທນທີ່ຈະກ່ວາເພື່ອຄວາມຫຍຸ້ງຍາກວິທີການຫຼືສູດການຄິດໄລ່. ໃນສັ້ນ, ສື່ມວນຊົນສັງຄົມເຮັດບໍ່ໄດ້, ແລະອາດຈະບໍ່ເຄີຍຈະ, ສະເຫນີໃຫ້ມີຄວາມຫມັ້ນຄົງ, ມີອັກຄະຕິ, ຮູບຜູ້ຕາງຫນ້າຂອງການເລືອກຕັ້ງ; ແລະຕົວຢ່າງສະດວກສະບາຍຂອງສື່ມວນຊົນສັງຄົມຂາດຂໍ້ມູນພຽງພໍທີ່ຈະແກ້ໄຂບັນຫາເຫຼົ່ານີ້ຕອບນີ້. "
ອ່ານບາງສ່ວນຂອງການຄົ້ນຄວ້າທີ່ນໍາໄປສູ່ Huberty (2015) ການສະຫລຸບວ່າ, ແລະຂຽນບັນທຶກຫນ້າຫນຶ່ງກັບຜູ້ຝຶກຫັດທີ່ທາງດ້ານການເມືອງທີ່ອະທິບາຍວ່າໃນວິທີການສະມາຊິກຄວນຈະໄດ້ຮັບການນໍາໃຊ້ເພື່ອຄາດຄະເນການເລືອກຕັ້ງ.
[ ] ຄວາມແຕກຕ່າງກັນລະຫວ່າງສັງຄົມສາດແລະປະວັດສາດເປັນແນວໃດ? ອີງຕາມການ Goldthorpe (1991) , ຄວາມແຕກຕ່າງຕົ້ນຕໍລະຫວ່າງສັງຄົມສາດແລະປະຫວັດສາດເປັນການຄວບຄຸມໃນໄລຍະເກັບກໍາຂໍ້ມູນ. ນັກປະຫວັດສາດໄດ້ຖືກບັງຄັບໃຫ້ໃຊ້ relics ໃນຂະນະທີ່ນັກສັງຄົມສາດສາມາດປັບປຸງການເກັບຂໍ້ມູນຂອງເຂົາເຈົ້າເພື່ອຈຸດປະສົງສະເພາະໃດຫນຶ່ງ. ອ່ານ Goldthorpe (1991) . ວິທີການແມ່ນແຕກຕ່າງກັນລະຫວ່າງສັງຄົມແລະປະຫວັດສາດທີ່ກ່ຽວຂ້ອງກັບແນວຄວາມຄິດຂອງ Custommades ແລະ Readymades ແນວໃດ?
[ ] ການກໍ່ສ້າງກ່ຽວກັບຄໍາຖາມທີ່ຜ່ານມາ, Goldthorpe (1991) drew ເປັນທີ່ຮັບຜິດຊອບທີ່ສໍາຄັນ, ລວມທັງການຫນຶ່ງຈາກ Nicky Hart (1994) ທີ່ທ້າທາຍການອຸທິດຕົນ Goldthorpe ຂອງເພື່ອປັບປຸງຂໍ້ມູນໄດ້. ເພື່ອອະທິບາຍຂໍ້ຈໍາກັດທີ່ເກີດຈາກການຂໍ້ມູນ tailor ໄດ້, Hart ອະທິບາຍໂຄງການພະນັກງານໄຫລເຂົ້າມາ, ການສໍາຫຼວດຂະຫນາດໃຫຍ່ໃນການວັດແທກຄວາມສໍາພັນລະຫວ່າງລະດັບສັງຄົມແລະລົງຄະແນນສຽງທີ່ໄດ້ດໍາເນີນການໂດຍ Goldthorpe ແລະເພື່ອນຮ່ວມງານໃນລະຫວ່າງກາງປີ 1960 ໄດ້. ເປັນຫນຶ່ງອາດຈະຄາດຫວັງວ່າການຈາກນັກວິຊາການຜູ້ທີ່ເອື້ອອໍານວຍການອອກແບບຂໍ້ມູນໃນໄລຍະຂໍ້ມູນທີ່ພົບ, ໂຄງການພະນັກງານໄຫລເຂົ້າມາເກັບກໍາຂໍ້ມູນທີ່ເຫມາະສົມເພື່ອແກ້ໄຂທິດສະດີທີ່ສະເຫນີບໍ່ດົນມານີ້ກ່ຽວກັບອະນາຄົດຂອງລະດັບສັງຄົມໃນຍຸກຂອງການເພີ່ມຂຶ້ນມາດຕະຖານດໍາລົງຊີວິດເປັນ. ແຕ່, Goldthorpe ແລະເພື່ອນຮ່ວມງານ somehow "ລືມ" ການເກັບກໍາຂໍ້ມູນກ່ຽວກັບພຶດຕິກໍາການລົງຄະແນນສຽງຂອງແມ່ຍິງ. ນີ້ແມ່ນວິທີ Nicky Hart (1994) ຫຍໍ້ຕອນທັງຫມົດ:
". . . ມັນ [ແມ່ນ] ມີຄວາມຫຍຸ້ງຍາກເພື່ອຫຼີກເວັ້ນການສະຫລຸບວ່າແມ່ຍິງໄດ້ຮັບການຍົກເວັ້ນເນື່ອງຈາກວ່ານີ້ tailor ໄດ້ 'ຊຸດຂໍ້ມູນທີ່ໄດ້ຖືກຈໍາກັດໂດຍມີເຫດຜົນ paradigmatic ທີ່ບໍ່ໄດ້ຄິດໄລ່ປະສົບການຂອງແມ່ຍິງ. ເນື່ອງຈາກວິໄສທັດທິດສະດີສະຕິລະດັບແລະການປະຕິບັດເປັນ preoccupation ຊາຍ. . . , Goldthorpe ແລະເພື່ອນຮ່ວມງານຂອງການກໍ່ສ້າງທີ່ກໍານົດໄວ້ຂອງຫຼັກຖານສະແດງຕົວຈິງທີ່ປ້ອນແລະການບໍາລຸງລ້ຽງສົມມຸດຕິຖານທາງທິດສະດີຂອງຕົນເອງແທນທີ່ຈະເປັນຂອງ exposing ໃຫ້ເຂົາເຈົ້າເປັນການທົດສອບຄວາມຖືກຕ້ອງຂອງຄວາມພຽງພໍເປັນ. "
Hart ສືບຕໍ່:
"ການຄົ້ນພົບຕົວຈິງຂອງໂຄງການພະນັກງານໄຫລເຂົ້າມາບອກພວກເຮົາກ່ຽວກັບຄ່າ masculinist ຂອງສັງຄົມໃນສະຕະວັດກາງກ່ວາພວກເຂົາເຈົ້າແຈ້ງໃຫ້ຂະບວນການຂອງ stratification, ການເມືອງແລະຊີວິດອຸປະກອນການ."
ທ່ານສາມາດຄິດວ່າຕົວຢ່າງອື່ນໆທີ່ເກັບກໍາຂໍ້ມູນ tailor ໄດ້ມີອະຄະຕິຂອງຜູ້ເກັບຂໍ້ມູນການກໍ່ສ້າງເຂົ້າໄປໃນມັນ? ນີ້ບໍ່ສົມທຽບກັບ confound ສູດການຄິດໄລ່? ຜົນສະທ້ອນຂອງສິ່ງທີ່ນີ້ອາດຈະມີສໍາລັບໃນເວລາທີ່ນັກຄົ້ນຄວ້າຄວນຈະນໍາໃຊ້ Readymades ແລະໃນເວລາທີ່ພວກເຂົາເຈົ້າຄວນຈະນໍາໃຊ້ Custommades?
[ ] ໃນບົດນີ້, ຂ້າພະເຈົ້າປຽບທຽບຂໍ້ມູນທີ່ເກັບກໍາໂດຍນັກຄົ້ນຄວ້າສໍາລັບນັກຄົ້ນຄວ້າທີ່ມີການບັນທຶກການບໍລິຫານທີ່ສ້າງຂຶ້ນໂດຍບໍລິສັດແລະລັດຖະບານ. ບາງຄົນໂທຫາການບັນທຶກການບໍລິຫານເຫຼົ່ານີ້ "ພົບຂໍ້ມູນ," ທີ່ພວກເຂົາເຈົ້າກົງກັນຂ້າມກັບ "ຂໍ້ມູນການອອກແບບ." ມັນເປັນຄວາມຈິງທີ່ວ່າບັນທຶກການບໍລິຫານໄດ້ຖືກພົບເຫັນໂດຍນັກຄົ້ນຄວ້າ, ແຕ່ພວກເຂົາເຈົ້າຍັງຖືກອອກແບບມາດີທີ່ສຸດ. ສໍາລັບການຍົກຕົວຢ່າງ, ບໍລິສັດເຕັກໂນໂລຊີທີ່ທັນສະໄຫມໃຊ້ເວລາຈໍານວນ enormous ຂອງທີ່ໃຊ້ເວລາແລະຊັບພະຍາກອນການເກັບກໍາແລະສອນສາດສະຫນາຂໍ້ມູນຂອງເຂົາເຈົ້າ. ດັ່ງນັ້ນ, ການບັນທຶກການບໍລິຫານເຫຼົ່ານີ້ແມ່ນໄດ້ທັງສອງພົບແລະການອອກແບບ, ມັນພຽງແຕ່ຂຶ້ນກັບທັດສະນະຂອງທ່ານ (ຮູບສະແດງທີ 210).
ໃຫ້ຕົວຢ່າງຂອງແຫຼ່ງຂໍ້ມູນເປັນບ່ອນທີ່ເຫັນມັນທັງສອງທີ່ພົບເຫັນແລະການອອກແບບແມ່ນເປັນປະໂຫຍດໃນເວລາທີ່ການນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນທີ່ສໍາລັບການຄົ້ນຄ້ວາ.
[ ] ໃນ essay ຄິດ, Christian Sandvig ແລະ Eszter Hargittai (2015) ອະທິບາຍສອງປະເພດຂອງການຄົ້ນຄວ້າດິຈິຕອນ, ບ່ອນທີ່ລະບົບດິຈິຕອນ "ເຄື່ອງມື" ຫຼື "ຈຸດປະສົງຂອງການສຶກສາ." ຕົວຢ່າງຂອງປະເພດທໍາອິດຂອງການສຶກສາແມ່ນບ່ອນທີ່ Bengtsson ແລະເພື່ອນຮ່ວມງານ (2011) ນໍາໃຊ້ຂໍ້ມູນໂທລະສັບມືຖືເພື່ອຕິດຕາມການເຄື່ອນຍ້າຍຫຼັງຈາກແຜ່ນດິນໄຫວໃນປະເທດເຮຕິໃນປີ 2010 ໄດ້ເປັນຕົວຢ່າງຂອງປະເພດທີສອງແມ່ນບ່ອນທີ່ Jensen (2007) ການສຶກສາວິທີການນໍາສະເຫນີຂອງໂທລະສັບມືຖືຕະຫຼອດ Kerala ອິນເດຍສົ່ງຜົນກະທົບການເຄື່ອນໄຫວຂອງຕະຫຼາດສໍາລັບການຫາປາ. ຂ້າພະເຈົ້າເຫັນນີ້ເປັນປະໂຫຍດເນື່ອງຈາກວ່າມັນອະທິບາຍວ່າການສຶກສາການນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນດິຈິຕອນສາມາດມີເປົ້າຫມາຍທີ່ແຕກຕ່າງກັນດີເຖິງແມ່ນວ່າຖ້າຫາກວ່າເຂົາເຈົ້າໄດ້ຖືກນໍາໃຊ້ປະເພດດຽວກັນຂອງແຫຼ່ງຂໍ້ມູນ. ໃນຄໍາສັ່ງທີ່ຈະສືບຕໍ່ອະທິບາຍຄວາມແຕກຕ່າງນີ້, ອະທິບາຍການສຶກສາສີ່ທີ່ທ່ານໄດ້ເຫັນ: ສອງທີ່ໃຊ້ລະບົບດິຈິຕອນເປັນເຄື່ອງມືແລະສອງທີ່ໃຊ້ລະບົບດິຈິຕອນເປັນຈຸດປະສົງຂອງການສຶກສາເປັນ. ທ່ານສາມາດນໍາໃຊ້ຕົວຢ່າງຈາກບົດນີ້ຖ້າຫາກວ່າທ່ານຕ້ອງການ.