ກິດຈະກໍາ

  • ລະດັບຄວາມຫຍຸ້ງຍາກ: ງ່າຍດາຍ ງ່າຍດາຍ , ກາງ ກາງ , ຍາກ ຍາກ , ຫນັກ​ຫຼາຍ ຫນັກ​ຫຼາຍ
  • ຕ້ອງການຄະນິດສາດ ( ຕ້ອງການຄະນິດສາດ )
  • ຕ້ອງການລະຫັດ ( ຕ້ອງການລະຫັດ )
  • ການເກັບຂໍ້ມູນ ( ການເກັບກໍາຂໍ້ມູນ )
  • my favorites ( ສິ່ງ​ທີ່​ຂ້ອຍ​ມັກ )
  1. [ ກາງ , ສິ່ງ​ທີ່​ຂ້ອຍ​ມັກ ] ສັບສົນ algorithmic ແມ່ນບັນຫາກັບ Google Flu Trends. ອ່ານຫນັງສືໂດຍ Lazer et al. (2014) , ແລະຂຽນອີເມວສັ້ນໆໃຫ້ກັບວິສະວະກອນທີ່ Google ອະທິບາຍບັນຫາແລະສະເຫນີແນວຄິດແກ້ໄຂມັນ.

  2. [ ກາງ ] Bollen, Mao, and Zeng (2011) ອ້າງວ່າຂໍ້ມູນຈາກ Twitter ສາມາດນໍາໃຊ້ເພື່ອການຄາດຄະເນຕະຫຼາດຫຼັກຊັບ. ການຄົ້ນພົບນີ້ໄດ້ເຮັດໃຫ້ການສ້າງກອງທຶນຮຸ້ນ - Derwent Capital Markets- ລົງທຶນໃນຕະຫຼາດຫຼັກຊັບໂດຍອີງຕາມຂໍ້ມູນທີ່ເກັບຈາກ Twitter (Jordan 2010) . ທ່ານຕ້ອງການຫຼັກຖານໃດກ່ອນທີ່ຈະວາງເງິນໃນກອງທຶນດັ່ງກ່າວ?

  3. [ ງ່າຍດາຍ ] ໃນຂະນະທີ່ຜູ້ສະຫນັບສະຫນູນດ້ານສຸຂະພາບສາທາລະນະບາງຄົນຖືວ່າ e-cigarettes ເປັນການຊ່ວຍເຫຼືອປະສິດທິຜົນສໍາລັບການຢຸດສູບຢາ, ຄົນອື່ນເຕືອນກ່ຽວກັບຄວາມສ່ຽງທີ່ອາດເກີດຂື້ນເຊັ່ນ: ລະດັບສູງຂອງ nicotine. ຈິນຕະນາການວ່ານັກຄົ້ນຄວ້າຕັດສິນໃຈທີ່ຈະສຶກສາຄວາມຄິດເຫັນຂອງປະຊາຊົນກ່ຽວກັບຢາສູບອີເອໂດຍການເກັບກໍາຂໍ້ຄວາມ Twitter ທີ່ກ່ຽວຂ້ອງກັບການສູບບຸຫລີ່ e-cigarette ແລະການວິເຄາະຄວາມຮູ້ສຶກ.

    1. ແມ່ນຫຍັງສາມຢ່າງທີ່ເປັນໄປໄດ້ທີ່ທ່ານກໍາລັງກັງວົນຫລາຍທີ່ສຸດໃນການສຶກສານີ້?
    2. Clark et al. (2016) ດໍາເນີນການສຶກສາດັ່ງກ່າວ. ຫນ້າທໍາອິດ, ພວກເຂົາໄດ້ລວບລວມ 850,000 tweets ທີ່ໃຊ້ຄໍາໂຄສະນາກ່ຽວກັບຢາສູບອີເລັກໂທຣນິກຈາກເດືອນມັງກອນ 2012 ເຖິງເດືອນທັນວາ 2014. ເມື່ອກວດກາຢ່າງໃກ້ຊິດ, ພວກເຂົາເຈົ້າໄດ້ຮັບຮູ້ວ່າຫຼາຍໆ tweets ເຫຼົ່ານີ້ແມ່ນອັດຕະໂນມັດ (ບໍ່ແມ່ນການຜະລິດໂດຍມະນຸດ) ແລະຫຼາຍໆ tweets ອັດຕະໂນມັດເຫຼົ່ານີ້ແມ່ນສໍາຄັນ ໂຄສະນາ. ພວກເຂົາເຈົ້າໄດ້ພັດທະນາວິທີການຄົ້ນຫາຂອງມະນຸດເພື່ອແຍກ tweets ອັດຕະໂນມັດຈາກ tweets ອິນຊີ. ການນໍາໃຊ້ລະບົບການກວດສອບມະນຸດນີ້ພວກເຂົາພົບວ່າ 80% ຂອງ tweets ໄດ້ຖືກອັດຕະໂນມັດ. ການຊອກຫານີ້ປ່ຽນຄໍາຕອບຂອງທ່ານໄປຫາສ່ວນ (ກ)?
    3. ໃນເວລາທີ່ພວກເຂົາປຽບທຽບຄວາມຮູ້ສຶກໃນ ​​tweets ອິນຊີແລະອັດຕະໂນມັດ, ພວກເຂົາເຈົ້າໄດ້ພົບເຫັນວ່າ tweets ອັດຕະໂນມັດແມ່ນຫຼາຍໃນທາງບວກຫຼາຍກ່ວາ tweets ອິນຊີ (6.17 ທຽບກັບ 5.84). ການຄົ້ນພົບນີ້ປ່ຽນຄໍາຕອບຂອງທ່ານໃຫ້ກັບ (ຂ)?
  4. [ ງ່າຍດາຍ ] ໃນເດືອນພະຈິກ 2009, Twitter ປ່ຽນຄໍາຖາມໃນປື້ມຕໍານານຈາກ "ສິ່ງທີ່ທ່ານເຮັດ?" ກັບ "ສິ່ງທີ່ເກີດຂຶ້ນ?" (https://blog.twitter.com/2009/whats-happening).

    1. ທ່ານຄິດວ່າການປ່ຽນແປງຄໍາແນະນໍາຈະມີຜົນກະທົບແນວໃດກ່ຽວກັບ tweets ແລະ / ຫຼືສິ່ງທີ່ພວກເຂົາ tweet?
    2. ຊື່ໂຄງການຄົ້ນຄ້ວາຫນຶ່ງທີ່ທ່ານຕ້ອງການຄໍາແນະນໍາ "ທ່ານກໍາລັງເຮັດແນວໃດ?" ອະທິບາຍວ່າເປັນຫຍັງ.
    3. ຊື່ໂຄງການຄົ້ນຄ້ວາຫນຶ່ງທີ່ທ່ານຕ້ອງການຄໍາຖາມ "ສິ່ງທີ່ເກີດຂຶ້ນ?" ອະທິບາຍວ່າເປັນຫຍັງ.
  5. [ ງ່າຍດາຍ ] "Retweets" ມັກຖືກນໍາໃຊ້ເພື່ອວັດແທກຜົນກະທົບແລະການແຜ່ກະຈາຍຂອງອິດທິພົນໃນ Twitter. ໃນເບື້ອງຕົ້ນ, ຜູ້ໃຊ້ຕ້ອງໄດ້ຄັດລອກແລະວາງໂປແກຼມທີ່ພວກເຂົາມັກ, ໃສ່ຜູ້ຂຽນຕົ້ນສະບັບທີ່ມີຕົວຈັດການຂອງຕົນ, ແລະພິມດ້ວຍຕົນເອງ "RT" ກ່ອນທີ່ຈະ tweet ໃຫ້ບອກວ່າມັນເປັນ retweet. ຫຼັງຈາກນັ້ນ, ໃນປີ 2009, Twitter ໄດ້ເພີ່ມປຸ່ມ "retweet". ໃນເດືອນມິຖຸນາ 2016, Twitter ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດ retweet tweets ຂອງເຂົາເຈົ້າເອງ (https://twitter.com/twitter/status/742749353689780224). ທ່ານຄິດວ່າການປ່ຽນແປງເຫຼົ່ານີ້ຄວນມີຜົນກະທົບແນວໃດທີ່ທ່ານໃຊ້ "retweets" ໃນການຄົ້ນຄວ້າຂອງທ່ານ? ເປັນ​ຫຍັງ​ຫຼື​ເປັນ​ຫຍັງ​ຈຶ່ງ​ບໍ່​ໄດ້?

  6. [ ຫນັກ​ຫຼາຍ , ການເກັບກໍາຂໍ້ມູນ , ຕ້ອງການລະຫັດ , ສິ່ງ​ທີ່​ຂ້ອຍ​ມັກ ] ໃນເອກະສານທີ່ໄດ້ປຶກສາຫາລືຢ່າງກວ້າງຂວາງ, Michel ແລະເພື່ອນຮ່ວມງານ (2011) ໄດ້ວິເຄາະເນື້ອໃນຂອງຫຼາຍກວ່າຫ້າລ້ານປື້ມປື້ມດິຈິຕອນໃນຄວາມພະຍາຍາມທີ່ຈະກໍານົດແນວໂນ້ມວັດທະນະທໍາໃນໄລຍະຍາວ. ຂໍ້ມູນທີ່ພວກເຂົານໍາໃຊ້ໄດ້ຖືກປ່ອຍອອກເປັນຊຸດຂໍ້ມູນ Google NGrams ແລະດັ່ງນັ້ນພວກເຮົາສາມາດນໍາໃຊ້ຂໍ້ມູນເພື່ອເຮັດສໍາເນົາແລະຂະຫຍາຍບາງສ່ວນຂອງວຽກງານຂອງພວກເຂົາ.

    ໃນຫນຶ່ງໃນຜົນໄດ້ຮັບຫຼາຍທີ່ສຸດໃນບົດຂຽນ, Michel ແລະເພື່ອນຮ່ວມງານໄດ້ໂຕ້ຖຽງວ່າພວກເຮົາຖືກລືມໄວແລະໄວ. ສໍາລັບປີໂດຍສະເພາະ, ເວົ້າວ່າ "1883", ພວກເຂົາເຈົ້າຄິດໄລ່ອັດຕາສ່ວນຂອງ 1 ກຼາມທີ່ຈັດພີມມາໃນແຕ່ລະປີລະຫວ່າງ 1875 ແລະ 1975 ວ່າ "1883". ພວກເຂົາຄິດວ່າອັດຕາສ່ວນນີ້ແມ່ນວັດແທກຄວາມສົນໃຈໃນເຫດການທີ່ເກີດຂຶ້ນໃນປີນັ້ນ. ໃນຮູບ 3a ຂອງພວກເຂົາ, ພວກເຂົາເຈົ້າໄດ້ວາງແຜນການນໍາໃຊ້ການນໍາໃຊ້ສໍາລັບສາມປີ: 1883, 1910, ແລະ 1950. ສາມປີນີ້ແບ່ງປັນແບບທົ່ວໄປ: ການນໍາໃຊ້ພຽງເລັກນ້ອຍກ່ອນປີນັ້ນ, ຫຼັງຈາກນັ້ນ, ເພີ່ມຂື້ນ, ແລ້ວຂັດ. ຕໍ່ໄປເພື່ອໃຫ້ປະລິມານອັດຕາການທໍາລາຍໃນແຕ່ລະປີ, Michel ແລະເພື່ອນຮ່ວມງານໄດ້ຄິດໄລ່ "ເຄິ່ງຊີວິດ" ຂອງແຕ່ລະປີສໍາລັບທຸກປີລະຫວ່າງ 1875 ແລະ 1975. ໃນຮູບ 3a ຂອງພວກເຂົາ, ພວກເຂົາໄດ້ສະແດງໃຫ້ເຫັນວ່າເຄິ່ງຊີວິດຂອງແຕ່ລະຄົນ ປີແມ່ນຫຼຸດລົງ, ແລະພວກເຂົາໄດ້ໂຕ້ຖຽງວ່ານີ້ຫມາຍຄວາມວ່າພວກເຮົາກໍາລັງລືມໄລຍະຜ່ານມາໄວແລະໄວ. ພວກເຂົາເຈົ້ານໍາໃຊ້ Version 1 ຂອງພາສາອັງກິດ corpus, ແຕ່ວ່າຫຼັງຈາກນັ້ນກູໂກໄດ້ປ່ອຍອອກມາເມື່ອສະບັບທີສອງຂອງອົງການ. ກະລຸນາອ່ານພາກສ່ວນຕ່າງໆຂອງຄໍາຖາມກ່ອນທີ່ທ່ານຈະເລີ່ມຕົ້ນລະຫັດ.

    ກິດຈະກໍານີ້ຈະຊ່ວຍໃຫ້ທ່ານປະຕິບັດການຂຽນລະຫັດທີ່ສາມາດໃຊ້ໄດ້, ຕີຄວາມຜົນແລະຂໍ້ມູນຂັດແຍ້ງ (ເຊັ່ນການເຮັດວຽກກັບໄຟລ໌ທີ່ງຽບແລະການຈັດການຂໍ້ມູນທີ່ຂາດຫາຍໄປ). ກິດຈະກໍານີ້ກໍ່ຈະຊ່ວຍໃຫ້ທ່ານລຸກຂຶ້ນແລະແລ່ນກັບຊຸດຂໍ້ມູນທີ່ອຸດົມສົມບູນແລະຫນ້າສົນໃຈ.

    1. ເອົາຂໍ້ມູນດິບຈາກເວັບໄຊທ໌ Google Books NGram Viewer. ໂດຍສະເພາະ, ທ່ານຄວນໃຊ້ຮຸ່ນ 2 ຂອງ Corpus ພາສາອັງກິດ, ເຊິ່ງຖືກປ່ອຍອອກມາເມື່ອວັນທີ 1 ກໍລະກົດ 2012. Uncompressed, ໄຟລ໌ນີ້ແມ່ນ 1.4 GB.

    2. Recreate ສ່ວນຕົ້ນຕໍຂອງຮູບ 3a ຂອງ Michel et al. (2011) ເພື່ອສ້າງຕົວເລກນີ້, ທ່ານຈໍາເປັນຕ້ອງມີສອງໄຟລ໌: ຫນຶ່ງທີ່ທ່ານໄດ້ດາວໂຫຼດໄວ້ໃນສ່ວນ (a) ແລະໄຟລ໌ລວມ "ທັງຫມົດ" ເຊິ່ງທ່ານສາມາດນໍາໃຊ້ໃນການປ່ຽນແປງຈໍານວນວັດຖຸດິບເປັນອັດຕາສ່ວນ. ໃຫ້ສັງເກດວ່າໄຟລ໌ຈໍານວນທັງຫມົດມີໂຄງສ້າງທີ່ອາດເຮັດໃຫ້ມັນມີຄວາມຫຍຸ້ງຍາກໃນການອ່ານ. ມີຮຸ່ນ 2 ຂອງຂໍ້ມູນ NGRC ຜະລິດຜົນທີ່ຄ້າຍຄືກັນກັບການນໍາສະເຫນີໃນ Michel et al. (2011) , ເຊິ່ງແມ່ນອີງໃສ່ຂໍ້ມູນສະບັບ 1?

    3. ຕອນນີ້ກວດສອບກາຟິກຂອງທ່ານຕໍ່ກາຟທີ່ສ້າງໂດຍ NGram Viewer.

    4. Recreate figure 3a (main figure), ແຕ່ປ່ຽນ \(y\) -axis ເປັນການກ່າວເຖິງດິບ (ບໍ່ແມ່ນອັດຕາການກ່າວເຖິງ).

    5. ຄວາມແຕກຕ່າງລະຫວ່າງ (ຂ) ແລະ (d) ເຮັດໃຫ້ທ່ານທົບທວນຄືນຜົນຂອງຜົນຂອງ Michel et al. (2011) ເປັນ​ຫຍັງ​ຫຼື​ເປັນ​ຫຍັງ​ຈຶ່ງ​ບໍ່​ໄດ້?

    6. ໃນປັດຈຸບັນ, ການນໍາໃຊ້ອັດຕາສ່ວນຂອງຄໍາແນະນໍາ, replicate inset ຂອງຮູບທີ່ 3a. ນັ້ນແມ່ນ, ສໍາລັບແຕ່ລະປີລະຫວ່າງ 1875 ແລະ 1975, ຄິດໄລ່ເຄິ່ງຊີວິດຂອງປີນັ້ນ. ການເຄິ່ງຫນຶ່ງຂອງຊີວິດແມ່ນໄດ້ຖືກກໍານົດວ່າເປັນຈໍານວນປີທີ່ຜ່ານມາກ່ອນທີ່ອັດຕາສ່ວນຂອງການກ່າວເຖິງເຖິງເຄິ່ງຫນຶ່ງຂອງມູນຄ່າສູງສຸດຂອງມັນ. ໃຫ້ສັງເກດວ່າ Michel et al. (2011) ເຮັດບາງສິ່ງທີ່ສັບສົນຫຼາຍທີ່ຈະຄາດຄະເນພາກສ່ວນທີ່ມີຊີວິດເຄິ່ງເບິ່ງ III.6 ຂອງຂໍ້ມູນອອນໄລນ໌ທີ່ສະຫນັບສະຫນູນ - ແຕ່ພວກເຂົາອ້າງວ່າທັງສອງວິທີການຜະລິດຜົນທີ່ຄ້າຍຄືກັນ. ຮຸ່ນ 2 ຂອງຂໍ້ມູນ NGRC ຜະລິດຜົນທີ່ຄ້າຍຄືກັນກັບການນໍາສະເຫນີໃນ Michel et al. (2011) , ເຊິ່ງແມ່ນອີງໃສ່ຂໍ້ມູນສະບັບ 1? (ຄໍາແນະນໍາ: ຢ່າປະຫລາດໃຈຖ້າມັນບໍ່ໄດ້.)

    7. ມີປີໃດໆທີ່ເປັນຄົນນອກຕົວເຊັ່ນປີທີ່ຖືກລືມໂດຍສະເພາະຢ່າງໄວວາຫຼືໂດຍສະເພາະຢ່າງຊ້າໆ? ໃຫ້ກັງວົນສັ້ນໆກ່ຽວກັບເຫດຜົນທີ່ເປັນໄປໄດ້ສໍາລັບຮູບແບບນັ້ນແລະອະທິບາຍວິທີການທີ່ທ່ານກໍານົດ outliers.

    8. ໃນປັດຈຸບັນເຮັດສໍາເນົາຜົນໄດ້ຮັບສໍາລັບຮຸ່ນ 2 ຂອງຂໍ້ມູນ NGrams ໃນພາສາຈີນ, ພາສາຝຣັ່ງ, ເຍຍລະມັນ, ຍິວ, ອິຕາລຽນ, ລັດເຊຍແລະແອສປາໂຍນ.

    9. ການປຽບທຽບໃນທົ່ວພາສາທັງຫມົດ, ມີປີໃດທີ່ມີ outliers, ເຊັ່ນປີທີ່ຖືກລືມໂດຍສະເພາະຢ່າງໄວວາຫຼືໂດຍສະເພາະຢ່າງຊ້າໆ? ໃຫ້ກັງວົນສັ້ນໆກ່ຽວກັບເຫດຜົນທີ່ເປັນໄປໄດ້ສໍາລັບຮູບແບບນັ້ນ.

  7. [ ຫນັກ​ຫຼາຍ , ການເກັບກໍາຂໍ້ມູນ , ຕ້ອງການລະຫັດ , ສິ່ງ​ທີ່​ຂ້ອຍ​ມັກ ທ່ານ Penney (2016) ໄດ້ຄົ້ນພົບວ່າການເຜີຍແຜ່ຂອງ NSA / PRISM ຢ່າງກວ້າງຂວາງ (ເຊົ່ນການສະແດງຂອງ Snowden) ໃນເດືອນມິຖຸນາ 2013 ມີການເຊື່ອມໂຍງກັບຂໍ້ຄວາມ Wikipedia ທີ່ກ່ຽວກັບຫົວຂໍ້ທີ່ສົ່ງເສີມຄວາມກັງວົນກ່ຽວກັບຄວາມເປັນສ່ວນຕົວ. ຖ້າເປັນດັ່ງນັ້ນ, ການປ່ຽນແປງໃນພຶດຕິກໍານີ້ຈະມີຄວາມສອດຄ່ອງກັບຜົນກະທົບທີ່ເຮັດໃຫ້ເກີດຄວາມຕື່ນເຕັ້ນທີ່ເກີດຂື້ນຈາກການເ ວິທີການຂອງ Penney (2016) ແມ່ນບາງຄັ້ງເອີ້ນວ່າການອອກແບບ ຊຸດທີ່ຖືກລົບກວນ ແລະມັນກ່ຽວຂ້ອງກັບວິທີການທີ່ໄດ້ອະທິບາຍໃນພາກ 2.4.3.

    ເພື່ອເລືອກຄໍາຫລັກຂອງຫົວຂໍ້, Penney ໄດ້ອ້າງອີງເຖິງບັນຊີທີ່ນໍາໃຊ້ໂດຍ US Department of Homeland Security ເພື່ອຕິດຕາມແລະຕິດຕາມສື່ສັງຄົມ. ບັນດາລາຍຊື່ DHS ກໍາຫນົດເງື່ອນໄຂການຊອກຫາບາງຢ່າງເຂົ້າໃນບັນຫາຕ່າງໆເຊັ່ນ "ຄວາມກັງວົນດ້ານສຸຂະພາບ", "ຄວາມປອດໄພດ້ານໂຄງສ້າງພື້ນຖານ" ແລະ "ການກໍ່ການຮ້າຍ". ສໍາລັບກຸ່ມການສຶກສາ, Penney ນໍາໃຊ້ 48 ຄໍາທີ່ກ່ຽວຂ້ອງກັບ "ການກໍ່ການຮ້າຍ" (ເບິ່ງຕາຕະລາງເອກະສານຊ້ອນທ້າຍ 8 ) ຫຼັງຈາກນັ້ນ, ລາວໄດ້ສັງລວມບົດວິພາກວິກິພີເດຍລວມເປັນເວລາ 48 ເດືອນ, ນັບແຕ່ເດືອນມັງກອນ 2012 ຫາທ້າຍເດືອນສິງຫາ 2014. ໃນການເສີມຂະຫຍາຍການໂຕ້ຖຽງລາວກໍ່ໄດ້ສ້າງກຸ່ມປຽບທຽບຫລາຍໂດຍການຕິດຕາມ ບົດຄວາມຂອງບົດຄວາມກ່ຽວກັບຫົວຂໍ້ອື່ນໆ.

    ໃນປັດຈຸບັນ, ທ່ານຈະເຮັດສໍາເນົາແລະຂະຫຍາຍ Penney (2016) . ຂໍ້ມູນດິບທັງຫມົດທີ່ທ່ານຕ້ອງການສໍາລັບກິດຈະກໍານີ້ແມ່ນມີຈາກວິກິພີເດຍ. ຫຼືທ່ານສາມາດໄດ້ຮັບມັນຈາກ W-wikipediatrend ຊຸດ R (Meissner and R Core Team 2016) . ເມື່ອຂຽນຄໍາຕອບຂອງທ່ານ, ກະລຸນາສັງເກດແຫຼ່ງຂໍ້ມູນທີ່ທ່ານໃຊ້. (ໃຫ້ສັງເກດວ່າກິດຈະກໍາດຽວກັນນີ້ຍັງປາກົດຢູ່ໃນບົດທີ 6. ) ກິດຈະກໍານີ້ຈະຊ່ວຍໃຫ້ທ່ານປະຕິບັດໃນຂໍ້ມູນທີ່ຂັດແຍ້ງກັນແລະຄິດກ່ຽວກັບການທົດລອງແບບທໍາມະຊາດໃນແຫຼ່ງຂໍ້ມູນໃຫຍ່. ມັນຍັງຈະຊ່ວຍໃຫ້ທ່ານສາມາດເຮັດວຽກກັບແຫຼ່ງຂໍ້ມູນທີ່ຫນ້າສົນໃຈທີ່ອາດເກີດຂື້ນໃນໂຄງການໃນອະນາຄົດ.

    1. ອ່ານ Penney (2016) ແລະ replicate ຮູບທີ 2 ຂອງຕົນທີ່ສະແດງໃຫ້ເຫັນຫນ້າທັດສະນະສໍາລັບ "terrorism" ຫນ້າທີ່ກ່ຽວຂ້ອງກ່ອນແລະຫຼັງຈາກການເປີດເຜີຍ Snowden. ຕີຄວາມຫມາຍຜົນໄດ້ຮັບ.
    2. ຕໍ່ໄປ, replicate ຮູບທີ່ 4A ເຊິ່ງທຽບກັບກຸ່ມການສຶກສາ (ບົດເລື່ອງທີ່ກ່ຽວຂ້ອງກັບ "ການກໍ່ການຮ້າຍ") ທີ່ມີກຸ່ມປຽບທຽບໂດຍນໍາໃຊ້ຄໍາທີ່ຖືກກໍານົດຢູ່ພາຍໃຕ້ "DHS & ອົງການອື່ນໆ" ຈາກບັນຊີ DHS (ເບິ່ງຕາຕະລາງເອກະສານຊ້ອນທ້າຍ 10 ແລະຫມາຍ 139). ຕີຄວາມຫມາຍຜົນໄດ້ຮັບ.
    3. ສ່ວນຫນຶ່ງ (ຂ) ທ່ານໄດ້ປຽບທຽບກຸ່ມສຶກສາທີ່ມີກຸ່ມປຽບທຽບຫນຶ່ງ. Penney ຍັງໄດ້ປຽບທຽບກັບສອງກຸ່ມປຽບທຽບອື່ນໆ: ບົດເລື່ອງທີ່ກ່ຽວຂ້ອງກັບ "ຄວາມປອດໄພດ້ານໂຄງສ້າງພື້ນຖານ" (ເອກະສານຊ້ອນທ້າຍ 11) ແລະຫນ້າ Wikipedia ທີ່ມີຊື່ສຽງ (ຕາຕະລາງເອກະສານຊ້ອນທ້າຍ 12). ມາກັບກຸ່ມທີ່ປຽບທຽບທາງເລືອກ, ແລະກວດສອບວ່າຜົນການຄົ້ນພົບຈາກສ່ວນ (b) ແມ່ນຄວາມລະອຽດແນວໃດກັບການເລືອກກຸ່ມຂອງທ່ານ. ຊຶ່ງທາງເລືອກທີ່ເຮັດໃຫ້ຄວາມຮູ້ສຶກທີ່ສຸດ? ເປັນຫຍັງ?
    4. Penney ກ່າວວ່າຄໍາທີ່ກ່ຽວຂ້ອງກັບ "ການກໍ່ການຮ້າຍ" ຖືກນໍາໃຊ້ເພື່ອຄັດເລືອກບົດຄວາມ Wikipedia ເນື່ອງຈາກວ່າລັດຖະບານສະຫະລັດກ່າວເຖິງການກໍ່ການຮ້າຍເປັນເຫດຜົນສໍາຄັນສໍາລັບການປະຕິບັດການເຝົ້າລະວັງຂອງຕົນ. ໃນເວລາທີ່ການກວດສອບເຫຼົ່ານີ້ 48 ຄໍາເວົ້າທີ່ກ່ຽວຂ້ອງກັບ "ການກໍ່ການຮ້າຍ", Penney (2016) ຍັງໄດ້ດໍາເນີນການສໍາຫຼວດກ່ຽວກັບ MTurk, ຂໍໃຫ້ຜູ້ຕອບຄໍາຖາມໃຫ້ຄໍາແນະນໍາໃຫ້ຄໍາຕອບທຸກຄໍາເວົ້າກ່ຽວກັບບັນຫາຂອງລັດຖະບານ, ຄວາມເປັນສ່ວນຕົວ, ແລະການຫລີກລ້ຽງ (ຕາຕະລາງເອກະສານຊ້ອນທ້າຍ 7 ແລະ 8) ) Replicate ການສໍາຫຼວດກ່ຽວກັບ MTurk ແລະປຽບທຽບຜົນໄດ້ຮັບຂອງທ່ານ.
    5. ອີງຕາມຜົນໄດ້ຮັບໃນສ່ວນຫນຶ່ງ (d) ແລະການອ່ານບົດຄວາມຂອງທ່ານ, ທ່ານຕົກລົງເຫັນດີກັບຄໍາແນະນໍາຂອງ Penney ກ່ຽວກັບຫົວຂໍ້ຫົວຂໍ້ໃນກຸ່ມການສຶກສາບໍ? ເປັນ​ຫຍັງ​ຫຼື​ເປັນ​ຫຍັງ​ຈຶ່ງ​ບໍ່​ໄດ້? ຖ້າບໍ່ແມ່ນ, ທ່ານຈະແນະນໍາແນວໃດແທນ?
  8. [ ງ່າຍດາຍ ] Efrati (2016) ລາຍງານ, ອີງຕາມຂໍ້ມູນທີ່ເປັນຄວາມລັບ, ວ່າ "ການແບ່ງປັນທັງຫມົດ" ໃນເຟສບຸກໄດ້ຫຼຸດລົງປະມານ 5.5% ທຽບໃສ່ປີທີ່ຜ່ານມາ, ໃນຂະນະທີ່ "ການແລກປ່ຽນການແຜ່ກະຈາຍເດີມ" ຫຼຸດລົງ 21% ຕໍ່ປີ. ການຫຼຸດລົງນີ້ແມ່ນມີຄວາມຫຍຸ້ງຍາກໂດຍສະເພາະຜູ້ທີ່ໃຊ້ Facebook ພາຍໃຕ້ອາຍຸ 30 ປີ. ບົດລາຍງານໄດ້ສະທ້ອນເຖິງການຫຼຸດລົງເຖິງສອງປັດໃຈ. ຫນຶ່ງແມ່ນການຂະຫຍາຍຕົວໃນຈໍານວນຂອງ "ຫມູ່ເພື່ອນ" ປະຊາຊົນມີຢູ່ໃນເຟສບຸກ. ອີກອັນຫນຶ່ງແມ່ນວ່າກິດຈະກໍາການແລກປ່ຽນບາງຄົນໄດ້ປ່ຽນໄປສົ່ງຂໍ້ຄວາມແລະຄູ່ແຂ່ງເຊັ່ນ Snapchat. ລາຍງານດັ່ງກ່າວຍັງໄດ້ເປີດເຜີຍເຖິງວິທີການຕ່າງໆທີ່ Facebook ໄດ້ພະຍາຍາມເພື່ອເພີ່ມການແບ່ງປັນ, ເຊິ່ງລວມທັງການປັບປຸງຂ່າວສານຂອງ Feed News, ເຊິ່ງເຮັດໃຫ້ຂໍ້ຄວາມຕົ້ນສະບັບເພີ່ມເຕີມ, ລວມທັງການແຈ້ງເຕືອນໄລຍະເວລາຂອງບົດສະບັບຕົ້ນດ້ວຍ "ໃນວັນນີ້". ຜົນກະທົບໃດຫນຶ່ງ, ຖ້າມີ, ຜົນການຊອກຫາເຫຼົ່ານີ້ແມ່ນສໍາລັບນັກຄົ້ນຄວ້າຜູ້ທີ່ຕ້ອງການນໍາໃຊ້ເຟສບຸກເປັນແຫລ່ງຂໍ້ມູນ?

  9. [ ກາງ ] ຄວາມແຕກຕ່າງກັນລະຫວ່າງນັກສັງຄົມສາດແລະນັກປະຫວັດສາດແມ່ນຫຍັງ? ອີງຕາມການ Goldthorpe (1991) , ຄວາມແຕກຕ່າງຕົ້ນຕໍແມ່ນການຄວບຄຸມການເກັບກໍາຂໍ້ມູນ. ນັກປະຫວັດສາດຖືກບັງຄັບໃຫ້ໃຊ້ຊາກສົບ, ໃນຂະນະທີ່ນັກສັງຄົມນິຍົມສາມາດປັບປຸງການເກັບກໍາຂໍ້ມູນຂອງພວກເຂົາເພື່ອຈຸດປະສົງສະເພາະ. ອ່ານ Goldthorpe (1991) . ຄວາມແຕກຕ່າງລະຫວ່າງວິທະຍາສາດແລະປະຫວັດສາດທີ່ກ່ຽວຂ້ອງກັບແນວຄວາມຄິດຂອງ custommades ແລະ readymades ແນວໃດ?

  10. [ ຍາກ ] ນີ້ສ້າງຂຶ້ນໃນ quesiton ທີ່ຜ່ານມາ. Goldthorpe (1991) ດຶງຈໍານວນຄໍາຕອບທີ່ສໍາຄັນ, ລວມທັງຫນຶ່ງຈາກ Nicky Hart (1994) ທີ່ທ້າທາຍການອຸທິດຕົນຂອງ Goldthorpe ເພື່ອປັບປຸງຂໍ້ມູນ. ເພື່ອອະທິບາຍເຖິງຂໍ້ຈໍາກັດຂອງຂໍ້ມູນທີ່ຖືກຕ້ອງ, Hart ອະທິບາຍໂຄງການຜູ້ເຮັດວຽກທີ່ມີຄວາມອຸດົມສົມບູນ, ການສໍາຫຼວດຂະຫນາດໃຫຍ່ເພື່ອວັດແທກຄວາມສໍາພັນລະຫວ່າງສັງຄົມແລະການລົງຄະແນນສຽງໂດຍ Goldthorpe ແລະເພື່ອນຮ່ວມງານໃນກາງຊຸມປີ 1960. ໃນຖານະເປັນຫນຶ່ງອາດຈະຄາດຫວັງຈາກນັກວິຊາທີ່ຕ້ອງການຂໍ້ມູນທີ່ຖືກຕ້ອງຕາມຂໍ້ມູນທີ່ພົບ, ໂຄງການໂຄງການທີ່ເຮັດວຽກໃຫ້ແກ່ຊາວບ້ານໄດ້ເກັບກໍາຂໍ້ມູນທີ່ສອດຄ່ອງກັບທິດສະດີທີ່ໄດ້ສະເຫນີກ່ຽວກັບອະນາຄົດຂອງສັງຄົມໃນຍຸກຂອງຊີວິດການເພີ່ມຂຶ້ນ. ແຕ່, Goldthorpe ແລະເພື່ອນຮ່ວມງານບາງຢ່າງ "ລືມ" ເພື່ອເກັບກໍາຂໍ້ມູນກ່ຽວກັບພຶດຕິກໍາຂອງການລົງຄະແນນສຽງຂອງແມ່ຍິງ. ນີ້ແມ່ນວິທີການ Nicky Hart (1994) ສະຫຼຸບເຫດການທັງຫມົດ:

    "... ມັນຍາກທີ່ຈະຫຼີກເວັ້ນການສະຫຼຸບວ່າແມ່ຍິງຖືກຍົກເລີກເພາະວ່າຊຸດຂໍ້ມູນທີ່ໄດ້ຮັບການດັດແປງນີ້ຖືກຈໍາກັດໂດຍເຫດຜົນທີ່ບໍ່ມີປະໂຫຍດແກ່ແມ່ຍິງ. ໂດຍມີວິໄສທັດທິດສະດີຂອງສະຕິປັນຍາແລະການປະຕິບັດທີ່ເປັນຄວາມກັງວົນຂອງຜູ້ຊາຍ ... Goldthorpe ແລະເພື່ອນຮ່ວມງານຂອງເພິ່ນໄດ້ສ້າງຕົວຢ່າງທີ່ມີປະສົບການທາງດ້ານການທົດລອງທີ່ໄດ້ຮັບການລ້ຽງດູແລະລ້ຽງດູໃຫ້ສົມມຸດຕິຖານທາງທິດສະດີຂອງຕົນເອງແທນການເປີດເຜີຍໃຫ້ພວກເຂົາສາມາດທົດສອບຄວາມຖືກຕ້ອງໄດ້.

    Hart ສືບຕໍ່:

    "ຜົນການຄົ້ນຄວ້າທາງດ້ານຜົນສະທ້ອນຂອງໂຄງການຜູ້ເຮັດວຽກໃຫ້ແກ່ພວກເຮົາໄດ້ບອກພວກເຮົາເພີ່ມເຕີມກ່ຽວກັບຄຸນຄ່າທາງເພດຂອງສັງຄົມນິຍົມໃນກາງສະຕະວັດທີ່ພວກເຂົາແຈ້ງກ່ຽວກັບຂະບວນການ stratification, politics ແລະ life material."

    ທ່ານສາມາດຄິດເຖິງຕົວຢ່າງອື່ນໆທີ່ເກັບກໍາຂໍ້ມູນທີ່ຖືກຕ້ອງຕາມຄວາມຕ້ອງການມີຄວາມບໍ່ສະຖຽນລະພາບຂອງຜູ້ເກັບຂໍ້ມູນທີ່ສ້າງຂຶ້ນໃນມັນບໍ? ວິທີການນີ້ຈະປຽບທຽບກັບວິທີການສັບສົນໄດ້ແນວໃດ? ສິ່ງທີ່ມີຜົນກະທົບນີ້ອາດຈະເປັນເວລາທີ່ນັກຄົ້ນຄວ້າຄວນໃຊ້ readymades ແລະໃນເວລາທີ່ພວກເຂົາຄວນໃຊ້ custommades?

  11. [ ກາງ ] ໃນບົດນີ້, ຂ້າພະເຈົ້າໄດ້ປຽບທຽບຂໍ້ມູນທີ່ເກັບກໍາໂດຍນັກຄົ້ນຄວ້າສໍາລັບນັກຄົ້ນຄວ້າທີ່ມີບັນທຶກການບໍລິຫານທີ່ສ້າງຂື້ນໂດຍບໍລິສັດແລະລັດຖະບານ. ບາງຄົນເອີ້ນບັນທຶກການບໍລິຫານເຫຼົ່ານີ້ວ່າ "ຂໍ້ມູນທີ່ພົບ" ຊຶ່ງພວກມັນກົງກັນຂ້າມກັບ "ຂໍ້ມູນທີ່ຖືກອອກແບບ". ມັນເປັນຄວາມຈິງທີ່ວ່າບັນທຶກການບໍລິຫານຖືກຄົ້ນພົບໂດຍນັກຄົ້ນຄວ້າແຕ່ວ່າມັນຍັງຖືກອອກແບບສູງ. ຕົວຢ່າງເຊັ່ນບໍລິສັດເຕັກໂນໂລຢີທີ່ທັນສະໄຫມເຮັດວຽກຫນັກເພື່ອເກັບກໍາແລະຮັກສາຂໍ້ມູນຂອງເຂົາເຈົ້າ. ດັ່ງນັ້ນ, ບັນທຶກການບໍລິຫານເຫຼົ່ານີ້ທັງຖືກພົບເຫັນແລະອອກແບບ, ມັນຂຶ້ນຢູ່ກັບທັດສະນະຂອງທ່ານ (ຮູບທີ່ 2.12).

    ຮູບທີ່ 212: ຮູບແມ່ນທັງເປັດແລະທະນູ; ສິ່ງທີ່ທ່ານເຫັນແມ່ນຂຶ້ນຢູ່ກັບທັດສະນະຂອງທ່ານ. ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນທັງສອງພົບແລະອອກແບບ; ອີກເທື່ອຫນຶ່ງ, ສິ່ງທີ່ທ່ານເຫັນແມ່ນຂຶ້ນຢູ່ກັບທັດສະນະຂອງທ່ານ. ຕົວຢ່າງ, ບັນທຶກຂໍ້ມູນການເອີ້ນທີ່ເກັບກໍາໂດຍບໍລິສັດໂທລະສັບມືຖືແມ່ນຂໍ້ມູນທີ່ຄົ້ນຫາຈາກທັດສະນະຂອງນັກຄົ້ນຄວ້າ. ແຕ່ບັນດາບັນທຶກດຽວກັນນີ້ແມ່ນຂໍ້ມູນທີ່ຖືກອອກແບບມາຈາກມູມມອງຂອງຄົນທີ່ເຮັດວຽກໃນບໍລິສັດໂທລະສັບ. ແຫຼ່ງຂໍ້ມູນ: Popular Science Monthly (1899) / Wikimedia Commons.

    ຮູບທີ່ 212: ຮູບແມ່ນທັງເປັດແລະທະນູ; ສິ່ງທີ່ທ່ານເຫັນແມ່ນຂຶ້ນຢູ່ກັບທັດສະນະຂອງທ່ານ. ແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນທັງສອງພົບແລະອອກແບບ; ອີກເທື່ອຫນຶ່ງ, ສິ່ງທີ່ທ່ານເຫັນແມ່ນຂຶ້ນຢູ່ກັບທັດສະນະຂອງທ່ານ. ຕົວຢ່າງ, ບັນທຶກຂໍ້ມູນການເອີ້ນທີ່ເກັບກໍາໂດຍບໍລິສັດໂທລະສັບມືຖືແມ່ນຂໍ້ມູນທີ່ຄົ້ນຫາຈາກທັດສະນະຂອງນັກຄົ້ນຄວ້າ. ແຕ່ບັນດາບັນທຶກດຽວກັນນີ້ແມ່ນຂໍ້ມູນທີ່ຖືກອອກແບບມາຈາກມູມມອງຂອງຄົນທີ່ເຮັດວຽກໃນບໍລິສັດໂທລະສັບ. ແຫຼ່ງຂໍ້ມູນ: Popular Science Monthly (1899) / Wikimedia Commons .

    ໃຫ້ຕົວຢ່າງຂອງແຫລ່ງຂໍ້ມູນທີ່ເຫັນມັນທັງການຄົ້ນພົບແລະການອອກແບບແມ່ນເປັນປະໂຫຍດເມື່ອນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນທີ່ສໍາລັບການຄົ້ນຄວ້າ.

  12. [ ງ່າຍດາຍ ] ໃນບົດຂຽນທີ່ຄິດຄວາມຄິດ, Christian Sandvig ແລະ Eszter Hargittai (2015) ແບ່ງການຄົ້ນຄວ້າດິຈິຕອນເປັນສອງປະເພດໃຫຍ່ໂດຍຂຶ້ນຢູ່ກັບວ່າລະບົບດິຈິຕອນເປັນ "ເຄື່ອງມື" ຫຼື "ວັດຖຸຂອງການສຶກສາ." ຕົວຢ່າງຂອງປະເພດທໍາອິດ - ບ່ອນທີ່ລະບົບແມ່ນ ເຄື່ອງມື - ແມ່ນການຄົ້ນຄວ້າໂດຍ Bengtsson ແລະເພື່ອນຮ່ວມງານ (2011) ກ່ຽວກັບການນໍາໃຊ້ຂໍ້ມູນໂທລະສັບມືຖືເພື່ອຕິດຕາມການເຄື່ອນຍ້າຍຫຼັງຈາກແຜ່ນດິນໄຫວໃນປະເທດເຮຕີໃນປີ 2010. ຕົວຢ່າງຂອງປະເພດທີສອງ - ບ່ອນທີ່ລະບົບເປັນວັດຖຸ - ການຄົ້ນຄວ້າໂດຍ Jensen (2007) ກ່ຽວກັບວິທີການນໍາໃຊ້ໂທລະສັບມືຖືທົ່ວ Kerala, ປະເທດອິນເດຍໄດ້ຮັບຜົນກະທົບຕໍ່ການເຮັດວຽກຂອງຕະຫຼາດປາ. ຂ້າພະເຈົ້າເຫັນຄວາມແຕກຕ່າງນີ້ເປັນປະໂຫຍດເພາະວ່າມັນຊີ້ໃຫ້ເຫັນວ່າການສຶກສາໂດຍນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນດິຈິຕອນສາມາດມີເປົ້າຫມາຍທີ່ແຕກຕ່າງກັນເຖິງແມ່ນວ່າພວກເຂົາກໍາລັງໃຊ້ແຫຼ່ງຂໍ້ມູນດຽວກັນ. ເພື່ອອະທິບາຍເຖິງຄວາມແຕກຕ່າງນີ້, ອະທິບາຍສີ່ການສຶກສາທີ່ທ່ານໄດ້ເຫັນ: ສອງທີ່ໃຊ້ລະບົບດິຈິຕອນເປັນເຄື່ອງມືແລະສອງທີ່ໃຊ້ລະບົບດິຈິຕອນເປັນວັດຖຸຂອງການສຶກສາ. ທ່ານສາມາດນໍາໃຊ້ຕົວຢ່າງຈາກບົດນີ້ຖ້າທ່ານຕ້ອງການ.