ຄໍາເຫັນເພີ່ມເຕີມ

ໃນພາກນີ້ໄດ້ຖືກອອກແບບໄດ້ຮັບການນໍາໃຊ້ເປັນກະສານອ້າງອີງ, ແທນທີ່ຈະກ່ວາຈະໄດ້ຮັບການອ່ານເປັນການເທື່ອເນື່ອງຈາກເປັນ.

  • ການນໍາສະເຫນີ (ພາກ 21)

ປະເພດຫນຶ່ງຂອງການສັງເກດທີ່ບໍ່ໄດ້ລວມຢູ່ໃນພາກນີ້ແມ່ນກຸ່ມຊາດພັນ. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບກຸ່ມຊາດພັນໃນສະຖານທີ່ດິຈິຕອນເບິ່ງ Boellstorff et al. (2012) , ແລະສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບກຸ່ມຊາດພັນໃນສະຖານທີ່ດິຈິຕອນແລະທາງດ້ານຮ່າງກາຍປະສົມເບິ່ງ Lane (2016) .

  • ຂໍ້ມູນຂະຫນາດໃຫຍ່ (ພາກ 22)

ໃນເວລາທີ່ທ່ານກໍາລັງ repurposing ຂໍ້ມູນ, ມີສອງ tricks ຈິດໃຈທີ່ສາມາດຊ່ວຍໃຫ້ທ່ານເຂົ້າໃຈບັນຫາທີ່ເປັນໄປໄດ້ທີ່ທ່ານອາດຈະພົບກັບ. ຫນ້າທໍາອິດ, ທ່ານສາມາດພະຍາຍາມຈິນຕະນາການຊຸດຂໍ້ມູນທີ່ເຫມາະສົມສໍາລັບບັນຫາຂອງທ່ານແລະສົມທຽບວ່າຊຸດຂໍ້ມູນທີ່ທີ່ທ່ານກໍາລັງໃຊ້. ວິທີການພວກເຂົາເຈົ້າແມ່ນຄ້າຍຄືກັນແລະມີວິທີການພວກເຂົາເຈົ້າທີ່ແຕກຕ່າງກັນ? ຖ້າຫາກວ່າທ່ານບໍ່ໄດ້ເກັບກໍາຂໍ້ມູນຂອງທ່ານຕົວທ່ານເອງ, ມີແນວໂນ້ມທີ່ແຕກຕ່າງລະຫວ່າງສິ່ງທີ່ທ່ານຕ້ອງການແລະສິ່ງທີ່ທ່ານມີ. ແຕ່, ທີ່ທ່ານມີເພື່ອຕັດສິນໃຈຖ້າຫາກວ່າຄວາມແຕກຕ່າງເຫຼົ່ານີ້ແມ່ນເປັນການຄ້າຫນ້ອຍຫຼືທີ່ສໍາຄັນ.

ຄັ້ງທີສອງ, ຈື່ຈໍາໄວ້ວ່າຜູ້ໃດຜູ້ຫນຶ່ງສ້າງແລະເກັບກໍາຂໍ້ມູນຂອງທ່ານສໍາລັບເຫດຜົນບາງຢ່າງ. ທ່ານຄວນພະຍາຍາມທີ່ຈະເຂົ້າໃຈເຫດຜົນຂອງພວກເຂົາ. ປະເພດຂອງໄດ້ຢ່າງສິ້ນເຊີງ, ວິສະວະກໍານີ້ສາມາດຊ່ວຍທ່ານກໍານົດບັນຫາທີ່ເປັນໄປໄດ້ແລະອະຄະຕິໃນຂໍ້ມູນ repurposed ຂອງທ່ານ.

ບໍ່ມີຄໍານິຍາມເປັນເອກະສັນດຽວຂອງ "ຂໍ້ມູນຂະຫນາດໃຫຍ່", ແຕ່ຄໍານິຍາມຫຼາຍຄົນອາດຈະມຸ່ງເນັ້ນໄປທີ່ 3 Vs: (eg, ປະລິມານການ, ແນວພັນ, ແລະຄວາມໄວ Japec et al. (2015) ). ແທນທີ່ຈະກ່ວາສຸມໃສ່ການຄຸນລັກສະນະຂອງຂໍ້ມູນ, ຄໍານິຍາມຂອງຂ້າພະເຈົ້າໄດ້ສຸມໃສ່ເພີ່ມເຕີມກ່ຽວກັບວ່າເປັນຫຍັງຂໍ້ມູນທີ່ໄດ້ສ້າງຕັ້ງຂື້ນ.

ລວມຂອງຂ້າພະເຈົ້າຂອງຂໍ້ມູນການບໍລິຫານຂອງລັດຖະບານພາຍໃນປະເພດຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ແມ່ນນ້ອຍຜິດປົກກະຕິ. ຄົນອື່ນຜູ້ທີ່ໄດ້ເຮັດໃຫ້ກໍລະນີນີ້, ປະກອບມີ Legewie (2015) , Connelly et al. (2016) , ແລະ Einav and Levin (2014) . ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບຄຸນຄ່າຂອງຂໍ້ມູນການບໍລິຫານຂອງລັດຖະບານສໍາລັບການຄົ້ນຄ້ວາ, ສັງເກດເບິ່ງ Card et al. (2010) , Taskforce (2012) , ແລະ Grusky, Smeeding, and Snipp (2015) .

ສໍາລັບທັດສະນະຂອງການວິໄຈການບໍລິຫານຈາກພາຍໃນລັດຖະບານລະບົບສະຖິຕິ, ໂດຍສະເພາະແມ່ນອາເມລິກາທີ່ໃຫ້ເບິ່ງ Jarmin and O'Hara (2016) . ສໍາລັບການປິ່ນປົວຍາວປື້ມບັນທຶກຂອງການຄົ້ນຄວ້າບັນທຶກການບໍລິຫານຢູ່ໃນສະຖິຕິສວີເດນ, ເບິ່ງ Wallgren and Wallgren (2007) .

ຢູ່ໃນບົດທີ່, ຂ້າພະເຈົ້າໄລຍະສັ້ນໆ, ເມື່ອທຽບໃສ່ການສໍາຫຼວດພື້ນເມືອງເຊັ່ນ: ການສໍາຫຼວດທົ່ວໄປສັງຄົມ (GSS) ເພື່ອເປັນແຫລ່ງຂໍ້ມູນສື່ມວນຊົນສັງຄົມເຊັ່ນ: Twitter. ສໍາລັບການປຽບທຽບຢ່າງລະອຽດແລະລະມັດລະວັງລະຫວ່າງການສໍາຫຼວດປະເພນີແລະຂໍ້ມູນສື່ມວນຊົນສັງຄົມ, ເບິ່ງ Schober et al. (2016) .

  • ລັກສະນະທົ່ວໄປຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ (ພາກ 23)

ເຫຼົ່ານີ້ 10 ລັກສະນະຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ໄດ້ຮັບການອະທິບາຍໃນຫຼາຍວິທີທີ່ແຕກຕ່າງກັນໂດຍຫຼາກຫຼາຍຂອງຜູ້ຂຽນທີ່ແຕກຕ່າງກັນ. ລາຍລັກອັກສອນທີ່ມີອິດທິພົນແນວຄິດຂອງຂ້າພະເຈົ້າກ່ຽວກັບບັນຫາເຫຼົ່ານີ້ລວມມີ: Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , Lewis (2015) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ແລະ Goldstone and Lupyan (2016) .

ຕະຫລອດພາກນີ້, ຂ້າພະເຈົ້າໄດ້ນໍາໃຊ້ຕາມຮອຍດິຈິຕອນໃນໄລຍະທີ່ຂ້າພະເຈົ້າຄິດວ່າເປັນຂ້ອນຂ້າງເປັນກາງ. ອີກປະການຫນຶ່ງໃນໄລຍະທີ່ສໍາລັບການຕາມຮອຍດິຈິຕອນເປັນຮ່ອງຮອຍດິຈິຕອນ (Golder and Macy 2014) , ແຕ່ເປັນ Hal Abelson, Ken Ledeen, ແລະຄົນ Lewis (2008) ຊີ້ໃຫ້ເຫັນ, ໃນໄລຍະທີ່ເຫມາະສົມຫຼາຍແມ່ນອາດຈະເປັນຮອຍນິ້ວມືດິຈິຕອນ. ໃນເວລາທີ່ທ່ານສ້າງຮອຍ, ທ່ານມີການຮູ້ສິ່ງທີ່ເກີດຂຶ້ນແລະຮ່ອງຮອຍຂອງທ່ານບໍ່ສາມາດໂດຍທົ່ວໄປແລ້ວມາດ traced ກັບທ່ານສ່ວນບຸກຄົນ. ດຽວກັນນີ້ແມ່ນຄວາມຈິງສໍາລັບຮ່ອງຮອຍດິຈິຕອນຂອງທ່ານ. ໃນຄວາມເປັນຈິງ, ທ່ານກໍາລັງປ່ອຍໃຫ້ຕາມ​​ຮອຍທັງຫມົດທີ່ໃຊ້ເວລາກ່ຽວກັບການທີ່ທ່ານມີຄວາມຮູ້ພຽງເລັກນ້ອຍຫຼາຍ. ແລະ, ເຖິງແມ່ນວ່າຮ່ອງຮອຍເຫຼົ່ານີ້ບໍ່ໄດ້ມີຊື່ຂອງທ່ານກ່ຽວກັບພວກເຂົາ, ພວກເຂົາເຈົ້າສາມາດໄດ້ຮັບການເຊື່ອມຕໍ່ກັບຄືນໄປບ່ອນທ່ານ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ພວກເຂົາເຈົ້າມີຫຼາຍເຊັ່ນ: fingerprints: ເບິ່ງເຫັນແລະກໍານົດສ່ວນບຸກຄົນ.

Big

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບວ່າເປັນຫຍັງຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່, ເຮັດໃຫ້ການທົດສອບທາງສະຖິຕິທີ່ມີບັນຫາ, ເບິ່ງ Lin, Lucas, and Shmueli (2013) ແລະ McFarland and McFarland (2015) . ບັນຫາເຫຼົ່ານີ້ຈະນໍາໄປສູ່ການຄົ້ນຄວ້າເພື່ອສຸມໃສ່ການສໍາຄັນການປະຕິບັດຫຼາຍກ່ວາຄວາມສໍາຄັນທາງສະຖິຕິ.

ເຫມີໄປ, ສຸດ

ໃນເວລາທີ່ພິຈາລະນາສະເຫມີໄປ, ຂໍ້ມູນ, ມັນເປັນສິ່ງສໍາຄັນເພື່ອພິຈາລະນາບໍ່ວ່າຈະເປັນທ່ານກໍາລັງປຽບທຽບປະຊາຊົນດຽວກັນຄືກັນອ້ອຍຕ້ອຍໃນໄລຍະທີ່ໃຊ້ເວລາຫຼືບໍ່ວ່າຈະເປັນທ່ານກໍາລັງປຽບທຽບບາງກຸ່ມການປ່ຽນແປງຂອງປະຊາຊົນ; ເບິ່ງສໍາລັບການຍົກຕົວຢ່າງ, Diaz et al. (2016) .

ບໍ່ແມ່ນ reactive

ຜູ້ຄລາສສິກກ່ຽວກັບມາດຕະການທີ່ບໍ່ແມ່ນ reactive ແມ່ນ Webb et al. (1966) . ຕົວຢ່າງໃນຫນັງສືທາງສ່ວນຫນ້າຂອງວັນທີໄດ້ອາຍຸສູງສຸດດິຈິຕອນ, ແຕ່ເຂົາເຈົ້າຍັງໃຫ້ແສງສະຫວ່າງ. ສໍາລັບຕົວຢ່າງຂອງປະຊາຊົນມີການປ່ຽນແປງພຶດຕິກໍາຂອງເຂົາເຈົ້າເນື່ອງຈາກວ່າມີການເຝົ້າລະວັງການມະຫາຊົນ, ເບິ່ງ Penney (2016) ແລະ Brayne (2014) .

ບໍ່ສົມບູນ

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການບັນທຶກການເຊື່ອມຕໍ່, ເບິ່ງ Dunn (1946) ແລະ Fellegi and Sunter (1969) (ປະຫວັດສາດ) ແລະ Larsen and Winkler (2014) (ທັນສະໄຫມ). ທີ່ຄ້າຍຄືກັນເຂົ້າຍັງໄດ້ຮັບການພັດທະນາໃນວິທະຍາສາດຄອມພິວເຕີພາຍໃຕ້ຊື່ເຊັ່ນ: ການຄັດລອກຂໍ້ມູນ, ການກໍານົດການຍົກຕົວຢ່າງ, ຊື່ໂຍບາຍຄວາມລັບ, ຊ້ໍາການກວດສອບ, ແລະຊ້ໍາການບັນທຶກການຊອກຄົ້ນຫາ (Elmagarmid, Ipeirotis, and Verykios 2007) . ກໍຍັງມີຄວາມເປັນສ່ວນຕົວປົກປັກຮັກສາວິທີການເພື່ອບັນທຶກການເຊື່ອມຕໍ່ທີ່ບໍ່ຕ້ອງການລະບົບສາຍສົ່ງຂອງສ່ວນບຸກຄົນກໍານົດຂໍ້ມູນຂ່າວສານ (Schnell 2013) . ເຟສບຸກຍັງໄດ້ພັດທະນາດໍາເນີນການກັບການເຊື່ອມຕໍ່ການບັນທຶກການຂອງເຂົາເຈົ້າກັບການປະພຶດລົງຄະແນນສຽງ; ນີ້ໄດ້ເຮັດການປະເມີນຜົນການທົດລອງທີ່ຂ້າພະເຈົ້າຈະບອກທ່ານກ່ຽວກັບໃນບົດທີ 4 (Bond et al. 2012; Jones et al. 2013) .

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບໂຄງການກໍ່ສ້າງຄວາມຖືກຕ້ອງ, ເບິ່ງ Shadish, Cook, and Campbell (2001) , ພາກທີ 3.

ສາມາດເຂົ້າເຖິງ

ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບ AOL log ຄົ້ນຫານ້ໍາຖ້ວມ, ເບິ່ງ Ohm (2010) . ຂ້າພະເຈົ້າສະຫນອງການໃຫ້ຄໍາແນະນໍາກ່ຽວກັບການຮ່ວມມືກັບບໍລິສັດແລະລັດຖະບານໃນບົດທີ 4 ໃນເວລາທີ່ຂ້າພະເຈົ້າອະທິບາຍປະສົບການ. ຈໍານວນຂອງຜູ້ຂຽນໄດ້ສະແດງຄວາມກັງວົນກ່ຽວກັບການວິໄຈທີ່ອາໄສຂໍ້ມູນສາມາດເຂົ້າເຖິງ, ເບິ່ງ Huberman (2012) ແລະ boyd and Crawford (2012) .

ຫນຶ່ງວິທີທີ່ດີສໍາລັບການຄົ້ນຄ້ວາວິທະຍາໄລທີ່ຈະໄດ້ຮັບການເຂົ້າເຖິງຂໍ້ມູນທີ່ຈະເຮັດວຽກຢູ່ໃນບໍລິສັດເປັນນັກຮຽນຝຶກຫັດຫຼືການຢ້ຽມຢາມນັກຄົ້ນຄວ້າ. ນອກເຫນືອໄປຈາກການເຮັດໃຫ້ການເຂົ້າເຖິງຂໍ້ມູນ, ຂະບວນການນີ້ຍັງຈະຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າໄດ້ຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບວິທີການຂໍ້ມູນດັ່ງກ່າວໄດ້ຖືກສ້າງຂຶ້ນ, ທີ່ເປັນສິ່ງສໍາຄັນສໍາລັບການວິເຄາະ.

ບໍ່ແມ່ນຜູ້ຕາງຫນ້າ

ບໍ່ແມ່ນ representativeness ເປັນບັນຫາທີ່ສໍາຄັນສໍາລັບການຄົ້ນຄ້ວາແລະລັດຖະບານຜູ້ທີ່ຕ້ອງການທີ່ຈະເຮັດໃຫ້ລາຍງານກ່ຽວກັບປະຊາກອນທັງຫມົດ. ນີ້ແມ່ນຫນ້ອຍຂອງຄວາມກັງວົນສໍາລັບບໍລິສັດທີ່ກໍາລັງສຸມໃສ່ປົກກະຕິຜູ້ໃຊ້ຂອງເຂົາເຈົ້າ. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບວິທີການສະຖິຕິເນເທີແລນພິຈາລະນາບັນຫາຂອງທີ່ບໍ່ແມ່ນ representativeness ຂອງຂໍ້ມູນທຸລະກິດຂະຫນາດໃຫຍ່ໄດ້, ເບິ່ງ Buelens et al. (2014) .

ໃນບົດທີ 3, ຂ້າພະເຈົ້າຈະອະທິບາຍການເກັບຕົວຢ່າງແລະການຄາດຄະເນໃນລາຍລະອຽດຫຼາຍຂຶ້ນ. ເຖິງແມ່ນວ່າຖ້າຫາກວ່າຂໍ້ມູນແມ່ນບໍ່ມີຜູ້ຕາງຫນ້າ, ພາຍໃຕ້ເງື່ອນໄຂສະເພາະໃດຫນຶ່ງ, ພວກເຂົາເຈົ້າສາມາດໄດ້ຮັບນ້ໍາການຜະລິດຄາດຄະເນທີ່ດີ.

ພຽງການລອຍລົມ

ລະບົບພຽງການລອຍລົມເປັນການຍາກຫຼາຍເພື່ອເຂົ້າໄປເບິ່ງຈາກພາຍນອກ. ຢ່າງໃດກໍຕາມ, ໂຄງການ MovieLens (ປຶກສາຫາລືເພີ່ມເຕີມໃນບົດທີ 4) ໄດ້ຮັບການດໍາເນີນການສໍາລັບການຫຼາຍກ່ວາ 15 ປີໂດຍກຸ່ມຄົ້ນຄ້ວາທາງວິຊາການ. ເພາະສະນັ້ນ, ພວກເຂົາເຈົ້າມີເອກະສານແລະຂໍ້ມູນກ່ຽວກັບວິທີການທີ່ລະບົບໄດ້ພັດທະນາໃນໄລຍະທີ່ໃຊ້ເວລາແລະວິທີການແບ່ງປັນນີ້ວິເຄາະອາດຈະສົ່ງຜົນກະທົບ (Harper and Konstan 2015) .

ຈໍານວນຂອງນັກວິຊາການໄດ້ສຸມໃສ່ການພຽງການລອຍລົມໃນ Twitter: Liu, Kliman-Silver, and Mislove (2014) ແລະ Tufekci (2014) .

ຍອມຈໍານົນສູດການຄິດໄລ່

ທໍາອິດຂ້າພະເຈົ້າໄດ້ຍິນຄໍາວ່າ "ເຮັດໃຫ້ຈໍານົນສູດການຄິດໄລ່" ການນໍາໃຊ້ໂດຍ Jon Kleinberg ໃນການສົນທະນາ. ແນວຄວາມຄິດຕົ້ນຕໍທີ່ຢູ່ເບື້ອງຫລັງການປະຕິບັດແມ່ນວ່າບາງທິດສະດີວິທະຍາສາດສັງຄົມມີ "ເຄື່ອງຈັກບໍ່ໄດ້ກ້ອງຖ່າຍຮູບ" (Mackenzie 2008) . ວ່າແມ່ນ, ພວກເຂົາເຈົ້າຕົວຈິງແລ້ວຮູບຮ່າງຂອງໂລກແທນທີ່ຈະກ່ວາພຽງແຕ່ເກັບກໍາມັນ.

ເປື້ອນ

ອົງການຈັດຕັ້ງສະຖິຕິຂອງລັດຖະບານໂທຫາທໍາຄວາມສະອາດຂໍ້ມູນ, ແກ້ໄຂຂໍ້ມູນສະຖິຕິ. De Waal, Puts, and Daas (2014) ອະທິບາຍເຕັກນິກການແກ້ໄຂຂໍ້ມູນສະຖິຕິການພັດທະນາສໍາລັບຂໍ້ມູນການສໍາຫຼວດແລະກວດກາທີ່ຂອບເຂດພວກເຂົາເຈົ້າແມ່ນສາມາດນໍາໃຊ້ແຫຼ່ງຂໍ້ມູນຂໍ້ມູນຂະຫນາດໃຫຍ່, ແລະ Puts, Daas, and Waal (2015) ສະເຫນີບາງສ່ວນຂອງແນວຄວາມຄິດດຽວກັນສໍາລັບການສົນທະນາທົ່ວໄປຫຼາຍ.

ສໍາລັບຕົວຢ່າງບາງສ່ວນຂອງການສຶກສາໄດ້ສຸມໃສ່ການສະແປມໃນ Twitter, Clark et al. (2016) ແລະ Chu et al. (2012) . ສຸດທ້າຍ, Subrahmanian et al. (2016) ອະທິບາຍຜົນຂອງການ DARPA Twitter Bot ທ້າຫມູ່ຫຼິ້ນ.

ທີ່ລະອຽດອ່ອນ

Ohm (2015) ທົບທວນຄືນການວິໄຈກ່ຽວກັບຄວາມຄິດຂອງຂໍ້ມູນທີ່ລະອຽດອ່ອນແລະມີບໍລິການເປັນການທົດສອບຫຼາຍປັດໄຈ. ສີ່ປັດໄຈເຂົາສະເຫນີແມ່ນ: ຄວາມເປັນໄປຂອງອັນຕະລາຍ; ຫນ້າຈະເປັນອັນຕະລາຍ; ມີສາຍພົວພັນທີ່ເປັນຄວາມລັບ; ແລະບໍ່ວ່າຈະເປັນຄວາມສ່ຽງຕໍ່ການສະທ້ອນໃຫ້ເຫັນຄວາມກັງວົນ majoritarian.

  • ນອກຈາກນັ້ນສິ່ງທີ່ (Section 241)

ການສຶກສາ Farber ຂອງ taxi ໃນນິວຢອກແມ່ນອີງໃສ່ການສຶກສາກ່ອນຫນ້ານີ້ໂດຍ Camerer et al. (1997) ທີ່ໃຊ້ສາມຕົວຢ່າງສະດວກສະບາຍທີ່ແຕກຕ່າງກັນຂອງການເດີນທາງເອກະສານຮູບແບບເອກະສານເອກະສານການນໍາໃຊ້ used ຈາກຄົນຂັບລົດໃນການບັນທຶກທີ່ໃຊ້ເວລາເລີ່ມຕົ້ນການເດີນທາງ, ທີ່ໃຊ້ເວລາໃນຕອນທ້າຍ, ແລະອາຫານ. ການສຶກສາກ່ອນຫນ້ານີ້ໄດ້ພົບເຫັນວ່າຄົນຂັບລົດເບິ່ງຄືວ່າຈະ earners ເປົ້າຫມາຍ: ພວກເຂົາເຈົ້າເຮັດວຽກຫນ້ອຍໃນມື້ທີ່ຄ່າແຮງງານຂອງເຂົາເຈົ້າແມ່ນສູງຂຶ້ນ.

Kossinets and Watts (2009) ໄດ້ສຸມໃສ່ການຕົ້ນກໍາເນີດຂອງ homophily ໃນເຄືອຂ່າຍສັງຄົມ. ເບິ່ງ Wimmer and Lewis (2010) ສໍາລັບວິທີການທີ່ແຕກຕ່າງກັນກັບບັນຫາດຽວກັນໂດຍໃຊ້ຂໍ້ມູນຈາກເຟສບຸກ.

ໃນການເຮັດວຽກຕໍ່ໄປ, ຄົນແລະເພື່ອນຮ່ວມງານມີການສໍາຫລວດໃນຕໍ່ຫນ້າ censorship ອອນໄລນ໌ໃນປະເທດຈີນ (King, Pan, and Roberts 2014; King, Pan, and Roberts 2016) . ສໍາລັບວິທີການທີ່ກ່ຽວຂ້ອງກັບການວັດແທກ censorship ອອນໄລນ໌ໃນປະເທດຈີນ, ເບິ່ງ Bamman, O'Connor, and Smith (2012) . ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບວິທີການທາງສະຖິຕິເຊັ່ນ: ການຫນຶ່ງທີ່ໃຊ້ໃນການ King, Pan, and Roberts (2013) ເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງ 11 ລ້ານຂໍ້ຄວາມ, ເບິ່ງ Hopkins and King (2010) . ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການຮຽນຮູ້ຄວບຄຸມ, ເບິ່ງ James et al. (2013) (ຫນ້ອຍດ້ານວິຊາການ) ແລະ Hastie, Tibshirani, and Friedman (2009) (ເຕັກນິກ).

  • ພະຢາກອນ (Section 242)

ພະຢາກອນເປັນສ່ວນໃຫຍ່ຂອງຂໍ້ມູນອຸດສາຫະກໍາວິທະຍາສາດ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ຫນຶ່ງໃນປະເພດຂອງການພະຢາກອນທີ່ຈະເຮັດໂດຍທົ່ວໄປໂດຍນັກຄົ້ນຄວ້າທາງສັງຄົມການຄາດຄະເນພົນລະເມືອງ, ສໍາລັບການຍົກຕົວຢ່າງ Raftery et al. (2012) .

ກູໂກທ່າອ່ຽງຍາດໄຂ້ຫວັດໃຫຍ່ບໍ່ແມ່ນໂຄງການທໍາອິດທີ່ໃຊ້ຄົ້ນຫາຂໍ້ມູນເພື່ອ Nowcasting ອັດຕາໄຂ້ຫວັດໃຫຍ່. ໃນຄວາມເປັນຈິງ, ນັກຄົ້ນຄວ້າຢູ່ໃນສະຫະລັດອະເມລິກາ (Polgreen et al. 2008; Ginsberg et al. 2009) ແລະປາ (Hulth, Rydevik, and Linde 2009) ໄດ້ພົບເຫັນວ່າຂໍ້ກໍານົດການຊອກຫາສະເພາະໃດຫນຶ່ງ (ຕົວຢ່າງ, "ໄຂ້ຫວັດໃຫຍ່") ການຄາດຄະເນການເຝົ້າລະວັງສຸຂະພາບສາທາລະນະແຫ່ງຊາດ ຂໍ້ມູນກ່ອນທີ່ຈະໄດ້ປ່ອຍອອກມາເມື່ອ. ຕໍ່ມາຈໍານວນຫຼາຍ, ໂຄງການອື່ນໆຫຼາຍຄົນທີ່ໄດ້ພະຍາຍາມທີ່ຈະນໍາໃຊ້ຂໍ້ມູນການຕິດຕາມດິຈິຕອນສໍາລັບການຊອກຄົ້ນຫາການເຝົ້າລະວັງພະຍາດ, ເບິ່ງ Althouse et al. (2015) ສໍາລັບການທົບທວນຄືນໄດ້.

ນອກເຫນືອໄປຈາກການນໍາໃຊ້ຂໍ້ມູນການຕິດຕາມດິຈິຕອນການຄາດຄະເນຜົນໄດ້ຮັບຂອງສຸຂະພາບ, ໄດ້ມີການຍັງມີຈໍານວນ huge ຂອງການເຮັດວຽກໂດຍໃຊ້ຂໍ້ມູນ Twitter ຈະຄາດຄະເນຜົນໄດ້ຮັບການເລືອກຕັ້ງ; ສໍາລັບການທົບທວນຄືນເບິ່ງ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (Ch. 7), ແລະ Huberty (2015) .

ການນໍາໃຊ້ຂໍ້ມູນການຊອກຫາການຄາດການອັດຕາໄຂ້ຫວັດໃຫຍ່ແລະການນໍາໃຊ້ຂໍ້ມູນ Twitter ຈະຄາດຄະເນການເລືອກຕັ້ງຕົວຢ່າງທັງສອງຂອງການນໍາໃຊ້ປະເພດຂອງການຕິດຕາມດິຈິຕອນການຄາດຄະເນປະເພດຂອງເຫດການໃນໂລກຈໍານວນຫນຶ່ງ. ມີຈໍານວນ enormous ຂອງການສຶກສາທີ່ມີໂຄງສ້າງທົ່ວໄປ. ຕາຕະລາງ 25 ປະກອບມີຕົວຢ່າງອື່ນໆບໍ່ຫຼາຍປານໃດ.

ຕາຕະລາງ 25: ບັນຊີລາຍຊື່ບາງສ່ວນຂອງການສຶກສາການນໍາໃຊ້ບາງສ່ວນການຕິດຕາມດິຈິຕອນການຄາດຄະເນກໍລະນີບາງ.
ຕິດຕາມດິຈິຕອນ ຜົນໄດ້ຮັບ ການຂຽນກ່າວອ້າງ
Twitter Box ລາຍຮັບຫ້ອງການຂອງຮູບເງົາໃນສະຫະລັດ Asur and Huberman (2010)
ຂໍ້ມູນບັນທຶກການຄົ້ນຫາ ຂາຍຂອງຮູບເງົາ, ດົນຕີ, ປຶ້ມ, ແລະວິດີໂອເກມໃນສະຫະລັດ Goel et al. (2010)
Twitter Dow Jones ອຸດສາຫະກໍາສະເລ່ຍ (US ຕະຫຼາດຫຼັກຊັບ) Bollen, Mao, and Zeng (2011)
  • ການທົດລອງໂດຍປະມານ (Section 243)

ວາລະສານ PS ວິທະຍາສາດທາງດ້ານການເມືອງມີກອງປະຊຸມກ່ຽວກັບຂໍ້ມູນຂະຫນາດໃຫຍ່, ສະຫຼຸບເຫດ, ແລະທິດສະດີຢ່າງເປັນທາງການ, ແລະ Clark and Golder (2015) ສັງລວມແຕ່ລະປະກອບສ່ວນ. ການດໍາເນີນວາລະສານຂອງ National Academy of Sciences ຂອງສະຫະລັດອະເມລິກາມີກອງປະຊຸມກ່ຽວກັບການອະນຸມານ causal ແລະຂໍ້ມູນໃຫຍ່, ແລະ Shiffrin (2016) ສັງລວມແຕ່ລະປະກອບສ່ວນ.

ໃນແງ່ຂອງການປະສົບການທໍາມະຊາດ, Dunning (2012) ສະຫນອງການປິ່ນປົວຄວາມຍາວຫນັງສືທີ່ດີເລີດ. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການນໍາໃຊ້ຫວຽດນາມຮ່າງ lottery ເປັນການທົດລອງທໍາມະຊາດ, ເບິ່ງ Berinsky and Chatfield (2015) . ສໍາລັບວິທີການຮຽນຮູ້ຂອງເຄື່ອງທີ່ພະຍາຍາມທີ່ຈະຄົ້ນພົບການທົດລອງທໍາມະຊາດພາຍໃນຂອງແຫຼ່ງຂໍ້ມູນຂະຫນາດໃຫຍ່ອັດຕະໂນມັດ, ເບິ່ງ Jensen et al. (2008) ແລະ Sharma, Hofman, and Watts (2015) .

ໃນຂໍ້ກໍານົດຂອງການແຂ່ງຂັນ, ສໍາລັບການທົບທວນຄືນໃນແງ່ດີ, ເບິ່ງ Stuart (2010) , ແລະສໍາລັບການທົບທວນຄືນໃນແງ່ຮ້າຍເບິ່ງ Sekhon (2009) . ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການຈັບຄູ່ເປັນປະເພດຂອງ pruning ໃຫ້ເບິ່ງ Ho et al. (2007) . ສໍາລັບປຶ້ມທີ່ໃຫ້ການປິ່ນປົວທີ່ດີເລີດໃນການແຂ່ງຂັນ, ເບິ່ງ Rosenbaum (2002) , Rosenbaum (2009) , Morgan and Winship (2014) , ແລະ Imbens and Rubin (2015) .