ປະເພດຫນຶ່ງຂອງການສັງເກດວ່າບໍ່ໄດ້ຖືກລວມຢູ່ໃນພາກນີ້ແມ່ນ ethnography. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບນິພົນສາດໃນສະຖານທີ່ດິຈິຕອນ, ເບິ່ງ Boellstorff et al. (2012) , ແລະສໍາລັບປະເທດອື່ນໆກ່ຽວກັບປະຫວັດສາດໃນພື້ນທີ່ດິຈິຕອນແລະທາງດ້ານຮ່າງກາຍ, ເບິ່ງ Lane (2016) .
ບໍ່ມີຄໍານິຍາມທີ່ເປັນເອກະສັນດຽວຂອງ "ຂໍ້ມູນຂະຫນາດໃຫຍ່" ແຕ່ຄໍານິຍາມຫຼາຍເບິ່ງຄືວ່າຈະສຸມໃສ່ "3 Vs": ປະລິມານ, ຄວາມຫຼາກຫຼາຍແລະຄວາມໄວ (ເຊັ່ນ Japec et al. (2015) ). ເບິ່ງ De Mauro et al. (2015) ສໍາລັບການທົບທວນຄືນຄໍານິຍາມ.
ການລວມເອົາຂໍ້ມູນການບໍລິຫານຂອງລັດໃນປະເພດຂອງຂໍ້ມູນໃຫຍ່ແມ່ນຜິດປົກກະຕິ, ເຖິງແມ່ນວ່າຄົນອື່ນໄດ້ເຮັດກໍລະນີນີ້, ລວມທັງ Legewie (2015) , Connelly et al. (2016) , ແລະ Einav and Levin (2014) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບມູນຄ່າຂອງຂໍ້ມູນການບໍລິຫານຂອງລັດຖະບານສໍາລັບການຄົ້ນຄວ້າ, ເບິ່ງ Card et al. (2010) , Adminstrative Data Taskforce (2012) , ແລະ Grusky, Smeeding, and Snipp (2015) .
ສໍາລັບທັດສະນະຂອງການຄົ້ນຄວ້າດ້ານການບໍລິຫານຈາກລະບົບສະຖິຕິຂອງລັດຖະບານ, ໂດຍສະເພາະແມ່ນສໍານັກງານສໍາຫຼວດສໍາຫຼວດສະຫະລັດ, ເບິ່ງ Jarmin and O'Hara (2016) . ສໍາລັບການສໍາຫຼວດໄລຍະຍາວຂອງການຄົ້ນຄວ້າການບັນທຶກການບໍລິຫານຢູ່ສະຖິຕິສວັດ, ເບິ່ງ Wallgren and Wallgren (2007) .
ໃນບົດນີ້, ຂ້າພະເຈົ້າໄດ້ປຽບທຽບການສໍາຫຼວດແບບດັ້ງເດີມເຊັ່ນການສໍາຫລວດສັງຄົມທົ່ວໄປ (GSS) ກັບແຫຼ່ງຂໍ້ມູນສື່ສັງຄົມເຊັ່ນ Twitter. ສໍາລັບການສົມທຽບຢ່າງລະອຽດແລະລະມັດລະວັງລະຫວ່າງການສໍາຫຼວດແບບດັ້ງເດີມແລະຂໍ້ມູນສື່ສັງຄົມ, ເບິ່ງ Schober et al. (2016)
ເຫຼົ່ານີ້ 10 ລັກສະນະຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ໄດ້ຖືກອະທິບາຍໃນແນວພັນທີ່ແຕກຕ່າງກັນໂດຍຜູ້ຂຽນຕ່າງໆ. ຂຽນວ່າມີອິດທິພົນຕໍ່ການຄິດຂອງຂ້ອຍກ່ຽວກັບບັນຫາເຫລົ່ານີ້ລວມທັງ Lazer et al. (2009) , Groves (2011) , Howison, Wiggins, and Crowston (2011) , boyd and Crawford (2012) , SJ Taylor (2013) , Mayer-Schönberger and Cukier (2013) , Golder and Macy (2014) , Ruths and Pfeffer (2014) , Tufekci (2014) , Sampson and Small (2015) , K. Lewis (2015b) , Lazer (2015) , Horton and Tambe (2015) , Japec et al. (2015) , ແລະ Goldstone and Lupyan (2016) .
ຕະຫຼອດພາກນີ້, ຂ້າພະເຈົ້າໄດ້ໃຊ້ຖ້ອຍຄໍາຂອງ ດິຈິຕອນ , ເຊິ່ງຂ້າພະເຈົ້າຄິດວ່າມັນແມ່ນຂ້ອນຂ້າງເປັນກາງ. ອີກປະການຫນຶ່ງທີ່ສໍາຄັນສໍາລັບການຕິດຕາມດິຈິຕອນແມ່ນການຕິດຕາມ ດິຈິຕອນ (Golder and Macy 2014) , ແຕ່ວ່າໃນຖານະເປັນ Hal Abelson, Ken Ledeen ແລະ Harry Lewis (2008) ຊີ້ໃຫ້ເຫັນວ່າໄລຍະທີ່ເຫມາະສົມແມ່ນ digital fingerprints . ໃນເວລາທີ່ທ່ານສ້າງ footprints, ທ່ານຮູ້ເຖິງສິ່ງທີ່ເກີດຂຶ້ນແລະຮອຍຕີນຂອງທ່ານກໍ່ບໍ່ສາມາດສືບທອດຕົວທ່ານເອງ. ດຽວກັນບໍ່ແມ່ນຄວາມຈິງສໍາລັບການຕິດຕາມດິຈິຕອນຂອງທ່ານ. ໃນຄວາມເປັນຈິງ, ທ່ານກໍາລັງເຮັດໃຫ້ຕາມຮອຍທັງຫມົດທີ່ໃຊ້ເວລາກ່ຽວກັບການທີ່ທ່ານມີຄວາມຮູ້ຫນ້ອຍຫຼາຍ. ແລະ, ເຖິງແມ່ນວ່າການຕິດຕາມເຫຼົ່ານີ້ບໍ່ມີຊື່ຂອງທ່ານຢູ່ກັບພວກເຂົາ, ພວກເຂົາເຈົ້າກໍ່ສາມາດເຊື່ອມຕໍ່ກັບທ່ານອີກເທື່ອຫນຶ່ງ. ໃນຄໍາສັບຕ່າງໆອື່ນໆ, ພວກເຂົາແມ່ນຄ້າຍຄື fingerprints: ເບິ່ງບໍ່ເຫັນແລະກໍານົດສ່ວນບຸກຄົນ.
ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ທີ່ເຮັດໃຫ້ການທົດສອບທາງສະຖິຕິມີບັນຫາ, ເບິ່ງ M. Lin, Lucas, and Shmueli (2013) ແລະ McFarland and McFarland (2015) . ບັນຫາເຫຼົ່ານີ້ຄວນເຮັດໃຫ້ນັກຄົ້ນຄ້ວາສຸມໃສ່ຄວາມສໍາຄັນທາງດ້ານປະຕິບັດແທນທີ່ຈະເປັນຄວາມສໍາຄັນທາງສະຖິຕິ.
ສໍາລັບເພີ່ມເຕີມກ່ຽວກັບວິທີການ Raj Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ຮັບການເຂົ້າເຖິງບັນທຶກການເກັບພາສີ, ເບິ່ງ Mervis (2014) .
ຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຍັງສາມາດສ້າງບັນຫາຄອມພິວເຕີທີ່ທົ່ວໄປນອກເຫນືອຈາກຄວາມສາມາດຂອງຄອມພິວເຕີ້ດຽວ. ດັ່ງນັ້ນ, ນັກຄົ້ນຄວ້າທີ່ເຮັດຄອມພິວເຕີ້ໃນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ມັກຈະແຜ່ຂະຫຍາຍວຽກງານຫຼາຍກວ່າຄອມພິວເຕີ້ຫຼາຍ, ຂະບວນການທີ່ບາງຄັ້ງເອີ້ນວ່າ ການຂຽນໂປແກຼມຂະຫນານ . ສໍາລັບການແນະນໍາການຂຽນໂປແກຼມໂດຍກົງ, ໂດຍສະເພາະພາສາທີ່ເອີ້ນວ່າ Hadoop, ເບິ່ງ Vo and Silvia (2016) .
ເມື່ອພິຈາລະນາຂໍ້ມູນສະເຫມີໄປ, ມັນເປັນສິ່ງສໍາຄັນທີ່ຈະພິຈາລະນາວ່າທ່ານກໍາລັງປຽບທຽບຄົນດຽວກັນກັບເວລາຫຼືວ່າທ່ານກໍາລັງປຽບທຽບກຸ່ມຄົນທີ່ມີການປ່ຽນແປງ; ເບິ່ງຕົວຢ່າງ, Diaz et al. (2016)
ປື້ມແບບຄລາສສິກກ່ຽວກັບມາດຕະການທີ່ບໍ່ມີການປະຕິບັດແມ່ນ Webb et al. (1966) ຕົວຢ່າງໃນປຶ້ມນັ້ນລ່ວງຫນ້າກັບອາຍຸຂອງດິຈິຕອນ, ແຕ່ພວກເຂົາຍັງສະຫວ່າງ. ສໍາລັບຕົວຢ່າງຂອງຄົນທີ່ມີການປ່ຽນແປງພຶດຕິກໍາຂອງເຂົາເຈົ້າຍ້ອນວ່າມີການເຝົ້າລະວັງມະຫາຊົນ, ເບິ່ງ Penney (2016) ແລະ Brayne (2014) .
ຜົນກະທົບແມ່ນກ່ຽວຂ້ອງຢ່າງໃກ້ຊິດກັບສິ່ງທີ່ນັກຄົ້ນຄວ້າເອີ້ນວ່າຜົນກະທົບດ້ານຄວາມຕ້ອງການ (Orne 1962; Zizzo 2010) ແລະຜົນກະທົບຂອງ Hawthorne (Adair 1984; Levitt and List 2011) .
ສໍາລັບເພີ່ມເຕີມກ່ຽວກັບການເຊື່ອມຕໍ່ການບັນທຶກ, ເບິ່ງ Dunn (1946) ແລະ Fellegi and Sunter (1969) (ປະຫວັດສາດ) ແລະ Larsen and Winkler (2014) (ທີ່ທັນສະໄຫມ). ວິທີການທີ່ຄ້າຍຄືກັນຍັງໄດ້ຮັບການພັດທະນາໃນວິທະຍາສາດຄອມພິວເຕີຢູ່ພາຍໃຕ້ຊື່ເຊັ່ນ: ການຖອນຂໍ້ມູນ, ການກໍານົດຕົວຕົນ, ການຈັບຄູ່ຊື່, ການຊອກຄົ້ນຫາຊ້ໍາແລະການຊອກຄົ້ນຫາແບບຊ້ອນກັນ (Elmagarmid, Ipeirotis, and Verykios 2007) . ຍັງມີວິທີການປົກປັກຮັກສາຄວາມເປັນສ່ວນຕົວເພື່ອບັນທຶກການເຊື່ອມຕໍ່ທີ່ບໍ່ຈໍາເປັນຕ້ອງໄດ້ສົ່ງຂໍ້ມູນສ່ວນບຸກຄົນທີ່ກໍານົດ (Schnell 2013) . ເຟສບຸກຍັງໄດ້ພັດທະນາຂະບວນການທີ່ຈະເຊື່ອມຕໍ່ບັນທຶກຂອງເຂົາເຈົ້າກັບພຶດຕິກໍາການເລືອກຕັ້ງ; ນີ້ໄດ້ເຮັດເພື່ອປະເມີນຜົນທົດລອງທີ່ຂ້ອຍຈະບອກທ່ານກ່ຽວກັບບົດທີ 4 (Bond et al. 2012; Jones et al. 2013) .
ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບຄວາມຖືກຕ້ອງຂອງການກໍ່ສ້າງ, ເບິ່ງບົດທີ 3 ຂອງ Shadish, Cook, and Campbell (2001) .
ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບບັນທຶກການຄົ້ນຫາຂອງ AOL, ເບິ່ງ Ohm (2010) . ຂ້ອຍສະເຫນີຄໍາແນະນໍາກ່ຽວກັບການຮ່ວມມືກັບບໍລິສັດແລະລັດຖະບານໃນພາກ 4 ໃນເວລາທີ່ຂ້ອຍອະທິບາຍການທົດລອງ. ຜູ້ຂຽນຈໍານວນຫນຶ່ງສະແດງຄວາມກັງວົນກ່ຽວກັບການຄົ້ນຄວ້າທີ່ອີງໃສ່ຂໍ້ມູນທີ່ບໍ່ສາມາດເຂົ້າເຖິງໄດ້, ເບິ່ງ Huberman (2012) ແລະ boyd and Crawford (2012) .
ຫນຶ່ງວິທີທີ່ດີສໍາລັບການຄົ້ນຄ້ວາວິທະຍາໄລທີ່ຈະໄດ້ຮັບການເຂົ້າເຖິງຂໍ້ມູນທີ່ຈະເຮັດວຽກຢູ່ໃນບໍລິສັດເປັນນັກຮຽນຝຶກຫັດຫຼືການຢ້ຽມຢາມນັກຄົ້ນຄວ້າ. ນອກເຫນືອໄປຈາກການເຮັດໃຫ້ການເຂົ້າເຖິງຂໍ້ມູນ, ຂະບວນການນີ້ຍັງຈະຊ່ວຍໃຫ້ນັກຄົ້ນຄວ້າໄດ້ຮຽນຮູ້ເພີ່ມເຕີມກ່ຽວກັບວິທີການຂໍ້ມູນດັ່ງກ່າວໄດ້ຖືກສ້າງຂຶ້ນ, ທີ່ເປັນສິ່ງສໍາຄັນສໍາລັບການວິເຄາະ.
ກ່ຽວກັບການເຂົ້າເຖິງຂໍ້ມູນຂອງລັດຖະບານ, Mervis (2014) ປຶກສາຫາລືກ່ຽວກັບວິທີການ Raj Chetty ແລະເພື່ອນຮ່ວມງານໄດ້ເຂົ້າເຖິງບັນທຶກການເກັບພາສີທີ່ນໍາໃຊ້ໃນການຄົ້ນຄວ້າຂອງເຂົາເຈົ້າກ່ຽວກັບການເຄື່ອນຍ້າຍທາງດ້ານສັງຄົມ.
ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບປະຫວັດຂອງ "ການເປັນຕົວແທນ" ເປັນແນວຄິດ, ເບິ່ງ Kruskal and Mosteller (1979a) , Kruskal and Mosteller (1979b) , Kruskal and Mosteller (1979c) , ແລະ Kruskal and Mosteller (1980) .
ບົດສະຫຼຸບຂອງວຽກງານຂອງ Snow ແລະວຽກງານຂອງ Doll ແລະ Hill ແມ່ນສັ້ນ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບວຽກງານຂອງຫິມະກ່ຽວກັບພະຍາດໂຣກ, ເບິ່ງ Freedman (1991) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການສຶກສາແພດຫມໍອັງກິດເບິ່ງ Doll et al. (2004) ແລະ Keating (2014) .
ນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍຈະປະຫລາດໃຈທີ່ຮູ້ວ່າເຖິງວ່າ Doll and Hill ໄດ້ເກັບຂໍ້ມູນຈາກແພດຫມໍຍິງແລະຈາກທ່ານຫມໍທີ່ມີອາຍຸຕໍ່າກວ່າ 35 ປີແລ້ວ, ພວກເຂົາເຈົ້າບໍ່ໄດ້ນໍາໃຊ້ຂໍ້ມູນນີ້ໃນການວິເຄາະຄັ້ງທໍາອິດຂອງພວກເຂົາ. ໃນຂະນະທີ່ພວກເຂົາໄດ້ໂຕ້ຖຽງວ່າ: "ນັບຕັ້ງແຕ່ການເປັນມະເຮັງປອດແມ່ນຫາຍາກສໍາລັບແມ່ຍິງແລະຜູ້ຊາຍທີ່ມີອາຍຸຕໍ່າກວ່າ 35 ປີ, ຕົວເລກທີ່ເປັນປະໂຫຍດບໍ່ສາມາດໄດ້ຮັບໃນກຸ່ມເຫຼົ່ານີ້ສໍາລັບບາງປີຕໍ່ມາ. Rothman, Gallacher, and Hatch (2013) , ເຊິ່ງມີຊື່ວ່າ "ການເປັນຕົວແທນຄວນຈະຫຼີກລ້ຽງ," ເຮັດໃຫ້ການໂຕ້ຖຽງທົ່ວໄປສໍາລັບມູນຄ່າຂອງ intentionally ສ້າງຂໍ້ມູນທີ່ບໍ່ແມ່ນຕົວແທນ.
ການບໍ່ເປັນຕົວແທນແມ່ນບັນຫາສໍາຄັນສໍາລັບນັກຄົ້ນຄວ້າແລະລັດຖະບານທີ່ຕ້ອງການລາຍງານກ່ຽວກັບປະຊາກອນທັງຫມົດ. ນີ້ແມ່ນຫນ້ອຍຂອງຄວາມກັງວົນສໍາລັບບໍລິສັດ, ເຊິ່ງໂດຍປົກກະຕິແມ່ນສຸມໃສ່ຜູ້ໃຊ້ຂອງພວກເຂົາ. ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບວິທີການສະຖິຕິເນເທີແລນໄດ້ພິຈາລະນາບັນຫາການບໍ່ປະສົບຜົນສໍາເລັດຂອງຂໍ້ມູນຂະຫນາດໃຫຍ່ຂອງທຸລະກິດ, ເບິ່ງ Buelens et al. (2014) .
ສໍາລັບຕົວຢ່າງຂອງນັກຄົ້ນຄວ້າສະແດງຄວາມກັງວົນກ່ຽວກັບລັກສະນະທີ່ບໍ່ເປັນຕົວແທນຂອງແຫຼ່ງຂໍ້ມູນໃຫຍ່, ເບິ່ງ boyd and Crawford (2012) , K. Lewis (2015b) , ແລະ Hargittai (2015) .
ສໍາລັບການປຽບທຽບລະອຽດກ່ຽວກັບເປົ້າຫມາຍຂອງການສໍາຫຼວດທາງສັງຄົມແລະການຄົ້ນຄວ້າພິເສດ, ເບິ່ງ Keiding and Louis (2016) .
ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບຄວາມພະຍາຍາມທີ່ຈະນໍາໃຊ້ Twitter ເພື່ອສ້າງຄວາມນິຍົມທົ່ວໄປກ່ຽວກັບຜູ້ລົງຄະແນນສຽງ, ໂດຍສະເພາະກໍລະນີຈາກການເລືອກຕັ້ງຂອງເຢຍລະມັນ 2009, ເບິ່ງ Jungherr (2013) ແລະ Jungherr (2015) . ຫຼັງຈາກການເຮັດວຽກຂອງ Tumasjan et al. (2010) ນັກຄົ້ນຄວ້າທົ່ວໂລກໄດ້ນໍາໃຊ້ວິທີການທີ່ຫນ້າຢ້ານກົວ - ເຊັ່ນການນໍາໃຊ້ການວິເຄາະຄວາມຮູ້ສຶກເພື່ອແຍກແຍະລະຫວ່າງຄໍາແນະນໍາໃນທາງບວກແລະລົບຂອງພາກສ່ວນຕ່າງໆ - ເພື່ອປັບປຸງຄວາມສາມາດຂອງຂໍ້ມູນ Twitter ໃນການຄາດເດົາປະເພດຕ່າງໆຂອງການເລືອກຕັ້ງ (Gayo-Avello 2013; Jungherr 2015, chap. 7.) . ນີ້ແມ່ນວິທີການ Huberty (2015) ສະຫຼຸບຜົນຂອງຄວາມພະຍາຍາມເຫຼົ່ານີ້ເພື່ອຄາດການການເລືອກຕັ້ງ:
"ວິທີການຄາດຄະເນທັງຫມົດທີ່ຮູ້ມາໂດຍອີງໃສ່ສື່ມວນຊົນສັງຄົມໄດ້ລົ້ມເຫຼວໃນເວລາທີ່ຖືກຕ້ອງຕາມຄວາມຕ້ອງການຂອງການຄາດຄະເນການເລືອກຕັ້ງທີ່ມີຄວາມຄາດຫວັງແບບໃຫມ່. ຄວາມລົ້ມເຫຼວເຫຼົ່ານີ້ເບິ່ງຄືວ່າມີຄຸນສົມບັດພື້ນຖານຂອງສື່ມວນຊົນສັງຄົມ, ແທນທີ່ຈະມີຄວາມຫຍຸ້ງຍາກທາງວິຊາການຫຼືທາງວິຊາການ. ໃນສັ້ນ, ສື່ມວນຊົນສັງຄົມບໍ່, ແລະອາດຈະບໍ່, ຈະສະຫນອງຮູບພາບທີ່ມີຄວາມຫມັ້ນຄົງ, ບໍ່ສະເຫມີພາບ, ເປັນຕົວແທນຂອງຜູ້ເລືອກຕັ້ງ; ແລະຕົວຢ່າງຄວາມສະດວກສະບາຍຂອງສື່ສັງຄົມບໍ່ມີຂໍ້ມູນພຽງພໍເພື່ອແກ້ໄຂບັນຫາເຫລົ່ານີ້. "
ໃນພາກທີ 3, ຂ້ອຍຈະອະທິບາຍຕົວຢ່າງແລະການຄາດຄະເນໃນລາຍລະອຽດຫຼາຍຂຶ້ນ. ເຖິງແມ່ນວ່າຂໍ້ມູນບໍ່ແມ່ນຕົວແທນ, ພາຍໃຕ້ເງື່ອນໄຂບາງຢ່າງ, ພວກເຂົາສາມາດຖືກນ້ໍາຫນັກເພື່ອຜະລິດປະມານການທີ່ດີ.
ຄວາມຫຼາກຫຼາຍຂອງລະບົບແມ່ນຍາກທີ່ຈະເບິ່ງຈາກພາຍນອກ. ຢ່າງໃດກໍ່ຕາມ, ໂຄງການ MovieLens (ພິຈາລະນາໃນພາກ 4) ໄດ້ດໍາເນີນການຫຼາຍກວ່າ 15 ປີໂດຍກຸ່ມວິຊາການດ້ານວິຊາການ. ດັ່ງນັ້ນ, ພວກເຂົາເຈົ້າສາມາດຈັດພິມເອກະສານແລະແລກປ່ຽນຂໍ້ມູນກ່ຽວກັບວິທີການທີ່ລະບົບໄດ້ມີການພັດທະນາໃນໄລຍະເວລາແລະວິທີການນີ້ອາດຈະມີຜົນກະທົບຕໍ່ການວິເຄາະ (Harper and Konstan 2015) .
ນັກວິຊາການຈໍານວນຫນຶ່ງໄດ້ສຸມໃສ່ການລອຍຕົວໃນ Twitter: Liu, Kliman-Silver, and Mislove (2014) ແລະ Tufekci (2014) .
ວິທີຫນຶ່ງໃນການຈັດການກັບການຫຼີ້ນຂອງປະຊາກອນແມ່ນເພື່ອສ້າງກຸ່ມຜູ້ໃຊ້ທີ່ອະນຸຍາດໃຫ້ນັກຄົ້ນຄວ້າສຶກສາຄົນດຽວກັນໃນໄລຍະເວລາ, ເບິ່ງ Diaz et al. (2016)
ຂ້າພະເຈົ້າໄດ້ຍິນຄັ້ງທໍາອິດວ່າຄໍາສັບ "ສັບສົນຕາມລະບົບ" ທີ່ Jon Kleinberg ໃຊ້ໃນການສົນທະນາແຕ່ຫນ້າເສຍດາຍຂ້າພະເຈົ້າບໍ່ຈໍາໄວ້ວ່າເວລາຫລືບ່ອນທີ່ສົນທະນາໄດ້ຖືກມອບໃຫ້. ຄັ້ງທໍາອິດທີ່ຂ້າພະເຈົ້າໄດ້ເຫັນໃນໄລຍະນີ້ແມ່ນຢູ່ໃນ Anderson et al. (2015) , ເຊິ່ງເປັນການສົນທະນາທີ່ຫນ້າສົນໃຈກ່ຽວກັບວິທີການໃຊ້ວິທີການນໍາໃຊ້ໂດຍສະຖານທີ່ dating ອາດເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດນໍາໃຊ້ຂໍ້ມູນຈາກເວັບໄຊທ໌ເຫຼົ່ານີ້ເພື່ອສຶກສາຄວາມຕ້ອງການທາງສັງຄົມ. ຄວາມກັງວົນນີ້ໄດ້ຖືກຍົກຂຶ້ນມາໂດຍ K. Lewis (2015a) ເພື່ອຕອບສະຫນອງຕໍ່ Anderson et al. (2014) .
ນອກເຫນືອໄປຈາກເຟສບຸກ, Twitter ຍັງແນະນໍາໃຫ້ປະຊາຊົນສໍາລັບຜູ້ໃຊ້ໃຫ້ຕິດຕາມໂດຍອີງໃສ່ຄວາມຄິດຂອງການປິດສາມຫຼ່ຽມ; ເບິ່ງ Su, Sharma, and Goel (2016) . ດັ່ງນັ້ນ, ລະດັບຂອງການປິດ triadic ໃນ Twitter ແມ່ນການປະສົມປະສານຂອງແນວໂນ້ມຂອງມະນຸດບາງຢ່າງຕໍ່ກັບການປິດ triadic ແລະແນວໂນ້ມການວິທີການບາງຢ່າງເພື່ອສົ່ງເສີມການປິດສາມຫຼ່ຽມ.
ສໍາລັບຫຼາຍປະສົບການກ່ຽວກັບການປະຕິບັດ, ໂດຍສະເພາະຄວາມຄິດທີ່ວ່າທິດສະດີວິທະຍາສາດສັງຄົມບາງແມ່ນ "ເຄື່ອງຈັກບໍ່ແມ່ນກ້ອງ" (ເຊັ່ນ, ພວກເຂົາຮູບຮ່າງໂລກແທນທີ່ຈະພຽງແຕ່ອະທິບາຍມັນ) -see Mackenzie (2008) .
ອົງການສະຖິຕິລັດຖະບານໂທຫາຂໍ້ ມູນການແກ້ໄຂຂໍ້ມູນສະຖິຕິສະຖິຕິ . De Waal, Puts, and Daas (2014) ອະທິບາຍເຕັກນິກການດັດແກ້ຂໍ້ມູນສະຖິຕິທີ່ຖືກພັດທະນາສໍາລັບຂໍ້ມູນການສໍາຫຼວດແລະກວດສອບຂອບເຂດທີ່ພວກເຂົາສາມາດນໍາໃຊ້ກັບແຫລ່ງຂໍ້ມູນທີ່ໃຫຍ່ແລະ Puts, Daas, and Waal (2015) ຜູ້ຊົມທົ່ວໄປຫຼາຍ.
ສໍາລັບສະພາບລວມຂອງ bots ສັງຄົມ, ເບິ່ງ Ferrara et al. (2016) ສໍາລັບບາງຕົວຢ່າງຂອງການສຶກສາສຸມໃສ່ການຊອກຫາຂີ້ເຫຍື້ອໃນ Twitter, ເບິ່ງ Clark et al. (2016) ແລະ Chu et al. (2012) ສຸດທ້າຍ, Subrahmanian et al. (2016) ອະທິບາຍຜົນຂອງການທ້າທາຍ DARPA Twitter Bot, ການຮ່ວມມືມວນຊົນທີ່ຖືກອອກແບບມາເພື່ອປຽບທຽບວິທີການຊອກຫາບັອດໃນ Twitter.
Ohm (2015) ທົບທວນຄືນການຄົ້ນຄວ້າກ່ອນຫນ້ານີ້ກ່ຽວກັບຄວາມຄິດຂອງຂໍ້ມູນທີ່ລະອຽດອ່ອນແລະມີການທົດສອບຫຼາຍປັດໃຈ. ປັດໄຈສີ່ທີ່ລາວສະເຫນີແມ່ນຄວາມຮ້າຍແຮງຂອງຄວາມເປັນອັນຕະລາຍ, ຄວາມເປັນໄປໄດ້ຂອງຄວາມອັນຕະລາຍ, ການມີຄວາມສໍາພັນທີ່ເປັນຄວາມລັບ, ແລະຄວາມສ່ຽງທີ່ສະແດງໃຫ້ເຫັນເຖິງຄວາມກັງວົນຫລາຍທີ່ສຸດ.
ການສຶກສາຂອງ Farber ກ່ຽວກັບ taxis ໃນນິວຢອກແມ່ນອີງໃສ່ການສຶກສາກ່ອນໂດຍ Camerer et al. (1997) ທີ່ນໍາໃຊ້ຕົວຢ່າງຄວາມສະດວກສະບາຍຕ່າງໆທີ່ແຕກຕ່າງກັນຂອງແຜ່ນເຈ້ຍ. ການສຶກສາກ່ອນຫນ້ານີ້ໄດ້ພົບເຫັນວ່າຜູ້ຂັບຂີ່ເບິ່ງຄືວ່າຈະເປັນຜູ້ທີ່ມີລາຍໄດ້ເປົ້າຫມາຍ: ພວກເຂົາເຮັດວຽກຫນ້ອຍລົງໃນມື້ທີ່ເງິນຄ່າແຮງງານຂອງພວກເຂົາສູງຂຶ້ນ.
ໃນການເຮັດວຽກຕໍ່ໄປ, ທ່ານ King ແລະເພື່ອນຮ່ວມງານໄດ້ຄົ້ນຄວ້າສືບຕໍ່ການຄວບຄຸມແບບອອນໄລນ໌ໃນປະເທດຈີນ (King, Pan, and Roberts 2014, [@king_how_2016] ) . ສໍາລັບວິທີການທີ່ກ່ຽວຂ້ອງກັບການວັດແທກການກວດສອບອອນໄລນ໌ໃນປະເທດຈີນ, ເບິ່ງ Bamman, O'Connor, and Smith (2012) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບວິທີການສະຖິຕິເຊັ່ນການນໍາໃຊ້ໃນ King, Pan, and Roberts (2013) ເພື່ອປະເມີນຄວາມຮູ້ສຶກຂອງ 11 ລ້ານໂພສ, ເບິ່ງ Hopkins and King (2010) . ສໍາລັບຂໍ້ມູນເພີ່ມເຕີມກ່ຽວກັບການຮຽນການເບິ່ງແຍງ, ເບິ່ງ James et al. (2013) (ຫນ້ອຍທາງດ້ານເທກນິກ) ແລະ Hastie, Tibshirani, and Friedman (2009) (ເຕັກນິກຫຼາຍ).
ການຄາດຄະເນແມ່ນສ່ວນໃຫຍ່ຂອງວິທະຍາສາດຂໍ້ມູນອຸດສາຫະກໍາ (Mayer-Schönberger and Cukier 2013; Provost and Fawcett 2013) . ປະເພດຫນຶ່ງຂອງການຄາດຄະເນທີ່ປະຕິບັດໂດຍທົ່ວໄປໂດຍນັກຄົ້ນຄວ້າສັງຄົມແມ່ນການຄາດຄະເນປະຊາກອນ; ເບິ່ງ, ຍົກຕົວຢ່າງ, Raftery et al. (2012)
Google Flu Trends ບໍ່ໄດ້ເປັນໂຄງການທໍາອິດທີ່ນໍາໃຊ້ຂໍ້ມູນການຄົ້ນຫາເພື່ອການເຕີບໂຕຂອງໂລກໄຂ້ຫວັດໃຫຍ່ nowign. ໃນຄວາມເປັນຈິງ, ນັກຄົ້ນຄວ້າໃນສະຫະລັດອາເມລິກາ (Polgreen et al. 2008; Ginsberg et al. 2009) ແລະສວີເດນ (Hulth, Rydevik, and Linde 2009) ໄດ້ຄົ້ນພົບວ່າຄໍາຄົ້ນຫາບາງຢ່າງ (ເຊັ່ນ "ໄຂ້ຫວັດໃຫຍ່") ຂໍ້ມູນກ່ອນທີ່ມັນຈະຖືກປ່ອຍອອກມາ. ຫຼັງຈາກນັ້ນ, ຫຼາຍໆໂຄງການອື່ນໆໄດ້ພະຍາຍາມນໍາໃຊ້ຂໍ້ມູນການຕິດຕາມດິຈິຕອນສໍາລັບການກວດສອບການຕິດຕາມກວດກາພະຍາດ; ເບິ່ງ Althouse et al. (2015) ສໍາລັບການທົບທວນຄືນ.
ນອກເຫນືອຈາກການນໍາໃຊ້ຂໍ້ມູນຂໍ້ມູນດັກດິຈິຕອນເພື່ອຄາດຄະເນຜົນໄດ້ຮັບດ້ານສຸຂະພາບແລ້ວ, ຍັງມີຈໍານວນການເຮັດວຽກທີ່ໃຊ້ຂໍ້ມູນ Twitter ທີ່ຄາດຄະເນຜົນສໍາເລັດໃນການເລືອກຕັ້ງ; ສໍາລັບການທົບທວນເບິ່ງ Gayo-Avello (2011) , Gayo-Avello (2013) , Jungherr (2015) (ບົດທີ 7), ແລະ Huberty (2015) . ການເຕີບໂຕຂອງຕົວຊີ້ວັດດ້ານເສດຖະກິດ, ເຊັ່ນ: ຜະລິດຕະພັນພາຍໃນລວມ (GDP), ຍັງເປັນສາມັນທີ່ຢູ່ໃນທະນາຄານກາງ, ເບິ່ງ Bańbura et al. (2013) ຕາຕະລາງ 2.8 ປະກອບມີຕົວຢ່າງບາງຢ່າງຂອງການສຶກສາທີ່ໃຊ້ປະເພດໃດຫນຶ່ງຂອງການຕິດຕາມດິຈິຕອນເພື່ອຄາດຄະເນບາງປະເພດຂອງເຫດການໃນໂລກ.
Digital trace | ຜົນໄດ້ຮັບ | ການອ້າງອິງ |
---|---|---|
ອັດຕາພາສີຂອງຫນັງເລື່ອງພາພະຍົນໃນສະຫະລັດ | Asur and Huberman (2010) | |
ປື້ມຊອກຫາ | ການຂາຍຫນັງສື, ດົນຕີ, ປຶ້ມ, ແລະເກມວີດີໂອໃນສະຫະລັດ | Goel et al. (2010) |
Dow Jones Industrial Average (ຕະຫຼາດຫຼັກຊັບສະຫະລັດ) | Bollen, Mao, and Zeng (2011) | |
ສື່ສັງຄົມແລະບັນທຶກການຊອກຫາ | ການສໍາຫຼວດຄວາມໃຈບຸນຂອງນັກລົງທຶນແລະຕະຫຼາດຫຼັກຊັບໃນສະຫະລັດອາເມລິກາ, ອັງກິດ, ການາດາແລະຈີນ | Mao et al. (2015) |
ປື້ມຊອກຫາ | ການແຜ່ກະຈາຍຂອງພະຍາດໄຂ້ເລືອດອອກໃນສິງກະໂປແລະກຸງເທບມະຫານະຄອນ | Althouse, Ng, and Cummings (2011) |
ໃນທີ່ສຸດ, Jon Kleinberg ແລະເພື່ອນຮ່ວມງານ (2015) ໄດ້ຊີ້ໃຫ້ເຫັນວ່າບັນຫາການຄາດຄະເນເປັນສອງປະເພດທີ່ແຕກຕ່າງກັນຫຼາຍແລະນັກວິທະຍາສາດສັງຄົມມີແນວໂນ້ມທີ່ຈະສຸມໃສ່ຫນຶ່ງແລະບໍ່ສົນໃຈກັນ. ຈິນຕະນາການຜູ້ຫນຶ່ງໃນນະໂຍບາຍ, ຂ້າພະເຈົ້າຈະໂທຫານາງ Anna, ຜູ້ທີ່ກໍາລັງປະເຊີນໄພແຫ້ງແລ້ງແລະຕ້ອງຕັດສິນໃຈທີ່ຈະຈ້າງນັກເຕັ້ນລໍາເພື່ອເຕັ້ນລໍາຝົນເພື່ອເພີ່ມໂອກາດຂອງຝົນ. ຜູ້ປະຕິບັດນະໂຍບາຍອີກ, ຂ້າພະເຈົ້າຈະໂທຫານາງ Betty, ຕ້ອງຕັດສິນໃຈວ່າຈະໃຊ້ umbrella ເພື່ອເຮັດວຽກເພື່ອຫຼີກເວັ້ນການເຊົາຢູ່ໃນເຮືອນ. ທັງ Anna ແລະ Betty ສາມາດຕັດສິນໃຈທີ່ດີກວ່າຖ້າພວກເຂົາເຂົ້າໃຈສະພາບອາກາດ, ແຕ່ພວກເຂົາຕ້ອງຮູ້ເລື່ອງຕ່າງໆ. Anna ຕ້ອງເຂົ້າໃຈວ່າຝົນຝົນເປັນຝົນ. Betty, ໃນທາງກົງກັນຂ້າມ, ບໍ່ຈໍາເປັນຕ້ອງເຂົ້າໃຈຫຍັງກ່ຽວກັບເຫດຜົນ; ນາງພຽງແຕ່ຕ້ອງການການຄາດຄະເນທີ່ຖືກຕ້ອງ. ນັກຄົ້ນຄວ້າສັງຄົມມັກຈະມຸ່ງເນັ້ນໃສ່ບັນຫາຕ່າງໆເຊັ່ນວ່າ Anna - ເຊິ່ງ Kleinberg ແລະເພື່ອນຮ່ວມງານເອີ້ນບັນຫານະໂຍບາຍ "ຝົນຕົກຄ້າຍຄືກັນ" - ເພາະວ່າພວກເຂົາມີຄໍາຖາມກ່ຽວກັບເຫດຜົນ. ຄໍາຖາມທີ່ຄ້າຍຄືກັບ Betty ເຊິ່ງ Kleinberg ແລະເພື່ອນຮ່ວມງານເອີ້ນວ່າບັນຫານະໂຍບາຍ "ທີ່ຄ້າຍຄືກັນ" ອາດເປັນສິ່ງສໍາຄັນເຊັ່ນກັນແຕ່ໄດ້ຮັບຄວາມສົນໃຈຈາກນັກຄົ້ນຄວ້າສັງຄົມ.
ວາລະສານວາລະສານ ວິທະຍາສາດສາທາລະນະ ໄດ້ມີກອງປະຊຸມກ່ຽວກັບຂໍ້ມູນໃຫຍ່, ການຄິດໄລ່ causal ແລະທິດສະດີທາງການ, ແລະ Clark and Golder (2015) ສະຫຼຸບການປະກອບສ່ວນຂອງແຕ່ລະປະເທດ. ວາລະສານ ວິຊາການຂອງສະຖາບັນວິທະຍາສາດແຫ່ງຊາດຂອງສະຫະລັດອາເມລິກາ ໄດ້ມີການສົນທະນາກ່ຽວກັບຂໍ້ມູນກ່ຽວກັບເຫດຜົນແລະຂໍ້ມູນໃຫຍ່, ແລະ Shiffrin (2016) ສະຫຼຸບການປະກອບສ່ວນແຕ່ລະຄົນ. ສໍາລັບວິທີການຮຽນຮູ້ຂອງເຄື່ອງຈັກທີ່ພະຍາຍາມຊອກຫາແບບທົດລອງແບບທໍາມະຊາດພາຍໃນແຫຼ່ງຂໍ້ມູນໃຫຍ່, ເບິ່ງ Jensen et al. (2008) , Sharma, Hofman, and Watts (2015) , ແລະ Sharma, Hofman, and Watts (2016) .
ໃນແງ່ຂອງການທົດລອງທາງທໍາມະຊາດ, Dunning (2012) ສະຫນອງການປິ່ນປົວແນະນໍາ, ໄລຍະຍາວ, ມີຫຼາຍຕົວຢ່າງ. ສໍາລັບຄວາມບໍ່ເຊື່ອຖືຂອງປະສົບການທໍາມະຊາດ, ເບິ່ງ Rosenzweig and Wolpin (2000) (ເສດຖະສາດ) ຫຼື Sekhon and Titiunik (2012) (ວິທະຍາສາດການເມືອງ). Deaton (2010) ແລະ Heckman and Urzúa (2010) ເວົ້າວ່າການສຸມໃສ່ການທົດລອງແບບທໍາມະຊາດສາມາດນໍານັກຄົ້ນຄວ້າເຂົ້າໃຈກ່ຽວກັບຜົນກະທົບທາງລົບທີ່ບໍ່ສໍາຄັນ; Imbens (2010) counters ການໂຕ້ຖຽງເຫຼົ່ານີ້ມີທັດສະ optimistic ຫຼາຍຂອງມູນຄ່າຂອງການທົດລອງທໍາມະຊາດ.
ໃນເວລາທີ່ອະທິບາຍວິທີການນັກຄົ້ນຄວ້າສາມາດໄປຈາກການຄາດຄະເນຜົນກະທົບຂອງການຖືກ drafted ກັບຜົນກະທົບຂອງການຮັບໃຊ້ໄດ້, ຂ້າພະເຈົ້າໄດ້ອະທິບາຍເຕັກນິກທີ່ເອີ້ນວ່າ ຕົວແປເຄື່ອງມື . Imbens and Rubin (2015) , ໃນພາກທີ 23 ແລະ 24 ຂອງພວກເຂົາ, ໃຫ້ຄໍາແນະນໍາແລະນໍາໃຊ້ຕົວເລກຫຼີ້ນເປັນຕົວຢ່າງ. ຜົນກະທົບຂອງການບໍລິການດ້ານການທະຫານກ່ຽວກັບນັກຄອມພິວເຕີແມ່ນບາງຄັ້ງເອີ້ນວ່າຜົນກະທົບທາງລົບ (CAcE), ແລະບາງຄັ້ງມີຜົນກະທົບຕໍ່ການປິ່ນປົວໃນທ້ອງຖິ່ນ (LATE). Sovey and Green (2011) , Angrist and Krueger (2001) , ແລະ Bollen (2012) ໃຫ້ຄໍາເຫັນກ່ຽວກັບການນໍາໃຊ້ຕົວແປຕ່າງໆໃນວິທະຍາສາດດ້ານການເມືອງ, ເສດຖະສາດແລະສັງຄົມ, ແລະ Sovey and Green (2011) ໃຫ້ "ລາຍການກວດສອບຂອງຜູ້ອ່ານ" ການປະເມີນຜົນການສຶກສາໂດຍນໍາໃຊ້ຕົວແປເຄື່ອງມື.
ມັນສະແດງໃຫ້ເຫັນວ່າການສະບັບປີ 1970 ບໍ່ໄດ້, ໃນຕົວຈິງຢ່າງສຸ່ມ; ມີຄວາມແຕກຕ່າງເລັກນ້ອຍຈາກການສຸ່ມຢ່າງແທ້ຈິງ (Fienberg 1971) . Berinsky and Chatfield (2015) ໂຕ້ຖຽງວ່າຄວາມແຕກຕ່າງເລັກນ້ອຍນີ້ບໍ່ສໍາຄັນຢ່າງສໍາຄັນແລະປຶກສາຫາລືກ່ຽວກັບຄວາມສໍາຄັນຂອງການນໍາໃຊ້ແບບສຸ່ມ.
ໃນແງ່ຂອງການຈັບຄູ່, ເບິ່ງ Stuart (2010) ສໍາລັບການທົບທວນຄືນທີ່ດີ, ແລະ Sekhon (2009) ສໍາລັບການທົບທວນ pessimistic. ສໍາລັບການເພີ່ມເຕີມກ່ຽວກັບການຈັບຄູ່ເປັນປະເພດຂອງ pruning, ເບິ່ງ Ho et al. (2007) ຊອກຫາຄໍາທີ່ສົມບູນແບບດຽວກັນສໍາລັບແຕ່ລະຄົນແມ່ນມັກຈະມີຄວາມຫຍຸ້ງຍາກ, ແລະນີ້ຈະນໍາສະເຫນີຄວາມສັບສົນຈໍານວນຫນຶ່ງ. ຫນ້າທໍາອິດ, ເມື່ອບໍ່ກົງກັນກັບຕົວຈິງ, ນັກຄົ້ນຄວ້າຈໍາເປັນຕ້ອງຕັດສິນໃຈວ່າຈະໄລຍະຫ່າງລະຫວ່າງສອງຫນ່ວຍແລະຖ້າໄລຍະຫ່າງໃດຫນຶ່ງແມ່ນພຽງພໍ. ຄວາມສັບສົນທີສອງຈະເກີດຂື້ນຖ້ານັກວິໄຈຕ້ອງການນໍາໃຊ້ຫຼາຍຄໍາສໍາລັບແຕ່ລະກໍລະນີໃນກຸ່ມປິ່ນປົວ, ເພາະວ່ານີ້ອາດຈະນໍາໄປສູ່ການຄາດຄະເນທີ່ຊັດເຈນກວ່າ. ທັງສອງບັນຫາເຫຼົ່ານີ້, ເຊັ່ນດຽວກັນກັບຄົນອື່ນ, ໄດ້ຖືກອະທິບາຍໄວ້ໃນລາຍລະອຽດໃນບົດ 18 ຂອງ Imbens and Rubin (2015) . ເບິ່ງພາກທີ II ຂອງ ( ??? ) .
ເບິ່ງ Dehejia and Wahba (1999) ສໍາລັບຕົວຢ່າງທີ່ວິທີການຈັບຄູ່ສາມາດຜະລິດປະມານການທີ່ຄ້າຍຄືກັນກັບການທົດລອງຄວບຄຸມແບບສຸ່ມ. ແຕ່ເບິ່ງ Arceneaux, Gerber, and Green (2006) ແລະ Arceneaux, Gerber, and Green (2010) ສໍາລັບຕົວຢ່າງທີ່ວິທີການຈັບຄູ່ບໍ່ສາມາດຜະລິດທົດລອງມາດຕະຖານທົດລອງໄດ້.
Rosenbaum (2015) ແລະ Hernán and Robins (2016) ສະເຫນີຄໍາແນະນໍາອື່ນໆເພື່ອຄົ້ນພົບການປຽບທຽບທີ່ເປັນປະໂຫຍດພາຍໃນແຫຼ່ງຂໍ້ມູນໃຫຍ່.