บางส่วนของข้อมูลที่ บริษัท และรัฐบาลมีความไว
บริษัท ประกันสุขภาพมีรายละเอียดข้อมูลเกี่ยวกับการดูแลทางการแพทย์ที่ได้รับจากลูกค้าของพวกเขา ข้อมูลเหล่านี้สามารถนำมาใช้สำหรับการวิจัยที่สำคัญเกี่ยวกับสุขภาพ แต่ถ้ามันกลายเป็นของสาธารณะก็อาจนำไปสู่อันตรายทางอารมณ์ (เช่นความลำบากใจ) และความเสียหายทางเศรษฐกิจ (เช่นการสูญเสียของการจ้างงาน) ห่างไกลจากความโดดเด่นหลายแหล่งที่มาของข้อมูลขนาดใหญ่มีข้อมูลที่มีความสำคัญ ธรรมชาติที่สำคัญของข้อมูลนี้เป็นส่วนหนึ่งของเหตุผลที่แหล่งที่มาของข้อมูลขนาดใหญ่มักจะไม่สามารถเข้าถึงได้ (อธิบายไว้ข้างต้น)
วิธีหนึ่งที่นักวิจัยพยายามที่จะจัดการกับสถานการณ์นี้คือการยกเลิกการแจ้งชุดข้อมูลที่มีข้อมูลที่สำคัญ แต่ที่ผมจะแสดงให้เห็นในรายละเอียดในบทที่ 6 (จริยธรรม) จำกัด วิธีการนี้อย่างจริงจังในรูปแบบที่ไม่ได้รับการชื่นชมอย่างกว้างขวางจากทั้งนักวิทยาศาสตร์และนักวิทยาศาสตร์สังคมข้อมูล
สรุปได้ว่าแหล่งที่มาของข้อมูลขนาดใหญ่ของวันนี้ (และในวันพรุ่งนี้) โดยทั่วไปมีลักษณะสิบ หลายคนที่ดีคุณสมบัติ-ใหญ่เสมอบนและ nonreactive มาจากความจริงที่ในยุคดิจิตอล บริษัท และรัฐบาลมีความสามารถในการเก็บรวบรวมข้อมูลในระดับที่เป็นไปไม่ได้ก่อนหน้านี้ และหลายคนที่ไม่ดีคุณสมบัติ-ไม่สมบูรณ์ไม่สามารถเข้าถึงได้ตัวแทนที่ไม่ใช่ลอยสับสนอัลกอริทึมไม่สามารถเข้าถึงสกปรกและที่สำคัญมาจากความจริงที่ว่าข้อมูลจะถูกไม่ได้เก็บรวบรวมโดยนักวิจัยสำหรับนักวิจัย ทำความเข้าใจเกี่ยวกับลักษณะเหล่านี้เป็นขั้นตอนแรกที่จำเป็นที่จะต้องเรียนรู้จากข้อมูลขนาดใหญ่ และตอนนี้เราหันไปกลยุทธ์การวิจัยเราสามารถใช้กับข้อมูลนี้