بعض المعلومات أن الشركات والحكومات لديها حساس.
شركات التأمين الصحي ومعلومات مفصلة عن الرعاية الطبية من قبل عملائها الواردة. ويمكن استخدام هذه المعلومات للبحث مهم حول الصحة، ولكن إذا أصبح العام أنه يمكن ان تؤدي الى الضرر النفسي (على سبيل المثال، الحرج) وأضرار اقتصادية (على سبيل المثال، فقدان العمل). بعيدا عن العديد من مصادر البيانات المميزة، وكبيرة لديها معلومات التي تعتبر حساسة. الطبيعة الحساسة لهذه المعلومات هي جزء من السبب في أن مصادر البيانات الكبيرة هي في كثير من الأحيان لا يمكن الوصول إليها (المذكورة أعلاه).
إحدى الطرق التي يحاول الباحثون للتعامل مع هذا الوضع هو اجتثاث تحديد قواعد البيانات التي تحتوي على معلومات حساسة. ولكن، كما قلت سوف تظهر بالتفصيل في الفصل 6 (الأخلاق) هذا النهج بشكل خطير في الطرق التي لا تحظى بتقدير واسع النطاق بين علماء الاجتماع وعلماء البيانات.
في الختام، إلى مصادر البيانات الكبيرة من اليوم (وغدا) عموما عشر الخصائص. العديد من الخصائص كبيرة جيدة، ودائما على، ومتأخرا يأتي من حقيقة في الشركات العصر الرقمي والحكومات قادرون على جمع البيانات على نطاق لم يكن ممكنا في السابق. و، فإن العديد من سيئة خصائص غير مكتمل، لا يمكن الوصول إليها، غير ممثلة، الانجراف، مرتبك حسابيا، لا يمكن الوصول إليها، وقذرة، وحساسة من يأتي من حقيقة أن البيانات لم تجمع من قبل الباحثين للباحثين. فهم هذه الخصائص هي خطوة أولى ضرورية للتعلم من البيانات الكبيرة. والآن ننتقل للبحث عن الاستراتيجيات التي يمكن استخدامها مع هذه البيانات.