اداروں اور حکومتوں کی ہے کہ معلومات میں سے کچھ حساس ہے.
صحت کی انشورنس کمپنیوں کو ان کے گاہکوں کی طرف سے موصول طبی دیکھ بھال کے بارے میں معلومات کو مفصل ہے. یہ معلومات صحت کے بارے میں اہم تحقیق کے لیے استعمال کیا جا سکتا، لیکن یہ عوامی بن گیا تو یہ ممکنہ طور پر جذباتی نقصان (مثلا، شرمندگی) اور اقتصادی نقصان (مثلا، روزگار کے نقصان) کی قیادت کر سکتے. بعید مخصوص، بہت بڑے اعداد و شمار کے ذرائع سے حساس ہے کہ معلومات ہے. اس معلومات کے حساس نوعیت بڑی ڈیٹا ذرائع اکثر ناقابل رسائی (اوپر بیان) ہیں کہ اس کی وجہ کا حصہ ہے.
محققین نے اس صورت حال سے نمٹنے کے لئے کی کوشش ہے کہ ایک طریقہ یہ اعداد و شمار ڈی کی شناخت حساس معلومات ہے کہ کرنے کے لئے ہے. لیکن، میں باب 6 (اخلاقیات) اس نقطہ نظر کو سنجیدگی سے وسیع پیمانے پر سماجی سائنسدانوں اور ڈیٹا سائنسدانوں کو دونوں طرف سے کی تعریف نہیں کر رہے ہیں اس طریقے سے لمیٹڈ میں تفصیل سے دکھایا جائے گا کے طور پر.
آخر میں، آج (کل) کے بڑے اعداد و شمار ذرائع عام طور پر دس خصوصیات ہیں. اچھی خصوصیات بگ، ہمیشہ پر، اور میں سے بہت سے ڈیجیٹل دور کمپنیوں میں حقیقت سے nonreactive آئیے اور حکومتوں کہ ماضی میں ممکن نہیں تھا ایک پیمانے پر اعداد و شمار جمع کرنے کے قابل ہیں. اور، برا خواص-نامکمل، ناقابل رسائی، غیر نمائندے کے بہت سے، بہتی، الگوردھمک، رسوا، ناقابل رسائی گندی، اور حساس آئیے اس حقیقت کو ڈیٹا کے محققین کے لئے محققین کی طرف سے جمع نہیں ہے اس سے. ان خصوصیات کو سمجھنا بڑی ڈیٹا سے سیکھنے کے لئے ایک ضروری پہلا قدم ہیں. اور، اب ہم اس کے ڈیٹا کے ساتھ استعمال کر سکتے ہیں کی حکمت عملی تحقیق کرنے کی باری ہے.