اداروں اور حکومتوں کی ہے کہ معلومات میں سے کچھ حساس ہے.
ہیلتھ انشورنس کمپنیوں کو اپنے گاہکوں کی طرف سے موصول ہونے والی طبی دیکھ بھال کے بارے میں تفصیلی معلومات ہے. یہ معلومات صحت کے بارے میں اہم تحقیق کے لئے استعمال کیا جا سکتا ہے، لیکن اگر یہ عوام بن جائے تو ممکنہ طور پر جذباتی نقصان (مثال کے طور پر، شرمندگی) یا اقتصادی نقصان (مثال کے طور پر، روزگار کا نقصان) ہوسکتا ہے. بہت سے دیگر بڑے اعداد و شمار کے ذریعہ بھی معلومات ہے جو حساس ہے ، اس کا حصہ یہ ہے کہ وہ اکثر قابل رسائی نہیں ہیں.
بدقسمتی سے، یہ فیصلہ کرنے کے لئے بہت مشکل ثابت ہوتا ہے کہ اصل معلومات حساس ہے (Ohm 2015) ، جیسا کہ نیٹفلکس انعام کی طرف اشارہ کیا گیا تھا. جیسا کہ میں باب 5 میں بیان کروں گا، 2006 میں Netflix نے تقریبا 500،000 فلموں کی تعداد تقریبا 500،000 کی طرف سے فراہم کی تھی اور انھوں نے ایک کھلا کال تھا جہاں فلموں کی سفارش کرنے کے لئے نیٹ ورکس کی صلاحیت کو بہتر بنایا جا سکتا ہے. اعداد و شمار کو جاری کرنے سے پہلے، Netflix کسی بھی واضح طور پر ذاتی طور پر شناخت کی معلومات، جیسے ناموں کو ہٹا دیا. لیکن اعداد و شمار اروند نریانان اور وٹیالی شمٹیکوف نے (2008) جاری ہونے کے بعد دو ہفتوں بعد یہ ظاہر کیا تھا کہ اس طرح کی چال کا استعمال کرتے ہوئے مخصوص لوگوں کی فلم کی درجہ بندی کے بارے میں جاننا ممکن تھا. میں آپ کو باب میں دکھائے گا. اگرچہ ایک حملہ آور کسی کو تلاش کرسکتا ہے شخص کی فلم کی درجہ بندی، یہاں تک کہ یہاں کچھ بھی حساس نہیں لگتا ہے. جبکہ یہ شاید عام طور پر درست ہوسکتا ہے، کم از کم 500،000 لوگوں کے ڈیٹا بیس میں، فلم کی درجہ بندی حساس تھی. حقیقت میں، اعداد و شمار کی رہائی اور دوبارہ شناخت کے جواب میں، ایک الماری ہم جنس پرست خاتون Netflix کے خلاف ایک کلاس کارروائی کارروائی میں شامل ہو گئے. اس مقدمے میں اس مسئلے کا اظہار کیا گیا ہے (Singel 2009) :
"[ایم] ovie اور درجہ بندی کے اعداد و شمار پر مشتمل ہے ... انتہائی ذاتی اور حساس فطرت. رکن کی فلم کے اعداد و شمار Netflix کے رکن کی ذاتی دلچسپی اور / یا مختلف انتہائی ذاتی مسائل، جنسی، دماغی بیماری، شراب سے بازیابی، اور incest، جسمانی بدعنوانی، گھریلو تشدد، زنا، اور عصمت دری کی طرف سے پریشان ہونے کے ساتھ جدوجہد کرتا ہے، کے ساتھ جدوجہد. "
اس مثال سے پتہ چلتا ہے کہ ایسی معلومات ہوسکتی ہے جو کچھ لوگ سنجیدہ ڈیٹا بیس بن سکتے ہیں جن میں حساس اندر موجود ہے. اس کے علاوہ، یہ ظاہر ہوتا ہے کہ ایک اہم دفاع جو محققین حساس اعداد و شمار کی ڈیجیٹل کی حفاظت کے لئے کام کرتی ہے- حیرت انگیز طریقے سے ناکام ہوسکتا ہے. یہ دو نظریات باب 6 میں مزید تفصیل سے تیار ہیں.
حساس اعداد و شمار کے بارے میں ذہن میں رکھنے کا آخری مقصد یہ ہے کہ لوگوں کی رضامندی کے بغیر اسے اخلاقی سوالات اٹھائے جائیں، یہاں تک کہ اگر کوئی خاص نقصان نہ ہو. ان کی رضامندی کے بغیر کسی شاور لینے کی طرح بہت زیادہ دیکھنا ممکن ہے کہ اس شخص کی رازداری کی خلاف ورزی کی جائے، سنجیدگی سے متعلق معلومات کو جمع کیا جائے اور یاد رکھنا مشکل ہو کہ حساس کیا ہے. میں باب 6 میں رازداری کے بارے میں سوالات واپس کروں گا.
آخر میں، بڑے اعداد و شمار کے ذرائع، جیسے سرکاری اور کاروباری انتظامی ریکارڈ، عام طور پر سماجی تحقیق کے مقصد کے لئے نہیں بنائے جاتے ہیں. آج اور بڑے پیمانے پر کل کے بڑے ڈیٹا ذرائع، 10 خصوصیات ہیں. بہت سے خصوصیات جو عام طور پر تحقیق، بڑے، ہمیشہ، اور غیر غیر فعال ہونے کے لئے اچھی طرح سے سمجھا جاتا ہے، ڈیجیٹل عمر کمپنیوں میں حقیقت سے آتے ہیں اور حکومتیں اس پیمانے پر اعداد و شمار جمع کرنے میں کامیاب ہیں جو پہلے ممکن نہیں تھے. اور بہت سے خصوصیات جو عام طور پر تحقیق، نامکمل، غیر معتبر، بہاؤ، الگورتھم کی طرف سے الجھن، ناقابل رسائی، گندی اور سنجیدگی سے خراب ہوتے ہیں اس حقیقت سے آتے ہیں کہ یہ اعداد و شمار محققین کے لئے محققین کی طرف سے نہیں جمع کیے گئے. اب تک میں نے حکومت اور کاروباری اعداد و شمار کے ساتھ ساتھ بات کی ہے، لیکن دونوں کے درمیان کچھ اختلافات موجود ہیں. میرے تجربے میں، حکومتی اعداد و شمار کم غیرقانونی، کم الگورتھم کی طرف سے الجھن، اور کم بڑھنے لگتی ہے. ایک طرف، کاروباری انتظامی ریکارڈ زیادہ ہمیشہ پر ہوتے ہیں. ان 10 عام خصوصیات کو سمجھنے کے بڑے اعداد و شمار سے سیکھنے کے ذریعہ سیکھنے کا پہلا پہلا مرحلہ ہے. اور اب ہم ریسرچ حکمت عملی کو تبدیل کرتے ہیں جو ہم اس ڈیٹا کے ساتھ استعمال کرسکتے ہیں.