তথ্য কোম্পানি এবং সরকার আছে কিছু স্পর্শকাতর.
স্বাস্থ্য বীমা কোম্পানি তাদের গ্রাহকদের দ্বারা প্রাপ্ত চিকিৎসা যত্ন সম্পর্কে বিস্তারিত তথ্য আছে। এই তথ্যটি স্বাস্থ্য সম্পর্কিত গুরুত্বপূর্ণ গবেষণার জন্য ব্যবহার করা যেতে পারে, তবে এটি যদি সার্বজনীন হয়ে থাকে তবে এটি সম্ভাব্য মানসিক ক্ষতি (যেমন, অস্বস্তি) বা অর্থনৈতিক ক্ষতি (যেমন, কর্মসংস্থান ক্ষতি) হতে পারে। অনেকগুলি বড় বড় তথ্য উত্সগুলিও এমন তথ্য রয়েছে যা সংবেদনশীল , যা সেই কারণগুলির একটি অংশ যা কেন তারা প্রায়ই অ্যাক্সেসেবল।
দুর্ভাগ্যবশত, এটি কি আসলেই সংবেদনশীল (Ohm 2015) কোনটি সিদ্ধান্ত নেওয়ার জন্য তাত্পর্যপূর্ণ হতে পারে, যেমনটি Netflix Prize দ্বারা চিত্রিত করা হয়েছিল আমি 5 অধ্যায় বর্ণনা করা হবে, 2006 সালে Netflix প্রায় 500,000 সদস্যদের দ্বারা সরবরাহিত 100 মিলিয়ন চলচ্চিত্র রেটিং মুক্তি এবং বিশ্বব্যাপী সব থেকে বিশ্বব্যাপী যারা অ্যালগরিদম পাঠিয়েছে যে চলচ্চিত্র সুপারিশ করার Netflix এর ক্ষমতা উন্নত করতে পারে যেখানে খোলা কল ছিল। তথ্য প্রকাশ করার আগে, Netflix নামক যেমন কোনো স্বতন্ত্র স্বতন্ত্র তথ্য, সরানো। কিন্তু, তথ্য প্রকাশের মাত্র দুই সপ্তাহ পরেই অরবিন্দ নারায়ণন এবং বিটিজি শমেটিকভ (2008) দেখিয়েছিলেন যে, 6 টি বিষয়ে আপনাকে দেখানো একটি ট্রিক ব্যবহার করে নির্দিষ্ট লোকেদের চলচ্চিত্রের রেটিং সম্পর্কে জানা সম্ভব ছিল। যদিও একজন আক্রমণকারী আবিষ্কার করতে পারে মানুষ এর চলচ্চিত্র রেটিং, এখনও এখানে সংবেদনশীল কিছু মনে হয় না। যদিও এটি সাধারণভাবে সত্য হতে পারে, ডেটাসেটে কমপক্ষে 5 লাখ লোকের জন্য, চলচ্চিত্র রেটিং সংবেদনশীল ছিল। প্রকৃতপক্ষে, তথ্য প্রকাশের এবং পুনরায় সনাক্তকরণের প্রতিক্রিয়াতে, একটি ক্লিনিক্যাল মহিলা মহিলা Netflix বিরুদ্ধে একটি বর্গ-কর্ম মামলা যোগদান। এখানে এই সমস্যাটি কীভাবে প্রকাশ করা হয়েছে (Singel 2009) :
"[এম] ওভি এবং রেটিং তথ্য একটি অত্যন্ত ... ব্যক্তিগত ও সংবেদনশীল প্রকৃতির তথ্য। সদস্যের মুভি ডেটা একটি Netflix সদস্যের ব্যক্তিগত স্বার্থ এবং / বা যৌনতা, মানসিক অসুস্থতা, মদ্যাশক্তি থেকে পুনরুদ্ধার, ব্যভিচার, শারীরিক নির্যাতন, পারিবারিক সহিংসতা, ব্যভিচার, এবং ধর্ষণ সহ বিভিন্ন অত্যন্ত গুরুত্বপূর্ণ বিষয়গুলির সাথে সংগ্রাম করে। "
এই উদাহরণটি দেখায় যে এমন কিছু তথ্য পাওয়া যেতে পারে যা কিছু লোক একটি সহানুভূতিশীল ডাটাবেস হতে পারে বলে মনে করে। উপরন্তু, এটি দেখায় যে একটি প্রধান প্রতিরক্ষা যা গবেষকরা সংবেদনশীল ডেটা-ডি-শনাক্তকরণের সুরক্ষায় কাজ করে- বিস্ময়কর উপায়ে ব্যর্থ হতে পারে। এই দুটি ধারনা অধ্যায়ের 6 বিস্তারিতভাবে উন্নত করা হয়
সংবেদনশীল তথ্য সম্পর্কে অবগত থাকা চূড়ান্ত বিষয় হল যে ব্যক্তিদের সম্মতি ছাড়াই তা সংগ্রহ করা নীতিগত প্রশ্ন উত্থাপন করে, এমনকি যদি কোনো নির্দিষ্ট ক্ষতি হয় না। অনেকের মত তাদের সম্মতি ছাড়া একটি ঝরনা গ্রহণ পর্যবেক্ষক যেমন ব্যক্তির গোপনীয়তা লঙ্ঘন হিসাবে বিবেচনা করা যেতে পারে সংবেদনশীল তথ্য সংগ্রহ এবং মনে রাখবেন - সংবেদনশীল কি ছাড়া সংবেদনশীল - সিদ্ধান্ত ছাড়া সম্ভাব্য গোপনীয়তা উদ্বেগ তোলে আমি অধ্যায়ে গোপনীয়তা সম্পর্কে প্রশ্ন ফিরে করব 6
উপসংহারে, সরকারী ও ব্যবসায়িক প্রশাসনিক রেকর্ডের মতো বড় তথ্য উৎসগুলি সাধারণত সামাজিক গবেষণাগুলির জন্য তৈরি করা হয় না। আজকের বৃহত তথ্য উত্স, এবং আগামীকাল আগামীকাল, আছে 10 বৈশিষ্ট্য আছে। ডিজিটাল যুগে সংস্থাগুলি এবং সরকারগুলি আসলে এমন একটি স্কেলে তথ্য সংগ্রহ করতে সক্ষম হয় যা পূর্বে সম্ভব নাও হতে পারে। এবং গবেষণাগুলির অসম্পূর্ণ, অপ্রচলিত, অ-প্রতিনিধিত্বমূলক, ড্রিফটিং, অ্যালগরিদমিকভাবে বিশৃঙ্খল, অপ্রয়োজনীয়, নোংরা এবং সংবেদনশীল-এর জন্য সাধারণত যেসব বৈশিষ্ট্যগুলি বিবেচনা করা হয়, সেগুলি থেকে দেখা যায় যে এই গবেষকরা গবেষকদের জন্য এই তথ্য সংগ্রহ করা হয়নি। এতদূর, আমি সরকার এবং ব্যবসায়িক তথ্য একসাথে নিয়ে আলোচনা করেছি, কিন্তু দুটি মধ্যে কিছু পার্থক্য আছে। আমার অভিজ্ঞতাতে, সরকারী তথ্য কম অনুপযুক্ত, কম অ্যালগরিদমভাবে বিশৃঙ্খল, এবং কম ড্রিফটিং হতে থাকে। অন্যদিকে, ব্যবসায়িক প্রশাসনিক রেকর্ডগুলি সর্বদা অনগ্রসর হয়। এই 10 টি সাধারণ বৈশিষ্ট্যগুলি বোঝা বড় ডেটা উত্সগুলি থেকে শেখার দিকে সহায়ক। এবং এখন আমরা গবেষণা কৌশল চালু আমরা এই তথ্য সঙ্গে ব্যবহার করতে পারেন।