कम्पनीहरु र सरकारको भन्ने केही जानकारी संवेदनशील छ।
स्वास्थ्य बीमा कम्पनीहरूसँग उनीहरूको ग्राहकहरु द्वारा प्राप्त गरेको चिकित्सा हेरविचारको बारेमा विस्तृत जानकारी छ। यो जानकारी स्वास्थ्यको बारेमा महत्त्वपूर्ण अनुसन्धानको लागी प्रयोग गर्न सकिन्छ, तर यदि यो सार्वजनिक भएमा यसले सम्भावनात्मक भावनाको सामना गर्न सक्छ (उदाहरणार्थ, शर्मिला) वा आर्थिक क्षति (जस्तै, रोजगारीको हानि)। धेरै अन्य ठूला डेटा स्रोतहरू सँग सम्बन्धित जानकारीहरू पनि संवेदनशील छ , जुन तिनीहरू प्राय: दुर्गम कारणको कारण हुन्।
दुर्भाग्यवश, यो नेटफिक्स प्रेक्स द्वारा निर्दिष्ट को रूप मा, वास्तव मा के जानकारी संवेदनशील (Ohm 2015) बारे मा निर्णय गर्न को लागि एकदम मुश्किल हो जान्छ। मैले सन् 1 9 5 मा सन् 1 9 5 मा वर्णन गर्नेछु, नेट्लक्सले 500 मिलियन सदस्यहरूले 100 मिलियन फिल्म मूल्याङ्कन प्रदान गरे र एक खुला कल गरेको थियो जहाँ सबै विश्वका व्यक्तिले एल्गोरिदमलाई प्रस्तुत गरे जुन चलचित्रको सिफारिस गर्न Netflix को क्षमता सुधार गर्न सक्छ। डेटा रिलीज गर्नुअघि Netflix ले कुनै पनि स्पष्ट रूपमा व्यक्तिगत रूपमा पहिचान गर्ने जानकारीहरू हटाउछ, जस्तै नामहरू। तर, डाटा आर्विन्ड नारायणन र विट्टि नारायण (2008) जारी भएको दुई हप्ता पछि, शोभाको प्रयोग गरी विशिष्ट व्यक्तिको फिल्म मूल्याङ्कनको बारेमा जान्न सम्भव थियो। अध्यायमा तपाईले तपाईंलाई देखाउनुहुनेछ। हुनत एक आक्रमणकारीले पत्ता लगाउन सकेन व्यक्तिको चलचित्र मूल्याङ्कन, त्यहाँ अझै पनि कुनै पनि संवेदनशील जस्तो देखिन्छ जस्तो लाग्छ। हुनत त्यो सामान्यमा सही हुन सक्छ, कम्तिमा कम्तीमा 500,000 मान्छे डाटासेटमा, चलचित्र मूल्याङ्कनहरू संवेदनशील थिए। वास्तवमा, डाटाको रिलीज र पुन: पहिचानको प्रतिक्रियामा, नेटलिक्सको विरुद्ध एक समाप्ति समलैंगिक महिलाले क्लास-एक्शन सूटमा सामेल गर्यो। यहाँ यस मुद्दामा कसरी मुद्दा व्यक्त गरिएको छ (Singel 2009) :
"[एम] ओभिय र रेटिङ डाटाले जानकारीको जानकारी समावेश गर्दछ ... अत्यधिक व्यक्तिगत र संवेदनशील प्रकृति। सदस्यको चलचित्र डेटा Netflix सदस्यको व्यक्तिगत रुचि र / वा यौन सम्बन्ध, मानसिक रोग, शराबदेखि पुनःप्राप्ति र ईश्वर, शारीरिक दुर्व्यवहार, घरेलु हिंसा, व्यभिचार, र बलात्कारबाट पीडित विभिन्न विभिन्न समस्याहरूसँग संघर्ष गर्दछ। "
यो उदाहरणले यो जानकारी हुन सक्छ कि केहि व्यक्तिहरूले संवेदनशील भित्रको बिन्दु डेटाबेसमा देखा पर्न सक्छ। यसबाहेक, यो एक मुख्य रक्षा छ कि शोधकर्ताहरू संवेदनशील डेटा-डे-पहिचानको रक्षा गर्न काम गर्छन् भनेर देखाउँछ - अचम्मलाग्दो तरिकामा असफल हुन सक्छ। यी दुई विचारहरू 6 अध्यायमा अझ विस्तृत विवरणमा विकसित गरिएका छन्।
संवेदनशील डेटा को बारे मा ध्यान राखन को अंतिम कुरा हो कि मान्छे को सहमति को बिना यो एकत्रित नै नैतिक प्रश्न उठ्छ, भले कुनै विशिष्ट हानि को कारण हो। उनीहरूको सहमति बिना कुनै न्यानो हेर्न खोज्ने जस्ता धेरै व्यक्तिको गोपनीयताको उल्लङ्घन, संवेदनशील जानकारी सङ्कलन गर्न सकिन्छ र सम्झन सक्दछ कि यो कस्तो संवेदनशील छ कि निर्णय बिना सम्भावित गोपनीयता चिन्ता सिर्जना गर्दछ। म अध्याय 6 मा गोपनीयताको बारेमा प्रश्नहरूमा फर्कनेछु।
अन्तमा, ठूला डेटा स्रोतहरू जस्तै सरकार र व्यापार प्रशासनिक रेकर्डहरू, सामान्यतया सामाजिक अनुसन्धानको उद्देश्यको लागि सिर्जना गरिएको छैन। आजको ठूलो डेटा स्रोत र सम्भवतः भोलि 10 विशेषताहरू हुन्छन्। धेरै गुणहरू जुन सामान्यतया अनुसन्धानको लागि राम्रो हुन्छ भन्ने बुझिन्छ - ठूला, सचेतक, र अनावश्यक - डिजिटल उमेर कम्पनीहरूमा तथ्यबाट आउनुहोस् र सरकारहरूले डेटामा एकत्रित गर्न सकेन जुन पहिले सम्भव थिएन। र धेरै गुणहरू जुन सामान्य रूपमा शोध-अपूर्ण, अपर्याप्त, अपरिवर्तनीय, बहाव गर्ने, एल्गोरिथ्मिक रूपमा भत्किएको, दुर्गम, गहिरो र संवेदनशीलको लागी खराब मानिन्छ। यस तथ्यबाट आउँछ कि यी डेटा शोधकर्ताहरूको लागि शोधकर्ताहरूले संकलन गरेनन्। अहिलेसम्म, मैले सरकार र व्यापारिक डेटा सँगसँगै कुरा गरेको छु, तर दुई बीचको केही फरक फरक छन्। मेरो अनुभवमा, सरकारी डेटा कम अप्रासंगिक, कम एल्गोरिदममिक रूपले भत्कियो, र कम बहाव हुनु पर्छ। एकअर्का, व्यापार प्रशासनिक रेकर्डहरू बढी सँधै हुन्छन्। यी 10 सामान्य विशेषताहरू बुझ्न ठूलो डाटा स्रोतहरूबाट सिक्ने दिशामा पहिलो चरण हो। र अहिले हामी यो डेटाको साथ प्रयोग गर्न सक्नुहुने अनुसन्धान रणनीतिहरु लाई फर्काउँछौँ।