2.3.2.7 संवेदनशील

जानकारी कंपनियों और सरकारों है कि कुछ संवेदनशील है।

स्वास्थ्य बीमा कंपनियों को चिकित्सा के लिए अपने ग्राहकों से प्राप्त की देखभाल के बारे में विस्तृत जानकारी नहीं है। यह जानकारी स्वास्थ्य के बारे में महत्वपूर्ण अनुसंधान के लिए इस्तेमाल किया जा सकता है, लेकिन अगर यह सार्वजनिक हो गया यह संभवतः भावनात्मक नुकसान (जैसे, शर्मिंदगी) और आर्थिक नुकसान (रोजगार के जैसे, हानि) को जन्म दे सकता है। विशिष्ट, कई बड़े डेटा स्रोतों से सुदूर जानकारी है कि संवेदनशील है। इस जानकारी की संवेदनशील प्रकृति कारण यह है कि बड़े डेटा स्रोतों अक्सर दुर्गम (ऊपर वर्णित) कर रहे हैं का हिस्सा है।

एक तरीका यह है कि शोधकर्ताओं ने इस स्थिति से निपटने के लिए प्रयास डी-पहचान डेटासेट संवेदनशील जानकारी है कि करने के लिए है। लेकिन, जैसा कि मैं अध्याय 6 (आचार) इस दृष्टिकोण को गंभीरता से तरीके है कि व्यापक रूप से दोनों सामाजिक वैज्ञानिकों और डेटा वैज्ञानिकों द्वारा की सराहना नहीं कर रहे हैं में सीमित में विस्तार में दिखाई देंगे।

अंत में, आज (और कल) के बड़े डेटा स्रोतों आम तौर पर दस लक्षण हैं। अच्छा गुण-बड़े, हमेशा पर, और के कई डिजिटल युग कंपनियों में इस तथ्य से nonreactive आओ और सरकारों पैमाने है कि पहले संभव नहीं था पर डेटा इकट्ठा करने के लिए सक्षम हैं। और, बुरा गुण-अधूरा, दुर्गम, गैर प्रतिनिधि के बहुत से, बहती, एल्गोरिदम, मुंह काला, दुर्गम गंदा, और संवेदनशील आओ तथ्य यह है कि डेटा शोधकर्ताओं के लिए शोधकर्ताओं द्वारा एकत्र नहीं है से। इन विशेषताओं को समझना बड़ा डेटा से सीखने के लिए एक आवश्यक पहला कदम है। और, अब हम रणनीति हम इस डेटा के साथ उपयोग कर सकते हैं अनुसंधान के लिए बारी है।