जानकारी कंपनियों और सरकारों है कि कुछ संवेदनशील है।
स्वास्थ्य बीमा कंपनियों के पास अपने ग्राहकों द्वारा प्राप्त चिकित्सा देखभाल के बारे में विस्तृत जानकारी है। इस जानकारी का उपयोग स्वास्थ्य के बारे में महत्वपूर्ण शोध के लिए किया जा सकता है, लेकिन यदि यह सार्वजनिक हो गया है, तो यह संभावित रूप से भावनात्मक नुकसान (उदाहरण के लिए, शर्मिंदगी) या आर्थिक नुकसान (उदाहरण के लिए, रोजगार की हानि) का कारण बन सकता है। कई अन्य बड़े डेटा स्रोतों में ऐसी जानकारी भी होती है जो संवेदनशील होती है , जो कि कारण है कि वे अक्सर पहुंच से नहीं पहुंचते हैं।
दुर्भाग्यवश, यह तय करने के लिए काफी मुश्किल हो गया है कि वास्तव में कौन सी जानकारी वास्तव में संवेदनशील है (Ohm 2015) , जैसा कि नेटफ्लिक्स पुरस्कार द्वारा दिखाया गया था। जैसा कि मैंने अध्याय 5 में वर्णित किया है, 2006 में नेटफ्लिक्स ने लगभग 500,000 सदस्यों द्वारा प्रदान की गई 100 मिलियन फिल्म रेटिंग जारी की थीं और एक खुली कॉल थी जहां दुनिया भर के लोगों ने एल्गोरिदम सबमिट किए थे जो नेटफ्लिक्स की फिल्मों की सिफारिश करने की क्षमता में सुधार कर सकते थे। डेटा जारी करने से पहले, नेटफ्लिक्स ने नामों जैसे व्यक्तिगत रूप से पहचानने वाली किसी भी स्पष्ट जानकारी को हटा दिया। लेकिन, डेटा जारी होने के दो सप्ताह बाद अरविंद नारायणन और विटाली शमतिकोव (2008) ने दिखाया कि एक चाल का उपयोग करके विशिष्ट लोगों की फिल्म रेटिंग के बारे में जानना संभव था जो मैं आपको अध्याय 6 में दिखाऊंगा। भले ही हमलावर एक खोज सके व्यक्ति की फिल्म रेटिंग, अभी भी कुछ संवेदनशील नहीं लगती है। हालांकि यह सामान्य रूप से सच हो सकता है, कम से कम 500,000 लोगों के डेटासेट में, फिल्म रेटिंग संवेदनशील थीं। असल में, डेटा की रिलीज और पुनः पहचान के जवाब में, एक कोठरी वाली समलैंगिक महिला नेटफ्लिक्स के खिलाफ क्लास-एक्शन सूट में शामिल हो गई। यहां बताया गया है कि इस मुकदमे में समस्या कैसे व्यक्त की गई थी (Singel 2009) :
"[एम] ओवी और रेटिंग डेटा में एक ... व्यक्तिगत व्यक्तिगत और संवेदनशील प्रकृति की जानकारी शामिल है। सदस्य का मूवी डेटा नेटफिक्स सदस्य के व्यक्तिगत हित और / या यौन संबंध, मानसिक बीमारी, शराब से वसूली, और नफरत, शारीरिक दुर्व्यवहार, घरेलू हिंसा, व्यभिचार और बलात्कार से पीड़ित होने सहित विभिन्न व्यक्तिगत मुद्दों के साथ संघर्ष का खुलासा करता है। "
यह उदाहरण दिखाता है कि ऐसी जानकारी हो सकती है कि कुछ लोग एक सौम्य डेटाबेस के रूप में दिखाई दे सकते हैं। इसके अलावा, यह दिखाता है कि शोधकर्ताओं ने संवेदनशील डेटा-डी-पहचान की रक्षा के लिए एक मुख्य रक्षा-आश्चर्यजनक तरीकों से असफल हो सकती है। ये दो विचार अध्याय 6 में अधिक विस्तार से विकसित किए गए हैं।
संवेदनशील डेटा के बारे में ध्यान रखने वाली अंतिम बात यह है कि लोगों की सहमति के बिना इसे इकट्ठा करना नैतिक प्रश्न उठाता है, भले ही कोई विशिष्ट नुकसान न हो। किसी को उनकी सहमति के बिना स्नान करने वाले किसी व्यक्ति को देखने की तरह, उस व्यक्ति की गोपनीयता का उल्लंघन माना जा सकता है, संवेदनशील जानकारी एकत्रित किया जा सकता है- और याद रखें कि संवेदनशील क्या है - सहमति के बिना संभावित गोपनीयता चिंताओं को उत्पन्न करता है। मैं अध्याय 6 में गोपनीयता के बारे में प्रश्नों पर वापस आऊंगा।
अंत में, बड़े डेटा स्रोत, जैसे कि सरकार और व्यापार प्रशासनिक रिकॉर्ड, आमतौर पर सामाजिक शोध के उद्देश्य के लिए नहीं बनाए जाते हैं। आज के बड़े डेटा स्रोत, और कल की संभावना है, इसमें 10 विशेषताएं हैं। आमतौर पर अनुसंधान के लिए अच्छा माना जाता है-बड़ी, हमेशा-चालू, और गैर-सक्रिय-डिजिटल युग कंपनियों और सरकारों में तथ्य से आते हैं, जो पहले संभव नहीं था, उस पैमाने पर डेटा एकत्र करने में सक्षम हैं। और कई गुण जिन्हें आम तौर पर अनुसंधान के लिए बुरे माना जाता है-अपूर्ण, अपर्याप्त, गैर-प्रस्तुतिकरण, बहती हुई, एल्गोरिदमिक रूप से उलझन, अपर्याप्त, गंदे और संवेदनशील - इस तथ्य से आते हैं कि शोधकर्ताओं के लिए शोधकर्ताओं द्वारा इन आंकड़ों को एकत्र नहीं किया गया था। अब तक, मैंने सरकार और व्यावसायिक डेटा के बारे में बात की है, लेकिन दोनों के बीच कुछ अंतर हैं। मेरे अनुभव में, सरकारी डेटा कम गैर-प्रतिनिधि, कम एल्गोरिदमिक रूप से उलझन में, और कम बहती है। एक तरफ, व्यवसाय प्रशासनिक रिकॉर्ड अधिक हमेशा होते हैं। इन 10 सामान्य विशेषताओं को समझना बड़े डेटा स्रोतों से सीखने की दिशा में एक सहायक पहला कदम है। और अब हम शोध रणनीतियों की ओर रुख करते हैं जिनका हम इस डेटा के साथ उपयोग कर सकते हैं।