माहिती कंपन्या आणि सरकार आहे की काही संवेदनशील आहे.
आरोग्य विमा कंपन्यांना त्यांच्या ग्राहकांकडून मिळालेल्या वैद्यकीय निधीबद्दल तपशीलवार माहिती आहे. ही माहिती आरोग्याविषयीच्या महत्त्वाच्या संशोधनासाठी वापरली जाऊ शकते, परंतु ती सार्वजनिक झाल्यास, यामुळे भावनिक नुकसान होऊ शकते (उदा., लाजीरवाणे) किंवा आर्थिक नुकसान (उदा. नोकरी कमी होणे) इतर बर्याच मोठ्या डेटा स्त्रोतांमधे संवेदनशील असलेली माहिती देखील असते, जे ते बर्याचदा प्रवेश न करण्याच्या कारणाचा एक भाग आहे.
दुर्दैवाने, Netflix पारितोषिकाने स्पष्ट केल्यानुसार, कोणती माहिती खरोखर संवेदनशील आहे (Ohm 2015) हे ठरविण्यास जोरदार अवघड आहे मी 5 वी मध्ये वर्णन करेल, 2006 मध्ये Netflix जवळजवळ 500,000 सदस्यांची द्वारे प्रदान 100 दशलक्ष चित्रपट रेटिंग प्रकाशीत आणि जगभरातून लोक सर्वजणांनी अल्गोरिदम सबमिट केले आहे जे मूव्हीज शिफारस करण्याची Netflix क्षमता सुधारू शकतो डेटा सोडण्यापूर्वी, Netflix कोणत्याही स्पष्टपणे ओळखली माहिती काढली, जसे नावे परंतु, आकडेवारी प्रकाशित झाल्यानंतर दोन आठवड्यांनी अरविंद नारायणन आणि विटाली शॅटमॅटिकॉव्ह (2008) यांनी दाखवून दिले की विशिष्ट जनतेच्या मूव्ही रेटिंगबद्दल शिकणे शक्य आहे ज्यायोगे मी आपल्याला 6 व्या अध्यायात दाखवतो. तरीही एखादा आक्रमणकर्ता शोधू शकतो व्यक्तीचे मूव्ही रेटिंग्स, तरीही येथे काहीही संवेदनशील दिसत नाही. सामान्यतः हे खरे असले तरीही, डेटासेटमधील जवळजवळ 500,000 लोकांपैकी काही, मूव्ही रेटिंग संवेदनशील होते. खरं तर, डेटा प्रकाशन आणि प्रकाशन पुन्हा प्रतिसाद म्हणून, एक closeted समलिंगी संबंध ठेवणारी स्त्री महिला Netflix विरुद्ध एक वर्ग-कारवाई खटला सामील झाले. या (Singel 2009) समस्या कशी व्यक्त केली गेली ते येथे आहे (Singel 2009) :
"[एम] ओव्हि आणि रेटिंग डेटामध्ये ... अत्यंत वैयक्तिक आणि संवेदनशील निसर्गाची माहिती आहे. सदस्याच्या मूव्ही डेटामध्ये सेक्सफिक्स सदस्याच्या वैयक्तिक हितसंबंध आणि / किंवा लैंगिकता, मानसिक आजार, मद्यविक्रीपासून पुनर्प्राप्ति आणि कौटुंबिक व्याकूळ, शारीरिक शोषण, घरगुती हिंसा, व्यभिचार आणि बलात्कार यांसारख्या विविध अत्यंत वैयक्तिक विषयांशी संघर्ष आहे. "
हे उदाहरण असे दर्शविते की काही लोक एक सौम्य डेटाबेस असल्याचे दिसून येऊ शकते काय आत संवेदनशील विचार की माहिती असू शकते पुढे, हे दिसून येते की संशोधक संवेदनशील डेटा-डी-आयडेंटिफिकेशनचे संरक्षण करण्यासाठी कामावर घेणारे एक मुख्य सुरक्षा आश्चर्यकारक पद्धतीने अपयशी ठरू शकते. या दोन कल्पना अध्यायात 6 व्या अध्यायात मोठ्या प्रमाणात विकसित केल्या आहेत.
संवेदनशील डेटाबद्दल सतत लक्षात ठेवण्याची अंतिम गोष्ट अशी आहे की लोकांच्या संमतीशिवाय एकत्रित करणे नैतिक प्रश्न निर्माण करते, जरी कोणतीही विशिष्ट हानी झाली नसली तरी कोणासही संमतीविना शाळेत जाणे हे त्या व्यक्तीच्या गोपनीयतेचे उल्लंघन मानले जाऊ शकते, संवेदनशील माहिती गोळा करणे-आणि संवेदनाशिवाय काय संवेदनशील आहे हे ठरवण्यासाठी किती कठीण असू शकते हे लक्षात ठेवल्यास संभाव्य गोपनीयतेबद्दल चिंता निर्माण होते. मी अध्याय 6 मध्ये गोपनीयतेबद्दल प्रश्नांवर परत जाईन.
निष्कर्षानुसार, मोठ्या प्रमाणात डेटा स्त्रोत, जसे की सरकारी आणि व्यावसायिक प्रशासकीय रेकॉर्ड सामान्यत: सामाजिक संशोधनाच्या उद्देश्यासाठी तयार केलेले नाहीत. आजचे मोठे डेटा स्त्रोत आणि उद्या उद्या 10 वैशिष्ट्ये सामान्यत: संशोधन-मोठे, नेहमी-चालू, आणि नॉनरेक्रिएक्शनसाठी योग्य मानले जाणारे अनेक गुणधर्म-डिजिटल एजन्सी आणि सरकारमध्ये खर्या अर्थाने आलेली माहिती एकत्रित करण्यात सक्षम आहे जी पूर्वी शक्य नव्हती. आणि अशा अनेक गुणधर्म जे सामान्यतः संशोधन-अपूर्ण, अप्रभावित, गैरप्रतिष्ठित, प्रवाहित, अल्गोरिथमरीत्या गोंधळलेल्या, प्रवेश करण्यायोग्य, गलिच्छ आणि संवेदनशीलतेसाठी खराब मानल्या जातात - हे तथ्य संशोधकांकडून संशोधकांद्वारे गोळा केले गेले नाहीत हे तथ्य येतात. आतापर्यंत, मी सरकार आणि व्यावसायिक डेटा एकत्रितपणे बोललो आहे, परंतु या दोन्ही मधील काही फरक आहेत माझ्या अनुभवातील, सरकारी आकडेवारी कमी प्रतिनिधीत्व नसते, कमी अल्गोरिदमिकपणे गोंधळल्यासारखे आणि कमी प्रवासी असतात. दुसरीकडे, व्यावसायिक प्रशासकीय रेकॉर्ड नेहमी नेहमीच असतात. या 10 सर्वसाधारण वैशिष्ट्यांचे समजून घेणे मोठ्या डेटा स्त्रोतांकडून शिकण्याच्या दिशेने पहिले पाऊल आहे. आणि आता आम्ही या डेटासह वापरत असलेल्या संशोधन धोरणांकडे वळतो.