कंपन्या आणि सरकार यांच्याद्वारे डेटाचा शोध घेणे कठीण आहे.
मे 2014 मध्ये, यू.एस. नॅशनल सिक्युरिटी एजंसीने ग्रामीण उटामध्ये एक अस्ताव्यस्त नाव, खुफिया समुदाय व्यापक राष्ट्रीय सायबर सिक्युरिटी इनिशिएटिव्ह डेटा सेंटर, मध्ये डेटा सेंटर उघडले. तथापि, युटा डेटा सेंटर म्हणून ओळखले गेलेले हे डाटा सेंटर, आश्चर्यजनक क्षमता असल्याचे नोंदवले गेले आहे. एका अहवालात आरोप करण्यात आला की हे सर्व प्रकारचे संप्रेषण संचयित करण्यात आणि त्यावर प्रक्रिया करण्यात सक्षम आहे "खाजगी ईमेल्स, सेल फोन कॉल्स आणि Google शोधांची पूर्ण सामग्री तसेच सर्व प्रकारच्या वैयक्तिक डेटा ट्रेल्स- पार्किंग प्राप्ती, प्रवास प्रवास कार्यक्रम, बुकस्टोअर खरेदी , आणि इतर डिजिटल 'कप्पा कचरा' " (Bamford 2012) . मोठ्या डेटामध्ये पकडलेल्या बहुतेक माहितीच्या संवेदनशील स्वरूपाविषयी चिंता वाढवण्याबरोबरच, युटा डाटा सेंटर हे अत्यंत समृद्ध डेटा स्त्रोताचे एक अत्यंत उदाहरण आहे जे संशोधकांकडे पोहोचू शकत नाही. सामान्यतः मोठ्या डेटाचे अनेक स्रोत उपयुक्त असतात जे सरकारद्वारे (उदा. कर डेटा आणि शैक्षणिक डेटा) किंवा कंपन्या (उदा. शोध इंजिन आणि फोन कॉल मेटा-डेटासाठी क्वेरी) नियंत्रित आणि प्रतिबंधित आहेत. म्हणूनच, जरी या डेटा स्त्रोतांचा अस्तित्व असला तरीही ते सामाजिक संशोधनाच्या हेतूने निरुपयोगी आहेत कारण ते अपरिहार्य आहेत.
माझ्या अनुभवाप्रमाणे, विद्यापीठातील अनेक संशोधक या दुर्गमतेच्या स्रोताचा गैरसमज होऊ शकतात. कंपन्या आणि सरकारमधील लोक मूर्ख, आळशी, किंवा बेपर्वा आहेत म्हणून हे डेटा अबाधित नाहीत. त्याऐवजी, डेटा ऍक्सेस रोखत गंभीर कायदेशीर, व्यवसाय आणि नैतिक अडथळे आहेत. उदाहरणार्थ, वेबसाइटसाठी काही अटी-शर्ती सेवा करारनामा कर्मचार्यांद्वारे वापरण्यासाठी किंवा सेवा सुधारण्यासाठी अनुमती देतात. त्यामुळे डेटा शेअरिंगचे काही प्रकार ग्राहकांकडून कायदेशीर खटले दाखल करू शकतात. डेटा सामायिक करण्यात कंपन्यांच्या व्यवसायाची खूप मोठी जोखीम देखील आहेत. एखाद्या विद्यापीठ संशोधन प्रकल्पाचा भाग म्हणून Google वरुन वैयक्तिकरित्या शोध डेटा गहाळ झाल्यास लोक कसे प्रतिसाद देऊ शकतात याची कल्पना करण्याचा प्रयत्न करा. असा डेटा उल्लंघन, जर अतिरेकी असेल तर कंपनीसाठी अस्तित्वात असलेला धोकाही असू शकतो. म्हणून Google- आणि सर्वात मोठ्या कंपन्या- संशोधकांसह डेटा सामायिक करण्याबद्दल खूप धोका आहे.
खरं तर, मोठ्या प्रमाणात डेटा पोहोचण्याचा स्थितीत असलेले जवळजवळ प्रत्येकजण अब्दुर चौधरीची कथा माहीत आहे. 2006 मध्ये, एओएलच्या संशोधनाचे ते प्रमुख होते तेव्हा, त्यांनी जाणूनबुजून संशोधन समुदायाकडे सोडले, ज्यात त्यांनी 650,000 एओएल वापरकर्त्यांकडून अनामिक शोध क्वेरी केल्या होत्या. जोपर्यंत मी सांगू शकतो, एओएलच्या चौधरी आणि संशोधकांना चांगले हेतू आहेत, आणि त्यांनी विचार केला की त्यांनी डेटा अनामिक केला आहे. पण ते चुकीचे होते. हे त्वरेने शोधले गेले की संशोधकांच्या विचारांप्रमाणे डेटा निनावी नाही आणि न्यू यॉर्क टाइम्सच्या पत्रकारांना सहजपणे डेटासेटमध्ये कोणी ओळखण्यास सक्षम होते (Barbaro and Zeller 2006) . या समस्यांना शोधून काढल्यानंतर चौधरी यांनी एओएलच्या वेबसाईटवरील माहिती काढली, परंतु खूपच उशीर झाला होता. इतर वेबसाइटवर डेटा पुन्हा पोस्ट करण्यात आला होता आणि आपण हे पुस्तक वाचता तेव्हा कदाचित तरीही उपलब्ध असेल. चौधरी यांना गोळ्या घालून ठार केले आणि एओएलचे मुख्य तंत्रज्ञान अधिकारी राजीनामा (Hafner 2006) . हे उदाहरण दर्शविते म्हणून, डेटा प्रवेश सुगम करण्यासाठी कंपन्या आत विशिष्ट व्यक्ती फायदे खूपच लहान आहेत आणि सर्वात वाईट-केस परिस्थिती भयंकर आहे
संशोधक काही वेळा सामान्य लोकांसाठी प्रवेश नसलेल्या डेटावर प्रवेश मिळवू शकतात. काही सरकारांमध्ये अशी कार्यपद्धती आहे जी संशोधनांनी प्रवेशासाठी अर्ज करण्याची पद्धत अवलंबू शकते आणि नंतर या प्रकरणात दाखवलेल्या उदाहरणांनुसार संशोधक कधीकधी कॉर्पोरेट डेटावर प्रवेश मिळवू शकतात. उदाहरणार्थ, Einav et al. (2015) ऑनलाइन निधीचे अभ्यास करण्यासाठी ईबे येथे शोधकासह भागीदारी केली या सहकार्याने नंतरच्या अध्यायात आलेल्या संशोधनाबद्दल मी अधिक चर्चा करू शकेन, परंतु आता मी हे उल्लेख करीत आहे कारण यशस्वी साखळीत मी पाहिलेल्या सर्व चार गोष्टी होत्या: संशोधक हित, संशोधक क्षमता, कंपनीचे व्याज आणि कंपनीची क्षमता . मी अनेक संभाव्य सहकार्यांकडे दुर्लक्ष केले आहे कारण संशोधक किंवा भागीदार-तो एक कंपनी असो वा सरकारी-यातील कोणत्याही सामग्रीचा अभाव.
जरी आपण एखाद्या व्यवसायासह भागीदारी विकसित करण्यास किंवा प्रतिबंधित सरकारी डेटामध्ये प्रवेश प्राप्त करण्यास सक्षम असाल, तरीही, आपल्यासाठी काही डाउनसाइड आहेत. प्रथम, आपण कदाचित आपला डेटा इतर संशोधकांशी सामायिक करण्यास सक्षम असणार नाही, याचा अर्थ इतर संशोधक आपले परिणाम सत्यापित आणि विस्तारित करण्यास सक्षम नसतील. सेकंद, आपण विचारू शकता की प्रश्न मर्यादित असू शकते; कंपन्यांना संशोधन करणे अशक्य आहे कारण त्यांना वाईट वाटेल. शेवटी, या भागीदारी व्याज विरोधाभास दर्शवण्यास किमान तयार करू शकतात, जिथे लोक कदाचित असे समजू शकतात की आपले परिणाम आपल्या भागीदारीद्वारे प्रभावित होते. या सर्व गोष्टींचे निराकरण केले जाऊ शकते, परंतु हे स्पष्ट करणे महत्त्वाचे आहे की डेटासह कार्य करणे प्रत्येकाने प्रवेश करणे आणि डाउनसाईड दोन्हीमध्ये प्रवेश करणे यासारखे आहे
सारांश मध्ये, मोठ्या प्रमाणात डेटा संशोधकांकडे उपलब्ध नाही. डेटा प्रवेश रोखण्यासाठी गंभीर कायदेशीर, व्यवसाय आणि नैतिक अडथळे आहेत आणि तंत्रज्ञान अडचणी दूर असल्यामुळे हे अडथळे दूर जाणार नाहीत. काही राष्ट्रीय सरकारांनी काही डेटासेटसाठी डेटा ऍक्सेस सक्षम करण्यासाठी कार्यपद्धती प्रस्थापित केली आहेत, परंतु ही प्रक्रिया विशेषत: राज्य आणि स्थानिक पातळीवर तंबीर आहे. तसेच, काही बाबतीत, संशोधक डेटा ऍक्सेस मिळवण्यासाठी कंपन्यांसोबत भागीदारी करू शकतात, परंतु हे संशोधक आणि कंपन्यांसाठी विविध समस्या निर्माण करु शकतात.