कंपनियों और सरकारों द्वारा आयोजित डेटा शोधकर्ताओं तक पहुंचने के लिए मुश्किल है।
मई 2014 में, अमेरिकी राष्ट्रीय सुरक्षा एजेंसी ने ग्रामीण यूटा में एक अजीब नाम, खुफिया समुदाय व्यापक राष्ट्रीय साइबर सुरक्षा पहल डेटा केंद्र के साथ एक डाटा सेंटर खोला। हालांकि, इस डाटा सेंटर, जिसे यूटा डाटा सेंटर के नाम से जाना जाने लगा है, में आश्चर्यजनक क्षमताओं की सूचना दी गई है। एक रिपोर्ट में आरोप लगाया गया है कि यह सभी प्रकार के संचार को स्टोर और संसाधित करने में सक्षम है, जिसमें "निजी ईमेल, सेल फोन कॉल और Google खोजों की पूरी सामग्री, साथ ही सभी प्रकार के व्यक्तिगत डेटा ट्रेल्स-पार्किंग रसीदें, यात्रा कार्यक्रम, बुकस्टोर खरीद , और अन्य डिजिटल 'जेब कूड़े' ' (Bamford 2012) । बड़े डेटा में कैप्चर की गई अधिकांश जानकारी की संवेदनशील प्रकृति के बारे में चिंताओं को बढ़ाने के अलावा, जो नीचे वर्णित किया जाएगा, यूटा डाटा सेंटर एक समृद्ध डेटा स्रोत का एक चरम उदाहरण है जो शोधकर्ताओं के लिए पहुंच योग्य नहीं है। अधिक आम तौर पर, बड़े डेटा के कई स्रोत उपयोगी होंगे जिन्हें सरकारों (जैसे कर डेटा और शैक्षिक डेटा) या कंपनियों (जैसे खोज इंजन और फोन कॉल मेटा-डेटा के लिए पूछताछ) द्वारा नियंत्रित और प्रतिबंधित किया जाता है। इसलिए, भले ही ये डेटा स्रोत मौजूद हैं, वे सामाजिक शोध के प्रयोजनों के लिए बेकार हैं क्योंकि वे पहुंच योग्य नहीं हैं।
मेरे अनुभव में, विश्वविद्यालयों पर आधारित कई शोधकर्ता इस अपर्याप्तता के स्रोत को गलत समझते हैं। ये आंकड़े अप्राप्य नहीं हैं क्योंकि कंपनियों और सरकारों के लोग बेवकूफ, आलसी, या अनजान हैं। इसके बजाय, गंभीर कानूनी, व्यापार और नैतिक बाधाएं हैं जो डेटा पहुंच को रोकती हैं। उदाहरण के लिए, वेबसाइटों के लिए कुछ नियम-सेवा समझौते केवल कर्मचारियों द्वारा डेटा का उपयोग करने या सेवा में सुधार करने की अनुमति देते हैं। इसलिए डेटा साझा करने के कुछ रूप ग्राहकों को ग्राहकों से वैध मुकदमों में उजागर कर सकते हैं। डेटा साझा करने में शामिल कंपनियों के लिए भी पर्याप्त व्यावसायिक जोखिम हैं। कल्पना करें कि सार्वजनिक शोध डेटा गलती से एक विश्वविद्यालय शोध परियोजना के हिस्से के रूप में Google से लीक होने पर जनता कैसे प्रतिक्रिया देगी। इस तरह के एक डेटा उल्लंघन, अगर चरम, कंपनी के लिए एक अस्तित्वहीन जोखिम भी हो सकता है। तो Google- और सबसे बड़ी कंपनियां-शोधकर्ताओं के साथ डेटा साझा करने के बारे में बहुत जोखिम-प्रतिकूल हैं।
असल में, लगभग हर कोई जो बड़ी मात्रा में डेटा तक पहुंच प्रदान करने की स्थिति में है, अब्दुर चौधरी की कहानी जानता है। 2006 में, जब वह एओएल में शोध के प्रमुख थे, उन्होंने जानबूझकर शोध समुदाय को छोड़ दिया, जिसे उन्होंने 650,000 एओएल उपयोगकर्ताओं से अनामित खोज क्वेरी के रूप में सोचा था। जहां तक मैं कह सकता हूं, चौधरी और एओएल के शोधकर्ताओं के अच्छे इरादे थे, और उन्होंने सोचा कि उन्होंने डेटा को अनामित किया है। लेकिन वे गलत थे। यह जल्दी से पता चला था कि शोधकर्ताओं के विचार के रूप में डेटा अज्ञात नहीं था, और न्यूयॉर्क टाइम्स के संवाददाता आसानी से डेटासेट में किसी को पहचानने में सक्षम थे (Barbaro and Zeller 2006) । एक बार इन समस्याओं की खोज हो जाने के बाद, चौधरी ने एओएल की वेबसाइट से डेटा हटा दिया, लेकिन यह बहुत देर हो चुकी थी। डेटा को अन्य वेबसाइटों पर दोबारा पोस्ट किया गया था, और जब भी आप इस पुस्तक को पढ़ रहे हों तो यह तब भी उपलब्ध होगा। चौधरी को निकाल दिया गया, और एओएल के मुख्य प्रौद्योगिकी अधिकारी ने इस्तीफा दे दिया (Hafner 2006) । चूंकि यह उदाहरण दिखाता है, डेटा एक्सेस की सुविधा के लिए कंपनियों के अंदर विशिष्ट व्यक्तियों के लिए लाभ बहुत छोटे हैं और सबसे खराब स्थिति परिदृश्य भयानक है।
शोधकर्ता, हालांकि, कभी-कभी डेटा तक पहुंच प्राप्त कर सकते हैं जो आम जनता के लिए पहुंच योग्य नहीं है। कुछ सरकारों में ऐसी प्रक्रियाएं होती हैं जो शोधकर्ता पहुंच के लिए आवेदन करने के लिए अनुसरण कर सकते हैं, और बाद में इस अध्याय में उदाहरणों के अनुसार, शोधकर्ता कभी-कभी कॉर्पोरेट डेटा तक पहुंच प्राप्त कर सकते हैं। उदाहरण के लिए, Einav et al. (2015) ने ऑनलाइन नीलामियों का अध्ययन करने के लिए ईबे में एक शोधकर्ता के साथ साझेदारी की। मैं बाद में अध्याय में इस सहयोग से आए शोध के बारे में और बात करूंगा, लेकिन अब मैं इसका उल्लेख करता हूं क्योंकि इसमें सफल साझेदारी में देखे जाने वाले सभी चार तत्व थे: शोधकर्ता ब्याज, शोधकर्ता क्षमता, कंपनी की रुचि, और कंपनी की क्षमता । मैंने देखा है कि कई संभावित सहयोग विफल हो गए हैं क्योंकि या तो शोधकर्ता या साथी-चाहे वह एक कंपनी हो या सरकार-इन अवयवों में से एक की कमी हो।
भले ही आप किसी व्यवसाय के साथ साझेदारी विकसित कर सकें या प्रतिबंधित सरकारी डेटा तक पहुंच प्राप्त कर सकें, फिर भी, आपके लिए कुछ डाउनसाइड्स हैं। सबसे पहले, आप संभवतः अपने डेटा को अन्य शोधकर्ताओं के साथ साझा नहीं कर पाएंगे, जिसका अर्थ है कि अन्य शोधकर्ता आपके परिणामों को सत्यापित और विस्तारित नहीं कर पाएंगे। दूसरा, आप जिन प्रश्नों से पूछ सकते हैं वे सीमित हो सकते हैं; कंपनियां उन शोधों की अनुमति देने की संभावना नहीं हैं जो उन्हें खराब लग सकती हैं। अंत में, ये साझेदारी कम से कम ब्याज के संघर्ष की उपस्थिति पैदा कर सकती है, जहां लोग सोच सकते हैं कि आपके परिणाम आपकी साझेदारी से प्रभावित थे। इन सभी डाउनसाइड्स को संबोधित किया जा सकता है, लेकिन यह स्पष्ट होना महत्वपूर्ण है कि डेटा के साथ काम करना जो हर किसी के लिए सुलभ नहीं है, दोनों ऊपर और डाउनसाइड्स हैं।
संक्षेप में, शोधकर्ताओं के लिए बहुत से बड़े डेटा पहुंच योग्य नहीं हैं। गंभीर कानूनी, व्यापार और नैतिक बाधाएं हैं जो डेटा पहुंच को रोकती हैं, और इन बाधाओं को दूर नहीं किया जाएगा क्योंकि प्रौद्योगिकी में सुधार होता है क्योंकि वे तकनीकी बाधा नहीं हैं। कुछ राष्ट्रीय सरकारों ने कुछ डेटासेट के लिए डेटा एक्सेस सक्षम करने के लिए प्रक्रियाएं स्थापित की हैं, लेकिन प्रक्रिया विशेष रूप से राज्य और स्थानीय स्तर पर विज्ञापन है। इसके अलावा, कुछ मामलों में, शोधकर्ता डेटा एक्सेस प्राप्त करने के लिए कंपनियों के साथ साझेदारी कर सकते हैं, लेकिन यह शोधकर्ताओं और कंपनियों के लिए विभिन्न प्रकार की समस्याएं पैदा कर सकता है।