अनुसन्धानकर्ताहरूलाई पहुँच गर्न कम्पनी र सरकारहरू द्वारा राखिएका डेटाहरू कठिन छन्।
मई 2014 मा यूएस नेशनल सुरक्षा एजेन्सी ग्रामीण यूटामा एक डेटा केन्द्र खोलेका छ जुन अचेतन नाम, इंटेलिजेंस सामुदायिक व्यापक राष्ट्रीय साइबरसेक्योर इनिशिएट डाटा सेन्टर। तथापि, यो डेटा केन्द्र, जुन युटा डाटा सेन्टरको रूपमा चिनिन्छ, को छरितो क्षमताओंको बारेमा रिपोर्ट गरिएको छ। एक रिपोर्टले आरोप लगाएको छ कि "सबै व्यक्तिगत इमेलहरू, सेल फोन कलहरू, र Google खोजहरू, साथै साथै व्यक्तिगत डेटा ट्रेलहरू-पार्किंग सम्बन्धी रसिदहरू, यात्राका यात्राहरू, बुकस्टस्ट खरिदका सबै प्रकारहरू सहित भण्डारणका सबै प्रकारहरू भण्डारण गर्न र प्रशोधन गर्न सक्षम छन्। , र अन्य डिजिटल 'जेब लिटर' " (Bamford 2012) । ठूलो डेटा मा कब्जा गरेको जानकारी को संवेदनशील प्रकृति को बारे मा चिन्ता को अतिरिक्त मा, जो अगाडी वर्णन गरिनेछ, यूटा डेटा केंद्र एक समृद्ध डेटा स्रोत को चरम उदाहरण हो कि शोधकर्ताओं को लागि उपलब्ध छैन। अधिक सामान्यतया, उपयोगी डेटाको धेरै स्रोतहरू उपयोगी छन् र सरकारहरूले (जस्तै, कर डेटा र शैक्षिक डेटा) वा कम्पनीहरू (जस्तै, खोजी इन्जिन र फोन कल मेटा-डाटाको प्रश्नहरू) द्वारा सीमित छन् र प्रतिबन्धित छन्। यसैले, यी डाटा स्रोतहरू अवस्थित भए तापनि, तिनीहरू सामाजिक अनुसन्धानका उद्देश्यहरूको लागि बेकार छन् किनभने तिनीहरू दुर्गम छन्।
मेरो अनुभवमा, विश्वविद्यालयहरूमा आधारित थुप्रै शोधकर्ताहरू यस दुर्गमताको स्रोत गलत छन्। यी डाटाहरू पहुँचयोग्य छैनन् किनकि कम्पनी र सरकारका मानिसहरू बेवकूफ, आलसी वा अनावश्यक छन्। बरु, त्यहाँ गम्भीर कानुनी, व्यवसाय, र नैतिक बाधाहरू छन् जुन डाटा पहुँच रोक्न। उदाहरणको लागि, वेबसाईटहरूको लागि केही सर्त-सेवा-सेवा सम्झौताहरू मात्र कर्मचारीहरूले प्रयोग गर्न वा सेवा सुधार गर्न अनुमति दिन्छ। त्यसैले डेटा साझेदारीको केहि प्रकारले कम्पनीहरूलाई ग्राहकहरुबाट वैध कानुनी व्यवस्थालाई बेवास्ता गर्न सक्दछ। डाटा साझेदारीमा सामेल हुने कम्पनीहरूमा पर्याप्त व्यापार जोखिम पनि छन्। कल्पना गर्नुहोस् कि सार्वजनिक खोज डेटा गल्तीले विश्वविद्यालयबाट अनुसन्धान अनुसन्धान परियोजनाको भागको रूपमा Google बाट लीक भने सार्वजनिक कसरी प्रतिक्रिया दिनेछ। यस्तो डाटा उल्लङ्घन गर्दा चरम भए पनि कम्पनीको लागि अस्तित्वको जोखिम पनि हुन सक्छ। त्यसैले गुगल-र ठूला ठूला कम्पनीहरू - शोधकर्ताहरूको साथ साझा डेटाको बारेमा धेरै जोखिम-विरूद्ध हुन्छन्।
वास्तवमा, जुनसुकै सबैजना डेटाको पहुँच प्रदान गर्ने स्थितिमा लगभग सबैजना अब्दुर चौधरीको कथालाई थाहा छ। 2006 मा, जब एओएल मा अनुसन्धान को प्रमुख थियो, उनले जानबूझकर अनुसन्धान समुदाय को रिहाई गरे कि उनले सोचा कि उनको 650,000 एओएल प्रयोगकर्ताहरु लाई खोज प्रश्न को नाम दिए गए थिए। जहाँसम्म मैले बताउन सक्छु, चौधरी र एओएलमा शोधकर्ताहरूले राम्रो मनसाय गरेका थिए, र तिनीहरूले सोचे कि उनीहरूले डेटा गुमनाम गरे। तर तिनीहरू गलत थिए। यो चाँडै पत्ता लगाइएको थियो कि डेटा गुमनाम नभएको थिएन, र न्यूयर्क टाइम्सका संवाददाताले आराम (Barbaro and Zeller 2006) सँग डाटासेटमा कसैलाई पहिचान गर्न सक्षम थिए। एक पटक यी समस्याहरू पत्ता लगाउँदा, चौधरीले डेटालाई AOL को वेबसाइटबाट हटाउनुभयो, तर यो धेरै ढिलो भयो। डेटा अन्य वेबसाइटहरूमा पुनःस्थापित गरिएको थियो, र यो पढ्दा तपाइँ यो अझै पनि उपलब्ध हुनेछ। चौधरी निकालिएको थियो, र एओएलको प्रमुख प्राविधिक अधिकारीले इस्तीफा गरे (Hafner 2006) । यस उदाहरणको रूपमा, डेटा पहुँचको सुविधाका लागि विशेष व्यक्तिहरूका लागि फाइदाहरू निकै सानो छन् र सबैभन्दा खराब-केस अवस्था भयानक छ।
तथापि, अन्वेषकहरूले कहिलेकाहीँ सामान्य जनताको लागि पहुँच योग्य डेटा पहुँच गर्न सक्छन्। केहि सरकारहरूसँग प्रक्रिया छ कि शोधकर्ताहरू पहुँचको लागी आवेदन गर्न पछ्याउन सक्छन्, र यस अध्यायमा पछि पछि उदाहरणहरू, शोधकर्ताहरूले कहिलेकाहीँ कर्पोरेट डेटाको पहुँच पाउन सक्छन्। उदाहरणका लागि, Einav et al. (2015) eBay मा अनलाइन नीलामी पढ्न को लागि एक शोधकर्ता संग भागीदारी। म अनुसन्धानको बारेमा थप कुरा गर्नेछु जुन यस अध्याय पछि अध्यायमा आएको छ, तर मैले यसलाई उल्लेख गर्दछु किनभने यो सफल साझेदारीमा हेर्ने सबै सामग्रीहरू थिए: शोधकर्ता चासो, शोधकर्ता क्षमता, कम्पनी रुचि, र कम्पनी क्षमता । मैले धेरै सम्भावित सहकार्यहरू असफल गरेको छु किनभने यो पनि शोधकर्ता वा साझेदार-यो कम्पनी हो वा सरकारी-यी अवयव मध्ये एक हो।
यद्यपि यदि तपाईं व्यापारको साथ साझेदारी साझेदारी गर्न वा प्रतिबन्धित सरकारी डेटाको पहुँच प्राप्त गर्न सक्षम हुनुहुन्छ भने, तथापि, तपाईंको लागि केहि downsides छन्। पहिलो, तपाईं शायद आफ्नो डेटा अन्य शोधकर्ताहरूसँग साझेदारी गर्न सक्नुहुन्न, जुन यसको अर्थ हो कि अन्य शोधकर्ताहरू तपाईंको परिणामहरू प्रमाणित गर्न र विस्तार गर्न सक्षम हुने छैनन्। दोस्रो, तपाईंले सोध्न सक्ने प्रश्नहरू सीमित हुन सक्छ; कम्पनीहरूले अनुसन्धान गर्न अनुमति नदिने सम्भावना छ कि उनीहरूलाई खराब लगाउन सक्दछन्। अन्तमा, यो साझेदारीले कम्तीमा ब्याजको विवादको उपस्थिति सिर्जना गर्न सक्दछ, जहाँ मानिसहरूले सोच्न सक्छन् कि तपाईंको नतिजा तपाईंको साझेदारीबाट प्रभावित भएका थिए। यी सबै downsides संबोधित गर्न सकिन्छ, तर यो महत्त्वपूर्ण छ कि डेटा संग काम गर्ने सबैको लागि पहुँच योग्य छैन upsides and downsides दुवै छ।
संक्षेपमा, धेरै ठूला डाटा शोधकर्ताहरूको लागि पहुँच योग्य छैन। त्यहाँ गम्भीर कानुनी, व्यापार र नैतिक बाधाहरू छन् जुन डेटा पहुँच रोक्न रोक्छ, र यी बाधाहरू दूर टेक्न सक्दैन किनभने तिनीहरू टेक्निकल बाधाहरू छैनन्। केहि राष्ट्रीय सरकारले डेटासेटको लागि डेटा डेटा सक्षम गर्न प्रक्रिया स्थापित गरेको छ, तर प्रक्रिया विशेष गरी राज्य र स्थानीय स्तरमा विज्ञापन हो। साथै, केहि अवस्थाहरुमा, शोधकर्ताहरूले कम्पनीको पहुँचलाई डेटा पहुँच प्राप्त गर्न पार्टनर गर्न सक्छन्, तर यसले शोधकर्ताहरू र कम्पनीहरूको लागि विभिन्न समस्या सिर्जना गर्न सक्छ।