व्यवसाय आणि सरकार यांनी आयोजित डेटा संशोधक प्रवेश करण्यासाठी कठीण आहे.
मे 2014 मध्ये, अमेरिका राष्ट्रीय सुरक्षा अजेंडा एक अस्ताव्यस्त नाव, बुद्धिमत्ता समुदाय सर्वसमावेशक राष्ट्रीय cybersecurity पुढाकार डाटा सेंटर आहे की ग्रामीण युटा एक डाटा सेंटर उघडले. तथापि, या डाटा सेंटर, युटा डाटा सेंटर म्हणून ओळखले जाऊ आला आहे, चैतन्य क्षमता आहे नोंदवले आहे. एक अहवाल युटा डाटा सेंटर संचयित आणि खाजगी ईमेल्स "पूर्ण सामुग्री, सेल फोन कॉल, आणि Google शोध समावेश संवाद सर्व प्रकारच्या, तसेच वैयक्तिक डेटा खुणा पार्किंग पावत्या, प्रवास कार्यक्रम सर्व प्रकारच्या प्रक्रिया करण्यास सक्षम आहे, असा आक्षेप , दुकानात खरेदी, व इतर डिजिटल `खिशात कचरा '" (Bamford 2012) . मोठे डेटा मध्ये मिळविले माहिती, जे अधिक खाली वर्णन केले जाईल जास्त संवेदनशील निसर्ग बद्दल उभारणे चिंता व्यतिरिक्त, युटा डाटा सेंटर संशोधक प्रवेश आहे की एक श्रीमंत डेटा स्त्रोत एक अत्यंत उदाहरण आहे. अधिक सामान्यतः, संशोधक नियंत्रित आणि सरकार (उदा, कर डेटा आणि शैक्षणिक डेटा) आणि कंपन्या प्रतिबंधित केले जातात करणे उपयुक्त ठरेल की मोठे डेटा अनेक स्रोत (उदा, शोध क्वेरी इंजिन आणि फोन कॉल मेटा-डाटा). त्यामुळे या डेटा विद्यापीठे संशोधक लगेच उपलब्ध होणार नाही, आणि सर्वात अगदी सरकार किंवा कंपन्या संशोधकांना उपलब्ध होणार नाही.
माझे अनुभव, विद्यापीठे आधारित अनेक संशोधक हे प्रतिसादन न देण्याची वृत्ती स्त्रोत गैरसमज करुण घेणे. या डेटा कंपन्या आणि सरकार लोकांना मूर्ख आळशी, किंवा बेपर्वा आहेत कारण प्रवेश नाही. उलट, गंभीर कायदेशीर, तांत्रिक, व्यवसाय, आणि डेटा प्रवेश टाळण्यासाठी नैतिक अडथळे आहेत. उदाहरणार्थ, वेबसाइट काही अटी-ऑफ-सेवा करार फक्त सेवा सुधारण्यासाठी डेटा कमर्चा-यांकडून वापरण्यात किंवा करण्यास परवानगी देते. त्यामुळे डेटा शेअरिंग काही फॉर्म ग्राहकांना कायदेशीर खटले कंपन्या उघडकीस शकते. देखील डेटा सामायिक सहभागी कंपन्यांना खारा व्यवसाय जोखीम आहेत. वैयक्तिक शोध डेटा चुकून विद्यापीठ संशोधन प्रकल्प भाग म्हणून Google वरून बाहेर पुसून तर सार्वजनिक प्रतिसाद होईल कसे याची कल्पना करा. अशा डेटा भंग, अत्यंत तर ते कंपनी अस्तित्वाच्या धोका असू शकते. त्यामुळे बहुतेक Google आणि मोठ्या फार धोका-प्रतिकूल संशोधक डेटा शेअर कंपन्या-आहेत.
खरं तर, मोठ्या प्रमाणात ला प्रवेश प्रदान करणे कोण स्थितीत आहे जवळजवळ प्रत्येकजण डेटा अब्दूर चौधरी कथा माहीत आहे. 2006 मध्ये, तो AOL संशोधन प्रमुख असताना, तो हेतुपुरस्सर तो विचार काय ते 650.000 AOL वापरकर्ते संशोधन समाजाला शोध क्वेरी अनामिक होते जाहीर. म्हणून आतापर्यंत मी सांगू शकतो, चौधरी आणि AOL येथे संशोधक चांगला हेतू होते आणि ते त्यांनी अनामिक डेटा असे त्यांना वाटले. पण, ते चुकीचे होते. तो पटकन डेटा संशोधक विचार म्हणून निनावी नाही शोधला गेला, आणि न्यू यॉर्क टाइम्स पत्रकार सहजपणे डेटासेटमध्ये लोक ओळखतात सक्षम होते (Barbaro and Zeller Jr 2006) . या समस्या शोध एकदा, चौधरी AOL च्या वेबसाइटवरून डेटा काढला, पण तो खूप उशीर झाला होता. माहिती अन्य वेबसाइटवर पुन्हा पोस्ट केले गेले होते, आणि तो कदाचित आपण या पुस्तकात वाचत आहात तो अजूनही उपलब्ध होईल. संशोधन समुदाय डेटा सामायिक करण्याचा प्रयत्न कारण, चौधरी उडाला होता, आणि AOL मुख्य तंत्रज्ञान अधिकारी पदाचा राजीनामा दिला (Hafner 2006) . या उदाहरणावरून दिसून येते म्हणून, आत डेटा प्रवेश सुविधा कंपन्यांच्या विशिष्ट फायदे खूपच लहान आहेत, आणि सर्वात वाईट-बाबतीत परिस्थिती भयंकर आहे.
संशोधन करू शकता तथापि, सामान्य जनतेला प्रवेश आहे त्या डेटामध्ये प्रवेश मिळवतात. सरकार संशोधक प्रवेश करण्यासाठी अर्ज अनुसरण करू शकता प्रक्रीया आहे, आणि उदाहरणे नंतर या अध्यायात म्हणून, संशोधक कधीकधी कॉर्पोरेट डेटा प्रवेश प्राप्त करु शकता. उदाहरणार्थ, Einav et al. (2015) ऑनलाइन लिलाव डिजिटल मागोवा अभ्यास eBay येथे एक संशोधक भागीदारी केली. मी नंतर प्रकरण (विभाग 2.4.3.2) या सहकार्याने आले की संशोधन अधिक चर्चा करू, पण तो साहित्य मी यशस्वी भागीदारी आहे की, सर्व चार होते मी आता तो उल्लेख: संशोधक व्याज, संशोधक क्षमता, कंपनी व्याज आणि कंपनी क्षमता. दुसऱ्या शब्दांत, Einav आणि सहकारी रस आणि ऑनलाइन लिलाव अभ्यास सक्षम होते. आणि हा कोड eBay देखील होते. तथापि, मी पाहिले आहे अनेक शक्य सहकार्याने संशोधक किंवा कंपनीच्या एकतर या साहित्य एक कमी पडले कारण मदतीची.
आपण एक व्यवसाय भागीदारी विकसित तथापि सक्षम आहेत, तरीही आपण काही downsides आहेत. प्रथम, आपण कदाचित मर्यादित डेटा विचारू शकता की प्रश्न; कंपन्या त्यांना वाईट दिसत होऊ शकते संशोधन परवानगी संभव आहेत. दुसरी गोष्ट म्हणजे, आपण कदाचित इतर संशोधक, जे इतर संशोधक सत्यापित करण्यासाठी आणि आपल्या परिणाम पाठविणे शक्य होणार नाही याचा अर्थ असा आपला डेटा सामायिक करण्यास सक्षम होणार नाही. पुढे, हे भागीदारी व्याज, लोक आपले परिणाम आपल्या भागीदारी प्रभाव होता की कदाचित जेथे संघर्ष किमान देखावा तयार करू शकता. या downsides सर्व उद्देशून जाऊ शकते, परंतु तो प्रत्येकाला उपलब्ध आहे की नाही डेटा काम upsides आहेत आणि downsides दोन्ही होते, हे स्पष्ट करणे महत्त्वाचे आहे.
सारांश मध्ये, मोठे डेटा बरेच संशोधक प्रवेश आहे. गंभीर कायदेशीर, तांत्रिक, व्यवसाय आहेत, आणि डेटा प्रवेश टाळण्यासाठी नैतिक अडथळ्यांना, आणि या अडथळ्यांना पार करून दूर जाणार नाही. राष्ट्रीय सरकार साधारणपणे डेटा प्रवेश सक्षम कार्यपद्धती स्थापना केली, पण प्रक्रिया अधिक तात्कालिक राज्य आणि स्थानिक पातळीवर असू शकते. तसेच, काही प्रकरणांमध्ये, संशोधक डेटा प्रवेश प्राप्त करू शकता कंपन्या भागीदार, परंतु ही संशोधक यांच्यासाठी समस्या विविध तयार करू शकता.