સંશોધકોને ઍક્સેસ કરવા માટે કંપનીઓ અને સરકારો દ્વારા લેવામાં આવતી માહિતી મુશ્કેલ છે.
મે 2014 માં, યુ.એસ. નેશનલ સિક્યુરિટી એજન્સીએ ગ્રામીણ ઉતાહમાં એક અનાવશ્યક નામ, ઇન્ટેલિજન્સ કોમ્યુનિટી કોમ્પ્શિવેન નેશનલ સાઇબર સિક્યુરિટી ઇનિશિયેટિવ ડેટા સેન્ટર, માં ડેટા સેન્ટર ખોલ્યું. જો કે, આ ડેટા સેન્ટર, જેને ઉતાહ ડેટા સેન્ટર તરીકે ઓળખવામાં આવ્યું છે, તેને આશ્ચર્યજનક ક્ષમતાઓ હોવાનું નોંધાયું છે. એક અહેવાલમાં આક્ષેપ કરવામાં આવ્યો છે કે તે ખાનગી ઇમેલ્સ, સેલ ફોન કૉલ્સ અને Google શોધની સંપૂર્ણ સામગ્રીઓ સહિત તમામ પ્રકારના સંચારને સંગ્રહિત કરવા અને તેની પ્રક્રિયા કરવામાં સક્ષમ છે, સાથે સાથે તમામ પ્રકારના વ્યક્તિગત ડેટા રસ્તાઓ-પાર્કિંગ રસીદો, મુસાફરીના પ્રવાસનો, બુકસ્ટોર ખરીદીઓ , અને અન્ય ડિજિટલ 'પોકેટ લિટર' " (Bamford 2012) . મોટા ડેટામાં કબજે કરેલી મોટાભાગની માહિતીના સંવેદનશીલ સ્વભાવ વિશે ચિંતા વધારવા ઉપરાંત ઉતાહ ડેટા સેન્ટર સમૃદ્ધ ડેટા સ્ત્રોતનું એક આત્યંતિક ઉદાહરણ છે, જે સંશોધકો માટે અપ્રાપ્ય છે. વધુ સામાન્ય રીતે, મોટી માહિતીના ઘણા સ્રોતો ઉપયોગી છે જે સરકારો દ્વારા નિયંત્રિત અને પ્રતિબંધિત થાય છે (દા.ત. ટેક્સ ડેટા અને શૈક્ષણિક ડેટા) અથવા કંપનીઓ (દા.ત. સર્ચ એન્જિન અને ફોન કૉલ મેટા-ડેટા) આથી, આ ડેટા સ્રોતો અસ્તિત્વમાં હોવા છતાં પણ, તેઓ સામાજિક સંશોધનના હેતુઓ માટે નકામી છે કારણ કે તે અશક્ય છે.
મારા અનુભવમાં, યુનિવર્સિટીઓ પર આધારિત ઘણા સંશોધકો આ બિનઅસરકારકતાના સ્ત્રોતને ગેરસમજ કરે છે. આ માહિતી અયોગ્ય નથી કારણ કે કંપનીઓ અને સરકારોના લોકો મૂર્ખ, આળસુ, અથવા અસંસ્કારી છે. ઊલટાનું, ગંભીર કાનૂની, વ્યવસાય અને નૈતિક અવરોધો છે જે ડેટા એક્સેસને અટકાવે છે. ઉદાહરણ તરીકે, વેબસાઇટ્સ માટેના અમુક નિયમો-ઓફ-સર્વિસ એગ્રીમેન્ટ્સ ફક્ત કર્મચારીઓ દ્વારા ડેટાને ઉપયોગમાં લેવાની મંજૂરી આપે છે અથવા સેવાને સુધારવા માટે. તેથી ડેટા શેરિંગના અમુક સ્વરૂપો ગ્રાહકોને કાયદેસર મુકદ્દમા માટે છતી કરી શકે છે. માહિતી વહેંચતા કંપનીઓમાં નોંધપાત્ર વેપાર જોખમો પણ છે. કલ્પના કરવાનો પ્રયાસ કરો કે જો કોઈ એક યુનિવર્સિટી રિસર્ચ પ્રોજેક્ટના ભાગરૂપે વ્યક્તિગત શોધ ડેટા અકસ્માતે ગૂગલમાંથી છૂપાવેલી હોય આવા ડેટાના ઉલ્લંઘન, જો ભારે હોય, તો કંપની માટે અસ્તિત્વના જોખમ પણ હોઇ શકે છે. તેથી Google- અને મોટા ભાગની મોટી કંપનીઓ-સંશોધકો સાથે ડેટા વહેંચવાનું જોખમ-પ્રતિકૂળ છે.
હકીકતમાં, મોટાભાગના લોકો જે મોટા પ્રમાણમાં ડેટા ઉપલબ્ધ કરાવવાની સ્થિતિમાં છે તે અબ્દુલ ચૌધરીની વાર્તા જાણે છે. 2006 માં, જ્યારે તેઓ એઓએલના સંશોધનના વડા હતા, ત્યારે તેઓ ઈરાદાપૂર્વક રિસર્ચ કમ્યુનિટિમાં રિલીઝ થયા હતા, તેમણે 650,000 એઓએલ (ASL) વપરાશકર્તાઓ તરફથી અનામિત શોધ ક્વેરીઝ વિચાર્યા હતા. જ્યાં સુધી હું કહી શકું છું, ચૌધરી અને એઓએલના સંશોધકો સારા ઇરાદા ધરાવતા હતા, અને તેમને લાગ્યું કે તેઓએ ડેટાને અનામ રાખ્યો છે. પરંતુ તેઓ ખોટા હતા. તે ઝડપથી શોધ્યું હતું કે સંશોધકોના મત મુજબ માહિતી એ અનામી નથી, અને ન્યુ યોર્ક ટાઇમ્સના પત્રકારો સરળતા સાથે ડેટાસેટમાંના કોઇને ઓળખી શકે છે (Barbaro and Zeller 2006) . એકવાર આ સમસ્યાઓ શોધી કાઢવામાં આવી, ચૌધરીએ એઓએલની વેબસાઇટ પરથી માહિતી દૂર કરી, પરંતુ તે ખૂબ મોડું થયું હતું. આ ડેટા અન્ય વેબસાઇટ્સ પર ફરીથી પોસ્ટ કરી દેવામાં આવી છે, અને જ્યારે તમે આ પુસ્તક વાંચશો ત્યારે તે સંભવ હશે. ચૌધરીને છોડવામાં આવ્યા હતા, અને એઓએલના મુખ્ય ટેક્નોલોજી અધિકારીએ રાજીનામું આપ્યું હતું (Hafner 2006) . જેમ કે આ ઉદાહરણ બતાવે છે, કંપનીઓની અંદરની કેટલીક વ્યક્તિઓ માટે ડેટા એક્સેસ કરવાની સગવડ ફાયદા ખૂબ ઓછી છે અને સૌથી ખરાબ કેસ દૃશ્ય ભયંકર છે.
સંશોધકો, તેમ છતાં, કેટલીકવાર સામાન્ય જનતા માટે અસુરક્ષિત ડેટા પર પ્રવેશ મેળવી શકે છે. કેટલીક સરકારો એવી કાર્યવાહી ધરાવે છે કે જે સંશોધકો પ્રવેશ માટે અરજી કરવા માટે અનુસરી શકે છે, અને આ પ્રકરણના શોમાં પાછળના ઉદાહરણો તરીકે, સંશોધકો ક્યારેક કોર્પોરેટ ડેટાની ઍક્સેસ મેળવી શકે છે. ઉદાહરણ તરીકે, Einav et al. (2015) ઓનલાઈન હરાજીનો અભ્યાસ કરવા ઇબે પર સંશોધક સાથે ભાગીદારી કરે છે પ્રકરણમાં પછીથી આ સંશોધનમાંથી જે સંશોધન થયું તે વિશે હું વધુ વાત કરીશ, પણ હવે હું તેનો ઉલ્લેખ કરું છું કારણ કે તે તમામ ચાર ઘટકો છે જે હું સફળ ભાગીદારીમાં જોઈ શકું છું: સંશોધક રસ, સંશોધકની ક્ષમતા, કંપનીના વ્યાજ અને કંપનીની ક્ષમતા . મેં જોયું છે કે ઘણા સંભવિત સહયોગો નિષ્ફળ જાય છે કારણ કે સંશોધક અથવા પાર્ટનર- તે એક કંપની છે અથવા સરકાર આ ઘટકો પૈકી એકની અભાવ છે.
જો તમે કોઈ વ્યવસાય સાથે ભાગીદારી વિકસાવવા અથવા પ્રતિબંધિત સરકારી ડેટાને ઍક્સેસ કરવા માટે સક્ષમ છો, તો પણ, તમારા માટે કેટલાક ડાઉનસેઇડ્સ છે પ્રથમ, તમે કદાચ તમારા ડેટાને અન્ય સંશોધકો સાથે શેર કરી શકતા નથી, જેનો અર્થ છે કે અન્ય સંશોધકો તમારા પરિણામોને ચકાસવા અને વિસ્તૃત કરી શકશે નહીં. બીજું, તમે જે પ્રશ્નો પૂછી શકો છો તે મર્યાદિત હોઈ શકે છે; કંપનીઓ સંશોધન કરવા માટે અશક્ય છે જે તેમને ખરાબ દેખાશે. છેવટે, આ ભાગીદારી હિતોના સંઘર્ષનો ઓછામાં ઓછો દેખાવ બનાવી શકે છે, જ્યાં લોકો વિચારે છે કે તમારા પરિણામો તમારી ભાગીદારીથી પ્રભાવિત થયા છે. આ તમામ ડાઉનસાઈડ્સને સંબોધિત કરી શકાય છે, પરંતુ તે સ્પષ્ટ થવું અગત્યનું છે કે દરેક ડેટાને સાથે કામ કરવું એ અપસાઇડ અને ડાઉનસોઇડ્સ બંને ધરાવે છે.
સંક્ષિપ્તમાં, મોટા ડેટા ઘણાં સંશોધકો માટે અસમર્થ છે. ત્યાં ગંભીર કાનૂની, વ્યવસાય અને નૈતિક અવરોધો છે જે ડેટા એક્સેસને અટકાવે છે, અને આ અવરોધો દૂર નહીં જાય કારણ કે તકનીકીમાં સુધારો થયો છે કારણ કે તે તકનીકી અવરોધો નથી. કેટલીક રાષ્ટ્રીય સરકારોએ કેટલાક ડેટાસેટ્સ માટે ડેટા એક્સેસને સક્ષમ કરવા માટેની પ્રક્રિયાઓ સ્થાપિત કરી છે, પરંતુ પ્રક્રિયા ખાસ કરીને રાજ્ય અને સ્થાનિક સ્તરે તથ્યો છે. ઉપરાંત, કેટલાક કિસ્સાઓમાં, સંશોધકો માહિતી મેળવવા માટે કંપનીઓ સાથે ભાગીદાર બની શકે છે, પરંતુ આ સંશોધકો અને કંપનીઓ માટે વિવિધ સમસ્યાઓ બનાવી શકે છે.