Компаниялар мен үкіметтер жүргізген деректер зерттеушілердің қол жетімділігі қиын.
2014 жылдың мамыр айында АҚШ Ұлттық қауіпсіздік агенттігі Юта штатындағы деректер орталығын ыңғайсыз атаумен, Intelligence Community ұлттық киберқауіпсіздік жөніндегі бастама деректер орталығымен ашты. Дегенмен, Юта деректер орталығы ретінде белгілі болған бұл деректер орталығы, таңқаларлық мүмкіндіктерге ие екендігі туралы хабарлады. Бір баяндамада байланысдың барлық түрлерін сақтауға және өңдеуге болады, соның ішінде «жеке электрондық хаттарды, ұялы телефон қоңырауларын және Google іздеулерінің толық мазмұнын, сондай-ақ жеке деректер жолдарының барлық түрлерін - паркинг туралы түбіртектерді, саяхат бағыттарын, кітап дүкендерін сатып алуды , және басқа да цифрлық «қалташалық қоқыс» (Bamford 2012) . Төменде суреттелген үлкен деректерге түсетін ақпараттың көпшілігінің сезімтал сипаты туралы алаңдаушылық тудырғанымен, Юта Деректер Орталығы зерттеушілерге қол жетпейтін бай деректер көзінің ерекше мысалы болып табылады. Тұтастай алғанда, пайдалы бола алатын көптеген үлкен дерек көздері үкімет тарапынан бақыланады және шектеледі (мысалы, салық туралы деректер және білім беру деректері) немесе компаниялар (мысалы, іздеу жүйелеріне және телефон қоңырауларының мета-деректеріне арналған сұраулар). Сондықтан, осы деректер көздері болса да, олар әлеуметтік зерттеулер мақсаттары үшін пайдасыз, себебі олар қол жетімсіз.
Менің тәжірибемде университеттерде негізделген көптеген зерттеушілер бұл қолайсыздықтың көзін дұрыс түсінбейді. Бұл деректер компаниялар мен үкіметтердің адамдарында глупо, ленивый немесе немқұрайлы емес, өйткені қол жетімсіз. Керісінше, деректерге кіруге кедергі келтіретін заңды, іскерлік және этикалық кедергілер бар. Мысалы, веб-тораптарға қызмет көрсету туралы кейбір шарттар тек қызметкерлердің деректерін пайдалануға немесе қызметті жақсартуға мүмкіндік береді. Осылайша, деректерді бөлісудің кейбір түрлері клиенттерді заңды тарапынан тұтынушылардан талап етуі мүмкін. Деректермен бөлісуге қатысатын компаниялар үшін маңызды іскерлік тәуекелдер де бар. Жеке іздеу деректерін Google-тан зерттеу жобасы ретінде кездейсоқ сындырса, жұртшылық қалай жауап беретінін елестетіп көріңіз. Осындай деректерді бұзу, егер экстремалды болса, тіпті компания үшін экзистенттік тәуекел болуы мүмкін. Сондықтан Google және көптеген ірі компаниялар - деректерді зерттеушілермен бөлісу үшін өте қауіпті.
Іс жүзінде, Абдур Чаудхуридің әңгімесін білетін көптеген адамдар дерлік үлкен көлемде деректерге қол жеткізе алады. 2006 жылы AOL зерттеу орталығының жетекшісі болған кезде, ол 650 000 AOL пайдаланушысынан іздеу сұрауларын анонимизирленген деп ойлап, зерттеушілерге әдейі жіберді. Мен Chowdhury мен AOL зерттеушілері жақсы ниеттерге ие болғанымен, олар деректерді анонимді деп санайды. Бірақ олар дұрыс емес еді. Деректер зерттеушілер ойлағандай анонимді емес екенін анықтап, Нью-Йорк Таймс журналистері деректер жиынтығындағы біреуді жеңілдету мүмкіндігіне ие болды (Barbaro and Zeller 2006) . Осы проблемалар анықталғаннан кейін, Chowdhury AOL веб-сайтындағы деректерді алып тастады, бірақ бұл тым кеш болды. Бұл деректер басқа веб-сайттарда орналастырылған және бұл кітапты оқыған кезде әлі де қол жетімді болуы мүмкін. Chowdhury жұмыстан шығарылды, AOL компаниясының бас технологы қызметінен босатылды (Hafner 2006) . Бұл мысалда көрсетілгендей, деректердің қолжетімділігін жеңілдету үшін компаниялар ішіндегі белгілі бір тұлғаларға пайдасы өте аз, ал нашар сценарий қорқынышты.
Алайда зерттеушілер кейде жалпыға қолжетімді емес деректерге қол жеткізе алады. Кейбір елдердің үкіметінде зерттеушілер қол жетімділікке қол жеткізуге болатын рәсімдер бар және бұл тарауда мысалдар келтірілгендей, зерттеушілер кейде корпоративтік деректерге қол жеткізе алады. Мысалы, Einav et al. (2015) Интернет-аукциондармен танысу үшін eBay-дің зерттеушісімен серіктес болды. Мен осы ынтымақтастықтан кейінірек осы тараудан шыққан зерттеу туралы көбірек әңгімелесемін, бірақ қазір бұл туралы айтатынмын, себебі менде ол сәтте табысты әріптестік қарым-қатынаста болған барлық төрт ингредиенттердің бар екендігін атап өтті: зерттеушінің қызығушылығы, зерттеушінің мүмкіндіктері, компанияның қызығушылығы және компанияның мүмкіндіктері . Мен зерттеуші немесе әріптесім - компания немесе үкімет бола тұра, осы ингредиенттердің біреуі болмағандықтан, әлеуетті ынтымақтастықтың сәтсіздіктерін байқадым.
Дегенмен, сіз бизнеспен серіктестікті дамыта алсаңыз да немесе шектеулі үкіметтік деректерге қол жеткізе алсаңыз да, сіз үшін кейбір кемшіліктер бар. Біріншіден, сіз сіздің деректеріңізді басқа зерттеушілермен бөлісе алмайсыз, яғни басқа зерттеушілер сіздің нәтижелеріңізді тексере алмайды және кеңейте алмайды. Екіншіден, сұрақ қоюға болатын сұрақтар шектеулі болуы мүмкін; компанияларға олардың нашар көрінуі мүмкін зерттеулерге рұқсат беру мүмкіндігі екіталай. Ақыр соңында, бұл серіктестіктер, ең болмағанда, сіздің мүдделеріңізді серіктестік қарым-қатынастарыңыздың әсеріне ұшыратқанын білетін мүдделер қақтығысының пайда болуы мүмкін. Барлық осы кемшіліктерді жоюға болады, бірақ әрқайсысы үшін қол жетімсіз деректермен жұмыс істеу, сондай-ақ екеуінің де, дефектілердің де бар екенін түсіну маңызды.
Қысқаша айтқанда, зерттеушілерге көптеген үлкен деректер жетпейді. Деректерге қол жетімділікті болдырмауға мүмкіндік беретін маңызды құқықтық, іскерлік және этикалық кедергілер бар, және бұл кедергілер техникалық кедергі болып табылмайды, себебі технология жетілдіріледі. Кейбір ұлттық үкімет кейбір деректер жиынтығына деректерге қол жеткізуді қамтамасыз ету процедураларын белгіледі, бірақ бұл үдеріс әсіресе мемлекеттік және жергілікті деңгейлерде өткізіледі. Сондай-ақ, кейбір жағдайларда зерттеушілер компаниялармен деректерге қол жеткізу үшін әріптестермен серіктестік жасай алады, бірақ бұл зерттеушілер мен компаниялар үшін көптеген проблемаларды тудыруы мүмкін.