Податоци кои се чуваат од страна на претпријатијата и владите се тешки за истражувачите да пристапите.
Во мај 2014 година, агендата за национална безбедност на САД го отвори центарот за податоци во руралните Јута кој има непријатна име, разузнавачката заедница сеопфатна национална Cybersecurity иницијатива податоци центар. Сепак, овие податоци центар, кој дојде да биде познат како центар на Јута на податоци, се пријавени да имаат неверојатни способности. Во еден извештај се наведува дека на центар на податоци на Јута е во состојба да ги чуваат и обработуваат сите форми на комуникација, вклучувајќи ги и "целосната содржина на приватни пораки, мобилни телефонски повици и пребарувања во Google, како и сите видови на лични податоци сметки патеки, паркинг, патни правци , набавки книжарница, и други дигитални `џеб ѓубре" (Bamford 2012) . Во прилог на подигање на загриженоста во врска со чувствителната природа на голем дел од информациите заробени во големите податоци, кои ќе бидат опишани повеќе подолу, центарот за податоци на Јута е екстремен пример за богат извор на податоци што е недостапен за истражувачите. Општо земено, многу извори на големи податоци кои ќе бидат корисни за истражувачите се контролирани и ограничен од страна на владите (на пример, данокот на податоци и податоците за образованието) и компании (на пример, внесени во пребарувачите и телефонски повик мета-податоци). Затоа, овие податоци нема да бидат веднаш достапни за истражувачите од универзитетите, а повеќето не ќе бидат достапни за истражувачите во влади и компании.
Во моето искуство, многу истражувачи врз основа на универзитетите се разбереме погрешно изворот на непристапност. Овие податоци не се недостапни, бидејќи луѓето во компаниите и владите се глупави, мрзливи, или незаинтересиран. Наместо тоа, постојат сериозни правни, технички, бизнис, и етичките бариери кои ги спречуваат пристап до податоците. На пример, некои договори условите на услугите за веб-сајтови само им овозможи на податоци да бидат користени од страна на вработените или за подобрување на услугата. Значи одредени форми на размена на податоци може да се изложуваат на компаниите да се легитимни тужби од клиенти. Исто така, постојат значителни деловни ризици на компании кои се вклучени во споделување на податоци. Обидете се да замислите како јавноста ќе одговорат ако податоците личен претрес случајно протекоа од Google како дел од универзитетски истражувачки проект. Таквите податоци повреда, ако крајност, па дури и да биде на егзистенцијалниот ризик за компанијата. Па Google и повеќето големи компании-се многу сакаат ризици за споделување на податоци со истражувачите.
Всушност, речиси секој кој е во состојба да обезбеди пристап до големи количини на податоци ја знае приказната за Абдур Chowdhury. Во 2006 година, кога тој беше шеф за истражување на AOL, тој намерно ослободени што мисли беа анонимизирани пребарувања од 650.000 AOL корисници на истражувачката заедница. Колку што можам да кажам, Chowdhury и истражувачите во AOL имале добри намери и тие мислеа дека тие се анонимизирани податоци. Но, тие беа во право. Тоа беше брзо открија дека податоците не се како анонимен како истражувачите мислев и на новинарите од New York Times, беа во можност да се идентификуваат луѓето во базата на податоци со леснотија (Barbaro and Zeller Jr 2006) . Откако биле откриени на овие проблеми, Chowdhury отстранети податоците од веб-сајтот на AOL, но тоа беше премногу доцна. Податоците се објавуваат на други веб-сајтови, и тоа веројатно уште ќе бидат достапни кога го читате оваа книга. Поради неговиот обид да ги споделат податоци со истражување заедница, Chowdhury беше отпуштен, и главен службеник за технологија на AOL поднесе оставка (Hafner 2006) . Како што покажува овој пример, придобивките за одредени поединци во неколку компании за да се олесни пристапот до податоци се прилично мали и најлош случај е страшно.
Истражување Сепак, може да се добие пристап до податоци кои се недостапни за јавноста. Владите имаат процедури кои истражувачите можат да се следат за да се пријават за пристап, и како примери подоцна во ова поглавје шоу, истражувачите можат повремено да се добие пристап до корпоративните податоци. На пример, Einav et al. (2015) соработува со истражувач на eBay да се учат на дигиталните траги од онлајн аукции. Ќе се зборува повеќе за истражување, кои дојдоа од оваа соработка подоцна во ова поглавје (Поглавје 2.4.3.2), но јас се спомене тоа сега, бидејќи тоа ги имаше сите четири од состојки кои го гледам во успешни партнерства: истражувач интерес, способност истражувач, компанијата интерес и способност на компанијата. Со други зборови, Einav и неговите колеги беа заинтересирани и се способни за учење онлајн аукции. И, eBay беше, исто така. Сепак, јас сум видел многу можна соработка не успеваат бидејќи или истражувач или компанија недостигаше еден од овие состојки.
Дури и ако сте во можност да се развие партнерство со бизнис, сепак, постојат некои недостатоци за вас. Прво, прашањата кои можете да побарате со податоците со веројатност да биде ограничено, компании, најверојатно, нема да им се овозможи истражување што може да направи да изгледате лошо. Второ, најверојатно нема да биде во можност да ги споделите вашите податоци со други истражувачи, што значи дека другите истражувачи нема да биде во можност да се провери и да се прошири вашите резултати. Понатаму, овие партнерства може да се создаде барем појавата на судир на интереси, каде што луѓето може да мислат дека вашите резултати биле под влијание од страна на вашиот партнерства. Сите овие недостатоци можат да се решат, но важно е да се биде јасно дека работат со податоци кои не се достапни за сите имаа квит и недостатоци.
Во краток преглед, голем број на големи податоци е недостапен за истражувачите. Постојат сериозни правни, технички, бизнис, и етичките бариери кои ги спречуваат пристап до податоци, и овие бариери нема да исчезне. Националните влади генерално имаат воспоставено процедури за овозможување на пристап до податоци, но процесот може да биде повеќе ад хок на државно и на локално ниво. Исто така, во некои случаи, истражувачите можат да се здружат со компании да добијат пристап до податоци, но ова може да креирате различни проблеми за истражувачите.