Податоците што ги поседуваат компаниите и владите им е тешко да им пристапат на истражувачите.
Во мај 2014 година, Агенцијата за национална безбедност на САД отвори центар за податоци во руралниот дел на Јута со непријатно име, Центарот за податоци за разновидна национална сајбер-безбедносна иницијатива за разузнавање. Сепак, за овој центар за податоци, кој е познат како Центар за податоци во Јута, се вели дека има извонредни способности. Еден извештај тврди дека е способен за складирање и обработка на сите форми на комуникација, вклучувајќи "целосна содржина на приватни пораки, мобилни телефонски повици и пребарувања на Google, како и сите видови на траги за лични податоци - потврди за паркирање, патни правци, купување книжарници , и други дигитални "џебни отпадоци" " (Bamford 2012) . Како дополнување на загриженоста за чувствителната природа на голем дел од информациите собрани со големи податоци, кои ќе бидат опишани подолу подолу, Јута Центарот за податоци е екстремен пример за богат извор на податоци кој е недостапен за истражувачите. Општо земено, многу извори на големи податоци кои би биле корисни се контролирани и ограничени од страна на владите (на пр. Даночни податоци и образовни податоци) или компании (на пример, пребарувања до пребарувачи и мета-податоци за телефонски повик). Затоа, и покрај тоа што овие извори на податоци постојат, тие се бескорисни за целите на општествените истражувања, бидејќи тие се недостапни.
Според моето искуство, многу истражувачи со седиште во универзитетите погрешно го разбираат изворот на оваа непристапност. Овие податоци се недостапни не затоа што луѓето во компаниите и владите се глупави, мрзливи или невидени. Напротив, постојат сериозни правни, деловни и етички бариери кои го спречуваат пристапот до податоци. На пример, некои услови за користење на услуги за веб-страници дозволуваат само податоци од вработените или за подобрување на услугата. Значи, одредени форми на делење на податоци би можеле да ги изложат компаниите да ги легитимираат тужбите од потрошувачите. Исто така, постојат значителни деловни ризици за компаниите кои се вклучени во размената на податоци. Обидете се да замислите како јавноста ќе одговори ако податоците за лични податоци случајно излегуваат од Google како дел од универзитетскиот истражувачки проект. Ваквото прекршување на податоци, ако е екстремно, можеби е егзистенцијален ризик за компанијата. Значи, Google-и повеќето големи компании-се многу агресивни за споделување на податоци со истражувачите.
Всушност, скоро секој што е во позиција да обезбеди пристап до големи количини на податоци ја знае приказната за Абдур Чаудхури. Во 2006 година, кога бил шеф на истражување на AOL, тој намерно пуштил во истражувачката заедница она што мислел дека е анонимизиран пребарувачки пребарувања од 650.000 корисници на AOL. Колку што можам да кажам, Chowdhury и истражувачите на AOL имале добри намери, и мислеа дека ги анонимизираат податоците. Но, тие беа погрешни. Брзо беше откриено дека податоците не биле толку анонимни како што мислат истражувачите, а новинарите од Њујорк тајмс со леснотија можеле лесно да идентификуваат некого во базата на податоци (Barbaro and Zeller 2006) . Откако овие проблеми беа откриени, Chowdhury ги отстрани податоците од веб-страницата на AOL, но беше предоцна. Податоците се објавени на други веб-страници, и веројатно ќе бидат достапни кога ја читате оваа книга. Чаудхури беше отпуштен, а главниот технолошки офицер на АОЛ поднесе оставка (Hafner 2006) . Како што покажува овој пример, придобивките за одредени поединци во компаниите за да се олесни пристапот до податоци се прилично мали, а најлошото сценарио е ужасно.
Сепак, истражувачите понекогаш можат да добијат пристап до податоци што се недостапни за пошироката јавност. Некои влади имаат процедури кои истражувачите можат да ги следат за да аплицираат за пристап, и како што покажуваат примери подолу во ова поглавје, истражувачите понекогаш може да добијат пристап до корпоративните податоци. На пример, Einav et al. (2015) соработувал со истражувач на eBay за да ги проучи онлајн аукциите. Ќе разговарам повеќе за истражувањето кое произлезе од оваа соработка подоцна во ова поглавје, но сега го споменувам затоа што ги имав сите четири состојки што ги гледам во успешни партнерства: интересите на истражувачите, способноста на истражувачите, интересот на компанијата и способноста на компанијата . Сум видел дека многу потенцијални соработки не успеваат, бидејќи или истражувачот или партнерот - било да е компанија или влада - немала една од овие состојки.
Дури и ако сте во можност да развиете партнерство со бизнис или да стекнете пристап до ограничените владини податоци, сепак, постојат некои негативни страни за вас. Прво, веројатно нема да можете да ги споделите вашите податоци со други истражувачи, што значи дека другите истражувачи нема да можат да ги потврдат и да ги прошират вашите резултати. Второ, прашањата што можете да ги поставите може да бидат ограничени; компаниите веројатно нема да дозволат истражувања кои би можеле да ги направат да изгледаат лошо. Конечно, овие партнерства може да создадат барем појава на конфликт на интереси, каде што луѓето би можеле да мислат дека на вашите резултати биле под влијание на вашите партнерства. Сите овие негативни страни може да се решат, но важно е да биде јасно дека работењето со податоци што не е пристапно за секого, има и навреди и недостатоци.
Накратко, многу големи податоци се недостапни за истражувачите. Постојат сериозни правни, деловни и етички бариери кои го спречуваат пристапот до податоци, и овие бариери нема да исчезнат, бидејќи технологијата ќе се подобри, бидејќи тие не се технички бариери. Некои национални влади имаат воспоставено процедури за овозможување на пристап до податоци за некои бази на податоци, но процесот е особено ад хок на државно и на локално ниво. Исто така, во некои случаи, истражувачите можат да соработуваат со компаниите за да добијат пристап до податоци, но ова може да создаде различни проблеми за истражувачите и компаниите.