Подаци држе компанијама и владама је тешко истраживачима да приступе.
У мају 2014. године, САД за националну безбедност агенда отворио дата центар у руралној Утах да има незгодну име, обавештајне заједнице свеобухватне националне сајбер иницијатива дата центар. Међутим, ови подаци центар, који је дошао да буде познат као Утах Дата Центер, наводно има невероватних могућности. Један извештај наводи да је Јута центар података може да чува и обрађује све облике комуникације, укључујући "Тхе Цомплете садржаја приватних мејлова, мобилних телефона позивима и Гоогле претрага, као и све врсте личних података руте-паркинг примања, путне маршруте , књижара куповине, а други дигитални `џеп легло '" (Bamford 2012) . Поред бриге о осетљиве природе много информација заробљене у великим подацима, који ће бити описан више у наставку, Јута Дата центар је екстреман пример богат извор података који је неприступачан за истраживаче. Уопштено говорећи, многи извори великог података који би били корисни за истраживаче су контролисани и ограничена од стране влада (на пример, пореских података и подацима везаним за образовање) и компанија (нпр, упити на претраживачима и телефонски позив мета података). Због тога, ови подаци неће бити одмах доступан истраживачима на универзитетима, а већина неће ни бити доступан истраживачима у владама или компанија.
По мом искуству, многи истраживачи засноване на универзитетима погрешно извор овог недоступности. Ови подаци нису недоступни јер људи у компанијама и владама су глупи, лењи, или немаран. Уместо тога, постоје озбиљне правне, техничке, пословне и етичке препреке које спречавају приступ подацима. На пример, неки услови-оф-сервице споразуми за веб странице само омогућава да се подаци користе запослени или да побољша услугу. Тако да одређени облици размене података може да изложи компаније легитимним тужбе од стране купаца. Ту су и значајни пословни ризици за предузећа која се баве размену података. Покушајте да замислите како би јавност реаговати ако лични подаци претраге случајно исцурило из Гоогле-а у оквиру универзитета истраживачког пројекта. Таква повреда подаци, ако екстреман, можда чак и егзистенцијални ризик за компанију. Тако да Гоогле-а већина великих предузећа-су врло несклони ризику за дељење података са истраживачима.
У ствари, скоро свако ко је у позицији да омогући приступ велике количине података зна причу о Абдур Цховдхури. У 2006. години, када је био на челу АОЛ истраживања, он је намерно објавио шта је мислио су анонимне упите од 650.000 АОЛ кориснике у истраживачкој заједници. Колико ја могу да кажем, Цховдхури, а истраживачи у АОЛ имала добре намере и мисле да су анонимне податке. Али, они су били у праву. Она је убрзо открио да су подаци нису били као анонимно, јер су истраживачи мислили, а новинари из Нев Иорк Тимес били у стању да идентификује људе у података са лакоћом (Barbaro and Zeller Jr 2006) . Када су ови проблеми откривено, Цховдхури, уклонили податке са сајта АОЛ, али било је прекасно. Подаци су постављати на другим сајтовима, а вероватно ће и даље бити на располагању када се читају ову књигу. Због његов покушај да дели податке са истраживачкој заједници, ЦЦовдури је отпуштен, а главни технолошки АОЛ оставку (Hafner 2006) . Као што овај пример показује, користи за одређене појединце унутар предузећа како би се олакшала приступ подацима су јако мали и најгори сценарио је грозан.
Истраживање се, међутим, приступ подацима који је недоступан јавности. Владе имају процедуре које истраживачи могу да прате да се пријаве за приступ, а као примери касније у овом поглављу емисији, истраживачи могу повремено приступ корпоративним подацима. На пример, Einav et al. (2015) са истраживач на еБаи-у да студирају дигиталне трагове од онлине аукција. Причаћу више о истраживању које је дошао из ове сарадње касније у поглављу (члан 2.4.3.2), али сам га споменути сада, јер је имао сва четири састојака које видим у успешног партнерства истраживач интереса, истраживач способности, kompanija интерес, и способност компанија. Другим речима, Еинав и његове колеге су заинтересовани и способни за проучавање онлајн аукције. И еБаи је такође. Међутим, видео сам многе могуће сарадње пропадају јер ни истраживач или компанија није имала један од тих састојака.
Чак и ако сте у стању да развије партнерство са посла, међутим, постоје неке мане за вас. Прво, питања која можете поставити са подацима са вероватно бити ограничен; Мало је вероватно да би истраживање које би могле да изгледају лоше компаније. Друго, вероватно нећете моћи да делите податке са другим истраживачима, што значи да други истраживачи неће моћи да провери и проширите своје резултате. Даље, ова партнерства може да створи бар привид сукоба интереса, где људи могу мислите да су ваши резултати под утицајем своје партнерства. Све ове негативних страна може решити, али је важно да буде јасно да је рад са подацима који није доступан свима имао и упсидес и лоше стране.
Све у свему, много велики података је недоступан за истраживаче. Постоје озбиљне правне, техничке, пословне и етичке препреке које спречавају приступ подацима, а те баријере неће нестати. Националне владе углавном су установљене процедуре за омогућавање приступа подацима, али тај процес може бити ад хоц на државном и локалном нивоу. Исто тако, у неким случајевима, истраживачи могу партнер компанијама да добију приступ подацима, али то може да створи низ проблема за истраживача.