Подаци које држе компаније и владе тешким су за истраживаче.
У мају 2014. године, Агенција за националну сигурност САД-а отворила је центар за пренос података у руралним подручјима Утах са невјероватним називом, Свеобухватни центар за информирање о интелигенцијској заједници у свијету. Међутим, овај центар података, који је постао познат као Дата Центер у Утаху, има изванредне могућности. Један извештај наводи да је у могућности да чува и обрађује све облике комуникације, укључујући "комплетан садржај приватних електронских пошта, мобитела и Гоогле претраживања, као и све врсте персоналних података - пријемнице за паркирање, путовање по путним правцима, куповина књижара , и други дигитални 'џепни штапић' " (Bamford 2012) . Поред повећања бриге о осјетљивој природи већине информација обухваћених великим подацима, који ће бити описани даље у наставку, Утах Дата Центер представља екстремни примјер богатог извора података који је неприступачан за истраживаче. Опћенито, многи извори великих података који би били корисни контролишу и ограничавају владе (нпр. Подаци о порезу и подаци о образовању) или предузећа (нпр. Упити на претраживаче и мета-податке телефонског позива). Дакле, иако постоје ови извори података, они су бескорисни у сврхе социјалног истраживања јер су они неприступачни.
По мом искуству, многи истраживачи са универзитета погрешно схватају извор ове неприступачности. Ови подаци су неприступачни не зато што су људи у компанијама и владама глупи, лијени или неразјашњени. Умјесто тога, постоје озбиљне правне, пословне и етичке баријере које спречавају приступ подацима. На пример, неки услови уговора о услузи за сајтове дозвољавају само коришћење података од стране запослених или побољшање услуге. Дакле, одређени облици размјене података могу изложити компаније легитимним тужбама од купаца. Постоје и знатни пословни ризици за компаније које су укључене у размјену података. Покушајте да замислите како ће јавност одговорити ако су подаци о личном претраживању случајно пропуштени од Гоогле-а у склопу универзитетског истраживачког пројекта. Такво кршење података, уколико је екстремно, може бити чак и егзистенцијални ризик за компанију. Дакле, Гоогле и већина великих компанија - су веома несигурни због дељења података са истраживачима.
Заправо, скоро свако ко је у стању да обезбеди приступ великим количинама података зна причу о Абдур Цховдхури. Године 2006, када је био шеф истраживања у АОЛ-у, он је намерно објавио истраживачкој заједници за шта мисли да су анонимни упитници од 650.000 корисника АОЛ-а. Колико могу да кажем, Цховдхури и истраживачи у АОЛ-у имали су добре намјере и мислили су да су анонимни подаци. Али они су погрешили. Брзо је откривено да подаци нису били анонимни, како су мислили истраживачи, а новинари Нев Иорк Тимеса су могли лако идентификовати некога у скупу података (Barbaro and Zeller 2006) . Када су ови проблеми откривени, Цховдхури је уклонио податке са сајта АОЛ-а, али је било прекасно. Подаци су објављени на другим веб страницама и вероватно ће и даље бити доступни када читате ову књигу. Цховдхури је отпуштен, а главни технолошки официр АОЛ-а поднео је оставку (Hafner 2006) . Као што показује овај примјер, погодности за поједине појединце у компанијама које олакшавају приступ подацима су прилично мале, а најгори сценарио је страшан.
Међутим, истраживачи могу понекад имати приступ подацима који су неприступачни за јавност. Неке владе имају процедуре које истраживачи могу пратити како би се пријавили за приступ, а као што показују примери касније у овом поглављу истраживачи могу повремено добити приступ корпоративним подацима. На пример, Einav et al. (2015) сарађивао са истраживачем на еБаи-у да проучава онлине аукције. Више ћу причати о истраживањима која су долазила из ове сарадње касније у поглављу, али то спомињем сада јер је имала сва четири састојка која видим у успјешним партнерствима: занимање истраживача, способност истраживача, интересовање компанија и способност компаније . Видио сам много потенцијалних сарадњи јер не и истраживач или партнер - било компанија или влада - недостаје један од ових састојака.
Међутим, чак и ако сте у стању да развијете партнерство са бизнисом или да имате приступ ограниченим владиним подацима, постоје и недостаци за вас. Прво, вероватно нећете моћи да поделите податке са другим истраживачима, што значи да други истраживачи неће моћи да верификују и продужавају резултате. Друго, питања која можете поставити могу бити ограничена; мало је вероватно да ће компаније дозволити истраживања која би могла да изгледају лоше. На крају, ова партнерства могу створити барем појаву сукоба интереса, где људи могу мислити да су ваши резултати утицали на ваша партнерства. Све ове недостатке могу се решити, али важно је бити јасно да рад са подацима који нису доступни свима имају и помало и мање.
Укратко, пуно великих података није доступно истраживачима. Постоје озбиљне правне, пословне и етичке баријере које спречавају приступ подацима, а ове баријере неће нестати јер се технологија побољшава јер нису техничке баријере. Неке националне владе су успоставиле процедуре за омогућавање приступа подацима за неке скупове података, али је процес посебно ад хоц на државном и локалном нивоу. Такође, у неким случајевима, истраживачи могу да сарађују са компанијама како би добили приступ подацима, али то може створити разне проблеме за истраживаче и компаније.