Údaje, které mají podniky a vlády, jsou pro výzkumné pracovníky obtížné.
V květnu 2014 otevřela Agentura pro národní bezpečnost USA datové centrum ve venkovském Utahu s neohrabaným názvem Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Toto datové centrum, které se stalo známým jako Utah Data Center, má však ohromné schopnosti. Jedna zpráva tvrdí, že je schopna ukládat a zpracovávat všechny formy komunikace, včetně "úplného obsahu soukromých e-mailů, mobilních telefonů a vyhledávání Google, stejně jako veškeré druhy osobních údajů - záznamy o parkování, cestovní itineráře, nákup knihkupectví , a další digitální "kapesní vrh" (Bamford 2012) . Kromě vzbudování obav o citlivé povaze velkého množství informací zachycených ve velkých datech, které budou popsány dále, je Utah Data Center extrémním příkladem bohatého zdroje dat, který je pro výzkumníky nepřístupný. Obecněji, mnoho zdrojů velkých dat, které by byly užitečné, jsou kontrolovány a omezeny vládami (např. Daňovými údaji a vzdělávacími údaji) nebo podniky (např. Dotazy na vyhledávače a metadata telefonních hovorů). Proto i když existují tyto zdroje dat, jsou pro účely sociálního výzkumu zbytečné, protože jsou nepřístupné.
Podle mých zkušeností mnozí badatelé z univerzit nesprávně pochopili zdroj této nepřístupnosti. Tyto údaje jsou nepřístupné, ne proto, že lidé firem a vlád jsou hloupí, líní nebo nepřátelští. Spíše existují vážné právní, obchodní a etické překážky bránící přístupu k datům. Například některé dohody o smlouvách o službách pro webové stránky umožňují pouze využívání údajů zaměstnanci nebo zlepšení služeb. Některé formy sdílení údajů by mohly vystavit společnosti legitimní žaloby od zákazníků. Pro společnosti, které se podílejí na sdílení dat, existují také značné obchodní rizika. Snažte se představit, jak by veřejnost reagovala, kdyby osobní údaje o vyhledávání unikly z Googlu v rámci výzkumného projektu univerzity. Takovéto narušení dat, pokud by bylo extrémní, mohlo být dokonce existenčním rizikem pro společnost. Takže společnost Google - a většina velkých společností - se velmi nelíbí při sdílení údajů s výzkumnými pracovníky.
Ve skutečnosti téměř každý, kdo je schopen poskytnout přístup k velkému objemu dat, zná příběh Abdura Chowdhuryho. V roce 2006, kdy byl vedoucím výzkumu v AOL, úmyslně uvolnil vědeckou komunitu, o čem si myslel, že jsou anonymní vyhledávací dotazy od 650 000 uživatelů AOL. Pokud můžu říct, Chowdhury a vědci z AOL měli dobré úmysly a mysleli si, že anonymní údaje. Ale oni se mýlili. Rychle bylo zjištěno, že data nejsou tak anonymní, jak si mysleli výzkumní pracovníci, a reportéři z New York Times byli schopni snadno identifikovat někoho v souboru dat (Barbaro and Zeller 2006) . Jakmile byly tyto problémy objeveny, Chowdhury odstranila data z webových stránek společnosti AOL, ale bylo pozdě. Data byla převedena na jiné webové stránky a pravděpodobně bude k dispozici i při čtení této knihy. Chowdhury byl propuštěn a hlavní technický důstojník AOL rezignoval (Hafner 2006) . Jak ukazuje tento příklad, přínosy pro konkrétní osoby uvnitř firem, které usnadňují přístup k datům, jsou poměrně malé a nejhorší scénář je strašný.
Výzkumníci však mohou někdy získat přístup k údajům, které jsou pro širokou veřejnost nepřístupné. Některé vlády mají postupy, které mohou badatelé řídit, aby požádali o přístup, a jak ukazují příklady v této kapitole, výzkumníci mohou příležitostně získat přístup k firemním údajům. Například Einav et al. (2015) spolupracuje s výzkumným pracovníkem na eBay, aby studoval online aukce. Mluvím více o výzkumu, který vyšel z této spolupráce později v této kapitole, ale hovořím o ní nyní, protože všechny čtyři složky, které vidím v úspěšných partnerstvích: výzkumný zájem, schopnost výzkumných pracovníků, zájem společnosti a schopnost společnosti . Viděla jsem, že mnoho potenciálních spolupracovníků se nezdaří, protože výzkumný pracovník nebo partner - ať už je to společnost nebo vláda - postrádala jednu z těchto složek.
Dokonce i když jste schopni rozvíjet partnerství s podnikem nebo získat přístup k omezeným vládním datům, existují však pro vás některé nevýhody. Za prvé, pravděpodobně nebudete moci svá data sdílet s jinými výzkumníky, což znamená, že jiní výzkumníci nebudou schopni ověřit a rozšířit výsledky. Za druhé, otázky, které můžete požádat, mohou být omezené; společnosti pravděpodobně neumožní výzkum, který by mohl vypadat špatně. Konečně, tyto partnerství mohou přinejmenším vyvolat konflikt zájmů, kdy si lidé mohou myslet, že vaše výsledky byly ovlivněny vašimi partnerstvími. Všechny tyto nevýhody lze řešit, ale je důležité, aby bylo jasné, že práce s daty, která není přístupná všem, má jak negativní, tak i nevýhody.
Stručně řečeno, velké množství dat je pro výzkumníky nepřístupné. Existují vážné právní, obchodní a etické překážky, které brání přístupu k datům a tyto překážky nebudou ztratit, protože se technologie vylepšuje, protože nejsou technickými překážkami. Některé národní vlády zavedly postupy umožňující přístup k datům u některých datových souborů, ale tento proces je zvláště ad hoc na státní a místní úrovni. V některých případech mohou výzkumníci také spolupracovat se společnostmi, aby získali přístup k datům, což však může způsobit různé problémy pro výzkumné pracovníky a firmy.