Údaje uchovávané spoločnosťami a vládami sú pre výskumníkov ťažké.
V máji 2014 otvorila Agentúra pre národnú bezpečnosť USA dátové centrum vo vidieckom štáte Utah s nepríjemným názvom Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Toto dátové centrum, ktoré sa stalo známym ako Utah Data Center, má ohromné schopnosti. Jedna správa tvrdí, že je schopná ukladať a spracovávať všetky formy komunikácie vrátane "úplného obsahu súkromných e-mailov, mobilných telefonátov a vyhľadávaní Google, rovnako ako všetky druhy osobných údajov - záznamy o parkovaní, cestovné trasy, nákupy kníhkupectva , a ďalšie digitálne "vreckové podstielky" " (Bamford 2012) . Okrem vzbudzujúcich obáv z citlivej povahy väčšiny informácií získaných vo veľkých údajoch, ktoré budú popísané nižšie, je Utah Data Center extrémnym príkladom bohatého zdroja údajov, ktorý je pre výskumníkov neprístupný. Vo všeobecnosti, mnoho zdrojov veľkých dát, ktoré by boli užitočné, sú kontrolované a obmedzené vládami (napr. Daňové údaje a vzdelávacie údaje) alebo spoločnosti (napr. Dotazy na vyhľadávače a meta-dáta telefónu). Preto aj napriek existencii týchto zdrojov údajov sú na účely sociálneho výskumu zbytočné, pretože sú nedostupné.
Podľa mojich skúseností mnohí vedci na univerzitách nesprávne pochopili zdroj tejto neprístupnosti. Tieto údaje sú neprístupné nie preto, že ľudia v spoločnostiach a vládach sú hlúpi, leniví alebo nezaujímaví. Skôr existujú vážne právne, obchodné a etické prekážky, ktoré bránia prístupu k údajom. Napríklad niektoré dohody o zmluvách o službách pre webové stránky umožňujú iba používanie údajov zamestnancami alebo zlepšenie služby. Takže určité formy zdieľania údajov by mohli vystaviť spoločnosti legitímnym súdnym sporom od zákazníkov. Pre spoločnosti, ktoré sa podieľajú na zdieľaní údajov, existujú aj podstatné obchodné riziká. Pokúste sa predstaviť, ako by verejnosť reagovala, ak by osobné údaje vyhľadávania unikli z Google ako súčasť univerzitného výskumného projektu. Takéto porušenie údajov, ak je extrémne, môže byť dokonca existenčným rizikom pre spoločnosť. Takže spoločnosť Google - a väčšina veľkých spoločností - veľmi zdržiavajú riziko zdieľania údajov s výskumníkmi.
V skutočnosti takmer každý, kto je schopný poskytnúť prístup k veľkým množstvám údajov, pozná príbeh Abdura Chowdhuryho. V roku 2006, keď bol vedúcim výskumu v spoločnosti AOL, úmyselne prepustil vedeckej komunite, o čom si myslel, že sú anonymizované vyhľadávacie dopyty od 650 000 používateľov AOL. Pokiaľ to môžem povedať, Chowdhury a vedci v AOL mali dobré úmysly a mysleli si, že anonymizovali údaje. Ale mýlili sa. Bolo rýchlo zistené, že údaje neboli tak anonymné, ako si mysleli vedci a novinári z New York Times boli schopní ľahko identifikovať niekoho v súbore údajov (Barbaro and Zeller 2006) . Akonáhle boli tieto problémy objavené, Chowdhury odstránila údaje z internetovej stránky spoločnosti AOL, ale už bolo neskoro. Údaje boli presunuté na iných webových stránkach a pravdepodobne budú k dispozícii aj pri čítaní tejto knihy. Chowdhury bol prepustený a hlavný technický dôstojník spoločnosti AOL rezignoval (Hafner 2006) . Ako ukazuje tento príklad, prínosy pre konkrétnych jednotlivcov vo vnútri spoločností na uľahčenie prístupu k údajom sú dosť malé a najhorší scenár je strašný.
Výskumníci však niekedy môžu získať prístup k údajom, ktoré sú pre širokú verejnosť neprístupné. Niektoré vlády majú postupy, ktoré môžu výskumníci dodržiavať, aby mohli požiadať o prístup, a ako ukážeme neskôr v tejto kapitole, výskumníci môžu príležitostne získať prístup k firemným údajom. Napríklad Einav et al. (2015) spolupracoval s výskumníkom na eBay, aby študoval online aukcie. Budem hovoriť viac o výskume, ktorý vyšiel z tejto spolupráce neskôr v tejto kapitole, ale teraz o ňom hovorím, pretože všetky štyri zložky, ktoré vidím v úspešných partnerstvách: výskumný záujem, schopnosť výskumných pracovníkov, záujem spoločnosti a schopnosť spoločnosti , Videl som, že mnoho potenciálnych spolupracovníkov zlyhalo, pretože buď výskumník, alebo partner - či už je to spoločnosť alebo vláda - nemali jednu z týchto zložiek.
Dokonca aj keď ste schopní rozvíjať partnerstvo s podnikaním alebo získať prístup k obmedzeným vládnym údajom, existujú však pre vás niektoré nevýhody. Po prvé, pravdepodobne nebudete môcť zdieľať svoje údaje s inými výskumníkmi, čo znamená, že iní vedci nebudú schopní overiť a rozšíriť vaše výsledky. Po druhé, otázky, ktoré môžete požiadať, môžu byť obmedzené. Spoločnosti pravdepodobne neumožnia výskum, ktorý by ich mohol vyzerat zle. Napokon, tieto partnerstvá môžu vytvoriť aspoň vzhľad konfliktu záujmov, kde si ľudia môžu myslieť, že vaše výsledky boli ovplyvnené vašimi partnerstvami. Všetky tieto nedostatky je možné riešiť, ale je dôležité, aby bolo jasné, že práca s údajmi, ktoré nie sú prístupné pre každého, má tak pozitívne, ako aj nevýhody.
Stručne povedané, veľa veľkých údajov je pre výskumníkov nedostupná. Existujú vážne právne, obchodné a etické prekážky, ktoré bránia prístupu k údajom, a tieto prekážky nezmiznú, pretože sa technológia zlepšuje, pretože nie sú technickými bariérami. Niektoré národné vlády zaviedli postupy umožňujúce prístup k údajom pre niektoré súbory údajov, ale tento proces je obzvlášť ad hoc na štátnej a miestnej úrovni. V niektorých prípadoch môžu výskumníci tiež spolupracovať so spoločnosťami na získavaní prístupu k údajom, čo však môže spôsobiť rôzne problémy výskumným pracovníkom a spoločnostiam.