Az adatok birtokában a vállalkozások és a kormányok nehezen kutatók számára hozzáférést.
Májusban 2014 az amerikai nemzetbiztonsági menetrend nyitott adatközpont vidéki Utah, hogy van egy kínos nevét, hogy a Hírszerző Közösség átfogó nemzeti Cybersecurity Initiative Data Center. Azonban ez az adatközpont, amely azért jött, hogy ismert, mint a Utah Data Center, leírták, hogy meghökkentő képességekkel. Egy jelentés azt állítja, hogy a Utah Data Center képes tárolni és feldolgozni az összes kommunikációs formák, beleértve a "teljes tartalmát magán e-mailek, mobiltelefon hívások, és a Google keresések, valamint mindenféle személyes adatok pályák parkolási számlák, utazási útvonalak , könyvesbolt vásárlások, és egyéb digitális `zseb alom" (Bamford 2012) . Amellett, hogy a aggodalmat érzékeny jellegét az információk nagy része készített nagy adatmennyiség, amelyet az alábbiakban részletesebben alább a Utah Data Center egy szélsőséges példa a gazdag adatforrást, amely elérhetetlen a kutatók. Általánosabban fogalmazva, sok forrás nagy adat, hogy hasznos lenne, hogy a kutatók szabályozott és korlátozott a kormányok (például adó adatok és az oktatási adatok) és a vállalatok (pl lekérdezéseket a keresőmotorok és a telefonhívás meta-adat). Ezért ezek az adatok nem lesznek azonnal elérhető a kutatók az egyetemeken, és a legtöbb nem is állnak a kutatók a kormányok vagy cégek.
Az én tapasztalatom, sok kutató alapú egyetemeken félreértik a forrása ennek elérhetetlensége. Ezek az adatok nem elérhetetlenek, mert az emberek a vállalatok és a kormányok buta, lusta, vagy nemtörődöm. Inkább komoly jogi, műszaki, gazdasági és etikai korlátokat, amelyek megakadályozzák az adatokhoz való hozzáférést. Például néhány feltételek szolgáltatás-megállapodások weboldalak csak lehetővé teszi az adatok által használt munkavállalók, illetve javítsa a szolgáltatás. Tehát bizonyos formái az adatmegosztás teheti ki a vállalatok jogos perek az ügyfelek. Vannak is jelentős üzleti kockázatot vállalat vesz részt az adatok megosztását. Próbáld elképzelni, hogy a közönség reagál, ha keresési adatai véletlenül kiszivárgott a Google részeként egyetemi kutatási projekt. Az ilyen adatok megsértése esetén extrém, talán még egy egzisztenciális kockázatot jelent a vállalat számára. Tehát a Google-és a legtöbb nagyvállalat-nagyon kockázatkerülő megosztásáról adatokat a kutatók.
Tény, hogy szinte mindenki, aki olyan helyzetben van, hogy hozzáférést biztosít a nagy mennyiségű adat ismeri a történetet a Abdur Chowdhury. 2006-ban, amikor ő volt a vezetője AOL kutatás, ő szándékosan megjelent, amit gondolt arra névtelenítjük lekérdezések a 650.000 AOL felhasználók a kutatói közösség. Amennyire én tudom, Chowdhury és a kutatók AOL jó szándék, és úgy gondolták, hogy ők névtelenítjük az adatokat. De tévedtek. Azt hamar felfedezték, hogy az adatok nem voltak olyan névtelen, mint a kutatók gondolták, és riporterek a New York Times azonosítani tudták az emberek az adatbázisba könnyedén (Barbaro and Zeller Jr 2006) . Amint ezeket a problémákat fedeztek fel, Chowdhury távolítani az adatokat AOL honlapján, de már túl késő volt. Az adatok átsorolásra kerültek más weboldalakon, és valószínűleg továbbra is elérhető, ha olvasod ezt a könyvet. Mert az ő kísérlete az adatok megosztását a kutatói közösség, Chowdhury kirúgták, és az AOL technológiai vezetője lemondott (Hafner 2006) . Mivel ez a példa is mutatja, az előnyöket az egyes egyének belső vállalatok megkönnyítése adathozzáférés elég kicsi, és a legrosszabb esetben is szörnyű.
A kutatás azonban hozzáférhetnek az adatokhoz, hogy elérhetetlen a nagyközönség számára. A kormányoknak eljárásokat, hogy a kutatók nyomon alkalmazni hozzáférés, és a példák később ebben a fejezetben show, a kutatók időnként hozzáférést a vállalati adatokhoz. Például Einav et al. (2015) kapcsolatban áll egy kutató eBay, hogy tanulmányozza a digitális nyomokat online aukciók. Beszélek többet a kutatás, hogy jött ez az együttműködés később a fejezetben (Section 2.4.3.2), de azért említem, mert most volt mind a négy összetevő, hogy látom a sikeres partneri: kutató érdeklődést, kutató képesség, vállalati érdek, és a társaság képessége. Más szóval, Einav és munkatársai voltak érdekeltek, és képes a tanuló online aukciók. És, az eBay is. Azonban láttam sok lehetséges együttműködés nem azért, mert sem a kutató vagy cég hiányzott egy ilyen anyaggal.
Akkor is, ha tudja, hogy dolgozzon a partnerség egy üzlet, azonban vannak árnyoldalai az Ön számára. Először is, a kérdés, hogy lehet kérni az adatok valószínűleg korlátozni kell; vállalatok nem valószínű, hogy a kutatás, hogy teheti őket rossz színben. Másodszor, akkor valószínűleg nem lesz képes megosztani az adatokat más kutatók, ami azt jelenti, hogy más kutatók nem lesz képes ellenőrizni és kiterjeszti az eredményeket. Továbbá, az ilyen társulások létrehozásához legalább a látszatát összeférhetetlenség, ahol az emberek azt gondolhatja, hogy az eredményeket befolyásolta a partnerség. Mindezek a hátulütői is foglalkozni kell, de fontos, hogy egyértelmű, hogy a munka az adatok nem mindenki számára hozzáférhető volt, mind upsides és hátrányai.
Összefoglalva, sok nagy adatok elérhetetlenné a kutatók. Vannak komoly jogi, műszaki, gazdasági és etikai korlátokat, amelyek megakadályozzák az adatokhoz való hozzáférést, és ezek a korlátok nem fog menni. A nemzeti kormányok általában bevett eljárásokat, amelyek lehetővé teszik az adatokhoz való hozzáférést, de a folyamat lehet több ad hoc az állami és helyi szinten. Továbbá, bizonyos esetekben, a kutatók partner cégekkel, így az adatokhoz való hozzáférést, de ez is létrehozhat a különböző problémák a kutatók számára.