A vállalatok és a kormányok által birtokolt adatok nehezen hozzáférhetők a kutatók számára.
2014 májusában az amerikai Nemzetbiztonsági Hivatal nyílt adatközpontot nyitott meg vidéki Utah-nál, az Informatikai Közösségi Átfogó Nemzeti Cybersecurity Initiative Data Centernél. Azonban ez az adatközpont, amelyet az Utah adatközpontnak neveztek el, meglepő képességekkel rendelkezik. Az egyik jelentés azt állítja, hogy képes tárolni és feldolgozni a kommunikáció valamennyi formáját, beleértve a "privát e-mailek, mobiltelefon-hívások és Google-keresések teljes tartalmát, valamint mindenféle személyes adatútvonalat - parkolási bevételeket, utazási útvonalakat, könyvesboltokat , és más digitális "zseb alom" " (Bamford 2012) . Amellett, hogy aggodalmak merülnek fel a nagy adatokhoz fűződő nagy mennyiségű adat érzékeny természetével kapcsolatban, amelyet az alábbiakban ismertetünk, az Utah Adatközpont egy olyan extrém példa, amely a gazdag adatforrás szélesebb körű, amely nem elérhető a kutatók számára. Általánosságban elmondható, hogy a hasznos adatok nagy részét a kormányok (pl. Adózási adatok és oktatási adatok) vagy vállalatok korlátozhatják és korlátozhatják (pl. A keresőmotorok és telefonhívások metaadatai). Ezért, még akkor is, ha ezek az adatforrások léteznek, a társadalmi kutatás céljaira használhatatlanná válnak, mert elérhetetlenek.
Tapasztalatom szerint sok, az egyetemeken alapuló kutató félreértelmezi ennek a megközelíthetetlenségnek a forrását. Ezek az adatok nem hozzáférhetők, mert a vállalatok és a kormányok ügyfelei hülyék, lusta vagy szüntelen. Sokkal inkább vannak jogi, üzleti és etikai akadályok, amelyek megakadályozzák az adatokhoz való hozzáférést. Például néhány weboldalra vonatkozó szolgáltatási szerződések csak az alkalmazottak által használt adatok használatát vagy a szolgáltatás javítását teszik lehetővé. Így az adatmegosztás egyes formái a vállalatokat a fogyasztók legális perekéig is ki tudják terjeszteni. Jelentős üzleti kockázatot jelentenek az adatmegosztásba bevont vállalatok számára is. Próbálja elképzelni, hogy a nyilvánosság hogyan reagálna, ha a személyes keresési adatok véletlenül kiszivárogtak a Google-tól egy egyetemi kutatási projekt részeként. Az ilyen adatszegés, ha szélsőséges, akár egy egzisztenciális kockázatot is jelenthet a vállalat számára. Tehát a Google és a legtöbb nagyvállalat nagyon veszélyeztetik a kutatókkal való adatok megosztását.
Valójában szinte mindenki, aki képes nagy mennyiségű adathoz hozzáférni, ismeri Abdur Chowdhury történetét. 2006-ban, amikor az AOL kutatási vezetője volt, szándékosan megjelentette a kutatóközösségnek azt, amit 650.000 AOL-felhasználónak keresett anonimizált keresési lekérdezésként. Amennyire tudom, Chowdhury és az AOL kutatói jó szándékkal rendelkeztek, és azt hitték, hogy névtelenítették az adatokat. De tévedtek. Gyorsan fedezték fel, hogy az adatok nem anonimak voltak, ahogy a kutatók gondolták, és a New York Times újságírói könnyedén azonosíthattak valakit az adatkészletben (Barbaro and Zeller 2006) . Miután felfedezték ezeket a problémákat, Chowdhury eltávolította az adatokat az AOL honlapjáról, de késő volt. Az adatokat más weboldalakra visszajuttatták, és valószínűleg továbbra is elérhető lesz e könyv olvasásakor. Chowdhury-t kirúgták, és az AOL technológiai vezetője lemondott (Hafner 2006) . Ahogy ez a példa megmutatja, a vállalatok bizonyos egyéneknek az adatokhoz való hozzáférést megkönnyítő előnyei meglehetősen kicsiek és a legrosszabb forgatókönyv szörnyű.
A kutatók azonban néha hozzáférhetnek a nyilvánosság számára hozzáférhetetlen adatokhoz. Egyes kormányok olyan eljárásokat alkalmaznak, amelyeket a kutatók követhetnek a hozzáféréshez, és a későbbi fejezetekben bemutatott példák szerint a kutatók időnként hozzáférhetnek a vállalati adatokhoz. Például Einav et al. (2015) az eBay-en egy kutatóval együttműködve tanulmányozta az online aukciókat. Bővebben fogok beszélni a későbbi fejezetben az együttműködésről származó kutatásról, de most megemlítem, mert mind a négy összetevőt megtaláltam a sikeres partnerségekben: kutatói érdeklődés, kutatói képesség, vállalati érdeklődés és vállalati képesség . Láttam, hogy sok lehetséges együttműködés sikertelen, mert akár a kutató, akár a partner - akár vállalat, akár kormány - hiányolta ezeket az összetevőket.
Még akkor is, ha képesek vagy partnerkapcsolatot létesíteni egy vállalkozással vagy hozzáférni a korlátozott kormányzati adatokhoz, vannak azonban hátrányai is. Először is valószínűleg nem tudsz megosztani adatait más kutatókkal, ami azt jelenti, hogy más kutatók nem tudják ellenőrizni és kiterjeszteni az eredményeket. Másodszor, a feltett kérdések korlátozottak lehetnek; a cégek valószínűleg nem teszik lehetővé a kutatást, ami miatt rossznak tűnhet. Végül ezek a partnerségek legalább olyan összeférhetetlenséget hozhatnak létre, ahol az emberek azt gondolhatják, hogy eredményeit a partnersége befolyásolta. Mindezeket a hátrányokat kezelni lehet, de fontos, hogy világossá váljék, hogy az olyan adatokkal való együttműködés, amelyek nem mindenkinek elérhetők, felfelé és hátrányos helyzetű.
Összefoglalva, sok nagy adat nem elérhető a kutatók számára. Számottevő jogi, üzleti és etikai akadályok vannak, amelyek megakadályozzák az adatokhoz való hozzáférést, és ezek a korlátok nem szűnnek meg, mivel a technológia javul, mivel nem technikai akadályok. Egyes nemzeti kormányok olyan eljárásokat dolgoztak ki, amelyek lehetővé teszik az adatokhoz való hozzáférést bizonyos adatkészletekhez, de a folyamat különösen ad hoc az állami és a helyi szinteken. Egyes esetekben a kutatók partnerkapcsolatot tudnak teremteni a vállalatokkal az adatokhoz való hozzáférés megteremtése érdekében, de ez számos problémát okozhat a kutatók és a vállalatok számára.