Andmed valduses ettevõtted ja valitsused raske uurijatel kasutada.
Mais 2014 USA Rahvusliku julgeoleku tegevuskava avas andmekeskuse maapiirkondades Utah et on ebamugav nimi, luure kogukonna kõikehõlmava riikliku küberjulgeoleku Initiative Data Center. Kuid see andmekeskuse, mis on tulnud olla tuntud Utah Data Center, on teatatud, et on uskumatu võimeid. Üks raport väidab, et Utah Data Center on võimalik salvestada ja töödelda kõiki sidevahendeid, sealhulgas "täielik sisu era e-kirju, mobiili kõned ja Google'i otsinguid, samuti igasuguseid isikuandmeid suusarajad-parkimine kviitungid, reisiplaanide , raamatupood ostude ja muu digitaalse `tasku pesakonna" " (Bamford 2012) . Lisaks põhjustades kahtlusi tundlikku palju teavet kata suur andmeid, mida kirjeldatakse allpool pikemalt, Utah Data Center on äärmuslik näide rikas andmete allikas, mis on kättesaamatud teadlased. Üldisemalt palju allikaid suur andmed, et oleks kasulik teadlased kontrollitud ja piiratud valitsused (näiteks maks andmed ja haridusasutuste andmed) ja ettevõtete (nt päringuid otsingumootorid ja telefonikõne meta-andmed). Seetõttu on need andmed ei ole kohe kättesaadav teadlased ülikoolid ja kõige ei ole isegi võimalik, et teadlaste valitsused või ettevõtted.
Minu kogemus paljud teadlased põhineb ülikoolides valesti allikas see ligipääsmatus. Need andmed ei ole kättesaamatud, sest inimesed on ettevõtted ja valitsused on loll, laisk või hoolimatu. Pigem on tõsised õiguslikud, tehnilised, äri ja eetilised barjäärid, mis takistavad juurdepääsu andmetele. Näiteks mõned mõisted-of-service lepingute veebilehtedel vaid võimaldab andmeid kasutada töötajate või teenuse parandamiseks. Nii teatavad vormid andmete jagamine võib esile ettevõtete õigustatud kohtuasjadele klientidele. Esineb olulisi äririske osalevatele ettevõtetele andmete jagamist. Püüdke ette kujutada, kuidas avalikkus reageerima, kui otsinguandmete kogemata lekkinud välja Google osana ülikooli uurimisprojekti. Selline andmete rikkumise, kui äärmuslik, võib-olla isegi eksistentsiaalne oht ettevõtte jaoks. Nii Google'i ja kõige suurettevõtted-väga riskitundlikumaks umbes Andmete jagamine teadlased.
Tegelikult peaaegu kõik, kes on võimeline tagama juurdepääsu suurte andmemahtude teab lugu Abdur Chowdhury. Aastal 2006, kui ta oli pea AOL teadus, ta eraldumine, mida ta mõtles olid anonüümseks päringute alates 650.000 AOL kasutajad teadlaskonnale. Niipalju kui ma tean, Chowdhury ja teadlaste AOL olid head kavatsused ja nad arvasid, et nad olid anonüümseks andmeid. Aga nad eksisid. See oli kiiresti avastanud, et andmed ei olnud nii anonüümne nagu teadlased arvasid, ja reporterid New York Times suutsid kindlaks inimest andmekogumi kergust (Barbaro and Zeller Jr 2006) . Kui need probleemid olid avastanud, Chowdhury eemaldatud andmeid AOL veebilehte, kuid see oli juba liiga hilja. Andmed olid edasi saata teistel veebilehtedel ning see on ilmselt veel saadaval, kui olete selle raamatu lugemist. Kuna tema katse jagada andmeid teadlased, Chowdhury vallandati, ja AOL vastutav tehnoloogia ametnik astus tagasi (Hafner 2006) . Kuna see näide näitab, kasu konkreetsete isikute sees ettevõtted, et hõlbustada juurdepääsu andmetele on üsna väike ja halvimal juhul on kohutav.
Teadustöö võib siiski pääseda andmetele, mis on kättesaamatud üldsusele. Valitsustel on menetlused, et teadlased saaksid jälgida taotleda juurdepääsu ning kuna näiteid hiljem selles peatükis show, teadlased saavad harva pääseda ettevõtte andmed. Näiteks Einav et al. (2015) partneriks teadlane eBay õppida digitaalse jälgi online-oksjonid. Ma räägin lähemalt teadus, mis tuli see koostöö hiljem osas (§ 2.4.3.2), kuid mainin seda nüüd, sest see oli kõik neli koostisosa, et ma näen edukas partnerlus: uurija huvi, teadlane võime, ettevõte huvi ja firma võimekust. Teisisõnu, Einav ja kolleegid olid huvitatud ja võimelised õpib online-oksjonid. Ja eBay oli ka. Kuid ma olen näinud palju võimalikke koostöö ei suuda, sest kas teadlane või firma olnud üks neist koostisosadest.
Isegi kui teil on võimalik arendada partnerlust äri, aga seal on mõned varjuküljed teile. Esiteks küsimused, mida on võimalik taotleda käesoleva andmeid tõenäoliselt piiratud; ettevõtted on ebatõenäoline, et võimaldada uuringuid, mis võiksid neid otsima halb. Teiseks, siis ilmselt ei saa jagada oma andmeid teiste uurijate, mis tähendab, et teised teadlased ei suuda kontrollida ja laiendada oma tulemusi. Lisaks need partnerlused võivad tekitada vähemalt välimuse huvide konflikti, kus inimesed võivad arvata, et oma tulemusi mõjutasid teie partnerlussuhted. Kõik need varjuküljed saab lahendada, kuid see on oluline, et oleks selge, et töö andmed, mis ei ole kõigile kättesaadav olnud nii tasa ja varjuküljed.
Kokkuvõtteks võib öelda, palju suuri andmed on kättesaamatud teadlased. On tõsiseid õiguslikke, tehnilisi, äri ja eetilised barjäärid, mis takistavad juurdepääsu andmetele ja neid takistusi ei kao kuhugi. Riikide valitsused üldjuhul olema kehtestatud menetlus, mis võimaldab andmetele juurdepääsu, kuid protsess võib olla ajutine riiklikul ja kohalikul tasandil. Ka mõnedel juhtudel, teadlased võivad partneriks ettevõtetele, et saada juurdepääsu andmetele, kuid see võib tekitada erinevaid probleeme teadlased.