Ettevõtjate ja valitsuste valduses olevad andmed on teadlastele raskesti ligipääsetavad.
2014. aasta mais avas USA riiklik julgeolekuagent Utahis asuvas andmekeskuses ebamugava nime, luureandmete ühenduse üldise riikliku küberjulgeoleku algatuse andmekeskuse. Kuid see andmekeskus, mis on tuntud kui Utahi andmekeskus, on teadaolevalt hämmastav. Ühes aruandes väidetakse, et ta suudab salvestada ja töödelda kõiki sidevahendeid, sealhulgas "privaatsete e-kirjade, mobiiltelefonikõnede ja Google'i otsingute täielikku sisu, samuti igasuguseid isikuandmetega seotud trajektoore, parkimiskohti, reisi marsruute, raamatukaupluste ostmist ja muud digitaalsed "taskukärud" (Bamford 2012) . Utahi andmekeskus on lisaks äärmiselt suurtele andmetele, mis on teadlastele kättesaamatud, Utahi andmekeskuse äärmuslik näide suurte andmetes sisalduvate andmete tundlikkuse kohta, mida kirjeldatakse allpool. Üldisemalt kontrollivad ja piiravad valitsused (nt maksuandmed ja hariduseandmed) või ettevõtted (nt otsingumootorite ja telefonikõnede metaandmete päringud) palju kasulike suurte andmete allikaid. Seega, kuigi need andmeallikad on olemas, on need sotsiaalsete uuringute eesmärgil kasutuad, kuna need on kättesaamatud.
Minu kogemusest lähtudes mõistavad mitmed ülikoolis asuvad teadlased selle ligipääsetavuse allikat. Need andmed on kättesaamatud mitte seetõttu, et ettevõtted ja valitsused on lollid, laiskad või ebakindlad. Selle asemel, et takistada juurdepääsu andmetele, on tõsiseid õiguslikke, ärilisi ja eetilisi takistusi. Näiteks lubavad mõned veebisaitide kasutustingimused ainult seda, et töötajad kasutavad andmeid või parandavad teenust. Nii võivad teatavate andmete jagamise vormid ettevõtetel olla õigustatud klientide kohtuasi. Andmete jagamisel osalevad ettevõtted on ka olulised äririskid. Proovige ette kujutada, kuidas üldsus vastab, kui isikliku otsingu andmed Google'ist kogemata ülikooli uurimisprojekti osana. Selline andmete rikkumine, kui see on äärmuslik, võib isegi olla ettevõtte eksistentsiaalseks ohuks. Nii Google kui ka enamus suurettevõtteid on teadlaste andmete jagamise suhtes väga riskantsed.
Tegelikult teab peaaegu igaüks, kes suudab anda juurdepääsu suurtele andmetele, Abdur Chowdhury lugu. 2006. aastal, kui ta oli AOLi uurimissuunaks, vabastas ta teaduslikult kogukonnale, mida ta arvas 650 000 AOLi kasutaja anonüümseks otsingupäringuks. Minu arvates on Chowdhury'il ja AOLi teadlastel häid kavatsusi, ja nad arvasid, et nad on anonüümsed andmed. Kuid nad olid valed. Uurijad arvasid, et andmed ei olnud nii anonüümsed kui New York Timesi ajakirjanikud, kes hõlpsasti tuvastasid andmetöötluse kedagi (Barbaro and Zeller 2006) . Kui need probleemid avastati, eemaldas Chowdhury andmed AOL veebisaidilt, kuid see oli liiga hilja. Andmed olid teistes veebisaitides uuesti postitatud ja tõenäoliselt on need kättesaadavad ka siis, kui loete seda raamatut. Chowdhury vallandati ja AOLi peaspetsialiseerija tagasi astus (Hafner 2006) . Nagu näitab see näide, on konkreetsete üksikisikute eelised andmete kättesaadavuse hõlbustamiseks üsna väikesed ja halvim stsenaarium on kohutav.
Teadlased võivad siiski mõnikord saada juurdepääsu andmetele, mis on üldsusele kättesaamatud. Mõnedel valitsustel on menetlused, mida teadlased võivad taotlusele juurdepääsu saamiseks järgida, ja nagu näited selle peatüki kohta näitavad hiljem, võivad teadlased aeg-ajalt pääseda ettevõtteandmetele. Näiteks Einav et al. (2015) partnerite eBay teaduriga veebipõhiste oksjonite uurimiseks. Ma räägin rohkem sellest uurimistööst, mis selle koostöö kohta toimus hiljem peatükis, kuid ma mainin seda nüüd, kuna tal oli kõik neli koostisosa, mida näen edukates partnerlustes: teadlaste huvi, teadlaste suutlikkus, ettevõtte huvi ja ettevõtte suutlikkus . Ma olen näinud, et paljud potentsiaalsed koostööprobleemid ebaõnnestuvad, sest kas uurija või partner, olgu see siis äriühing või valitsus, ei saanud üht neist komponentidest.
Isegi kui teil on võimalus arendada partnerlust ettevõttega või saada juurdepääsu piiratud valitsemissektori andmetele, on teie jaoks siiski mõned puudused. Esiteks ei saa te tõenäoliselt teie andmeid teistele uurijatele jagada, mis tähendab, et teised uurijad ei saa teie tulemusi kontrollida ega laiendada. Teiseks, küsimused, mida saate küsida, võivad olla piiratud; ettevõtted tõenäoliselt ei võimalda uuringuid, mis võiksid tunduda halbu. Lõpuks võivad need partnerlused luua vähemalt huvide konflikti, kus inimesed võivad arvata, et teie tulemusi mõjutasid teie partnerlused. Kõiki neid nõrkusi saab käsitleda, kuid on oluline olla selge, et töötamine andmetega, mis ei ole kõigile kättesaadav, on nii tõusud kui ka nõrkused.
Kokkuvõttes on paljud suured andmed teadlastele kättesaamatud. Andmetele juurdepääsu tõkestamiseks on tõsised õiguslikud, ärilised ja eetilised tõkked ning need tõkked ei lähe kaduma, kuna tehnoloogia paraneb, kuna need ei ole tehnilised tõkked. Mõned riikide valitsused on kehtestanud mõnede andmekogumite andmetele juurdepääsu võimaldamise menetlused, kuid see protsess on eriti ajutine nii riigi kui ka kohalikul tasandil. Mõningatel juhtudel võivad teadustöötajad ettevõtetega andmetele juurdepääsu saamiseks partneriks olla, kuid see võib tekitada teadlastele ja ettevõtetele mitmeid probleeme.