Podatke koje drže kompanije i vlade teško je pristup istraživačima.
U maju 2014. godine, Agencija za nacionalnu sigurnost SAD otvorila je centar za prenos podataka u ruralnim područjima u Juti sa nevjerovatnim nazivom, Sveobuhvatni centar za informiranje o inteligencijskoj zajednici u svijetu. Međutim, ovaj centar podataka, koji je postao poznat kao Data Center u Utahu, ima izvanredne mogućnosti. Jedan izveštaj navodi da je u mogućnosti da čuva i obrađuje sve oblike komunikacije, uključujući "kompletan sadržaj privatnih elektronskih pošta, mobitela i Google pretraživanja, kao i sve vrste personalnih podataka - prijemnice za parkiranje, putovanje po putnim pravcima, kupovina knjižara , i drugi digitalni 'džepni štapić' " (Bamford 2012) . Pored povećanja brige o osjetljivoj prirodi većine informacija obuhvaćenih velikim podacima, koji će biti opisani dalje u nastavku, Utah Data Center predstavlja ekstremni primjer bogatog izvora podataka koji je nepristupačan za istraživače. Uopšteno gledano, mnogi izvori velikih podataka koji bi bili korisni kontrolišu i ograničavaju vlade (npr. Podaci o porezu i podaci o obrazovanju) ili preduzeća (npr. Upiti na pretraživače i meta-podatke telefonskog poziva). Dakle, iako postoje ovi izvori podataka, oni su beskorisni u svrhe socijalnog istraživanja jer su oni nepristupačni.
Po mom iskustvu, mnogi istraživači na univerzitetima pogrešno shvataju izvor ove nepristupačnosti. Ovi podaci su nepristupačni ne zato što su ljudi u kompanijama i vladama glupi, lijeni ili neraskidivi. Umjesto toga, postoje ozbiljne pravne, poslovne i etičke barijere koje sprečavaju pristup podacima. Na primer, neki uslovi ugovora o usluzi za sajtove dozvoljavaju samo korišćenje podataka od strane zaposlenih ili poboljšanje usluge. Dakle, određeni oblici razmjene podataka mogu izložiti kompanijama legitimnim tužbama od kupaca. Postoje i znatni poslovni rizici za kompanije koje učestvuju u razmjeni podataka. Pokušajte da zamislite kako bi javnost odgovorila ako su podaci o ličnoj pretrazi slučajno prokrili od Google-a kao deo univerzitetskog istraživačkog projekta. Takvo kršenje podataka, ukoliko je ekstremno, može biti čak i egzistencijalni rizik za kompaniju. Dakle, Google-i i većina velikih kompanija - veoma su nesigurni zbog dijeljenja podataka sa istraživačima.
Zapravo, skoro svako ko je u mogućnosti da obezbedi pristup velikim količinama podataka zna priču o Abdur Chowdhury. Godine 2006, kada je bio na čelu istraživanja u AOL-u, namerno je objavio istraživačkoj zajednici za šta misli da su anonimni upitnici za pretragu od 650.000 korisnika AOL-a. Koliko mogu da kažem, Chowdhury i istraživači u AOL-u imali su dobre namjere i pomislili su da su anonimni podaci. Ali bili su pogrešni. Brzo je otkriveno da podaci nisu bili anonimni, kako su mislili istraživači, a novinari iz New York Timesa su mogli lako identifikovati nekog u skupu podataka (Barbaro and Zeller 2006) . Kada su ovi problemi otkriveni, Chowdhury je uklonio podatke sa web stranice AOL-a, ali je bilo prekasno. Podaci su objavljeni na drugim web sajtovima, a verovatno će i dalje biti na raspolaganju prilikom čitanja ove knjige. Chowdhury je otpušten, a glavni tehnološki oficir AOL-a podneo je ostavku (Hafner 2006) . Kao što pokazuje ovaj primjer, pogodnosti za pojedine pojedince u kompanijama koje olakšavaju pristup podacima su prilično male, a najgori mogući scenario je strašan.
Međutim, istraživači mogu ponekad dobiti pristup podacima koji su nepristupačni za javnost. Neke vlade imaju procedure koje istraživači mogu pratiti kako bi se prijavili za pristup, a kako pokazuju primeri kasnije u ovom poglavlju, istraživači mogu povremeno dobiti pristup korporativnim podacima. Na primjer, Einav et al. (2015) sarađivao sa istraživačem na eBay-u da proučava online aukcije. Više ću pričati o istraživanjima koja su dolazila iz ove saradnje kasnije u poglavlju, ali sad to pominjem zato što je imala sva četiri sastojka koja vidim u uspešnim partnerstvima: interes istraživača, sposobnost istraživača, interes kompanije i sposobnost kompanije . Vidio sam mnogo potencijalnih saradnji jer ne i istraživač ili partner - bilo kompanija ili vlada - nedostaje jedan od ovih sastojaka.
Međutim, čak i ako ste u stanju da razvijete partnerstvo sa biznisom ili dobijete pristup ograničenim vladinim podacima, postoje i nedostaci za vas. Prvo, verovatno nećete moći da podelite podatke sa drugim istraživačima, što znači da drugi istraživači neće moći da verifikuju i prošire svoje rezultate. Drugo, pitanja koja možete pitati mogu biti ograničena; malo je verovatno da će kompanije dozvoliti istraživanja koja bi mogla da im izgledaju loše. Konačno, ova partnerstva mogu stvoriti barem pojavu sukoba interesa, gdje ljudi mogu misliti da su vaši rezultati uticali na vaša partnerstva. Sve ove nedostatke mogu se rešiti, ali važno je biti jasno da rad sa podacima koji nisu dostupni svima imaju i pomalo i slabosti.
Ukratko, puno velikih podataka nije dostupno istraživačima. Postoje ozbiljne pravne, poslovne i etičke barijere koje sprečavaju pristup podacima, a ove barijere neće nestati, jer se tehnologija poboljšava jer nisu tehničke barijere. Neke nacionalne vlade su uspostavile procedure za omogućavanje pristupa podacima za neke skupove podataka, ali je proces posebno ad hoc na državnom i lokalnom nivou. Takođe, u nekim slučajevima, istraživači mogu partneri sa kompanijama da dobiju pristup podacima, ali to može stvoriti razne probleme za istraživače i kompanije.