Podaci u posjedu poduzeća i vlada su teško istraživači pristupiti.
U svibnju 2014. godine, američka Nacionalna sigurnost Agenda otvorio podatkovni centar u ruralnom Utah koja ima neugodan ime, obavještajna zajednica Sveobuhvatni nacionalni Cybersecurity Inicijativa Data Center. Međutim, to podatkovni centar, koji je došao da bude poznat kao Utah Data Center, je izvijestio da su zapanjujuće sposobnosti. Jedno izvješće navodi da je Utah Data Center je u mogućnosti pohraniti i obraditi sve oblike komunikacije, uključujući "cijeli sadržaj privatnih poruka e-pošte, mobitel pozive i Google pretraživanja, kao i sve vrste osobnih podataka staze-parkirnih primitaka, putnih itinerera , knjižara kupi, a drugi digitalni `džep leglo '" (Bamford 2012) . Osim što povećava zabrinutost oko osjetljive prirode mnogo informacija zarobljen u velikim podataka, koji će biti detaljnije opisan u nastavku, Utah Data Center je ekstremni primjer bogat izvor podataka koji nije dostupno istraživačima. Općenitije, mnogi izvori velikog podataka koji bi korisno da su znanstvenici kontrolirati i ograničiti vlade (npr, poreznih podataka i obrazovnih podataka) i poduzeća (primjerice, upita na tražilicama i telefonski poziv meta-podatke). Dakle, ti podaci neće biti odmah dostupna istraživačima na sveučilištima, a većina neće ni biti na raspolaganju istraživačima u vladama ili tvrtkama.
U mom iskustvu, mnogi istraživači temelje na fakultetima pogrešno shvatiti izvor te nedostupnosti. Ti podaci nisu nedostupni jer su ljudi u tvrtki i vlada su glupi, lijeni, ili uncaring. Umjesto toga, postoje ozbiljne pravne, tehničke, poslovne i etičke prepreke koje sprečavaju pristup podacima. Na primjer, neki pojmovi-of-service ugovori za web stranice samo dopustiti podataka koji će se koristiti od strane zaposlenika ili za poboljšanje usluge. Dakle, određeni oblici dijeljenje podataka može izložiti tvrtke za legitimne tužbe od kupaca. Tu su i značajne poslovne rizike za tvrtke uključene u razmjenu podataka. Pokušajte zamisliti kako bi javnost reagirati ako se podaci osobne pretraživanja slučajno iscurilo iz Googlea u sklopu sveučilišnog istraživačkog projekta. Takvo kršenje podataka, ako je ekstremna, čak bi moglo biti egzistencijalni rizik za tvrtku. Dakle, Google-a većina velikih tvrtki-jako rizika zazire o dijeljenju podataka s istraživačima.
U stvari, gotovo svatko tko je u stanju osigurati pristup velikim količinama podataka zna priču o Abdur Chowdhury. Godine 2006, kada je bio šef AOL istraživanja, on je namjerno objavio što misli se u anonimne upite za pretraživanje od 650.000 AOL korisnika na istraživačke zajednice. Koliko ja mogu reći, Chowdhury i istraživači s AOL je imao dobre namjere, a oni mislili da su u anonimne podatke. No, oni su bili u krivu. To je vrlo brzo otkrio da podaci nisu bili kao anonimni kako su znanstvenici mislili, a novinari New York Timesa su mogli identificirati ljude u skup podataka s lakoćom (Barbaro and Zeller Jr 2006) . Nakon što su otkriveni ti problemi, Chowdhury ukloniti podatke iz AOL-web stranice, ali bilo je prekasno. Podaci su ponovno objavljen na druge web stranice, i to će vjerojatno i dalje biti na raspolaganju kada čitate ovu knjigu. Zbog njegov pokušaj da dijele podatke s istraživačkoj zajednici, Chowdhury dobio otkaz, i AOL-a glavni tehnološki direktor podnio ostavku (Hafner 2006) . Kao što je ovaj primjer pokazuje, prednosti za određene pojedince unutar poduzeća kako bi se olakšalo pristup podacima su prilično mali i najgori mogući scenarij je strašna.
Istraživanje se, međutim, imati pristup podacima koji je nedostupan javnosti. Vlade imaju procedure koje znanstvenici mogu slijediti da se prijave za pristup, a kao primjeri kasnije u ovom poglavlju pokazuju, znanstvenici povremeno mogu dobiti pristup korporativnim podacima. Na primjer, Einav et al. (2015) u partnerstvu s istraživač na eBayu za proučavanje digitalne tragove od online aukcije. Ja ću govoriti više o istraživanjima koja je došla iz ove suradnje kasnije u poglavlju (poglavlje 2.4.3.2), ali sam ga spomenuti jer je sada imao sve četiri sastojaka koje vidim u uspješnog partnerstva: istraživač interesa, istraživač sposobnosti, interes tvrtke i sposobnost tvrtke. Drugim riječima, Einav i kolege su bili zainteresirani i sposobni za proučavanje online aukcije. I, eBay je također. Međutim, vidio sam mnoge moguće suradnje uspjeti, jer ni jedan od istraživača ili kompanija nije imala jedan od tih sastojaka.
Čak i ako ste u mogućnosti da razvije partnerstvo s posla, međutim, postoje neke nedostatke za vas. Prvo, pitanja koja možete postaviti s podacima s vjerojatno biti ograničena; tvrtke su vjerojatno da će omogućiti istraživanje koje bi mogle učiniti ih izgledati loše. Drugo, vjerojatno neće biti u mogućnosti dijeliti svoje podatke s drugim istraživačima, što znači da su drugi znanstvenici neće moći potvrditi i proširiti svoje rezultate. Nadalje, ti partnerstva mogu stvoriti barem pojavu sukoba interesa, gdje se ljudi možda misle da su rezultati pod utjecajem svoje partnerstvo. Sve ove mane mogu se riješiti, ali je važno da bude jasno da je rad s podacima koji nije dostupan svima je imao obje Prednosti i nedostaci.
Ukratko, puno veliki podataka je nedostupna istraživačima. Postoje ozbiljne pravne, tehničke, poslovne i etičke prepreke koje sprečavaju pristup podacima, a te prepreke neće otići. Nacionalne vlade uglavnom su utvrđene postupke za omogućavanje pristupa podacima, ali proces može biti ad hoc na državnoj i lokalnoj razini. Također, u nekim slučajevima, istraživači mogu partner s tvrtkama kako bi se dobila pristup podacima, ali to može stvoriti niz problema za istraživače.