Podaci drže kompanijama i vladama teško za istraživače za pristup.
U maju 2014. godine, nacionalnu sigurnost Agenda otvorio podatkovni centar u ruralnim Utah koji ima čudno ime, i obavještajne zajednice sveobuhvatnog nacionalnog Cybersecurity Inicijativa Data Center. Međutim, ove podatke centar, koji je došao da bude poznat kao Utah Data Center, je prijavio da ima zapanjujuće sposobnosti. Jedan izvještaj navodi da je Utah Data Center je sposoban za čuvanje i obradu svih oblika komunikacije, uključujući "kompletan sadržaj privatnih e-mailova, mobitel pozive, i Google pretragama, kao i sve vrste osobnih podataka staza-parking primanja, putne itinerere , kupovina knjižara, i drugih digitalnih `džep legla '" (Bamford 2012) . Pored svijesti zabrinutost zbog osjetljive prirode mnogo informacija zarobljeni u velikim podataka, koji će biti opisan u nastavku, Utah Data Center je ekstremni primjer bogat izvor podataka koji je nepristupačan za istraživače. Više općenito, mnogi izvori velikih podataka da bi bilo korisno da istraživači su pod kontrolom i ograničena vlade (npr porez podaci i podaci o obrazovanju) i kompanija (npr upite tražilice i telefonski poziv meta-podaci). Stoga, ovi podaci neće biti odmah na raspolaganju istraživačima na univerzitetima, a većina neće ni biti na raspolaganju istraživačima u vladama ili kompanije.
U mom iskustvu, mnogi istraživači na osnovu na univerzitetima pogrešno izvor ovog nepristupačnosti. Ovi podaci nisu nedostupni jer ljudi u kompanijama i vladama su glupi, lijeni, ili bezobzirni. Umjesto toga, postoje ozbiljne pravne, tehničke, poslovne i etičke barijere koje onemogućavaju pristup podacima. Na primjer, neke smislu-of-service sporazuma za web stranice samo dopustiti da se podaci koriste zaposleni ili za poboljšanje usluga. Tako određene oblike razmjene podataka mogla izložiti kompanije da legitimne tužbe od kupaca. Tu su i značajne poslovne rizike za kompanije uključene u razmjenu podataka. Pokušajte zamisliti kako bi javnost odgovoriti ako ličnih podataka pretraživanje slučajno procurila iz Google kao dio istraživanja univerziteta projekta. Takav podatak kršenje, ako ekstremno, možda čak i egzistencijalni rizik za kompaniju. Dakle, Google-a većina velikih kompanija-vrlo averziju prema riziku oko razmjenu podataka sa istraživačima.
U stvari, gotovo svi koji su u poziciji da omogući pristup velike količine podataka zna priču o Abdur Chowdhury. U 2006. godini, kada je bio na čelu AOL istraživanja, on je namjerno objavio ono što je mislio da su anonimne upite za pretraživanje od 650.000 AOL korisnika na istraživačke zajednice. Koliko ja mogu reći, Chowdhury i istraživači na AOL je imao dobre namjere i oni misle da su anonimne podatke. Ali, nisu bili u pravu. To je brzo otkrio da podaci nisu bili kao anoniman kao istraživači mislio, a novinari iz New York Times-a bili u stanju identificirati ljude u skup s lakoćom (Barbaro and Zeller Jr 2006) . Nakon što su otkriveni ovi problemi, Chowdhury ukloniti podatke iz web stranice AOL-a, ali bilo je prekasno. Podaci su ponovo postavila na druge web stranice, i to će vjerojatno i dalje biti na raspolaganju kada čitate ovu knjigu. Zbog njegov pokušaj da dijele podatke s istraživačke zajednice, Chowdhury je dobio otkaz, a glavni tehnološki direktor AOL-a podnio ostavku (Hafner 2006) . Kao što ovaj primjer pokazuje, koristi za određene pojedince unutar kompanije kako bi se olakšalo pristup podacima su prilično male i najgorem slučaju je strašno.
Istraživanje se, međutim, imaju pristup podacima koje je nedostupno javnosti. Vlade imaju procedure koje istraživači mogu pratiti da se prijave za pristup, a kao primjere kasnije u ovom poglavlju pokazuju, istraživači mogu povremeno dobiti pristup korporativnim podacima. Na primjer, Einav et al. (2015) u partnerstvu sa istraživač na eBay za proučavanje digitalne tragove od online aukcije. Ja ću govoriti više o istraživanju koje je došao iz te saradnje kasnije u poglavlju (Poglavlje 2.4.3.2), ali sam ga sada spomenuti, jer je imao sve četiri od sastojaka koje vidim u uspješan partnerstva: istraživač interes, sposobnost istraživač, kompanija interes, i sposobnost kompanije. Drugim riječima, Einav i kolege su bili zainteresovani i sposoban za proučavanje online aukcijama. I, eBay je također. Međutim, video sam mnogo mogućih suradnji propadaju zato bilo istraživač ili kompanija nedostajao jedan od ovih sastojaka.
Čak i ako ste u mogućnosti da razvije partnerstvo sa poslovnim, međutim, postoje neke mane za vas. Prvo, pitanja koja možete pitati sa podacima sa vjerovatno biti ograničen; kompanije su vjerojatno kako bi se omogućilo istraživanje koje bi mogle da izgledaju loše. Drugo, vjerovatno neće biti u mogućnosti da dijele svoje podatke s drugim istraživačima, što znači da drugi istraživači neće moći potvrditi i proširiti svoje rezultate. Nadalje, ova partnerstva mogu stvoriti barem privid sukoba interesa, gdje ljudi pomisliti da rezultate su pod utjecajem vašeg partnerstva. Sve ove mane se mogu riješiti, ali je važno da bude jasno da je rad sa podacima koji nisu dostupni svi imali i moguće dobre i loše strane.
Ukratko, puno velikih podataka nedostupan za istraživače. Postoje ozbiljne pravne, tehničke, poslovne i etičke barijere koje onemogućavaju pristup podacima, a ove prepreke neće nestati. Nacionalne vlade uglavnom su uspostavljene procedure za omogućavanje pristupa podacima, ali proces može biti ad hoc na državnom i lokalnom nivou. Također, u nekim slučajevima, istraživači mogu partnerstvo sa kompanijama da dobiju pristup podacima, ali to može stvoriti niz problema za istraživače.