Istraživačima je teško pristupiti podacima tvrtki i vlada.
U svibnju 2014. američka nacionalna sigurnosna agencija otvorila je podatkovni centar u ruralnom Utahu s neugodnim imenom, Informacijskim centrom za inicijativu inteligentne zajednice za sveobuhvatnu informacijsku tehnologiju Cybersecurity. Međutim, ovaj podatkovni centar, koji je postao poznat kao podatkovni centar u Utahu, ima zapanjujuće mogućnosti. Jedno izvješće navodi da je u stanju pohranjivati i obraditi sve oblike komunikacije uključujući "cjeloviti sadržaj privatnih poruka e-pošte, mobilnih telefonskih poziva i Google pretraživanja, kao i sve vrste putova za osobne podatke - priznanice za parkiranje, itinereri putovanja, kupnje knjižara , i druga digitalna 'džepna smeća' " (Bamford 2012) . Osim što izaziva zabrinutost zbog osjetljive prirode velikog dijela informacija prikupljenih velikim podacima, koji će biti opisan u daljnjem tekstu, Utah Data Center je ekstremni primjer bogatog izvora podataka koji nije dostupan istraživačima. Općenito, mnogi izvori velikih podataka koji bi bili korisni kontroliraju i ograničavaju vlade (npr. Porezni podaci i obrazovni podaci) ili tvrtke (npr. Upiti na tražilice i meta-podatke telefonskog poziva). Stoga, iako ti izvori podataka postoje, oni su beskorisni u svrhu društvenog istraživanja jer su nedostupni.
U mom iskustvu, mnogi znanstvenici sa sjedištem na sveučilištima pogrešno shvaćaju izvor ove nedostupnosti. Ti su podaci nedostupni ne zato što su ljudi u tvrtkama i vladama glupi, lijeni ili nepristojni. Umjesto toga, postoje ozbiljne pravne, poslovne i etičke prepreke koje sprečavaju pristup podacima. Na primjer, neki ugovori o uvjetima pružanja usluge za web-lokacije dopuštaju upotrebu podataka samo zaposlenicima ili poboljšanju usluge. Tako bi određeni oblici dijeljenja podataka mogli izložiti tvrtkama legitimnim tužbama od kupaca. Postoje i značajni poslovni rizici za tvrtke uključene u dijeljenje podataka. Pokušajte zamisliti kako će javnost odgovoriti ako su podaci o osobnim pretraživanjima slučajno procurili iz Googlea kao dio sveučilišnog istraživačkog projekta. Takvo kršenje podataka, ako je ekstremno, čak bi moglo biti egzistencijalni rizik za tvrtku. Tako Google i većina velikih tvrtki vrlo su riskantni zbog dijeljenja podataka s istraživačima.
Zapravo, gotovo svatko tko je u mogućnosti pružiti pristup velikim količinama podataka zna priču o Abduru Chowdhuryu. Godine 2006., kada je bio voditelj istraživanja na AOL-u, namjerno je objavio istraživačkoj zajednici ono što je smatrao anonimnim upitima za pretraživanje od 650.000 korisnika AOL-a. Koliko ja mogu reći, Chowdhury i istraživači AOL-a imali su dobre namjere, a mislili su da su anonimizirali podatke. Ali oni su bili u krivu. Brzo je otkriveno da podaci nisu bili anonimni kao što su istraživači mislili, a novinari iz New York Timesa mogli su lako identificirati nekoga u skupu podataka (Barbaro and Zeller 2006) . Jednom kad su ti problemi otkriveni, Chowdhury je uklonio podatke s AOLovih web stranica, ali bilo je prekasno. Podaci su ponovo objavljeni na drugim web stranicama, a vjerojatno će i dalje biti dostupni dok čitate ovu knjigu. Chowdhury je otpaljen, a AOL-ov glavni tehnološki časnik podnio je ostavku (Hafner 2006) . Kao što pokazuje ovaj primjer, pogodnosti za određene pojedince unutar tvrtki kako bi se olakšao pristup podacima su prilično male i najgori scenarij je strašan.
Istraživači, međutim, mogu ponekad dobiti pristup podacima koji nisu dostupni široj javnosti. Neke vlade imaju postupke koje istraživači mogu slijediti kako bi se prijavili za pristup, a kao primjeri koji se kasnije nalaze u ovom poglavlju, istraživači povremeno mogu dobiti pristup korporativnim podacima. Na primjer, Einav et al. (2015) udružio se s istraživačem na eBayu kako bi proučio online aukcije. Razgovarat ću više o istraživanjima koja su došla iz ove suradnje kasnije u ovom poglavlju, ali sada to spominjem jer su imala sve četiri sastojke koje vidim u uspješnim partnerskim odnosima: zanimanje istraživača, sposobnost istraživača, interes tvrtke i sposobnost tvrtke , Vidio sam kako mnoge potencijalne suradnje ne uspijevaju jer bilo istraživač ili partner - bilo tvrtka ili vlada - nedostajalo je jedan od tih sastojaka.
Čak i ako ste u mogućnosti razviti partnerstvo s tvrtkom ili ostvariti pristup ograničenim državnim podacima, ipak, postoje neke nedostatke za vas. Prvo, vjerojatno nećete moći dijeliti svoje podatke s drugim istraživačima, što znači da drugi istraživači neće moći potvrditi i proširiti vaše rezultate. Drugo, pitanja koja možete postaviti mogu biti ograničena; tvrtke vjerojatno ne dopuštaju istraživanje koje bi ih moglo izgledati loše. Konačno, ta partnerstva mogu stvoriti barem pojavu sukoba interesa, gdje bi ljudi mogli pomisliti da su vaši partneri bili pod utjecajem vaših rezultata. Sve ove nedostatke mogu se riješiti, ali važno je biti jasno da rad s podacima koji nisu dostupni svima ima oba upsides i downsides.
Ukratko, mnogi veliki podaci nisu dostupni istraživačima. Postoje ozbiljne pravne, poslovne i etičke barijere koje sprečavaju pristup podacima, a ove prepreke neće nestati jer se tehnologija poboljšava jer nisu tehničke prepreke. Neke su nacionalne vlade uspostavile procedure za omogućavanje pristupa podacima za neke skupove podataka, no proces je posebno ad hoc na državnoj i lokalnoj razini. Isto tako, istraživači u nekim slučajevima mogu surađivati s tvrtkama da dobiju pristup podacima, ali to može stvoriti različite probleme za istraživače i tvrtke.