Data fra virksomheder og regeringer er vanskelige for forskere at få adgang til.
I maj 2014 åbnede Det Amerikanske Sikkerhedsagentur et datacenter i Utah på landet med et akavet navn, Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Dette datacenter, der er blevet kendt som Utah Data Center, rapporteres imidlertid at have forbløffende muligheder. En rapport hævder, at den er i stand til at gemme og behandle alle former for kommunikation, herunder "det komplette indhold af private e-mails, mobiltelefonopkald og Google-søgninger, samt alle mulige personlige data-stier-parkeringskvitteringer, rejseplaner, boghandelskøb , og andet digitalt 'lommepulver' " (Bamford 2012) . Ud over at rejse bekymringer om den følsomme karakter af mange af de oplysninger, der er fanget i store data, som vil blive beskrevet nærmere nedenfor, er Utah Data Center et ekstremt eksempel på en rig datakilde, der er utilgængelig for forskere. Mere generelt er mange kilder til store data, som ville være nyttige, kontrolleret og begrænset af regeringer (f.eks. Skattedata og uddannelsesdata) eller virksomheder (f.eks. Forespørgsler til søgemaskiner og telefonsamtaler meta-data). Selv om disse datakilder eksisterer, er de derfor ubrugelige med henblik på social forskning, fordi de er utilgængelige.
I min erfaring misforstår mange forskere, der er baseret på universiteter, kilden til denne utilgængelighed. Disse data er utilgængelige, ikke fordi folk på virksomheder og regeringer er dumme, dovne eller uhyggelige. Der er snarere alvorlige juridiske, forretningsmæssige og etiske barrierer, der forhindrer adgang til data. For eksempel tillader nogle servicevilkårsaftaler for websites kun, at data anvendes af medarbejdere eller for at forbedre tjenesten. Så visse former for datadeling kunne udsætte virksomheder for lovlige søgsmål fra kunder. Der er også betydelige forretningsmæssige risici for virksomheder, der er involveret i at dele data. Forsøg at forestille sig, hvordan offentligheden ville reagere, hvis personlige søgedata utilsigtet lækkede ud af Google som led i et universitetsforskningsprojekt. En sådan dataskrænkelse, hvis ekstreme, kan endda være en eksistentiel risiko for virksomheden. Så Google og de fleste store virksomheder er meget risikovillige for at dele data med forskere.
Faktisk kender næsten alle, der er i stand til at give adgang til store mængder data, historien om Abdur Chowdhury. I 2006, da han var forskningsleder hos AOL, gav han bevidst ud til forskersamfundet, hvad han troede var anonymiserede søgninger fra 650.000 AOL-brugere. Så vidt jeg kan sige, havde Chowdhury og forskerne ved AOL gode hensigter, og de troede, at de havde anonymiseret dataene. Men de havde forkert. Det blev hurtigt opdaget, at dataene ikke var så anonyme som forskerne troede, og journalister fra New York Times var i stand til nemt at identificere nogen i datasættet (Barbaro and Zeller 2006) . Når disse problemer blev opdaget, fjernede Chowdhury dataene fra AOLs hjemmeside, men det var for sent. Dataene var blevet reposted på andre hjemmesider, og det vil sandsynligvis stadig være tilgængeligt, når du læser denne bog. Chowdhury blev fyret, og AOLs øverste teknologibetjent fratrådte (Hafner 2006) . Som dette eksempel viser, er fordelene for bestemte personer inden for virksomhederne for at lette adgangen til data ret små, og det værste tilfælde er forfærdeligt.
Forskere kan dog nogle gange få adgang til data, der er utilgængelige for offentligheden. Nogle regeringer har procedurer, som forskere kan følge for at søge adgang, og som eksemplerne senere i dette kapitel viser, kan forskere lejlighedsvis få adgang til virksomhedens data. For eksempel beskriver Einav et al. (2015) samarbejdede med en forsker på eBay for at studere online-auktioner. Jeg vil snakke mere om den forskning, der kom fra dette samarbejde senere i kapitlet, men jeg nævner det nu, fordi det havde alle fire af de ingredienser, som jeg ser i vellykkede partnerskaber: forskerinteresse, forskerfunktion, virksomhedsinteresse og selskabskapacitet . Jeg har set mange potentielle samarbejder, fordi enten forskeren eller partneren - det være sig et firma eller en regering - manglede en af disse ingredienser.
Selvom du er i stand til at udvikle et partnerskab med en virksomhed eller få adgang til begrænsede offentlige data, er der dog nogle ulemper for dig. For det første vil du sandsynligvis ikke kunne dele dine data med andre forskere, hvilket betyder, at andre forskere ikke vil kunne kontrollere og udvide dine resultater. For det andet kan de spørgsmål, du spørger, være begrænsede; virksomheder er usandsynligt at tillade forskning, der kan få dem til at se dårlige ud. Endelig kan disse partnerskaber i det mindste skabe udseende af en interessekonflikt, hvor folk måske tror, at dine resultater var påvirket af dine partnerskaber. Alle disse ulemper kan løses, men det er vigtigt at være klart, at arbejde med data, der ikke er tilgængeligt for alle, har både upsides og downsides.
Sammenfattende er mange store data utilgængelige for forskere. Der er alvorlige juridiske, forretningsmæssige og etiske barrierer, der forhindrer adgang til data, og disse hindringer vil ikke gå væk, da teknologien forbedres, fordi de ikke er tekniske hindringer. Nogle nationale regeringer har etableret procedurer for at muliggøre datatilgang for nogle datasæt, men processen er særligt ad hoc på statslige og lokale niveauer. I nogle tilfælde kan forskere også samarbejde med virksomheder om at få dataadgang, men det kan skabe forskellige problemer for forskere og virksomheder.