Data fra bedrifter og regjeringer er vanskelig for forskere å få tilgang til.
I mai 2014 åpnet det amerikanske sikkerhetsbyrået et datasenter på landsbygda Utah med et plagsomt navn, Intelligence Community Comprehensive National Cybersecurity Initiative Data Center. Men dette datasenteret, som har blitt kjent som Utah Data Center, rapporteres å ha forbløffende evner. En rapport hevder at den er i stand til å lagre og behandle alle former for kommunikasjon, inkludert "det komplette innholdet av private e-postmeldinger, mobiltelefonanrop og Google-søk, samt alle slags personlige data-stier-parkeringskvitteringer, reiseplaner, kjøp av bokhandel , og annet digitalt "pocket litter" " (Bamford 2012) . I tillegg til å hevde bekymringer om sensitiviteten til mye av informasjonen fanget i store data, som vil bli beskrevet nærmere nedenfor, er Utah Data Center et ekstremt eksempel på en rik datakilde som er utilgjengelig for forskere. Mer generelt er mange kilder til store data som er nyttige, kontrollert og begrenset av regjeringer (f.eks. Skattedata og utdanningsdata) eller selskaper (f.eks. Søk på søkemotorer og telefonsamtale metadata). Derfor, selv om disse datakilder eksisterer, er de ubrukelige for sosiale undersøkelser fordi de er utilgjengelige.
I min erfaring misforstår mange forskere basert på universiteter kilden til denne utilgjengeligheten. Disse dataene er utilgjengelige, ikke fordi folk på bedrifter og regjeringer er dumme, dovne eller ukjente. Snarere er det alvorlige juridiske, forretningsmessige og etiske barrierer som forhindrer datatilgang. For eksempel tillater enkelte servicevilkår for nettsteder bare at data brukes av ansatte eller for å forbedre tjenesten. Så visse former for datadeling kan utsette selskaper for lovlige søksmål fra kunder. Det er også betydelige forretningsmessige risikoer for selskaper involvert i deling av data. Forsøk å forestille seg hvordan offentligheten ville svare hvis personlige søkedata utilsiktet lekket ut fra Google som en del av et universitetsforskningsprosjekt. Et slikt brudd på data, om ekstreme, kan til og med være en eksistensiell risiko for selskapet. Så Google og de fleste store selskaper er svært risikovillige om å dele data med forskere.
Faktisk kjenner nesten alle som er i stand til å gi tilgang til store datamengder historien om Abdur Chowdhury. I 2006, da han var forskningsleder ved AOL, sendte han bevisst ut til forskningsmiljøet hva han trodde var anonymiserte søk fra 650 000 AOL-brukere. Så vidt jeg kan fortelle, hadde Chowdhury og forskerne ved AOL gode hensikter, og de trodde at de hadde anonymisert dataene. Men de hadde feil. Det ble raskt oppdaget at dataene ikke var så anonyme som forskerne trodde, og journalister fra New York Times kunne enkelt identifisere noen i datasettet (Barbaro and Zeller 2006) . Når disse problemene ble oppdaget, fjernet Chowdhury dataene fra AOLs nettsted, men det var for sent. Dataene ble repostert på andre nettsteder, og det vil trolig fortsatt være tilgjengelig når du leser denne boken. Chowdhury ble sparket, og AOLs sjefteknolog offiserer (Hafner 2006) . Som dette eksempelet viser, er fordelene for bestemte personer innenfor bedrifter for å lette dataadgangen ganske små, og det verste fallet er forferdelig.
Forskere kan imidlertid noen ganger få tilgang til data som er utilgjengelige for allmennheten. Noen regjeringer har prosedyrer som forskere kan følge for å søke om tilgang, og som eksemplene senere i dette kapitlet viser, kan forskere sporadisk få tilgang til bedriftsdata. For eksempel beskriver Einav et al. (2015) samarbeidet med en forsker på eBay for å studere online-auksjoner. Jeg snakker mer om forskningen som kom fra dette samarbeidet senere i kapittelet, men jeg nevner det nå fordi det hadde alle fire ingrediensene jeg ser i vellykkede partnerskap: forskerinteresse, forskerkapasitet, selskapsinteresse og selskapskapasitet . Jeg har sett mange potensielle samarbeid, fordi enten forskeren eller partneren - det være seg et selskap eller en stat - manglet ett av disse ingrediensene.
Selv om du er i stand til å utvikle et partnerskap med en bedrift eller få tilgang til begrensede regjeringsdata, er det imidlertid noen ulemper for deg. For det første vil du sannsynligvis ikke kunne dele dataene med andre forskere, noe som betyr at andre forskere ikke vil kunne bekrefte og utvide resultatene dine. For det andre kan spørsmålene du kan spørre være begrenset; selskaper er usannsynlig å tillate forskning som kan få dem til å se dårlig ut. Til slutt kan disse partnerskapene skape minst utseendet av en interessekonflikt, der folk kan tro at resultatene dine var påvirket av partnerskapene dine. Alle disse ulemper kan løses, men det er viktig å være tydelig at arbeid med data som ikke er tilgjengelig for alle, har både ulemper og ulemper.
I sammendraget er mange store data utilgjengelige for forskere. Det er alvorlige juridiske, forretningsmessige og etiske barrierer som forhindrer datatilgang, og disse barrierer vil ikke gå vekk som teknologien forbedrer fordi de ikke er tekniske barrierer. Enkelte nasjonale myndigheter har etablert prosedyrer for å muliggjøre datatilgang for enkelte datasett, men prosessen er spesielt ad hoc på statlig og lokalt nivå. I noen tilfeller kan forskere også samarbeide med selskaper for å skaffe seg dataadgang, men dette kan skape en rekke problemer for forskere og bedrifter.