2.3.2.2 Inaccessible

Data, som virksomheder og regeringer er svært for forskere at få adgang til.

I maj 2014 det amerikanske National Security Agenda åbnet et datacenter i landdistrikterne Utah, der har en akavet navn, Intelligence Community Comprehensive National cybersikkerhed Initiative Data Center. Men denne datacenter, som er kommet for at blive kendt som Utah Data Center, rapporteret at have forbløffende evner. En rapport hævder, at Utah Data Center er i stand til at lagre og behandle alle former for kommunikation, herunder "hele indholdet af private e-mails, celle telefonopkald, og Google-søgninger, samt alle former for personoplysninger stier-parkering kvitteringer, rejseplaner , boghandel køb, og anden digital `lomme kuld '" (Bamford 2012) . Ud over de hæve bekymringer om den følsomme karakter af mange af de oplysninger fanget i store data, som vil blive beskrevet mere nedenfor, Utah Data Center er et ekstremt eksempel på en rig datakilde, der er utilgængelige for forskere. Mere generelt mange kilder til big data, som ville være nyttige for forskere er kontrolleret og begrænset af regeringer (f.eks skat data og uddannelsesmæssige data) og virksomheder (f.eks, forespørgsler til søgemaskiner og telefonopkald meta-data). Derfor vil disse data ikke være umiddelbart tilgængelige for forskere på universiteterne, og de fleste vil ikke engang være til rådighed for forskere i regeringer eller virksomheder.

Det er min erfaring, mange forskere baseret på universiteterne misforstår kilden til denne utilgængelighed. Disse data er ikke utilgængelige, fordi folk på virksomheder og regeringer er dumme, dovne, eller ufølsom. Snarere er der alvorlige juridiske, tekniske, forretningsmæssige og etiske barrierer, der forhindrer adgang til data. For eksempel, nogle vilkår-of-service-aftaler til hjemmesider tillader kun data, der skal bruges af de ansatte eller for at forbedre servicen. Så visse former for datadeling kan udsætte virksomheder til legitime retssager fra kunder. Der er også betydelige forretningsmæssige risici for selskaber, der deltager i datadeling. Prøv at forestille dig, hvordan det offentlige ville reagere, hvis personlige søgedata uheld lækket ud fra Google som del af et universitet forskningsprojekt. En sådan brud data, hvis ekstreme, måske endda være en eksistentiel risiko for virksomheden. Så Google-og mest store virksomheder-er meget risikoaverse om deling af data med forskere.

Faktisk næsten alle, der er i stand til at give adgang til store mængder af data kender historien om Abdur Chowdhury. I 2006, da han var leder af AOL forskning, han med vilje løsladt hvad han troede var anonymiseret søgeforespørgsler fra 650.000 AOL-brugere til forskningsverdenen. Så vidt jeg kan fortælle, Chowdhury og forskerne på AOL havde gode intentioner, og de troede, at de havde anonymiserede data. Men, de var forkerte. Det blev hurtigt opdaget, at oplysningerne ikke var så anonym som forskerne troede, og journalister fra New York Times var stand til at identificere folk i datasættet med lethed (Barbaro and Zeller Jr 2006) . Når disse problemer blev opdaget, Chowdhury fjernet data fra AOL hjemmeside, men det var for sent. Dataene var blevet reposted på andre hjemmesider, og det vil formentlig stadig være tilgængelige, når du læser denne bog. På grund af hans forsøg på at dele data med forskningsverdenen, blev Chowdhury fyret, og AOL er Chief Technology Officer fratrådt (Hafner 2006) . Som dette eksempel viser, fordelene for bestemte personer inde i selskaber for at lette adgang til data er temmelig små og det værst tænkelige scenarie er forfærdeligt.

Forskning kan imidlertid få adgang til data, der er utilgængelige for offentligheden. Regeringerne har procedurer, som forskerne kan følge for at søge om adgang, og som eksemplerne senere i dette kapitel viser, kan forskerne lejlighedsvis få adgang til virksomhedens data. F.eks Einav et al. (2015) indgået et samarbejde med en forsker på eBay for at studere de digitale spor fra online-auktioner. Jeg vil tale mere om den forskning, der kom fra dette samarbejde senere i kapitlet (afsnit 2.4.3.2), men jeg nævner det nu, fordi det havde alle fire af de ingredienser, som jeg ser i vellykkede partnerskaber: forsker interesse, forsker kapacitet, virksomheden interesse, og virksomheden kapacitet. Med andre ord, Einav og kolleger var interesseret i og i stand til at studere online auktioner. Og, eBay var også. Men jeg har set mange mulige samarbejde mislykkes, fordi enten forsker eller virksomhed manglede en af ​​disse ingredienser.

Selv hvis du er i stand til at udvikle et partnerskab med en virksomhed, men der er nogle ulemper for dig. Først, de spørgsmål, du kan stille med de data med sandsynligvis være begrænset; virksomheder er usandsynligt, at tillade forskning, der kunne gøre dem ser dårligt. For det andet, vil du sandsynligvis ikke være i stand til at dele dine data med andre forskere, hvilket betyder, at andre forskere ikke vil være i stand til at kontrollere og udvide dine resultater. Endvidere kan disse partnerskaber skabe mindst udseendet af en interessekonflikt, hvor folk måske tror, ​​at dine resultater var påvirket af dine partnerskaber. Alle disse ulemper kan løses, men det er vigtigt at være klart, at arbejde med data, der ikke er tilgængelige for alle havde både positive og negative.

Sammenfattende, masser af big data er utilgængelige for forskere. Der er alvorlige juridiske, tekniske, forretningsmæssige og etiske barrierer, der forhindrer adgang til data, og disse barrierer vil ikke gå væk. De nationale regeringer generelt har etableret procedurer for muliggør dataadgang, men processen kan være mere ad hoc på de statslige og lokale niveau. Også i nogle tilfælde, kan forskerne partner med virksomheder for at få adgang til data, men det kan skabe en række problemer for forskere.