2.3.2.2 utilgjengelige

Data som bedrifter og regjeringer er vanskelig for forskere å få tilgang.

I mai 2014 det amerikanske National Security Agenda åpnet et datasenter i landlige Utah som har en vanskelig navn, etterretningstjenesten Omfattende National Cybersecurity Initiative Data Center. Men dette datasenteret, som har kommet for å bli kjent som Utah Data Center, rapportert å ha forbløffende evner. En rapport hevder at Utah Data Center er i stand til å lagre og behandle alle former for kommunikasjon, inkludert "hele innholdet på privat e-post, mobiltelefon samtaler, og Google-søk, samt alle slags personlige data stier Parkering kvitteringer, reiseruter , bokhandel innkjøp, og andre digitale `pocket søppel '» (Bamford 2012) . I tillegg til de heve bekymringer om sensitive natur mye av informasjonen er fanget i Big Data, som vil bli beskrevet mer nedenfor, er Utah Data Center et ekstremt eksempel på en rik datakilde som er utilgjengelig for forskere. Mer generelt mange kilder til stor data som vil være nyttig for forskere er kontrollert og begrenset av myndighetene (f.eks skattedata og utdanningsdata) og selskaper (for eksempel forespørsler til søkemotorer og telefonsamtale meta-data). Derfor vil disse dataene ikke umiddelbart tilgjengelig for forskere ved universiteter, og de fleste vil ikke engang være tilgjengelig for forskere i regjeringer eller selskaper.

I min erfaring, mange forskere basert på universiteter misforstår kilden til denne utilgjengelighet. Disse dataene er ikke utilgjengelige fordi folk i bedrifter og regjeringer er dum, lat eller uncaring. Snarere er det alvorlig juridisk, teknisk, næringsliv og etiske barrierer som hindrer tilgang til data. For eksempel har noen terms-of-serviceavtaler for nettsteder bare tillate data som skal brukes av ansatte eller for å forbedre tjenesten. Så visse former for datadeling kan utsette selskaper til legitime søksmål fra kunder. Det er også betydelige forretningsrisikoer til selskaper som er involvert i å dele data. Prøv å forestille seg hvordan publikum vil reagere dersom personlige søkedata uhell lekket ut fra Google som en del av et universitet forskningsprosjekt. En slik datainnbrudd, hvis ekstreme, kan også være en eksistensiell risiko for selskapet. Så Google-og de fleste store selskaper-er svært risikoavers om å dele data med forskere.

Faktisk, til nesten alle som er i posisjon til å gi tilgang til store mengder data kjenner historien om Abdur Chowdhury. I 2006, da han var leder av AOL forskning, han bevisst sluppet det han trodde var anonymisert søk fra 650.000 AOL brukere til forskersamfunnet. Så vidt jeg kan fortelle, Chowdhury og forskerne ved AOL hadde gode intensjoner, og de trodde at de hadde anonymisert dataene. Men de tok feil. Det ble raskt oppdaget at dataene ikke var så anonym som forskerne trodde, og journalister fra New York Times var i stand til å identifisere personer i datasettet med letthet (Barbaro and Zeller Jr 2006) . Når disse problemene ble oppdaget, Chowdhury fjernes dataene fra AOL hjemmeside, men det var for sent. Dataene hadde blitt repostes på andre nettsteder, og det vil trolig fortsatt være tilgjengelig når du leser denne boken. På grunn av hans forsøk på å dele data med forskersamfunnet, ble Chowdhury sparken, og AOLs teknisk sjef trakk seg (Hafner 2006) . Som dette eksemplet viser, fordeler for bestemte personer inne i selskaper for å forenkle datatilgangen er ganske små og worst-case scenario er forferdelig.

Forskning kan imidlertid få tilgang til data som er utilgjengelig for allmennheten. Regjeringene har prosedyrer som forskerne kan følge for å søke om tilgang, og som eksemplene senere i dette kapittelet viser, kan forskere tidvis få tilgang til bedriftens data. For eksempel Einav et al. (2015) inngått samarbeid med en forsker på eBay for å studere digitale spor fra nettauksjoner. Jeg skal snakke mer om forskningen som kom fra dette samarbeidet senere i kapitlet (avsnitt 2.4.3.2), men jeg nevner det nå fordi det hadde alle fire av de ingrediensene som jeg ser i vellykkede partnerskap: forsker interesse, forsker evne, selskapet interesse, og selskapet evne. Med andre ord, Einav og kolleger var interessert i og i stand til å studere nettauksjoner. Og eBay var også. Men, jeg har sett mange mulige samarbeid mislykkes fordi enten forskeren eller selskap manglet en av disse ingrediensene.

Selv om du er i stand til å utvikle et samarbeid med en bedrift, men det er noen ulemper for deg. Først, de spørsmålene som du kan spørre med dataene med sannsynlig være begrenset; selskapene er usannsynlig å tillate forskning som kan gjøre dem i et dårlig lys. For det andre vil du sannsynligvis ikke være i stand til å dele data med andre forskere, noe som betyr at andre forskere ikke vil være i stand til å kontrollere og utvide dine resultater. Videre kan disse partnerskapene opprette minst inntrykk av en interessekonflikt, der folk kanskje tror at resultatene ble påvirket av dine partnerskap. Alle disse ulempene kan tas opp, men det er viktig å være klar over at å jobbe med data som ikke er tilgjengelige for alle hadde både oppsider og ulemper.

I sammendraget, massevis av store data er utilgjengelig for forskere. Det er alvorlige juridiske, tekniske, business, og etiske barrierer som hindrer tilgang til data, og disse barrierene vil ikke gå bort. Nasjonale myndigheter generelt har etablert rutiner for å aktivere datatilgang, men prosessen kan være mer ad hoc på statlig og lokalt nivå. Også i noen tilfeller, forskere kan samarbeide med selskaper for å få tilgang til data, men dette kan skape en rekke problemer for forskerne.