Gögn sem fyrirtæki og ríkisstjórnir halda eru erfitt fyrir vísindamenn að fá aðgang.
Í maí 2014 opnaði bandaríska öryggisstofnunin gagnaver í dreifbýli Utah með óþægilegu nafni, upplýsingamiðstöðinni um alheimsöryggisþjónustu samfélagsins. Hins vegar hefur þetta gögn sent, sem hefur orðið þekktur sem Utah Data Center, talið hafa ótrúlega getu. Ein skýrsla bendir á að það sé hægt að geyma og vinna úr öllum samskiptum, þ.mt "heill innihald einkapósts tölvupósts, farsímasímtala og leitir Google, svo og alls konar persónuleg gönguleiðir-bílastæði kvittanir, ferðalög ferðaþjónustu, bókabúð kaup , og annar stafrænn 'vasa rusl' " (Bamford 2012) . Auk þess að vekja áhyggjur af viðkvæmum eðli mikils upplýsinga sem teknar eru í stórum gögnum, sem lýst er hér að neðan, er Utah Data Center mjög sérstakt dæmi um ríka gagnagjafa sem óaðgengilegt er fyrir vísindamenn. Almennt eru mörg uppsprettur stórra gagna sem gagnlegt er stjórnað og takmarkað af stjórnvöldum (td skattagögn og fræðsluupplýsingar) eða fyrirtæki (td fyrirspurnir á leitarvélum og símtali metadata). Þess vegna, jafnvel þótt þessi gögn séu til staðar, þá eru þeir gagnslausir í þeim tilgangi að félagsleg rannsókn vegna þess að þau eru óaðgengileg.
Margir vísindamenn, sem eru aðsetur í háskólum, skilja að reynslunni minni að mér sést að þetta sé óaðgengilegt. Þessar upplýsingar eru óaðgengilegar ekki vegna þess að fólk í fyrirtækjum og stjórnvöldum er heimskur, latur eða óöruggur. Frekar eru alvarleg lögfræðileg, viðskipta- og siðferðileg hindranir sem koma í veg fyrir aðgang gagna. Til dæmis leyfa sumar þjónustuskilmálar fyrir vefsíður aðeins að nota gögn sem starfsmenn nota eða til að bæta þjónustuna. Þannig að tilteknar gerðir gagnadeildar gætu leitt fyrirtæki til lögmætra mála frá viðskiptavinum. Það eru einnig verulegar viðskiptaáhættu fyrir fyrirtæki sem taka þátt í að deila gögnum. Reyndu að ímynda þér hvernig almenningur myndi bregðast við ef persónuleg leitargögn leiddu út af Google fyrir óvart sem hluti af háskólanámi. Slík gögn brot, ef sérstakt, gæti jafnvel verið tilvistaráhætta fyrir fyrirtækið. Svo Google og flestir stór fyrirtæki - eru mjög áhættufælir um að deila upplýsingum með vísindamönnum.
Reyndar, næstum allir sem geta veitt aðgang að miklu magni, þekkir söguna af Abdur Chowdhury. Árið 2006, þegar hann var forstöðumaður rannsókna hjá AOL, gaf hann af ásettu ráði til rannsóknarfélagsins það sem hann hélt voru nafnlausar fyrirspurnir frá 650.000 AOL notendum. Eins og ég get sagt, Chowdhury og vísindamenn við AOL höfðu góð áform, og þeir héldu að þeir höfðu nafnlaus gögnin. En þeir höfðu rangt. Það var fljótt uppgötvað að gögnin væru ekki eins nafnlaus og vísindamennirnir héldu og fréttamenn frá New York Times voru fær um að auðkenna einhvern í gagnasafni með vellíðan (Barbaro and Zeller 2006) . Þegar þessi vandamál fundust kom Chowdhury úr gögnum frá vefsíðu AOL, en það var of seint. Gögnin höfðu verið endurnýjuð á öðrum vefsíðum, og það mun líklega vera til staðar þegar þú lest þessa bók. Chowdhury var rekinn og höfðingi tæknimaður AOL sagði af sér (Hafner 2006) . Eins og þetta dæmi sýnir eru ávinningurinn fyrir tiltekna einstaklinga innan fyrirtækja til að greiða fyrir aðgang að gögnum töluvert lítið og versta fallið er hræðilegt.
Vísindamenn geta þó stundum fengið aðgang að gögnum sem eru óaðgengilegar almenningi. Sumir ríkisstjórnir hafa verklagsreglur sem vísindamenn geta fylgst með til að sækja um aðgang, og eins og dæmin síðar í þessum kafla sýna, geta vísindamenn stundum fengið aðgang að fyrirtækjagögnum. Til dæmis, Einav et al. (2015) samvinnu við rannsóknaraðila á eBay til að læra á netinu uppboð. Ég mun tala meira um rannsóknirnar sem komu frá þessu samstarfi seinna í kaflanum, en ég nefna það núna vegna þess að það hafði alla fjóra innihaldsefnin sem ég sé í árangursríku samstarfi: rannsóknarvöxtur, rannsóknarhæfileiki, félagsleg áhugi og fyrirtæki getu . Ég hef séð mörg hugsanleg samstarf mistakast vegna þess að annaðhvort rannsakandinn eða makinn - hvort sem það er fyrirtæki eða ríkisstjórn - skorti eitt af þessum innihaldsefnum.
Jafnvel ef þú ert fær um að þróa samstarf við fyrirtæki eða fá aðgang að takmörkuðum opinberum gögnum, þá eru nokkrar gallar fyrir þig. Í fyrsta lagi munt þú líklega ekki geta deilt gögnunum þínum við aðra vísindamenn, sem þýðir að aðrir vísindamenn munu ekki geta staðfest og lengt árangur þinn. Í öðru lagi geta spurningar sem þú getur beðið takmarkað; fyrirtækjum er ólíklegt að leyfa rannsóknum sem gætu gert þá lítið slæmt. Að lokum geta þessi samstarf skapað að minnsta kosti útliti hagsmunaárekstra, þar sem fólk gæti hugsað að árangur þinn hafi áhrif á samstarf þitt. Öllum þessum niðurstöðum má beint, en það er mikilvægt að vera ljóst að vinna með gögnum sem ekki er aðgengilegt öllum hefur bæði upsides og downsides.
Í stuttu máli eru mörg stór gögn óaðgengileg fyrir vísindamenn. Það eru alvarlegar lagalegir, viðskiptabundnar og siðferðilegar hindranir sem koma í veg fyrir aðgang gagna og þessar hindranir munu ekki fara í burtu þar sem tæknin bætir vegna þess að þau eru ekki tæknileg hindranir. Sumir ríkisstjórnir hafa sett upp verklagsreglur til að gera gagnaaðgang fyrir sumar gagnasöfn kleift, en ferlið er sérstaklega sérstakt á ríkinu og sveitarfélögum. Einnig geta vísindamenn í sumum tilvikum samið við fyrirtæki til að fá aðgang að gögnum, en þetta getur skapað fjölbreytt vandamál fyrir vísindamenn og fyrirtæki.