2.3.2.2 Neskelbiama

Turimos įmonės ir vyriausybės duomenys yra sunku mokslininkams prieiti.

2014 gegužės JAV Nacionalinio saugumo darbotvarkė atidarė duomenų centrą kaimo Utah, kad turi nepatogios vardą, Žvalgybos Bendrijos išsamias nacionalines kibernetinio saugumo iniciatyva Data Center ". Tačiau šis duomenų centras, kuris atėjo būti žinoma kaip Utah Data Center "pranešė, kad stulbinantis galimybes. Viena ataskaita teigia, kad Juta Data Center "galės saugoti ir apdoroti visus bendravimo formų, įskaitant" pilnų turinį privačių laiškų, mobiliojo telefono skambučius, ir "Google" paieškas, taip pat visas su asmens duomenų takai automobilių stovėjimo aikštelė kvitus, kelionių maršrutus rūšių , knygynas pirkimai ir kitos skaitmeninės "Pocket vada '" (Bamford 2012) . Be didinimo susirūpinimo slaptos daug informacijos nufotografuotos dideliuose duomenų, kurie bus aprašyta daugiau toliau, Juta Data Center "yra kraštutinis pavyzdys turtinga duomenų šaltinio, kuris yra neprieinami tyrėjams. Apskritai, daug šaltinių didelis duomenų, kad būtų naudinga mokslininkams kontroliuoja ir riboja vyriausybės (pvz mokestinių duomenų ir švietimo duomenimis) ir įmonių (pvz užklausas paieškos sistemose ir telefono skambučių meta-duomenis). Todėl šie duomenys nebus prieinamas mokslininkams universitetuose, ir dauguma net ne būti prieinami mokslininkams vyriausybėms ar įmonių.

Iš savo patirties, daugelis tyrinėtojų pagrįstos universitetuose nesuprasti šio nebuvimo šaltinį. Šie duomenys yra neprieinamas, nes žmonės ne bendrovių ir vyriausybių yra kvailas, tingus, arba bejausmiai. Atvirkščiai, yra rimtų teisinių, techninių, verslo ir etikos kliūtis, trukdančias naudotis duomenų. Pavyzdžiui, kai terminai-of-paslaugų sutartys svetainių tik leidžia duomenų turi būti naudojamas darbuotojų arba pagerinti paslaugą. Taigi tam tikrų formų keitimosi duomenimis gali atskleisti įmonės teisėtų ieškinių iš klientų. Taip pat yra didelių verslo rizika bendrovių, dalyvaujančių dalijimosi duomenimis. Pabandykite įsivaizduoti, kaip visuomenė reaguotų, jei asmens duomenų paiešką netyčia nutekėjo iš "Google", dalis universitetų mokslinių tyrimų projektą. Toks duomenų saugumo pažeidimas, jei ekstremalus, gali būti net egzistencinis pavojus bendrovei. Taigi "Google" ir dauguma didelių kompanijų-labai rizikuoti apie dalijimąsi duomenimis su mokslininkais.

Iš tiesų, beveik visi, kurie yra tokioje padėtyje, suteikti prieigą prie didelių duomenų kiekio žino Abdur Chowdhury istoriją. 2006, kai jis buvo AOL tyrimų vadovas, jis tyčia išleido, ką jis manė, buvo anonimiški paieškos užklausas iš 650,000 AOL vartotojams į mokslinių tyrimų bendruomenę. Kiek aš galiu pasakyti, Chowdhury ir AOL mokslininkai turėjo gerų ketinimų ir jie manė, kad jie buvo yra anoniminė duomenis. Bet jie buvo neteisūs. Jis greitai buvo pastebėta, kad duomenys nebuvo kaip anonimiškas, kaip mokslininkai manė, ir žurnalistai iš "New York Times galėjo nustatyti žmones rinkinį su lengvumu (Barbaro and Zeller Jr 2006) . Kai šios problemos buvo atrasta, Chowdhury pašalino iš AOL tinklalapyje duomenis, bet jau buvo per vėlu. Duomenys buvo pakartotinai paskelbtas kur nors kitose interneto svetainėse, ir tai tikriausiai dar bus galima, kai jūs skaitote šią knygą. Dėl jo bandymas dalytis duomenimis su mokslinių tyrimų bendruomene, Chowdhury buvo atleistas, ir AOL vyriausiasis technologijų pareigūnas atsistatydino (Hafner 2006) . Kadangi šis pavyzdys rodo, kad konkrečių asmenų viduje bendrovių siekiant palengvinti prieigą prie duomenų nauda yra gana mažas ir blogiausio atvejo scenarijus yra baisi.

Tyrimai, tačiau gali gauti prieigą prie duomenų, kad yra prieinamos plačiajai visuomenei. Vyriausybės turi procedūras, kad mokslininkai galėtų sekti kreiptis dėl prieigos ir kaip pavyzdžiai vėliau šiame skyriuje šou, mokslininkai kartais gali patekti į įmonės duomenų. Pavyzdžiui, Einav et al. (2015) bendradarbiauja su "eBay" mokslo studijuoti skaitmeninius pėdsakus iš interneto aukcionuose. Aš kalbėti daugiau apie tyrimus, kurie atėjo iš šio bendradarbiavimo vėliau skyriuje (2.4.3.2 skyrius), bet aš sakiau, tai dabar, nes ji turėjo visus ingredientus, kad matau sėkmingų partnerysčių keturi: tyrėjo interesų mokslininkas galimybes, Įmonės palūkanos ir įmonės pajėgumus. Kitaip tariant, Einav ir jo kolegos buvo suinteresuoti ir gali studijuoti interneto aukcionuose. Ir eBay taip pat buvo. Tačiau, aš mačiau daug galimų bendradarbiavimo nepavyks, nes arba tyrėjas, ar įmonė neturėjo vienas iš šių ingredientų.

Net jei jūs galėsite sukurti partnerystę su verslu, tačiau yra keletas praradimas jums. Pirma, klausimus, kurie jums gali užduoti su duomenimis, kurių greičiausiai bus ribotas; įmonės yra mažai tikėtina, kad būtų galima tyrimus, kad galėtų padaryti jiems atrodo blogai. Antra, jūs tikriausiai negalės pasidalinti savo duomenimis su kitų tyrėjų, o tai reiškia, kad kiti mokslininkai negalės patikrinti ir išplėsti savo rezultatus. Be to, ši partnerystė gali sukurti bent jau interesų, kur žmonės gali manyti, kad jūsų rezultatai įtakojo jūsų partnerystės konflikto atsiradimą. Visi šie praradimas gali būti sprendžiami, bet svarbu, kad būtų aišku, kad dirbti su duomenimis, kurie yra ne visiems prieinamos turėjo tiek ilguoju ir praradimas.

Apibendrinant, daug didelių duomenų yra neprieinami tyrėjams. Yra rimtų teisinių, techninių, verslo ir etikos kliūtis, trukdančias patekti duomenis ir šios kliūtys neišnyks. Nacionalinės vyriausybės paprastai yra nustačiusi procedūras, skirtas suteikti prieigą prie duomenų, tačiau šis procesas gali būti ad hoc ne valstybės ir vietos lygmenimis. Be to, kai kuriais atvejais, mokslininkai gali partneris su įmonėmis gauti prieigą prie duomenų, tačiau tai gali sukurti nemažai problemų, mokslininkai įvairovė.