Tyrėjams sunku susipažinti su bendrovių ir vyriausybių turimais duomenimis.
2014 m. Gegužės mėn. JAV nacionalinio saugumo agentūra atidarė duomenų centrą Jutos kaimuose, kuris buvo nepatogu pavadinimu - "Intelligence Community Comprehensive National Cyber Security Initiative Data Center". Tačiau šis duomenų centras, kuris tapo žinomas kaip Jutos duomenų centras, praneša, kad yra nuostabių galimybių. Vienoje ataskaitoje teigiama, kad ji gali saugoti ir apdoroti visas bendravimo formas, įskaitant "pilną privačių el. Laiškų, mobiliųjų telefonų skambučių ir" Google "paieškų turinį, taip pat įvairius asmeninių duomenų takus, parkavimo įplaukas, kelionių maršrutus, knygynų pirkimus , ir kitas skaitmenines "kišenines šiukšles" (Bamford 2012) . Be to, kad išreikšti susirūpinimą dėl didelės informacijos, užfiksuotos dideliais duomenimis, kurie bus aprašyti toliau, jautrumą, JT duomenų centras yra didžiulis turtingo duomenų šaltinio, kuris mokslininkams nepasiekiamas, pavyzdys. Apskritai daugelis didelių duomenų, kurie būtų naudingi, šaltiniai būtų kontroliuojami ir apribojami vyriausybių (pvz., Mokesčių duomenų ir švietimo duomenų) ar bendrovių (pvz., Paieškos sistemų paieškos ir telefono skambučių metaduomenų). Todėl, nors šie duomenų šaltiniai egzistuoja, jie yra nenaudingi socialiniams tyrimams, nes jie yra nepasiekiami.
Mano patirtis rodo, kad daugelis universitetuose dirbančių mokslininkų neteisingai supranta šio neprieinamumo šaltinį. Šie duomenys yra nepasiekiami ne todėl, kad įmonės ir vyriausybės žmonės yra kvaili, tingūs ar netinkami. Priešingai, yra rimtų teisinių, verslo ir etikos kliūčių, užkertančių kelią prieigai prie duomenų. Pvz., Kai kuriose svetainių paslaugų teikimo sąlygose leidžiama naudoti duomenis tik darbuotojams arba tobulinti paslaugą. Taigi tam tikros dalijimosi duomenimis formos gali sukelti įmonėms teisėtus ieškinius iš klientų. Taip pat yra didelės verslo rizikos įmonėms, dalyvaujančioms dalijantis duomenimis. Pabandykite įsivaizduoti, kaip visuomenė reaguotų, jei asmeniniai paieškos duomenys atsitiktinai pasklistų iš "Google" kaip universiteto mokslinių tyrimų projekto dalis. Toks duomenų pažeidimas, jei jis būtų ekstremalus, netgi galėtų būti bendrovės egzistencinė rizika. Taigi "Google" ir dauguma didelių kompanijų labai rizikuoja atsisakyti dalytis duomenimis su tyrėjais.
Tiesą sakant, beveik visi, kurie gali suteikti prieigą prie didelių duomenų, žino Abdur Chowdhury istoriją. 2006 m., Kai jis buvo AOL tyrimų vadovas, jis tyčia išleido tyrėjų bendruomenei tai, kas, jo manymu, buvo anoniminė paieškos užklausa iš 650 000 AOL naudotojų. Kiek aš galiu pasakyti, Chowdhury ir AOL tyrėjai turėjo gerų ketinimų, ir manė, kad jie anoniminius duomenis. Bet jie buvo neteisingi. Atkreiptinas dėmesys į tai, kad duomenys buvo ne tokie anonimiški, kaip teigė tyrėjai, ir " New York Times" žurnalistai lengvai lengvai identifikavo asmenį duomenų rinkinyje (Barbaro and Zeller 2006) . Kai šios problemos buvo aptiktos, Chowdhury pašalino duomenis iš AOL svetainės, tačiau buvo per vėlu. Duomenys buvo pakartotinai paskelbti kitose svetainėse, ir tikriausiai jie bus prieinami, kai skaitote šią knygą. Chowdhury buvo atleistas, o AOL vyriausiasis technologijų pareigūnas atsistatydino (Hafner 2006) . Kaip rodo šis pavyzdys, nauda konkretiems asmenims įmonės viduje, siekiant palengvinti prieigą prie duomenų, yra gana maža, o blogiausias scenarijus yra baisus.
Tačiau mokslininkai kartais gali gauti prieigą prie duomenų, kurie nėra prieinami plačiajai visuomenei. Kai kurios vyriausybės turi procedūras, kurias mokslo darbuotojai gali sekti, kad galėtų kreiptis dėl prieigos, ir, kaip toliau pateikiami šiame skyriuje pateikti pavyzdžiai, mokslininkai retkarčiais gali susipažinti su įmonių duomenimis. Pavyzdžiui, Einav et al. (2015) Bendradarbiauja su "eBay" tyrėjais, kad galėtų mokytis internetinių aukcionų. Daugiau apie tyrimą, kuris buvo gautas iš šio bendradarbiavimo vėliau, kalbėsiu vėliau šiame skyriuje, tačiau dabar paminėju jį, nes jis turėjo visas keturias sudedamąsias dalis, kurias manau sėkmingų partnerysčių: mokslo darbuotojų susidomėjimo, tyrėjų pajėgumų, bendrovių interesų ir įmonės pajėgumų . Aš mačiau daug potencialių bendradarbiavimų nesėkmę, nes nei tyrėjas, nei partneris, nesvarbu, ar tai bendrovė ar vyriausybė, neturėjo vienos iš šių sudedamųjų dalių.
Net jei jūs galite kurti partnerystę su verslu arba gauti prieigą prie ribotų valdžios duomenų, tačiau yra tam tikrų trūkumų. Pirma, tikriausiai negalėsite bendrinti savo duomenų su kitais tyrėjais, o tai reiškia, kad kiti tyrėjai negalės patikrinti ir išplėsti savo rezultatų. Antra, klausimai, kuriuos galite užduoti, gali būti riboti; mažai tikėtina, kad įmonės leis atlikti tyrimus, kurie gali atrodyti blogai. Galiausiai šios partnerystės gali sukelti bent jau interesų konflikto atsiradimą, kai žmonės gali manyti, kad jūsų rezultatus paveikė jūsų partnerystė. Galima spręsti visus šiuos trūkumus, tačiau svarbu būti aišku, kad darbas su duomenimis, kurie nėra prieinami visiems, yra tiek pakilimų, tiek neigiamų.
Apibendrinant galima teigti, kad daugybė didelių duomenų yra prieinami mokslininkams. Yra rimtų teisinių, verslo ir etikos kliūčių, užkertančių kelią prieigai prie duomenų, ir šios kliūtys neišnyks, nes technologijos tobulės, nes jos nėra techninės kliūtys. Kai kurios nacionalinės vyriausybės nustatė procedūras, leidžiančias kai kurioms duomenų rinkoms naudotis duomenimis, tačiau šis procesas yra ypač ad hoc valstybės ir vietos lygiu. Be to, kai kuriais atvejais mokslininkai gali bendradarbiauti su įmonėmis, norėdami gauti duomenų prieigą, tačiau tai gali sukelti daugybę problemų mokslininkams ir įmonėms.