Дадзеныя , якія праводзяцца кампаніямі і урадамі цяжка для даследчыкаў доступу.
У маі 2014 года Агенцтва нацыянальнай бяспекі ЗША адкрылі цэнтр у сельскай мясцовасці штата Юта з нягеглай назвай, Выведвальнае супольнасць Усебаковае Нацыянальны Кібербяспека Ініцыятыва Data Center. Тым не менш, гэты цэнтр апрацоўкі дадзеных, які прыйшоў быць вядомы як цэнтр дадзеных Юты, як паведамляецца, ашаламляльныя магчымасці. Адзін справаздачы сцвярджае, што ён можа захоўваць і апрацоўваць ўсе віды сувязі, у тым ліку «поўнае ўтрыманне прыватных паведамленняў электроннай пошты, мабільны тэлефон званкі і Google пошук, а таксама ўсе віды паступленняў Трасы-стаянку персанальных дадзеных, турыстычныя маршруты, кніжныя пакупкі і іншай лічбавай «кішэнны смецце» (Bamford 2012) . У дадатку да павышэння заклапочанасці з нагоды далікатнага характару вялікай часткі інфармацыі, зафіксаванай у вялікіх дадзеных, якія будуць апісаны ніжэй, штат Ют Цэнтр даных з'яўляецца яркім прыкладам багатага крыніцы дадзеных, якая немагчымая для даследчыкаў. У цэлым, многія крыніцы вялікіх аб'ёмаў дадзеных, якія былі б карысныя кантралююцца і абмяжоўваюцца урадамі (напрыклад, падатковыя дадзенымі і дадзенымі ў галіне адукацыі) або кампаніяй (напрыклад, запыты да пошукавых сістэмах і тэлефонны званок мета-дадзеныя). Таму, нават калі гэтыя крыніцы дадзеных існуюць, яны бескарысныя для мэтаў сацыяльных даследаванняў, таму што яны недаступныя.
На маю вопыту, многія даследчыкі на аснове універсітэтаў разумеюць крыніцу гэтай непрыступнасці. Гэтыя дадзеныя недаступныя не таму, што людзі ў кампаніі і ўрада дурныя, гультаяватыя, ці абыякавымі. Хутчэй за ўсё, ёсць сур'ёзныя юрыдычныя, дзелавыя і этычныя бар'еры, якія перашкаджаюць доступ да дадзеных. Напрыклад, некаторыя пагадненні паляпшэнне ўмоў службы для вэб-сайтаў толькі дазваляюць дадзеныя, якія будуць выкарыстоўвацца супрацоўнікамі або для паляпшэння абслугоўвання. Такім чынам, некаторыя формы абмену дадзеных могуць выкрыць кампаніі законных пазоваў з боку кліентаў. Ёсць таксама істотныя бізнэс-рызыкі для кампаній, якія ўдзельнічаюць у абмене дадзенымі. Паспрабуйце ўявіць сабе, як грамадскасць будзе рэагаваць, калі персанальныя дадзеныя пошуку выпадкова пратачылася з Google у рамках універсітэцкага навукова-даследчага праекта. Такое парушэнне дадзеных, калі крайняя, можа быць нават экзістэнцыяльны рызыка для кампаніі. Такім чынам, Google-і большасць буйных кампаній-вельмі схільныя да рызыкі аб абмене дадзенымі з даследнікамі.
На самай справе, амаль усе, хто знаходзіцца ў такім становішчы, каб забяспечыць доступ да вялікіх аб'ёмах дадзеных ведае гісторыю Абдур Чоудхуры. У 2006 годзе, калі ён быў кіраўніком даследаванняў у AOL, ён наўмысна выпусцілі для навуковай супольнасці, што, на яго думку, былі ананімнымі пошукавыя запыты ад 650000 карыстальнікаў AOL. Наколькі я магу судзіць, Чоудхуры і даследчыкі ў AOL былі добрыя намеры, і яны думалі, што яны ананімныя дадзеныя. Але яны былі не правы. Ён хутка выявіў , што дадзеныя не былі ананімнымі , як думалі навукоўцы, і журналісты з New York Times , былі ў стане ідэнтыфікаваць каго - то ў наборы дадзеных з лёгкасцю (Barbaro and Zeller 2006) . Пасля таго, як гэтыя праблемы былі выяўленыя, Чоудхуры выдаленыя дадзеныя з сайта AOL, але гэта было занадта позна. Гэтыя дадзеныя былі паўторна адправіў на іншых сайтах, і гэта, верагодна, па-ранейшаму будуць даступныя, калі вы чытаеце гэтую кнігу. Чоудхуры быў звольнены, і галоўны тэхнічны дырэктар AOL, падаў у адстаўку (Hafner 2006) . Як паказвае гэты прыклад, выгады для канкрэтных асоб ўнутры кампаній, каб палегчыць доступ да дадзеных даволі малыя і найгоршы сцэнар жудасны.
Даследчыкі, аднак, могуць часам атрымаць доступ да дадзеных, якія недаступныя для шырокай грамадскасці. Некаторыя ўрада ёсць працэдуры, якія даследчыкі могуць прытрымлівацца, каб падаць заяўку на доступ, а таксама пазней у гэтым раздзеле прыклады паказваюць, даследчыкі могуць часам атрымаць доступ да карпаратыўных дадзеных. Напрыклад, Einav et al. (2015) і Einav et al. (2015) у партнёрстве з даследчыкам на eBay для вывучэння онлайн - аўкцыёнаў. Я больш пра даследаванні, якія прыйшлі з гэтага супрацоўніцтва пазней у гэтым раздзеле казаць, але я ўжо зараз, таму што гэта было ўсё чатыры з інгрэдыентаў, якія я бачу ў паспяховых партнёрскіх: даследчык цікавасць, здольнасці даследчыка, цікавасць кампаніі, і магчымасці кампаніі , Я бачыў многія патэнцыйныя сумесныя працы не таму, што альбо даследчык або партнёр, няхай гэта будзе кампанія або ўрад, не хапала аднаго з гэтых кампанентаў.
Нават калі вы ў стане развіваць партнёрства з бізнесам, або атрымаць доступ да зачыненых дадзеных ўрада, аднак, ёсць некаторыя мінусы для вас. Па-першае, вы, верагодна, не зможа абменьвацца дадзенымі з іншымі даследчыкамі, што азначае, што іншыя даследчыкі не змогуць праверыць і пашырыць свае вынікі. Па-другое, пытанні, якія вы можаце задаць, можа быць абмежавана; кампаніі наўрад ці дазволяць даследаванні, якія маглі б прымусіць іх выглядаць дрэнна. Нарэшце, гэтыя партнёрства могуць стварыць, па меншай меры, бачнасць канфлікту інтарэсаў, дзе людзі маглі б думаць, што вашы вынікі былі пад уплывам вашага партнёрства. Усе гэтыя мінусы можа быць вырашаны, але важна, каб быць ясна, што праца з дадзенымі, якія ня даступна для усё ёсць і плюсы і мінусы.
Увогуле, шмат вялікіх дадзеных недаступная для даследчыкаў. Ёсць сур'ёзныя юрыдычныя, дзелавыя і этычныя бар'еры, якія перашкаджаюць доступу да дадзеных, і гэтыя бар'еры не будуць сыходзіць, як тэхналогія паляпшаецца, таму што яны не з'яўляюцца тэхнічнымі бар'ерамі. Некаторыя нацыянальныя ўрады ўстанавілі працэдуры для ўключэння доступу да дадзеных для некаторых набораў дадзеных, але гэты працэс асабліва спецыяльных на дзяржаўным і мясцовым узроўнях. Акрамя таго, у некаторых выпадках даследчыкі могуць супрацоўнічаць з кампаніямі, каб атрымаць доступ да дадзеных, але гэта можа стварыць мноства праблем для даследчыкаў і кампаній.