Дані, що зберігаються компаніями та урядами, важко отримати для дослідників.
У травні 2014 року Агентство національної безпеки США відкрило Центр обробки даних у сільській місцевості штату Юта з незручним ім'ям - Центром обробки даних Національної ініціативи з кібербезпеки у галузі розвідки. Проте цей центр обробки даних, який називався центром обробки даних в штаті Юта, має вражаючі можливості. Один з доповідей стверджує, що він здатний зберігати та обробляти всі форми спілкування, включаючи "повне зміст приватних електронних листів, дзвінків зі стільникових телефонів та пошуків Google, а також всілякі траси персональних даних - партійні надходження, маршрути подорожей, покупки книжкових магазинів , та інші цифрові "кишенькові сміття" (Bamford 2012) . Окрім підвищення стурбованості з приводу делікатного характеру великої кількості інформації, здобутої великими даними, яка буде описана нижче, Центр даних штату Юта є надзвичайним прикладом багатих джерел даних, недоступних для дослідників. Більш загалом, багато джерел великих даних, які будуть корисні, контролюються та обмежуються урядами (наприклад, податкові дані та освітні дані) або компаніями (наприклад, пошуковими запитами та метаданими телефонних дзвінків). Тому, навіть якщо ці джерела даних є, вони є марними для цілей соціальних досліджень, оскільки вони недоступні.
На мій досвід, багато дослідників, які базуються на університетах, неправильно розуміють джерело цієї недоступності. Ці дані недоступні не тому, що люди в компаніях та урядах є дурними, ледачими чи невтішними. Навпаки, існують серйозні юридичні, ділові та етичні бар'єри, які перешкоджають доступу до даних. Наприклад, у деяких угодах щодо умов надання послуг веб-сайти дозволяють використовувати дані лише для працівників або для покращення обслуговування. Тому певні форми обміну даними можуть піддавати компанії легітимність судових позовів від клієнтів. Існують також серйозні бізнес-ризики для компаній, які беруть участь у обміні даними. Спробуйте уявити, як громадськість буде відповідати, якщо особисті пошукові дані випадково просочилися від Google у рамках дослідницького проекту університету. Такий недолік даних, якщо екстремальний, навіть може бути екзистенційним ризиком для компанії. Отже, Google - і більшість великих компаній - дуже ризикують обмінюватися даними з дослідниками.
Фактично, майже кожен, хто має можливість забезпечити доступ до великої кількості даних, знає історію Абдура Чоудхурі. У 2006 році, коли він очолював дослідження в AOL, він навмисно випустив дослідницькому співтовариству те, що він вважав анонімними пошуковими запитами від 650 000 користувачів AOL. Наскільки я можу сказати, Чоудхурі та дослідники на AOL мали добрі наміри, і вони думали, що вони анонімізували дані. Але вони були неправильними. Було швидко виявлено, що дані не були анонімними, як вважали дослідники, а журналісти The New York Times з легкістю могли легко ідентифікувати когось із наборів даних (Barbaro and Zeller 2006) . Коли ці проблеми були виявлені, Chowdhury видалив дані з веб-сайту AOL, але було занадто пізно. Дані були повторно розміщені на інших веб-сайтах, і вони, можливо, все ще будуть доступні, коли ви читаєте цю книгу. Чоудхурі був звільнений, і головний технолог AOL пішов у відставку (Hafner 2006) . Як показує цей приклад, переваги для окремих осіб всередині компаній для полегшення доступу до даних є досить малими, а сценарій найгіршого випадку є жахливим.
Однак дослідники можуть отримати доступ до даних, недоступних для широкої публіки. Деякі уряди мають процедури, які дослідники можуть дотримуватися, щоб подати заявку на доступ, і, як показано в прикладах далі в цьому розділі, дослідники можуть час від часу отримувати доступ до корпоративних даних. Наприклад, Einav et al. (2015) Співпрацює з дослідником на eBay для вивчення інтернет-аукціонів. Я розповім більше про дослідження, яке було отримано в результаті цієї співпраці згодом у розділі, але я зараз це згадую, оскільки в ньому були всі чотири компоненти, які я бачу в успішних партнерських відносинах: інтерес дослідників, здатність дослідника, інтерес компанії та здатність компанії . Я бачив, що багато потенційних співробітництв збігаються, оскільки дослідник або партнер, будь то компанія чи уряд, не мають одного з цих компонентів.
Навіть якщо ви можете розробити партнерство з бізнесом або отримати доступ до обмежених державних даних, проте для вас є певні недоліки. По-перше, ви, ймовірно, не зможете ділитися своїми даними з іншими дослідниками, а це означає, що інші дослідники не зможуть перевіряти та розширювати свої результати. По-друге, питання, які ви можете запитати, можуть бути обмеженими; компанії навряд чи дозволять дослідження, які можуть зробити їх поганими. Нарешті, ці партнерські відносини можуть створити принаймні появу конфлікту інтересів, де люди можуть думати, що на ваші результати вплинуло ваше партнерство. Усі ці недоліки можуть бути вирішені, але важливо чітко зрозуміти, що робота з даними, недоступними для всіх, має як перешкоди, так і недоліки.
Таким чином, велика кількість даних недоступна дослідникам. Є серйозні юридичні, ділові та етичні бар'єри, які перешкоджають доступу до даних, і ці бар'єри не зникнуть, оскільки технологія покращиться, оскільки вони не є технічними бар'єрами. Деякі національні уряди встановили процедури для доступу до даних для деяких наборів даних, але цей процес є особливо спеціальним на державному та місцевому рівнях. Крім того, в деяких випадках дослідники можуть співпрацювати з компаніями для отримання доступу до даних, але це може створити ряд проблем для дослідників та компаній.