Данные, доступные компаниям и правительствам, трудно получить исследователям.
В мае 2014 года Агентство национальной безопасности США открыло центр обработки данных в сельской Юте с неловким именем - Информационным центром Инициативы Инициативы по информационным технологиям. Однако, как сообщается, этот центр обработки данных, получивший название Центра данных Юты, обладает поразительными возможностями. В одном сообщении утверждается, что он способен хранить и обрабатывать все формы связи, включая «полное содержание частных писем, звонков сотовых телефонов и поисковых запросов Google, а также всевозможные персональные информационные трейлеры - квитанции о парковке, путевые маршруты, покупки в книжных магазинах , и другой цифровой «карманный мусор» (Bamford 2012) . В дополнение к возникновению опасений относительно чувствительности большинства информации, полученной в больших данных, которая будет описана ниже, Центр данных Юты является крайним примером богатого источника данных, который недоступен исследователям. В более общем плане многие источники больших данных, которые будут полезны, контролируются и ограничиваются правительствами (например, налоговые данные и образовательные данные) или компаниями (например, запросы к поисковым машинам и метаданные по телефону). Поэтому, хотя эти источники данных существуют, они бесполезны для целей социальных исследований, поскольку они недоступны.
По моему опыту, многие исследователи из университетов неправильно понимают источник этой недоступности. Эти данные недоступны не потому, что люди в компаниях и правительствах глупы, ленивы или безразличны. Скорее, существуют серьезные юридические, деловые и этические барьеры, препятствующие доступу к данным. Например, некоторые соглашения о предоставлении услуг на веб-сайтах позволяют использовать данные только для сотрудников или для улучшения обслуживания. Таким образом, определенные формы обмена данными могут подвергать компании законные судебные иски от клиентов. Существуют также существенные бизнес-риски для компаний, участвующих в обмене данными. Попытайтесь представить, как общественность ответит, если данные личного поиска случайно просочились из Google в рамках исследовательского проекта университета. Такое нарушение данных, если оно является экстремальным, может быть даже экзистенциальным риском для компании. Таким образом, Google и большинство крупных компаний очень склонны к риску об обмене данными с исследователями.
Фактически, почти каждый, кто в состоянии предоставить доступ к большим объемам данных, знает историю Абдура Чоудхури. В 2006 году, когда он возглавлял исследование в AOL, он намеренно опубликовал в исследовательском сообществе то, что, по его мнению, было анонимным поисковым запросом от 650 000 пользователей AOL. Насколько я могу судить, Чоудхури и исследователи из AOL имели хорошие намерения, и они думали, что они анонимизировали данные. Но они были неправы. Было быстро обнаружено, что данные были не такими анонимными, как думали исследователи, и журналисты из New York Times смогли легко идентифицировать кого-то в наборе данных (Barbaro and Zeller 2006) . Как только эти проблемы были обнаружены, Чоудхури удалил данные с сайта AOL, но было уже слишком поздно. Данные были отправлены на другие веб-сайты, и, вероятно, они будут доступны, когда вы читаете эту книгу. Chowdhury был уволен, и главный технический директор AOL подал в отставку (Hafner 2006) . Как показывает этот пример, преимущества для отдельных лиц внутри компаний для облегчения доступа к данным довольно малы, а худший сценарий - ужасный.
Однако исследователи могут иногда получать доступ к данным, недоступным для широкой публики. У некоторых правительств есть процедуры, которыми могут следовать исследователи, чтобы подать заявку на доступ, и, как показывают примеры в этой главе, исследователи могут иногда получать доступ к корпоративным данным. Например, Einav et al. (2015) партнерстве с исследователем eBay для изучения онлайн-аукционов. Я расскажу больше об исследованиях, которые пришли из этого сотрудничества позже в этой главе, но сейчас я упоминаю об этом, потому что у него было все четыре компонента, которые я вижу в успешных партнерских отношениях: интерес исследователя, способность исследователя, интерес компании и возможности компании , Я видел, что многие потенциальные совместные действия терпят неудачу, потому что либо исследователь, либо партнер - будь то компания или правительство - не хватало одного из этих ингредиентов.
Однако, даже если вы можете развивать партнерские отношения с бизнесом или получать доступ к ограниченным правительственным данным, для вас есть некоторые недостатки. Во-первых, вы, вероятно, не сможете поделиться своими данными с другими исследователями, а это значит, что другие исследователи не смогут проверить и расширить ваши результаты. Во-вторых, вопросы, которые вы можете задать, могут быть ограничены; компании вряд ли позволят исследования, которые могут заставить их выглядеть плохо. Наконец, эти партнерства могут создать по крайней мере появление конфликта интересов, где люди могут подумать, что на ваши результаты повлияли ваши партнерские отношения. Все эти недостатки можно устранить, но важно четко понимать, что работа с данными, которые недоступны для всех, имеет как верх, так и недостатки.
Таким образом, большое количество данных недоступно исследователям. Существуют серьезные юридические, деловые и этические барьеры, препятствующие доступу к данным, и эти барьеры не исчезнут по мере совершенствования технологий, поскольку они не являются техническими барьерами. Некоторые национальные правительства установили процедуры для обеспечения доступа к данным для некоторых наборов данных, но этот процесс особенно актуален на государственном и местном уровнях. Кроме того, в некоторых случаях исследователи могут сотрудничать с компаниями для получения доступа к данным, но это может создать множество проблем для исследователей и компаний.