Большие данные создаются и собираются компаниями и правительствами для иных целей, чем исследования. Поэтому, используя эти данные для исследования, требуется перепрофилирование.
Первый способ, с которым многие люди сталкиваются с социальными исследованиями в эпоху цифровых технологий, - это то, что часто называют большими данными . Несмотря на широкое использование этого термина, нет единого мнения о том, какие большие данные даже есть. Однако одно из наиболее распространенных определений больших данных сосредоточено на «3 Vs»: Volume, Variety и Velocity. Грубо говоря, в разных форматах много данных, и они постоянно создаются. Некоторые поклонники больших данных также добавляют другие «Vs», такие как Veracity и Value, тогда как некоторые критики добавляют Vs, такие как Vague и Vacuous. Вместо 3 "Vs" (или 5 "Vs" или 7 "Vs"), для целей социальных исследований, я думаю, что лучшим местом для начала является 5 "Ws": Who, What, Where, When , и почему. На самом деле, я думаю, что многие из вызовов и возможностей, создаваемых большими источниками данных, следуют только из одной «W»: почему.
В аналоговом возрасте большинство данных, которые использовались для социальных исследований, были созданы с целью проведения исследований. Однако в эпоху цифровых технологий компании и правительства создают огромные объемы данных для целей, отличных от исследований, таких как предоставление услуг, получение прибыли и управление законами. Творческие люди, однако, поняли, что вы можете перепрофилировать данные корпоративной и правительственной информации для исследований. Возвращаясь к аналогии с искусством в главе 1, так же, как Дюшан переработал найденный объект для создания искусства, ученые теперь могут пересобирать найденные данные для создания исследований.
Хотя есть, несомненно, огромные возможности для перепрофилирования, использование данных, которые не были созданы для целей исследований, также представляет новые проблемы. Сравните, например, службу социальных сетей, например Twitter, с традиционным опросом общественного мнения, таким как Общее социальное исследование. Основными задачами Twitter являются предоставление услуг своим пользователям и получение прибыли. С другой стороны, общее социальное исследование ориентировано на создание данных общего назначения для социальных исследований, в частности для исследований общественного мнения. Это различие в целях означает, что данные, созданные Twitter и созданные Общим социальным опросом, имеют разные свойства, хотя оба они могут использоваться для изучения общественного мнения. Twitter работает в масштабе и скорости, которые не может сравниться с Общим социальным опросом, но, в отличие от Общего социального опроса, Twitter не тщательно изучает пользователей и не усердно работает, чтобы поддерживать сопоставимость с течением времени. Поскольку эти два источника данных настолько различны, нет смысла говорить, что Общее социальное исследование лучше, чем Twitter или наоборот. Если вы хотите ежечасные измерения глобального настроения (например, Golder and Macy (2011) ), Twitter лучше всего. С другой стороны, если вы хотите понять долгосрочные изменения в поляризации отношений в Соединенных Штатах (например, DiMaggio, Evans, and Bryson (1996) ), то наилучшим выбором будет общее социальное исследование. В более общем плане, вместо того, чтобы пытаться утверждать, что большие источники данных лучше или хуже других типов данных, эта глава попытается выяснить, для каких видов исследований большие источники данных имеют привлекательные свойства и по каким вопросам они могут не быть идеально.
Рассматривая большие источники данных, многие исследователи сразу же обращают внимание на онлайн-данные, созданные и собранные компаниями, такие как журналы поисковых систем и сообщения в социальных сетях. Однако в этом узком фокусе остаются два других важных источника больших данных. Во-первых, все более крупные корпоративные источники данных поступают от цифровых устройств в физическом мире. Например, в этой главе я расскажу вам об исследовании, в котором отражены данные о проверке супермаркета, чтобы выяснить, как производительность труда влияет на производительность ее сверстников (Mas and Moretti 2009) . Затем, в последующих главах, я расскажу вам об исследователях, которые использовали записи звонков с мобильных телефонов (Blumenstock, Cadamuro, and On 2015) и биллинговые данные, созданные электрическими утилитами (Allcott 2015) . Как показывают эти примеры, корпоративные большие источники данных - это нечто большее, чем просто поведение в Интернете.
Второй важный источник больших данных, упущенных узким фокусом на поведение в Интернете, - это данные, созданные правительствами. Эти правительственные данные, которые исследователи называют государственными административными записями , включают такие вещи, как налоговые записи, школьные записи и записи статистики естественного движения населения (например, реестры рождений и смертей). Правительства создавали данные такого рода, в некоторых случаях сотни лет, а социологи эксплуатируют их почти так же давно, как и социологи. Однако изменилось цифровизация, что значительно упростило правительствам сбор, передачу, хранение и анализ данных. Например, в этой главе я расскажу вам об исследовании, в котором отражены данные от цифровых счетчиков такси в Нью-Йорке, с тем чтобы обсудить фундаментальные дебаты в области экономики труда (Farber 2015) . Затем, в последующих главах, я расскажу вам о том, как собранные в ходе голосования записи голосования использовались в опросе (Ansolabehere and Hersh 2012) и эксперимент (Bond et al. 2012) .
Я думаю, что идея перепрофилирования имеет основополагающее значение для обучения из больших источников данных, поэтому, прежде чем более конкретно поговорить о свойствах больших источников данных (раздел 2.3) и о том, как их можно использовать в исследованиях (раздел 2.4), я бы хотел предложить два общих совета по перепрофилированию. Во-первых, может возникнуть соблазн подумать о контрасте, который я установил как находящийся между «найденными» данными и «запрограммированными» данными. Это близко, но это не совсем правильно. Хотя, с точки зрения исследователей, большие источники данных «находятся», они не просто падают с неба. Вместо этого источники данных, которые «обнаруживаются» исследователями, предназначены кем-то для определенной цели. Поскольку «найденные» данные разрабатываются кем-то, я всегда рекомендую вам как можно лучше понять людей и процессы, которые создали ваши данные. Во-вторых, когда вы перепрофилируете данные, часто очень полезно представить идеальный набор данных для вашей проблемы, а затем сравнить этот идеальный набор данных с тем, который вы используете. Если вы сами не собираете свои данные, вероятно, будут важные различия между тем, что вы хотите, и тем, что у вас есть. Заметив эти различия, вы сможете уточнить, что вы можете и не можете узнать из данных, которые у вас есть, и может предложить новые данные, которые вы должны собрать.
По моему опыту, ученые-социологи и ученые-аналитики склонны приближаться к по-разному. Социальные ученые, привыкшие работать с данными, предназначенными для исследований, как правило, быстро указывают на проблемы с перепрофилированными данными, игнорируя его сильные стороны. С другой стороны, ученые-данные, как правило, быстро указывают на преимущества перепрофилированных данных, игнорируя при этом свои недостатки. Естественно, лучший подход - это гибрид. То есть исследователи должны понимать характеристики больших источников данных - как хороших, так и плохих - и затем выяснить, как учиться у них. И это план остальной части этой главы. В следующем разделе я опишу десять общих характеристик больших источников данных. Затем, в следующем разделе, я опишу три подхода к исследованиям, которые могут хорошо работать с такими данными.