Большие данные создаются и собраны правительствами для целей, отличных исследовательских целей. Используя эти данные для исследования, таким образом, требует перепрофилирования.
Идеализированный вид социальных исследований представляет себе ученый, имеющий идею, а затем сбор данных, чтобы проверить эту идею. Этот стиль исследований приводит к плотному прилеганию между вопросом исследования и данных, но она ограничена, потому что индивидуальный исследователь зачастую не имеют ресурсов, необходимых для сбора данных, в которых они нуждаются, такие как крупные, богатые и национально-репрезентативных данных. Поэтому, много социальных исследований в прошлом использовали крупномасштабные социальные обследования, такие как General Social Survey (GSS), американской Национальной избирательной исследования (ANES) и панели изучения динамики доходов (PSID). Эти крупномасштабные обследования, как правило, управляют группой исследователей, и они предназначены для создания данных, которые могут быть использованы многими исследователями. Из-за целей этих крупномасштабных исследований, большое внимание помещается в разработке сбора данных и подготовки итоговых данных для использования исследователями. Эти данные являются исследователями и для исследователей.
Большинство социальных исследований с использованием цифровых источников с возрастом, однако, существенно отличается. Вместо того чтобы использовать данные, собранные исследователями и для исследователей, он использует источники данных, которые были созданы и собранные предприятиями и правительствами для своих собственных целей, таких как получение прибыли, предоставление услуг, или введение закона. Эти деловые и правительственные источники данных стали называть большие данные. Проведение исследований с большими данными отличается, чем делать исследования с данными, которые первоначально был создан для проведения исследований. Сравните, например, сайт социальной медиа, такие как Twitter, с традиционного опроса общественного мнения, такие как General Social Survey (GSS). Основные цели щебетать должны предоставлять услуги своим пользователям и получать прибыль. В процессе достижения этих целей, Twitter создает данные, которые могут быть полезны для изучения некоторых аспектов общественного мнения. Но, в отличие от General Social Survey (GSS), Twitter не в первую очередь сосредоточены на социальных исследованиях.
Термин большие данные удручающе расплывчатым, и она объединяет много разных вещей. Для целей социальных исследований, я думаю , что было бы полезно провести различие между двумя видами крупных источников данных:. Государственных административных документов и деловых административных документов Государственные административные записи данных, которые создаются правительствами в рамках своей повседневной деятельности. Такого рода записи были использованы исследователями в прошлом, такие как демографов, изучающих рождение, брак, и записи о смерти, но правительства все чаще собирать и выпускать подробные записи в анализируемыми формах. Например, правительство Нью-Йорка установлены цифровые измерительные приборы внутри каждого такси в городе. Эти метры записи всех видов данных о каждой поездке на такси, включая водителя, время начала и место, время остановки и местоположения, а также платы за проезд. В исследовании , которое я расскажу позже в этой главе, Генри Фарбер (2015) перепрофилированы эти данные для решения фундаментальной дискуссии по экономике труда об отношениях между почасовой заработной платы и количества отработанных часов.
Второй основной тип больших данных для социальных исследований является бизнес - административные записи. Это данные, которые бизнес создают и собрать как часть своей повседневной деятельности. Эти бизнес - административные записи часто называют цифровые следы, и включают в себя такие вещи , как журналы запросов в поисковых системах, сообщений в социальных сетях, и вызвать записи с мобильных телефонов. Критически, эти бизнес-административные записи не только онлайн-поведения. Например, магазины, которые используют регистрация отъезда сканеры создают меры в реальном времени производительности труда. В исследовании , которое я вам расскажу позже в этой главе, Александр Мас и Энрико Моретти (2009) перепрофилированы этот супермаркет данных Дата отъезда для изучения того, как производительность труда рабочее воздействуют на производительность своих сверстников.
Поскольку оба из этих примеров иллюстрируют, идея перепрофилирования имеет основополагающее значение для изучения из больших объемов данных. По моему опыту, социологи и ученые данные приближаются к этому перепрофилирования совсем по-другому. Социологи, которые привыкли к работе с данными, предназначенными для исследования, быстро указать на проблемы с данными многократно использовать, игнорируя при этом свои сильные стороны. С другой стороны, ученые данных быстро указать на преимущества данных многократно использовать, игнорируя при этом свои слабые стороны. Естественно, что лучшим подходом было бы гибрид. То есть, исследователи должны понимать характеристики этих новых источников данных-как хорошие, так и плохие, а затем выяснить, как извлечь из них уроки. И, что план на оставшуюся часть этой главы. Далее я буду описывать десять общих характеристик бизнеса и государственных административных данных. После этого я опишу три исследовательских подходов, которые могут быть использованы с этими данными, подходами, которые хорошо подходят к характеристикам этих данных.