В аналоговом возрасте собирать данные о поведении - кто что делает, а когда - дорого, а потому относительно редко. Теперь, в эпоху цифровых технологий, поведение миллиардов людей записывается, сохраняется и анализируется. Например, каждый раз, когда вы нажимаете на веб-сайт, звоните на свой мобильный телефон или платите за что-то с помощью кредитной карты, цифровая запись о вашем поведении создается и хранится в бизнесе. Поскольку эти типы данных являются побочным продуктом повседневных действий людей, их часто называют цифровыми следами . В дополнение к этим следам, проводимым предприятиями, правительства также имеют невероятно богатые данные о людях и бизнесе. Вместе эти деловые и правительственные документы часто называются большими данными .
Постоянно растущий поток больших данных означает, что мы перешли из мира, где поведенческие данные были недостаточными для мира, где поведенческие данные многочисленны. Первым шагом к обучению из больших данных является осознание того, что он является частью более широкой категории данных, которая использовалась для социальных исследований в течение многих лет: данные наблюдений . Грубо говоря, данные наблюдений - это любые данные, полученные в результате наблюдения за социальной системой без какого-либо вмешательства. Грубый способ подумать о том, что данные наблюдений - это все, что не связано с разговорами с людьми (например, опросы, тема главы 3) или изменение среды людей (например, эксперименты, тема главы 4). Таким образом, в дополнение к деловым и правительственным записям, данные наблюдений также включают в себя такие вещи, как текст газетных статей и спутниковые фотографии.
Эта глава состоит из трех частей. Во-первых, в разделе 2.2 я описываю большие источники данных более подробно и уточняю фундаментальное различие между ними и данными, которые обычно использовались для социальных исследований в прошлом. Затем в разделе 2.3 описываются десять общих характеристик больших источников данных. Понимание этих характеристик позволяет быстро распознать сильные и слабые стороны существующих источников и поможет вам использовать новые источники, которые будут доступны в будущем. Наконец, в разделе 2.4 я описываю три основные стратегии исследования, которые вы можете использовать для изучения данных наблюдений: подсчет вещей, прогнозирование вещей и приближение эксперимента.