Большие источники данных повсюду, но использование их для социальных исследований может быть сложным. По моему опыту, есть что-то вроде правила «без бесплатного обеда» для данных: если вы не собираете много работы по сбору, то вам, вероятно, придется приложить много работы, подумайте об этом и анализируя его.
Большие источники данных сегодня и, вероятно, завтра - будут иметь 10 характеристик. Три из них обычно (но не всегда) полезны для исследования: большие, всегда-и нереактивные. Семь обычно (но не всегда) проблематичны для исследования: неполные, недоступные, нерепрезентативные, дрейфующие, алгоритмически сбитые, грязные и чувствительные. Многие из этих характеристик в конечном счете возникают из-за того, что большие источники данных не были созданы для целей социальных исследований.
Основываясь на идеях этой главы, я думаю, что есть три основных способа, которыми большие источники данных будут наиболее ценными для социальных исследований. Во-первых, они могут позволить исследователям выбирать между конкурирующими теоретическими предсказаниями. Примеры такого рода работ включают Farber (2015) (водители такси в Нью-Йорке) и King, Pan, and Roberts (2013) (цензура в Китае). Во-вторых, большие источники данных могут обеспечить улучшенное измерение политики путем прогнозирования текущей погоды. Примером такого рода работ является Ginsberg et al. (2009) (Google Flu Trends). Наконец, большие источники данных могут помочь исследователям сделать каузальные оценки без проведения экспериментов. Примерами такого рода работ являются Mas and Moretti (2009) (влияние сверстников на производительность) и Einav et al. (2015) (эффект начальной цены на аукционах на eBay). Однако каждый из этих подходов требует, чтобы исследователи приносили много данных, таких как определение количества, которое важно оценить, или двух теорий, которые создают конкурирующие прогнозы. Таким образом, я думаю, что лучший способ подумать о том, что могут сделать большие источники данных, это то, что они могут помочь исследователям, которые могут задавать интересные и важные вопросы.
Прежде чем завершить, я считаю, что стоит учитывать, что большие источники данных могут иметь важное влияние на взаимосвязь между данными и теорией. До сих пор эта глава использовала подход эмпирических исследований, основанных на теории. Но большие источники данных также позволяют исследователям делать эмпирически обоснованное теоретизирование . То есть путем тщательного накопления эмпирических фактов, паттернов и головоломок исследователи могут строить новые теории. Этот вариант, основанный на данных, первый подход к теории не является новым, и он был наиболее решительно сформулирован Барни Глейзером и Ансельмом Штраусом (1967) с их призывом к обоснованной теории . Однако этот подход, основанный на данных, не означает «конец теории», как утверждалось в некоторых журналах вокруг исследований в эпоху цифровых технологий (Anderson 2008) . Скорее, поскольку среда данных изменяется, мы должны ожидать перебалансировки в отношениях между данными и теорией. В мире, где сбор данных был дорогим, имеет смысл собирать только те данные, которые, по мнению теорий, будут наиболее полезными. Но в мире, где огромное количество данных уже доступно бесплатно, имеет смысл также попробовать подход, основанный на данных (Goldberg 2015) .
Как я показал в этой главе, исследователи могут многому научиться, наблюдая за людьми. В следующих трех главах я расскажу, как мы можем узнать больше и разные вещи, если мы адаптируем наш сбор данных и более непосредственно взаимодействуем с людьми, задавая им вопросы (глава 3), эксперименты (глава 4) и даже вовлекая их в процессе исследования напрямую (глава 5).