Измерение в больших источниках данных гораздо реже меняет поведение.
Одна из проблем социальных исследований заключается в том, что люди могут изменить свое поведение, когда знают, что их наблюдают исследователи. Социологи обычно называют эту реактивность (Webb et al. 1966) . Например, люди могут быть более щедрыми в лабораторных исследованиях, чем полевые исследования, потому что в первом они прекрасно понимают, что их наблюдают (Levitt and List 2007a) . Одним из аспектов больших данных, которые многие исследователи считают многообещающими, является то, что участники, как правило, не знают, что их данные захватываются или они настолько привыкли к этому сбору данных, что они больше не меняют своего поведения. Поскольку участники являются нереактивными , поэтому многие источники больших данных могут использоваться для изучения поведения, которое ранее не поддавалось точному измерению. Например, Stephens-Davidowitz (2014) использовал распространенность расистских терминов в поисковых запросах для измерения расового анимуса в разных регионах Соединенных Штатов. Неактивные и большие (см. Раздел 2.3.1) характер данных поиска позволили провести измерения, которые были бы сложными с использованием других методов, таких как обследования.
Однако неактивность не гарантирует, что эти данные как-то прямо отражают поведение или отношение людей. Например, как сказал один из респондентов в интервью, основанном на интервью: «Дело не в том, что у меня нет проблем, я просто не помещаю их в Facebook» (Newman et al. 2011) . Другими словами, несмотря на то, что некоторые крупные источники данных являются нереактивными, они не всегда свободны от социальной склонности к желательности, склонности людей к тому, чтобы они представились наилучшим образом. Кроме того, как я расскажу позже в этой главе, на поведение, запечатленное в больших источниках данных, иногда влияют цели владельцев платформ, проблема, которую я буду называть алгоритмической ошибкой . Наконец, несмотря на то, что для проведения исследований небезопасность выгодна, отслеживание поведения людей без их согласия и осознания вызывает этические проблемы, которые я подробно опишу в главе 6.
Три свойства, которые я только что описал: большие, всегда-и нереактивные, как правило, но не всегда выгодны для социальных исследований. Затем я обращусь к семи свойствам больших источников данных - неполным, недоступным, нерепрезентативным, дрейфующим, алгоритмически сбитым, грязным и чувствительным, которые обычно, но не всегда, создают проблемы для исследования.