Непредставительные данные являются плохими для обобщений вне выборки, но могут быть весьма полезны для сравнения внутри образца.
Некоторые социологи привыкли работать с данными, которые исходят из вероятностной случайной выборки из четко определенной популяции, такой как все взрослые в конкретной стране. Такие данные называются репрезентативными данными, потому что образец «представляет» большую популяцию. Многие исследователи приносят репрезентативные данные, а некоторые, репрезентативные данные, являются синонимами строгой науки, тогда как нерепрезентативные данные являются синонимом небрежности. В крайнем случае некоторые скептики, похоже, полагают, что из нерепрезентативных данных ничего нельзя извлечь. Если это правда, это, судя по всему, сильно ограничивает то, что можно извлечь из больших источников данных, потому что многие из них нерепрезентативны. К счастью, эти скептики лишь частично правы. Существуют определенные исследовательские цели, для которых нерепрезентативные данные явно недостаточно хорошо подходят, но есть и другие, для которых это может быть действительно полезно.
Чтобы понять это различие, давайте рассмотрим научную классику: исследование Джона Сноу о вспышке холеры 1853-54 годов в Лондоне. В то время многие врачи считали, что холера вызвана «плохим воздухом», но Сноу полагал, что это инфекционное заболевание, возможно, распространенное питьевой водой, заполненной сточными водами. Чтобы проверить эту идею, Сноу воспользовался тем, что мы теперь можем назвать естественным экспериментом. Он сравнивал показатели холеры домашних хозяйств, обслуживаемых двумя различными компаниями по производству воды: Lambeth и Southwark & Vauxhall. Эти компании обслуживали аналогичные домохозяйства, но они отличались одним важным образом: в 1849 году - за несколько лет до начала эпидемии - Ламбет переместил свою точку потребления вверх по течению от основного сброса сточных вод в Лондоне, тогда как Southwark & Vauxhall покинули свою приемную трубу вниз по течению от сброс сточных вод. Когда Снег сравнивал показатели смертности от холеры в домашних хозяйствах, обслуживаемых этими двумя компаниями, он обнаружил, что клиенты Southwark & Vauxhall - компании, которая предоставляет клиентам воду, загрязненную сточными водами, в 10 раз чаще умирают от холеры. Этот результат дает убедительные научные доказательства спора Сноу по поводу причины холеры, хотя он не основан на репрезентативной выборке людей в Лондоне.
Однако данные этих двух компаний не были бы идеальными для ответа на другой вопрос: какова распространенность холеры в Лондоне во время вспышки? Для этого второго вопроса, который также важен, было бы гораздо лучше иметь репрезентативную выборку людей из Лондона.
Как показывает работа Снега, есть некоторые научные вопросы, для которых нерепрезентативные данные могут быть весьма эффективными, и есть другие, для которых он не подходит. Один грубый способ различать эти два типа вопросов заключается в том, что некоторые вопросы касаются внутрипробных сравнений, а некоторые из них - вне выборки. Это различие можно проиллюстрировать еще одним классическим исследованием в области эпидемиологии: исследование британских докторов, которое сыграло важную роль в демонстрации того, что курение вызывает рак. В этом исследовании Ричард Кук и А. Брэдфорд Хилл в течение нескольких лет посещали примерно 25 000 мужчин-врачей и сравнивали их показатели смертности на основе количества, которое они курили, когда началось исследование. Кукла и Хилл (1954) обнаружили сильную зависимость от воздействия: чем больше людей курили, тем больше вероятность смерти от рака легких. Конечно, было бы неразумно оценивать распространенность рака легких среди всех британских людей на основе этой группы врачей-мужчин, но сравнение внутри образца все еще свидетельствует о том, что курение вызывает рак легких.
Теперь, когда я проиллюстрировал разницу между сопоставлениями внутри образца и обобщенными выборками, существуют два оговорки. Во-первых, есть естественные вопросы о том, в какой степени отношения, которые содержатся в выборке мужских британских врачей, также будут проводиться в рамках выборки женщин, британских врачей или мужчин-британских фабричных рабочих или женщин-немецких фабричных рабочих или многих других групп. Эти вопросы интересны и важны, но они отличаются от вопросов о том, в какой степени мы можем обобщить выборку среди населения. Обратите внимание, например, что вы, вероятно, подозреваете, что отношения между курением и раком, которые были обнаружены у мужчин-британских врачей, вероятно, будут похожи в других группах. Ваша способность делать эту экстраполяцию не исходит из того факта, что мужчины-британские врачи являются вероятностной случайной выборкой у любого населения; скорее, это происходит из понимания механизма, который связывает курение и рак. Таким образом, обобщение от выборки к популяции, из которой производится, является в значительной степени статистической проблемой, но вопросы о переносимости шаблона, найденного в одной группе другой группе, в значительной степени являются (Pearl and Bareinboim 2014; Pearl 2015) проблемой (Pearl and Bareinboim 2014; Pearl 2015) .
На данный момент скептик может указать, что большинство социальных моделей, вероятно, менее переносимы между группами, чем отношения между курением и раком. И я согласен. Степень, в которой мы должны ожидать, что модели должны быть переносимыми, в конечном счете является научным вопросом, который должен решаться на основе теории и доказательств. Не следует автоматически предполагать, что шаблоны будут переносимыми, но также не предполагается, что они не будут переносимыми. Эти несколько абстрактные вопросы о переносимости будут вам знакомы, если вы последуете дебатам о том, сколько исследователей может узнать о поведении человека, изучая студентов (Sears 1986, [@henrich_most_2010] ) . Тем не менее, несмотря на эти дебаты, было бы необоснованно утверждать, что исследователи не могут научиться чему-либо учиться у студентов.
Второй оговоркой является то, что большинство исследователей с нерепрезентативными данными не так осторожны, как снег или кукла и холм. Итак, чтобы проиллюстрировать, что может пойти не так, когда исследователи пытаются сделать обобщенное из обобщенных данных из непредставительных данных, я хотел бы рассказать вам об исследовании немецких парламентских выборов 2009 года Андраника Тумасяна и его коллег (2010) . Анализируя более 100 000 твитов, они обнаружили, что доля чириканье, в которой упоминается политическая партия, соответствует пропорции голосов, полученных партией на парламентских выборах (рисунок 2.3). Другими словами, оказалось, что данные Twitter, которые по существу бесплатны, могут заменить традиционные опросы общественного мнения, которые дороги из-за их акцента на репрезентативные данные.
Учитывая то, что вы, вероятно, уже знаете о Twitter, вы должны немедленно скептически относиться к этому результату. Немцы на Twitter в 2009 году не были вероятностной случайной выборкой немецких избирателей, и сторонники некоторых сторон могли чаще прокручивать политику, чем сторонники других сторон. Таким образом, кажется удивительным, что все возможные предубеждения, которые вы могли себе представить, каким-то образом сократили бы, чтобы эти данные были напрямую отражены в отношении немецких избирателей. Фактически, результаты в Tumasjan et al. (2010) оказался слишком хорошим, чтобы быть правдой. В последующем документе Андреаса Юнгерра, Паскаля Юргенса и Харальда Шен (2012) Harald Schoen, (2012) указано, что первоначальный анализ исключил политическую партию, которая фактически получила большинство упоминаний о Твиттере: пиратская партия, небольшая партия, которая борется с государственным регулированием Интернета. Когда пиратская партия была включена в анализ, упоминания Twitter становятся ужасным предсказателем результатов выборов (рисунок 2.3). Как иллюстрирует этот пример, использование нерепрезентативных больших источников данных для обобщения вне выборки может пойти очень не правильно. Кроме того, вы должны заметить, что факт, что было 100 000 твитов, в основном не имеет значения: много нерепрезентативных данных по-прежнему нерепрезентативно, тема, которую я верну в главе 3, когда я буду обсуждать опросы.
В заключение, многие крупные источники данных не являются репрезентативными образцами из определенной группы населения. Для вопросов, которые требуют обобщения результатов от выборки к популяции, с которой она была составлена, это серьезная проблема. Но для вопросов о сопоставлениях внутри выборки нерепрезентативные данные могут быть мощными, если исследователи ясно расскажут о характеристиках своих образцов и заявляют о требованиях к переносимости с теоретическими или эмпирическими доказательствами. На самом деле, я надеюсь, что большие источники данных позволят исследователям сделать больше внутрипробных сравнений во многих нерепрезентативных группах, и я предполагаю, что оценки многих разных групп будут делать больше для продвижения социальных исследований, чем одна оценка из вероятностного случайного образец.