2.3.1.1 Большой

Большие наборы данных являются средством для достижения цели; они не являются самоцелью.

Первый из трех хороших характеристик больших объемов данных является наиболее обсуждаемой: это большие данные. Эти источники данных могут быть большими тремя различными способами: многие люди, много информации на человека, или много наблюдений с течением времени. Имея большой набор данных позволяет некоторые специфические типы исследований для измерения гетерогенности, изучение редких событий, выявления небольших различий, а также делает причинные оценки по данным наблюдений. Кроме того, кажется, приведет к определенному типу разгильдяйства.

Первое, для которых размер особенно полезен выходят за рамки средних, чтобы сделать оценки для конкретных подгрупп. Например, Гэри Кинг, Дженнифер Пан, и Молли Робертс (2013) измеряется вероятность того, что сообщения социальных медиа в Китае будут подвергнуты цензуре со стороны правительства. Само по себе это средняя вероятность удаления не очень полезно для понимания того, почему правительство подвергает цензуре некоторые сообщения, но не другие. Но, поскольку их набор данных включены 11 миллионов постов, Кинг и его коллеги также получены оценки для вероятности цензуры в отношении должностей на 85 отдельных категорий (например, порнография, Тибет, и трафик в Пекине). Сравнивая вероятность цензуры на должности в различных категориях, они были в состоянии понять больше о том, как и почему правительство подвергает цензуре определенные типы сообщений. С 11 тысяч должностей (а не 11 миллионов сообщений), то они не смогли бы производить эти категории конкретных оценок.

Во-вторых, размер особенно полезен для изучает редких событий. Например, Гоел и его коллеги (2015) хотели изучить различные способы , которыми твиты могут пойти вирусные. Из-за больших каскады повторных твитов крайне редки, около в 3000-им нужно было изучить более миллиарда твитов, чтобы найти достаточно большие каскады для их анализа.

В-третьих, большие наборы данных позволяют исследователям обнаружить небольшие различия. На самом деле, большая часть внимания больших объемов данных в отрасли об этих небольших различий: надежно обнаруживать разницу между 1% и 1,1% число кликов по объявлению может перевести на миллионы долларов в виде дополнительных доходов. В некоторых научных установках, такие небольшие различия могут быть не особенно важно (даже если они являются статистически значимыми). Но, в некоторых параметрах политики, такие небольшие различия могут стать важным, если смотреть в совокупности. Например, если есть два мероприятия в области общественного здравоохранения и один несколько более эффективен, чем другой, то переход на более эффективное вмешательство может в конечном итоге спасти тысячи дополнительных жизней.

Наконец, большие наборы данных значительно увеличивают нашу способность делать причинные оценки по данным наблюдений. Хотя большие наборы данных не коренным образом изменить проблемы с созданием причинную вывод из данных наблюдений, сопоставления и естественные эксперименты-два метода, которые исследователи разработали для изготовления причинных претензий со стороны наблюдательных данных, как извлечь большую пользу из больших наборов данных. Я объясню, и проиллюстрировать это утверждение более подробно далее в этой главе, когда я описываю стратегии исследований.

Хотя большой бизнес, как правило, хорошее свойство при правильном использовании, я заметил, что большой бизнес обычно приводит к концептуальной ошибки. По какой-то причине, большой бизнес, кажется, ведет исследователей игнорировать, как создавался их данные. В то время как большой бизнес действительно уменьшает необходимость беспокоиться о случайной ошибке, на самом деле увеличивает необходимость беспокоиться о систематических ошибок, виды ошибок , которые я опишу в более ниже , которые возникают из уклонов в том , как создаются и собранные данные. В небольшом наборе данных, как случайная ошибка и систематическая ошибка может иметь важное значение, но в большом наборе данных случайной ошибки можно усреднить далеко и доминирует систематическая ошибка. Исследователи, которые не думают о систематической ошибки будет в конечном итоге, используя свои большие наборы данных, чтобы получить точную оценку неправильные вещи; они будут точно неточны (McFarland and McFarland 2015) .