Большие наборы данных являются средством для достижения цели; они не являются самоцелью.
Наиболее широко обсуждаемая особенность больших источников данных заключается в том, что они БОЛЬШИЕ. Например, многие статьи начинают, обсуждая, а иногда и хвастаясь, о том, сколько данных они анализировали. Например, в публикации, опубликованной в Science, изучающей тенденции использования слов в корпусе Google Books, были включены следующие (Michel et al. 2011) :
«[Наш] корпус содержит более 500 миллиардов слов на английском языке (361 миллиард), французском (45 миллиардов), испанском (45 миллиардов), немецком (37 миллиардов), китайском (13 миллиардов), русском (35 миллиардов) и иврите (2000000000). Самые старые работы были опубликованы в 1500-х годах. Первые десятилетия представлены лишь несколькими книгами в год, состоящими из нескольких сотен тысяч слов. К 1800 году корпус растет до 98 миллионов слов в год; к 1900 году - 1,8 млрд; а к 2000 году - 11 миллиардов. Тело не может быть прочитано человеком. Если вы попытались читать только записи на английском языке только с 2000 года, при разумных темпах 200 слов / мин, без перерывов на еду или сон, это займет 80 лет. Последовательность букв в 1000 раз длиннее генома человека: если вы написали его по прямой, он достигнет Луны и вернется в 10 раз ».
Масштабы этих данных, несомненно, впечатляют, и всем нам повезло, что группа Google Books опубликовала эти данные для общественности (фактически, некоторые из этих работ в конце этой главы используют эти данные). Но всякий раз, когда вы видите что-то подобное, вы должны спросить: все ли эти данные действительно что-то делают? Могли бы они сделать то же самое исследование, если бы данные могли достичь Луны и назад только один раз? Что делать, если данные могут попасть только на вершину горы Эверест или на вершину Эйфелевой башни?
В этом случае их исследование действительно имеет некоторые результаты, требующие огромного количества слов в течение длительного периода времени. Например, одна вещь, которую они исследуют, - это эволюция грамматики, особенно изменения скорости спряжения неправильного глагола. Так как некоторые нерегулярные глаголы встречаются довольно редко, большой объем данных необходим для обнаружения изменений с течением времени. Слишком часто, однако, исследователи, по-видимому, рассматривают размер большого источника данных как конец - «посмотрите, сколько данных я могу испортить» - скорее, чем средство для более важной научной цели.
По моему опыту, изучение редких событий является одним из трех конкретных научных целей, которые, как правило, позволяют использовать большие наборы данных. Второе - исследование гетерогенности, о чем свидетельствует исследование Райджа Четти и его коллег (2014) о социальной мобильности в Соединенных Штатах. В прошлом многие исследователи изучали социальную мобильность, сравнивая результаты жизни родителей и детей. Постоянные выводы из этой литературы заключаются в том, что у благополучных родителей, как правило, есть дети с благополучием, но сила этих отношений меняется со временем и между странами (Hout and DiPrete 2006) . Совсем недавно, однако, Четти и его коллеги смогли использовать налоговые отчеты от 40 миллионов человек, чтобы оценить гетерогенность между поколениями в разных регионах США (рисунок 2.1). Например, они обнаружили, что вероятность того, что ребенок достигнет верхнего квинтиля распределения национального дохода, начиная с семьи в нижнем квинтиле, составляет около 13% в Сан-Хосе, штат Калифорния, но только около 4% в Шарлотте, Северная Каролина. Если вы посмотрите на рисунок 2.1 на мгновение, вы можете начать задаваться вопросом, почему мобильность между поколениями выше в некоторых местах, чем другие. Четти и его коллеги задали точно такой же вопрос, и они обнаружили, что в районах с высокой мобильностью меньше сегрегации по месту жительства, меньше неравенства в доходах, улучшения начальных школ, большего социального капитала и большей стабильности семьи. Разумеется, эти корреляции не показывают, что эти факторы вызывают более высокую мобильность, но они предлагают возможные механизмы, которые могут быть изучены в дальнейшей работе, что именно это сделали Четти и коллеги в последующей работе. Обратите внимание, как размер данных был действительно важен в этом проекте. Если Четти и его коллеги использовали налоговые отчеты 40 тысяч человек, а не 40 миллионов, они не смогли бы оценить региональную гетерогенность, и они никогда не смогли бы провести последующие исследования, чтобы попытаться определить механизмы, которые создают этот вариант.
Наконец, помимо изучения редких событий и изучения гетерогенности, большие наборы данных также позволяют исследователям обнаруживать небольшие различия. На самом деле большая часть внимания к крупным данным в отрасли связана с этими небольшими различиями: надежное обнаружение разницы между ставками кликов по ставке 1% и 1,1% на рекламе может перевести на миллионы долларов дополнительного дохода. Однако в некоторых научных условиях такие небольшие различия могут не иметь особого значения, даже если они статистически значимы (Prentice and Miller 1992) . Но в некоторых параметрах политики они могут стать важными при просмотре в совокупности. Например, если есть два вмешательства в области общественного здравоохранения, и один из них несколько эффективнее, чем другой, то выбор более эффективного вмешательства может привести к спасению тысяч дополнительных жизней.
Несмотря на то, что bigness обычно является хорошим свойством при правильном использовании, я заметил, что иногда это может привести к концептуальной ошибке. По какой-то причине близость, похоже, побуждает исследователей игнорировать то, как их данные были сгенерированы. В то время как bigness уменьшает потребность беспокоиться о случайной ошибке, это фактически увеличивает необходимость беспокоиться о систематических ошибках, о тех типах ошибок, которые я опишу ниже, которые возникают из-за предвзятости в том, как создаются данные. Например, в проекте, который я расскажу позже в этой главе, исследователи использовали сообщения, созданные 11 сентября 2001 года, чтобы создать эмоциональную хронологию реакции на террористическую атаку с высоким разрешением (Back, Küfner, and Egloff 2010) . Поскольку у исследователей было большое количество сообщений, им действительно не нужно было беспокоиться о том, были ли наблюдаемые закономерности - нарастающий гнев в течение дня - можно объяснить случайным изменением. Было так много данных, и картина была настолько ясна, что все статистические статистические тесты предполагали, что это была реальная модель. Но эти статистические тесты не знали, как были созданы данные. На самом деле оказалось, что многие шаблоны были связаны с одним ботом, который генерировал все больше и больше бессмысленных сообщений в течение дня. Удаление этого бота полностью уничтожило некоторые ключевые выводы в документе (Pury 2011; Back, Küfner, and Egloff 2011) . Весьма просто, что исследователи, которые не думают о систематической ошибке, рискуют использовать свои большие наборы данных, чтобы получить точную оценку незначительной величины, например эмоциональное содержание бессмысленных сообщений, созданных автоматическим ботом.
В заключение, большие наборы данных не являются самоцелью, но они могут включать определенные виды исследований, в том числе изучение редких событий, оценку неоднородности и обнаружение небольших различий. Большие наборы данных также, по-видимому, приводят некоторых исследователей к игнорированию того, как их данные были созданы, что может привести их к получению точной оценки несущественного количества.