Зоопарк Галактики объединил усилия многих добровольцев, не являющихся экспертами, для классификации миллиона галактик.
Зоопарк Галактики вырос из проблемы, с которой столкнулся Кевин Шавински, аспирант в области астрономии в Оксфордском университете в 2007 году. Упрощение совсем немного, Шавински интересовали галактики, а галактики можно классифицировать по их морфологии - эллиптической или спиральной - и по их цвету-синему или красному. В то время обычная мудрость среди астрономов заключалась в том, что спиральные галактики, такие как наш Млечный Путь, были голубого цвета (с указанием молодости), а эллиптические галактики были красными (с указанием старости). Шавински сомневался в этой общепринятой мудрости. Он подозревал, что, хотя эта картина может быть верной в целом, вероятно, было значительное количество исключений, и что, изучая множество этих необычных галактик - те, которые не соответствовали ожидаемому шаблону, он мог узнать что-то о процессе, через который образовались галактики.
Таким образом, то, что требовалось Шавински для того, чтобы опрокинуть традиционную мудрость, было большим набором морфологически классифицированных галактик; то есть галактики, которые были классифицированы как спиральные или эллиптические. Проблема, однако, заключалась в том, что существующие алгоритмические методы классификации еще недостаточно хороши для использования в научных исследованиях; другими словами, классификация галактик была в то время проблемой, которая была сложной для компьютеров. Поэтому необходимо было большое количество человекоклассифицированных галактик. Шавински предпринял эту проблему классификации с энтузиазмом аспиранта. В марафонской сессии, состоящей из семи 12-часовых дней, он смог классифицировать 50 000 галактик. В то время как 50 000 галактик могут звучать как много, на самом деле это всего лишь около 5% почти миллиона галактик, которые были сфотографированы в Sloan Digital Sky Survey. Шавински понял, что ему нужен более масштабируемый подход.
К счастью, оказалось, что задача классификационных галактик не требует повышения квалификации в области астрономии; вы можете научить кого-то сделать это довольно быстро. Другими словами, несмотря на то, классификации галактик является задачей, которую было трудно для компьютеров, это было довольно легко для людей. Итак, сидя в баре в Оксфорде, Schawinski и малый астроном Крис Lintott мечтал создать сайт, где волонтеры будут классифицировать изображения галактик. Через несколько месяцев, Galaxy Zoo родился.
На веб-сайте Зоопарка Галактики добровольцы пройдут несколько минут обучения; например, изучая разницу между спиральной и эллиптической галактикой (рис. 5.2). После этого обучения каждому добровольцу пришлось пройти сравнительно легкую викторину, правильно классифицировав 11 из 15 галактик с известными классификациями, а затем начнет реальную классификацию неизвестных галактик через простой веб-интерфейс (рисунок 5.3). Переход от волонтеров к астрономам будет проходить менее чем за 10 минут и потребует пройти самый низкий из препятствий, простой викторины.
Зоопарк Галактики привлек своих первых добровольцев после того, как проект был показан в новостной статье, и примерно через полгода проект вырос, чтобы привлечь более 100 000 ученых-граждан, людей, которые участвовали, потому что им понравилась эта задача, и они хотели помочь в развитии астрономии. Вместе эти 100 000 добровольцев внесли в общей сложности более 40 миллионов классификаций, причем большинство классификаций исходит из относительно небольшой основной группы участников (Lintott et al. 2008) .
Исследователи, которые имеют опыт найма помощников в области научных исследований, могут скептически относиться к качеству данных. Хотя этот скептицизм является разумным, Galaxy Zoo показывает, что, когда добровольные взносы правильно очищаются, дебизируются и агрегируются, они могут давать высококачественные результаты (Lintott et al. 2008) . Важным трюком для того, чтобы толпа создавала данные профессионального качества, - это избыточность , то есть выполнение одной и той же задачи многими разными людьми. В Galaxy Zoo было около 40 классификаций на галактику; исследователи, использующие младших помощников по научным исследованиям, никогда не могли позволить себе такой уровень избыточности и, следовательно, должны были бы гораздо больше заботиться о качестве каждой отдельной классификации. То, что волонтерам не хватало в обучении, компенсировало их избыточность.
Однако даже с несколькими классификациями в каждой галактике объединение набора добровольческих классификаций для составления консенсусной классификации было сложным. Поскольку очень похожие проблемы возникают в большинстве проектов человеческих вычислений, полезно кратко рассмотреть три шага, которые исследователи Галактического зоопарка использовали для составления своих консенсусных классификаций. Во-первых, исследователи «очистили» данные, удалив фиктивные классификации. Например, люди, которые неоднократно классифицировали одну и ту же галактику - что-то, что могло бы произойти, если бы они пытались манипулировать результатами, - отбросили все их классификации. Эта и другая подобная очистка удалили около 4% всех классификаций.
Во-вторых, после очистки исследователи должны были устранить систематические предвзятости в классификациях. Посредством серии исследований по обнаружению смещений, встроенных в исходный проект, например, показывая некоторым добровольцам галактику в монохромном, а не цветном, исследователи обнаружили несколько систематических предубеждений, таких как систематический уклон, чтобы классифицировать далекие спиральные галактики как эллиптические галактики (Bamford et al. 2009) . Корректировка этих системных предубеждений чрезвычайно важна, поскольку избыточность автоматически не устраняет систематический уклон; это только помогает удалять случайную ошибку.
Наконец, после дебазации исследователи нуждались в методе объединения отдельных классификаций для составления консенсусной классификации. Самый простой способ объединить классификации для каждой галактики - это выбрать наиболее распространенную классификацию. Тем не менее, этот подход дал бы каждому добровольцу равный вес, и исследователи подозревали, что некоторые добровольцы были лучше классифицированы, чем другие. Поэтому исследователи разработали более сложную итеративную процедуру взвешивания, которая пыталась обнаружить лучшие классификаторы и придать им больший вес.
Таким образом, после трехэтапного процесса очистки, дебидации и взвешивания - исследовательская группа Galaxy Zoo превратила 40 миллионов добровольческих классификаций в набор согласованных морфологических классификаций. Когда эти классификации Galaxy Zoo сравнивались с тремя предыдущими попытками меньших масштабов профессиональных астрономов, включая классификацию Шавинского, которая помогла вдохновить Galaxy Zoo, было достигнуто сильное согласие. Таким образом, волонтеры в совокупности смогли обеспечить высококачественные классификации и в масштабах, которые исследователи не смогли сопоставить (Lintott et al. 2008) . Фактически, имея человеческие классификации для такого большого числа галактик, Шавински, Линтотт и другие смогли показать, что только около 80% галактик следуют за ожидаемыми синими спиралями и красными эллиптическими фигурами, и было написано множество работ о это открытие (Fortson et al. 2011) .
Учитывая этот фон, вы теперь можете увидеть, как Galaxy Zoo следует рецепту split-apply-comb, такому же рецепту, который используется для большинства проектов человеческих вычислений. Во-первых, большая проблема разделяется на куски. В этом случае проблема классификации миллиона галактик была разделена на миллион проблем классификации одной галактики. Далее, операция применяется к каждой порции независимо друг от друга. В этом случае добровольцы классифицировали каждую галактику как спиральную, так и эллиптическую. Наконец, результаты объединяются для достижения консенсусного результата. В этом случае комбинационный шаг включал очистку, дебификацию и взвешивание для получения консенсусной классификации для каждой галактики. Несмотря на то, что большинство проектов используют этот общий рецепт, каждый шаг должен быть настроен для решения конкретной проблемы. Например, в проекте человеческих вычислений, описанном ниже, будет следовать один и тот же рецепт, но шаги применения и объединения будут совсем другими.
Для команды Galaxy Zoo этот первый проект был только началом. Очень быстро они поняли, что, хотя им удалось классифицировать около миллиона галактик, этого масштаба недостаточно для работы с новыми цифровыми исследованиями неба, которые могут создавать изображения около 10 миллиардов галактик (Kuminski et al. 2014) . Чтобы справиться с увеличением с 1 миллиона до 10 миллиардов - в 10 000 раз - зоопарк Galaxy должен будет привлечь примерно в 10 000 раз больше участников. Несмотря на то, что количество добровольцев в Интернете велико, оно не бесконечно. Поэтому исследователи поняли, что если они собираются обрабатывать постоянно растущие объемы данных, необходим новый, еще более масштабируемый подход.
Поэтому Манда Банержи, работающая с Шавинским, Линтоттом и другими членами команды галактического зоопарка (2010) предложила обучать компьютеры классифицировать галактики. Более конкретно, используя классификацию человека, созданную Galaxy Zoo, Банерджи построил модель машинного обучения, которая могла бы предсказать человеческую классификацию галактики на основе характеристик изображения. Если бы эта модель могла воспроизводить человеческие классификации с высокой точностью, то она могла бы использоваться исследователями галактического зоопарка для классификации по существу бесконечного числа галактик.
Ядро подхода Банержи и коллег на самом деле очень похоже на методы, обычно используемые в социальных исследованиях, хотя сходство может быть неясно на первый взгляд. Во-первых, Банерджи и его коллеги преобразовали каждое изображение в набор числовых признаков, которые суммировали его свойства. Например, для изображений галактик могут быть три особенности: количество синего на изображении, дисперсия яркости пикселей и доля небелых пикселей. Выбор правильных функций является важной частью проблемы, и обычно это требует экспертизы предметной области. Этот первый шаг, обычно называемый разработкой функций , приводит к матрице данных с одной строкой на изображение, а затем к трем столбцам, описывающим это изображение. Учитывая матрицу данных и желаемый результат (например, было ли изображение классифицировано человеком как эллиптической галактикой), исследователь создает модель статистического или машинного обучения, например, логистическую регрессию, которая предсказывает классификацию человека на основе характеристик изображения. Наконец, исследователь использует параметры этой статистической модели для получения оцененных классификаций новых галактик (рис. 5.4). В машинном обучении этот подход с использованием помеченных примеров для создания модели, которая может затем маркировать новые данные, называется контролируемым обучением .
Особенности модели машинного обучения Банерджи и коллег были более сложными, чем в моем примере с игрушкой, например, она использовала такие функции, как «de Vaucouleurs fit axial ratio» - и ее модель не была логистической регрессией, это была искусственная нейронная сеть. Используя ее особенности, ее модель и консенсусную классификацию Galaxy Zoo, она смогла создать весовые коэффициенты для каждой функции, а затем использовать эти веса для предсказания классификации галактик. Например, ее анализ показал, что изображения с низким коэффициентом «Vaucouleurs подходят для осевого отношения», скорее всего, были спиральными галактиками. Учитывая эти веса, она с достаточной точностью предсказала человеческую классификацию галактики.
Работа Банерджи и его коллег превратила Galaxy Zoo в то, что я бы назвал компьютерной системой человеческих вычислений . Лучший способ думать об этих гибридных системах состоит в том, что вместо того, чтобы люди решали проблему, у них есть люди, которые собирают набор данных, который можно использовать для обучения компьютера для решения проблемы. Иногда, обучение компьютеру для решения проблемы может потребовать много примеров, и единственный способ создать достаточное количество примеров - это массовое сотрудничество. Преимущество этого подхода, основанного на компьютерах, заключается в том, что он позволяет обрабатывать практически бесконечные объемы данных, используя только ограниченное количество усилий человека. Например, исследователь с миллионом человеческих классифицированных галактик может построить прогностическую модель, которая затем может быть использована для классификации миллиарда или даже триллиона галактик. Если есть огромное количество галактик, то такой гибрид человеко-компьютер действительно является единственным возможным решением. Однако эта бесконечная масштабируемость не является бесплатной. Построение модели машинного обучения, которая может правильно воспроизводить человеческие классификации, сама по себе является трудной проблемой, но, к счастью, уже есть отличные книги, посвященные этой теме (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Зоопарк Галактики является хорошей иллюстрацией того, как развиваются человеческие вычислительные проекты. Во-первых, исследователь пытается выполнить проект самостоятельно или с небольшой командой помощников по исследованиям (например, первоначальная классификация Schawinski). Если этот подход не будет хорошо масштабироваться, исследователь может перейти к проекту человеческих вычислений со многими участниками. Но для определенного объема данных чистых человеческих усилий будет недостаточно. В этот момент исследователи должны создать компьютерную систему человеческих вычислений, в которой человеческие классификации используются для обучения модели машинного обучения, которая затем может применяться практически к неограниченному количеству данных.