Galaxy Zoo объединяет усилия многих добровольцев неопытных классифицировать миллионов галактик.
Галактический зоопарк вырос из проблем, с которой сталкиваются Кевин Schawinski, аспирант астрономии в Оксфордском университете в 2007 году Упрощая совсем немного, Schawinski был заинтересован в галактиках и галактик могут быть классифицированы по их морфологии-эллиптические или спирально-и их цвет-синий или красный. В то время, обычная мудрость среди астрономов в том, что спиральные галактики, как наш Млечный Путь, были синего цвета (с указанием молодежи) и что эллиптические галактики были красного цвета (с указанием преклонного возраста). Schawinski сомневался в этом общепринятой точке зрения. Он подозревал, что в то время как эта модель может быть верно в целом, вероятно, были значительное число исключений, и что, изучая множество этих необычных галактик-те, которые не вписывались ожидаемый паттерн-он мог узнать что-то о процессе, через который галактики образуются.
Таким образом, то, что Schawinski необходимо для того, чтобы опрокинуть общепринятую был большой набор морфологически классифицированных галактик; то есть галактики, которые были классифицированы как либо спирали или эллиптические. Проблема, однако, в том, что существующие алгоритмические методы классификации еще не были достаточно хороши, чтобы быть использованы для проведения научных исследований; Другими словами, классифицируя галактик, в то время, проблема, которую было трудно для компьютеров. Поэтому то , что было необходимо , было большое количество человеческих классифицируемых галактик. Schawinski предпринял эту проблему классификации с энтузиазмом аспиранта. В марафонской сессии семи, 12-часового рабочего дня, он был в состоянии классифицировать 50000 галактик. В то время как 50000 галактик может звучать как много, это на самом деле всего лишь около 5% из почти одного миллиона галактик, которые были сфотографированы в Sky Survey Sloan Digital. Schawinski понял, что ему нужен более масштабируемый подход.
К счастью, оказалось, что задача классификационных галактик не требует повышения квалификации в области астрономии; вы можете научить кого-то сделать это довольно быстро. Другими словами, несмотря на то, классификации галактик является задачей, которую было трудно для компьютеров, это было довольно легко для людей. Итак, сидя в баре в Оксфорде, Schawinski и малый астроном Крис Lintott мечтал создать сайт, где волонтеры будут классифицировать изображения галактик. Через несколько месяцев, Galaxy Zoo родился.
На сайте Galaxy Zoo, волонтеры будут проходить несколько минут обучения; например, изучая разницу между спиральными и эллиптической галактики (рис 5.2). После этого тренинга, добровольцы должны были пройти относительно легко викторины правильно классифицируя 11 из 15 галактик с известными классификациями, а потом добровольцем начнет реальную классификацию неизвестных галактик через простой веб-интерфейс (Рисунок 5.3). Переход от добровольца астроном будет проходить менее чем за 10 минут, и требуется только проходя самый низкий из препятствий, с помощью простого теста.
Galaxy Zoo привлек своих первоначальных добровольцев после того, как проект был представлен в статье новостей, и в течение шести месяцев проект вырос привлечь более 100000 граждан ученых, люди, которые участвовали, потому что они пользовались задачу, и они хотели, чтобы способствовать продвижению астрономии. Вместе эти 100.000 добровольцев , внесла в общей сложности более 40 миллионов классификаций, с большинством классификаций , поступающих из относительно небольшой, основной группой участников (Lintott et al. 2008) и (Lintott et al. 2008) .
Исследователи, которые имеют опыт найма старшекурсника научных сотрудников может немедленно скептически относиться к качеству данных. В то время как этот скептицизм является разумным, Galaxy Zoo , показывает , что , когда вклад добровольцев правильно чистить, debiased и агрегируются, они могут производить высококачественные результаты (Lintott et al. 2008) и (Lintott et al. 2008) . Важный трюк для получения толпы , чтобы создавать профессиональные данные качества является избыточность; То есть, та же задача, выполняемая многими разными людьми. В Galaxy Zoo, там было около 40 классификаций в галактике; исследователи, использующие старшекурсника ассистентов никогда не могли позволить себе такой уровень избыточности и, следовательно, должны быть гораздо больше озабочены качеством каждой отдельной классификации. То, что добровольцы не хватало в процессе обучения, они компенсировали с избыточностью.
Даже с несколькими классификациями в галактике, однако, сочетая набор добровольцев классификаций для получения консенсуса классификации сложно. Из-за очень похожие проблемы возникают в большинстве проектов вычислений человека, полезно кратко рассмотреть три шага, которые исследователи Galaxy Zoo, используемые для получения их классификации на основе консенсуса. Во-первых, исследователи "очистить" данные путем удаления фиктивных классификации. Например, люди, которые неоднократно классифицируемые одной галактики-то, что случилось бы, если бы они пытались манипулировать результатами, были все их классификации отбрасываются. Это и другие аналогичные очистки удаляется около 4% от всех классификаций.
Во-вторых, после очистки, исследователи необходимо удалить систематические ошибки в классификации. Через ряд исследований по обнаружению смещения встроенных в пределах первоначального проекта, например, показывая некоторые добровольцев галактика в монохромном вместо цвета, исследователи обнаружили несколько систематических ошибок, таких как систематическое смещение классификации далеко спиральных галактик , как эллиптические галактики (Bamford et al. 2009) и (Bamford et al. 2009) . Настройка этих систематических ошибок чрезвычайно важно, потому что в среднем много вкладов не снимает систематического смещения; он удаляет только случайную ошибку.
Наконец, после того, как устранени смещени, исследователи нужен способ, чтобы объединить отдельные классификации для создания классификации на основе консенсуса. Самый простой способ объединить классификации для каждой галактики было бы выбрать наиболее распространенную классификацию. Тем не менее, этот подход дал бы каждый доброволец равный вес, и исследователи подозревают, что некоторые добровольцы были лучше, чем другие классификации. Таким образом, исследователи разработали более сложную итерационную процедуру взвешивания, которая пытается автоматически определять лучшие классификаторы и дать им больше веса.
Таким образом, после того, как три стадии процесса чистки, устранени смещени и весовым-исследовательской команды Galaxy Zoo конвертировали 40 миллионов добровольцев классификации в набор консенсусных морфологических классификаций. Когда эти классификации Galaxy Zoo были по сравнению с тремя предыдущими попытками меньшего масштаба профессиональными астрономами, в том числе классификации по Schawinski, которые помогли вдохновить Galaxy Zoo, было достигнуто широкое согласие. Таким образом, добровольцы, в совокупности, были в состоянии обеспечить высокое качество и классификации в масштабе , что исследователи не могли соответствовать (Lintott et al. 2008) и (Lintott et al. 2008) . На самом деле, имея человеческие классификации для такого большого числа галактик, Schawinski, Lintott, и другие были в состоянии показать, что только около 80% галактик следуют предполагаемой схемы-голубые спирали и красный эллипсов-и многочисленных статей были написаны о это открытие (Fortson et al. 2011) и (Fortson et al. 2011) .
На этом фоне, теперь мы можем увидеть, как Galaxy Zoo следует сплит-применить-сочетают рецепт, один и тот же рецепт, который используется для большинства проектов вычислений человека. Во- первых, большая проблема разбивается на куски. В этом случае задача классификации миллиона галактик разделяется на миллион проблем классификации одной галактики. Далее, операция применяется к каждой части независимо друг от друга. В этом случае доброволец бы классифицировать каждую галактику либо как спираль или эллиптическая. И, наконец, результаты объединяются для получения результата на основе консенсуса. В этом случае этап скомбинировать включал в себя чистку, устранени смещени, и взвешивание для получения консенсуса классификации для каждой галактики. Несмотря на то, что большинство проектов используют этот общий рецепт, каждый из этапов нужно настроить на конкретный решаемой проблемы. Например, в проекте вычисления человека, описанном ниже, тот же самый рецепт будет следовать, но применять и комбинируют шаги будут сильно отличаться.
Для команды Galaxy Zoo, этот первый проект был только началом. Очень быстро они поняли , что даже если бы они были в состоянии классифицировать около миллиона галактик, этот масштаб не достаточно , чтобы работать с новыми обследований цифрового неба, которые могли бы производить изображения около 10 миллиардов галактик (Kuminski et al. 2014) и (Kuminski et al. 2014) . Чтобы справиться с увеличение по сравнению с 1 миллиона до 10 миллиардов фактор-10000 Galaxy Zoo потребуется набрать примерно в 10000 раз больше участников. Даже несмотря на то количество добровольцев в Интернете велика, то он не является бесконечным. Таким образом, исследователи поняли, что если они собираются обрабатывать постоянно растущие объемы данных, необходим новый, еще более масштабируемый подход.
Поэтому Манда Банерджи-работы с Kevin Schawinski, Крис Lintott и других членов команды Galaxy Zoo-начиная обучающих компьютеров для классификации галактик. Более конкретно, используя человеческие классификации , созданные Galaxy Zoo, Banerji et al. (2010) и Banerji et al. (2010) построили модель машинного обучения , которые могли бы предсказать человеческую классификацию галактик , основанную на характеристиках изображения. Если эта модель машинного обучения может воспроизвести человеческие классификации с высокой степенью точности, то она может быть использована исследователями Galaxy Zoo классифицировать по существу бесконечное число галактик.
Ядро Банерджи и его коллеги "подход на самом деле очень похожи на методы, используемые в социальных исследованиях, хотя это сходство может быть не ясно, на первый взгляд. Во- первых, Банерджи и его коллеги превращают каждое изображение в набор числовых функций , которые суммируют его свойства. Например, для изображений галактик могло быть три характеристики: количество синего цвета в изображении, дисперсия в яркости пикселей, а доля небелых пикселов. Выбор правильных функций является важной частью проблемы, и это как правило, требует предметно-области знаний. Это первый шаг, который обычно называют особенность инженерного, приводит к матрице данных по одной строке на изображении , а затем три столбца , описывающих этот образ. Учитывая матрицу данных и желаемый результат (например, был ли изображение классифицируется человеком как эллиптической галактики), исследователь оценивает параметры статистической модели, например, что-то вроде логистической регрессии, которая предсказывает человеческую классификацию, основанную об особенностях изображения. Наконец, исследователь использует параметры в этой статистической модели для получения расчетных классификации новых галактик (рис 5.4). Для того, чтобы думать о социальной аналога, представьте себе, что вы имели демографическую информацию около миллиона студентов, и вы знаете, закончил ли они из колледжа или нет. Вы могли бы соответствовать логистической регрессии к этим данным, а затем вы можете использовать полученные параметры модели, чтобы предсказать, будет ли новые студенты собираются окончить колледж. В машинном обучении, этот подход, с использованием меченых примеров , чтобы создать статистическую модель , которая затем может маркировать новые данные, называется наблюдением обучения (Hastie, Tibshirani, and Friedman 2009) .
Особенности в Banerji et al. (2010) и Banerji et al. (2010) модель обучения машины были более сложными , чем те , в моей игрушке пример, например, она использовала такие функции , как "де Вокулер подходят осевое отношение" -И ее модель не была логистической регрессии, это была искусственная нейронная сеть. Используя свои особенности, ее модель, и консенсус Galaxy Zoo классификации, она была в состоянии создать веса на каждой функции, а затем использовать эти веса, чтобы делать прогнозы о классификации галактик. Например, ее анализ показал, что изображения с низким "Вокулер подходят осевое отношение", скорее всего, будут спиральные галактики. Принимая во внимание эти веса, она была в состоянии предсказать человеческую классификацию галактики с достаточной степенью точности.
Работа Banerji et al. (2010) и Banerji et al. (2010) обратился Galaxy Zoo в то , что я бы назвал систему человеческого вычисления второго поколения. Лучший способ думать об этих системах второго поколения является то, что вместо того, люди решают проблему, у них есть люди построить набор данных, который может быть использован для подготовки компьютера, чтобы решить эту проблему. Объем данных, необходимых для подготовки компьютера может быть настолько велика, что требует сотрудничества массового человека для создания. В случае Galaxy Zoo, нейронных сетей , используемых Banerji et al. (2010) и Banerji et al. (2010) требуется очень большое количество примеров человеческих меченных для того , чтобы построить модель , которая была в состоянии достоверно воспроизвести человеческую классификацию.
Преимущество этого компьютерного подхода заключается в том, что она позволяет обрабатывать по существу бесконечное количество данных, используя лишь конечное количество человеческих усилий. Например, исследователь миллиона человеческих классифицируемых галактик можно построить прогностическую модель, которая затем может быть использована для классификации миллиард или даже триллионов галактик. Если есть огромное количество галактик, то такого рода человек-компьютер гибрид действительно единственно возможным решением. Эта бесконечная масштабируемость не является бесплатным, однако. Построение модели обучения машины , который может правильно воспроизводить человеческие классификации само по себе является трудной задачей, но , к счастью , уже есть прекрасные книги , посвященные этой теме (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) и (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo показывает эволюцию многих проектов вычислений человека. Во-первых, исследователь пытается проект самостоятельно или с небольшой группой научных сотрудников (например, первоначальные усилия классификации Schawinski в). Если этот подход не очень хорошо масштабируется, исследователь может перейти к человеческому проекту вычисления, где многие люди способствуют классификации. Но для определенного объема данных, чисто человеческих усилий будет недостаточно. В этот момент, исследователи должны строить системы второго поколения, где человеческие классификации используются для обучения модели обучения машины, который затем может быть применен к практически неограниченным количеством данных.