Galaxy Zoo съчетава усилията на много не-експерти доброволци, които да класифицират един милион галактики.
Galaxy Zoo е нараснал от един проблем в страните от Кевин Schawinski, завършил студент по астрономия в университета в Оксфорд през 2007 г. Опростяване доста малко, Schawinski се интересува от галактики, и галактики могат да бъдат класифицирани по тяхната морфология-елипсовидна или спирала-и от техния цвят-синьо или червено. По времето, конвенционалната мъдрост сред астрономите е, че спиралните галактики, подобни на нашия Млечен път, бяха сини на цвят (което показва, младежта) и че елиптичните галактики са червени на цвят (което показва, старост). Schawinski съмняваше тази конвенционална мъдрост. Той подозира, че докато този модел може да е вярно по принцип, там вероятно са били на доста голям брой изключения, и че чрез изучаване на много от тези необичайни галактики-тези, които не отговарят на очаквания модел-той може да научите нещо за процеса, чрез който галактики, формирани.
По този начин, това, което Schawinski необходимо, за да се преобърне конвенционалната мъдрост беше голям набор от морфологично класифицираните галактики; че е, галактиките, които са били класифицирани като спирала или елипсовидна. Проблемът обаче е, че съществуващите алгоритмични методи за класифициране не са все още достатъчно добри, за да бъдат използвани за научни изследвания; с други думи, за класиране на галактиките е, по това време, е проблем, че е трудно за компютри. Следователно, това, което е необходимо е голям брой човешки класифицирани галактики. Schawinski предприе тази класификация проблем с ентусиазма на завършил студент. В маратона сесия на седем, 12 часа на ден, той е в състояние да се класифицират 50,000 галактики. Докато 50,000 галактики може да звучи като много, това е всъщност само около 5% от почти един милион галактики, които са били заснети в обзор на Sloan Digital Sky. Schawinski разбра, че той се нуждае от по-мащабируема подход.
За щастие, се оказва, че задачата за класифициране на галактиките не изисква специализирано обучение в областта на астрономията; можете да научи някой, който да го направи доста бързо. С други думи, въпреки че класифицирането на галактиките е задача, която беше трудно за компютри, това е доста лесно за хората. Така че, докато седи в една кръчма в Оксфорд, Schawinski и колегите астроном Крис Линтът измислено уебсайт, където доброволци ще класифицират снимки на галактики. Няколко месеца по-късно, Galaxy Zoo е роден.
На интернет страницата на Galaxy Zoo, доброволци ще преминат през няколко минути на обучение; например, обучение на разликата между една спирала и елиптична галактика (Фигура 5.2). След това обучение, доброволците трябвало да премине сравнително лесен тест-правилно класифициране на 11 на 15 галактики с известни класификации-и след това на доброволеца ще започне реално класификация на непознати галактики чрез проста уеб-базиран интерфейс (Фигура 5.3). Преходът от доброволец да астроном ще се състои в по-малко от 10 минути и изисква само преминаване от най-ниските на препятствия, един прост тест.
Galaxy Zoo привлича своите първоначални доброволци, след като проектът е включен в една статия, и в около шест месеца на проекта е нараснал да се включат повече от 100,000 граждански учени, хора, които са участвали, защото те се насладиха на задачата и те искаха да помогне предварително астрономия. Взети заедно, тези 100,000 доброволци са допринесли общо повече от 40 милиона класификации, с по-голямата част от класификациите, идващи от една сравнително малка, основната група от участници (Lintott et al. 2008) .
Изследователите, които имат опит наемане на студенти научни сътрудници може веднага да бъдат скептични относно качеството на данните. Докато този скептицизъм е разумен, Galaxy Zoo показва, че когато доброволци вноски са правилно почистени, debiased, и обобщени, те могат да произвеждат висококачествени резултати (Lintott et al. 2008) . Важен трик за получаване на феновете, за да създадете професионално качество на данните е съкращение; това е, че същата задача извършва от много различни хора. В Galaxy Zoo, имаше около 40 класификации на галактика; изследователи, използващи студентски научни сътрудници никога не може да си позволи това ниво на съкращения и поради това трябва да бъде много по-загрижени за качеството на всяка отделна класификация. Какво доброволците липсваше в обучението, те се компенсира с излишък.
Дори и с множество класификации на галактика, обаче, комбиниране на набор от доброволци класификации за производство на класификация на консенсус е труден. Защото възникват много сходни предизвикателства в повечето проекти човешките изчислителни, че е полезно да се направи кратък преглед на трите стъпки, които изследователите на Galaxy Zoo, използвани за производството им консенсусни класификации. Първо, учените "почистват" данните чрез премахване на фалшиви класификации. Например, хората, които многократно са класифицирани в една и съща галактика-нещо, което ще се случи, ако те се опитват да манипулират резултатите, трябваше всичките им класификации изхвърлят. Този и други подобни почистване отстранява около 4% от всички класификации.
На второ място, след почистване, изследователите, необходими за отстраняване на систематичните отклонения в класификациите. Чрез поредица от проучвания за откриване на пристрастия, вградени в рамките на първоначалния пример проект-за, показващи някои доброволци галактиката в черно-бяло, а не цвят-изследователите открили няколко систематичните отклонения, като например системен пристрастия да класифицира далеч спирални галактики като елиптични галактики (Bamford et al. 2009) . Регулиране на тези систематичните отклонения е изключително важно, тъй като средно голяма част от отговорите не премахва систематично отклонение; тя премахва само случайна грешка.
Най-накрая, след debiasing, изследователите са необходими метод за комбиниране на отделните класификации за получаване на класификация консенсус. Най-простият начин да се съчетаят класификации за всяка галактика ще бъде да се избере най-общата класификация. Въпреки това, този подход ще даде на всеки доброволец равно тегло, и изследователите подозират, че някои доброволци бяха по-добри в класирането, отколкото други. Ето защо, учените разработили по-сложна, повтаряща се процедура за претегляне, който се опитва автоматично да открие най-добрите класификаторите и да им даде по-голяма тежест.
По този начин, след три стъпка процес чистене, debiasing, и претегляне-изследователския екип Galaxy Zoo бе превърната 40 милиона доброволци класификации в набор от консенсусни морфологични класификации. Когато тези Galaxy Zoo класификации са в сравнение с трите предишни опити по-малък мащаб от професионални астрономи, включително класификацията от Schawinski, които помогнаха да вдъхнови Galaxy Zoo, имаше силна споразумение. По този начин, на доброволците, сумарно са били в състояние да осигури високо качество на класификации и в мащаб, че изследователите не можеха да съвпадат (Lintott et al. 2008) . В действителност, от наличието на човешките класификации за такъв голям брой галактики, Schawinski, Линтът, и други, са били в състояние да покаже, че само около 80% от галактики следват очаквания модел-синьо спирали и червени елипсоидните-и многобройни документи са били написани за това откритие (Fortson et al. 2011) .
Като се има предвид този фон, сега можем да видим как Galaxy Zoo следва разделянето прилага-комбинират рецепта, една и съща рецепта, която се използва за повечето проекти човешките изчисляване. Първо, голям проблем е разделен на парчета. В този случай, проблемът за класифициране на един милион галактики се разделя на един милион проблеми на класификацията на една галактика. След операцията се прилага към всеки независимо парче. В този случай, доброволец ще класифицира всяка галактика или като спирала или елипсовидна. И накрая, резултатите са комбинирани за получаване на резултат консенсус. В този случай, етапът на съчетаят включваше почистване, debiasing, и тежестта да се произведе класификация консенсус за всяка галактика. Въпреки че повечето от проектите използват тази обща рецепта, всяка от стъпките трябва да персонализира към конкретния проблем са предприети. Например, в изчисляване Проекта за човешкия описано по-долу, същата рецепта ще бъде последвано, но се прилагат и съчетават стъпки ще бъдат доста различни.
За екипа на Galaxy Zoo, този първи проект е само началото. Много бързо те разбраха, че въпреки че те са били в състояние да се класифицират в близост до един милион галактики, този мащаб не е достатъчно да се работи с по-нови проучвания Digital Sky, които биха могли да произвеждат изображения на около 10 милиарда галактики (Kuminski et al. 2014) . За да се справят с увеличаване 1000000-10000000000-фактор на 10,000-Galaxy Zoo ще трябва да наемат около 10,000 пъти повече участници. Въпреки че броят на доброволците в Интернет е голям, не е безкраен. Ето защо, учените осъзнават, че ако те ще се справят с все по-големи обеми от данни, е нужен нов, още по-мащабируеми, подход.
Ето защо, Манда Banerji-работим с Кевин Schawinski, Крис Линтът, и други членове на Galaxy Zoo тим започва преподаване компютри да класифицира галактики. По-специално, използването на човешки класификации създадена от Galaxy зоопарк, Banerji et al. (2010) изграден модел машина, обучение, което може да се предскаже човешкото класирането на една галактика на базата на характеристиките на изображението. Ако този модел ученето машина може да се възпроизвежда на човешките класификациите с висока точност, тогава тя може да се използва от Galaxy Zoo изследователи да се класифицират по същество безкраен брой галактики.
В основата на подхода Banerji и колеги "всъщност е доста сходен с техники обикновено се използват в социални изследвания, въпреки че прилика може да не е ясно от пръв поглед. Първо, Banerji и колеги превръщат всяко изображение в набор от числови функции, които обобщават това е свойства. Например, за снимки на галактики може да има три функции: размерът на синьо на изображението, различията в яркостта на пикселите, а делът на не-бели пиксели. Изборът на правилните характеристики е важна част от проблема, и то обикновено изисква подлежи-област експертиза. Тази първа стъпка, обикновено се нарича функция инженерство, води в матрица от данни с един ред на изображението и след три колони, описващи този образ. Като се има предвид матрица данни и желания изход (например, дали изображението е класифицирана от човешка като елиптична галактика), изследователят оценява параметрите на модел-например статистическа, нещо като логистична регресия-, че прогнозира човешкото класификацията от особеностите на изображението. Накрая, изследователят използва параметрите в този статистически модел за производство на приблизителните класификации на нови галактики (Фигура 5.4). За да се сетя за по-социална аналогов, представете си, че сте имали демографска информация за един милион студенти, и вие знаете дали те завършили колеж или не. Вие може да се побере на логистична регресия до тези данни, и след това можете да използвате получените параметри на модела, за да се предскаже дали нови студенти ще завършат колеж. В машинно обучение, този подход-с помощта на белязани примери за създаване на статистически модел, който след това може да се поставя етикет на нови данни, се нарича контролирана учене (Hastie, Tibshirani, and Friedman 2009) .
Особеностите в Banerji et al. (2010) Машина за обучение са по-сложни от тези в моя играчка например, например, тя използва функции, като "де Вокульор поберат аксиален съотношение"; и си модел не е логистична регресия, че е изкуствена невронна мрежа. Използването й черти, й модел, и консенсусни Galaxy Zoo класификациите на, тя е в състояние да създаде тегла на всяка функция, и след това да използвате тези тежести, за да се правят прогнози за класирането на галактики. Например, я анализ установи, че изображения с ниско "де Вокульор пасват аксиален съотношение" е по-вероятно да бъде спирални галактики. Предвид тези тежести, тя е в състояние да предскаже човешкото класирането на една галактика с необходимата точност.
Работата на Banerji et al. (2010) се обърна Galaxy Zoo в това, което аз бих нарекъл второ поколение система на човека изчисление. Най-добрият начин да се мисли за тези системи от второ поколение е, че вместо да се налага хората да решат проблем, те имат хората изграждат набор от данни, които могат да бъдат използвани, за да се обучават на компютър, за да реши проблема. Размерът на данни, необходими за обучение на компютъра, може да бъде толкова голям, че тя изисква масово сътрудничество човешка да се създаде. В случай на Galaxy Zoo, невронни мрежи, използвани от Banerji et al. (2010) изисква много голям брой човешки белязан примери, за да се изгради един модел, който е в състояние надеждно възпроизвежда човешкото класирането.
Предимството на този компютър с помощта на подход е, че тя позволява да се справят по същество безкрайни количества данни, които използват само ограничен брой човешки усилия. Например, изследовател с един милион човешки класифицирани галактики може да се изгради предсказуем модел, който след това може да се използва за класифициране на един милиард или дори един трилион галактики. Ако има огромен брой галактики, тогава този вид на човек-компютър хибрид е наистина единственото възможно решение. Тази безкрайна скалируемост не е безплатно, обаче. Изграждане на модел машина, обучение, които могат правилно възпроизвеждане на човешките класификациите по себе си е трудно проблем, но за щастие вече има отлични книги, посветени на тази тема (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo показва развитието на много проекти, човешки изчисляване. Първо, изследовател опитва проекта сама или с малък екип от научни сътрудници (например, първоначално класифициране усилия Schawinski му). Ако този подход не се мащабира добре, изследователят може да се движи към изчисляване проект човешкото където много хора допринасят класификации. Но, за определен обем от данни, чисто човешки усилия, няма да бъде достатъчно. В този момент, учените трябва да изградят системи от второ поколение, където човешките класификации са използвани, за да се обучават модел машина, обучение, който след това може да се приложи на практика неограничени количества данни.