Галактичний зоопарк поєднував зусилля багатьох неурядових волонтерів класифікувати мільйони галактик.
Галактичний зоопарк виріс з проблеми, з якою зіткнулася Кевін Шавінські, аспірантка з астрономії в Оксфордському університеті в 2007 році. Спростування досить багато, і Шавінскі цікавився галактиками, а галактики можна класифікувати за їхньою морфологією - еліптичною або спірально-і їх колір блакитний або червоний. У той час звичайною мудрістю серед астрономів було те, що спіральні галактики, як і наш Чумацький Шлях, були блакитними (з зазначенням молодості), а еліптичні галактики були червоними (із зазначенням старості). Шавінський сумнівався в цій традиційної мудрості. Він підозрював, що в той час як цей закономірний варіант може бути істинним взагалі, існував, мабуть, велика кількість винятків, і, вивчивши багато цих незвичайних галактик, ті, які не відповідали очікуваному зразку, він міг навчитися щось про процес, через який утворилися галактики.
Таким чином, що Шавинський потребував, щоб перемогти умовну мудрість, був великий набір морфологічно класифікованих галактик; тобто галактики, які були класифіковані як спіральні, так і еліптичні. Однак проблема полягала в тому, що існуючі алгоритмічні методи класифікації ще не були достатніми для використання в наукових дослідженнях; Іншими словами, класифікація галактик була тимчасовою проблемою, важкою для комп'ютерів. Тому, що було потрібно, було велике число галактик, класифікованих людиною . Шавінскі зробив цю класифікаційну проблему з ентузіазмом аспіранта. У марафоні за семи 12-годинних днях він зміг класифікувати 50 000 галактик. Хоча 50 000 галактик можуть звучати як багато, насправді це лише близько 5% майже мільйона галактик, які були сфотографовані в дослідженні Sloan Digital Sky Survey. Шавинський зрозумів, що йому потрібен більш масштабний підхід.
На щастя, виявилося, що завдання класифікаційних галактик не вимагає підвищення кваліфікації в області астрономії; ви можете навчити когось зробити це досить швидко. Іншими словами, не дивлячись на те, класифікації галактик є завданням, яке було важко для комп'ютерів, це було досить легко для людей. Отже, сидячи в барі в Оксфорді, Schawinski і малий астроном Кріс Lintott мріяв створити сайт, де волонтери будуть класифікувати зображення галактик. Через кілька місяців, Galaxy Zoo народився.
На веб-сайті Галактичного зоопарку добровольці пройдуть кілька хвилин навчання; наприклад, вивчаючи різницю між спіральною та еліптичною галактиками (рис. 5.2). Після цього тренінгу кожному волонтерові довелося пройти відносно легкий вікторин-правильно класифікувати 11 з 15 галактик з відомими класифікаціями, а потім почати справжню класифікацію невідомих галактик через простий веб-інтерфейс (малюнок 5.3). Перехід від волонтерів до астрономів відбудеться менш ніж за 10 хвилин, і лише потрібно пройти найнижчу перешкоду, просту вікторину.
Галактичний зоопарк залучив своїх початкових волонтерів після того, як проект був представлений в статті новин, і за півроку проект залучив понад 100 000 вчених-громадян, людей, які брали участь, тому що вони насолоджувались цією справою, і вони хотіли сприяти астрономії. Разом ці 100 000 добровольців надали загальну суму понад 40 млн. Класифікацій, більшість класифікацій яких належить відносно невеликій групі учасників (Lintott et al. 2008) .
Дослідники, які мають досвід наймання аспірантів-дослідників, можуть негайно скептично ставитися до якості даних. Хоча цей скептицизм є розумним, Галактичний зоопарк показує, що коли добровільні внески правильно очищуються, дебіаруються та об'єднуються, вони можуть забезпечувати високоякісні результати (Lintott et al. 2008) . Важливим трюком для того, щоб натовп створити професійні дані, - це надмірність , тобто однакові завдання виконуються багатьма різними людьми. У Галактичному зоопарку на кожну галактику було близько 40 класифікацій; Дослідники, які використовують аспірантів-дослідників, ніколи не зможуть дозволити собі цей рівень надмірності, і, отже, вони повинні значно більше турбуватися про якість кожної окремої класифікації. Що добровольців бракувало в навчанні, вони звільнялися.
Навіть при кількох класифікаціях на одну галактику, однак, поєднання множини волонтерських класифікацій з метою досягнення консенсусної класифікації було складним. Оскільки в більшості людських обчислювальних проектах виникають дуже схожі проблеми, корисно коротко розглянути три кроки, які дослідники Галактичного зоопарку використовували для вироблення їх консенсусних класифікацій. По-перше, дослідники "очистили" дані, видаливши фальшиві класифікації. Наприклад, люди, які неодноразово класифікували одну і ту саму галактику - те, що трапиться, якщо вони намагаються маніпулювати результатами, - всі їх класифікації відкинуті. Це та інше подібне очищення видалено близько 4% всіх класифікацій.
По-друге, після очищення дослідники мали усунути систематичні упередження в класифікаціях. Завдяки серії досліджень з упередженості, вбудованих в початковий проект, наприклад, показавши деяким добровольцям галактику в монохромному замість кольору, дослідники виявили кілька систематичних упереджень, такі як систематичне упередження класифікувати далекі спіральні галактики як еліптичні галактики (Bamford et al. 2009) . Регулювання для цих систематичних упереджень є надзвичайно важливим, оскільки надмірність не автоматично усуває систематичне упередження; це лише допоможе видалити випадкову помилку.
Нарешті, після дебіації, дослідники потребували методу поєднання окремих класифікацій для досягнення консенсусної класифікації. Найпростішим способом поєднання класифікацій для кожної галактики було б вибрати найпоширенішу класифікацію. Однак цей підхід давав би кожному добровольцю рівну вагу, і дослідники підозрювали, що деякі добровольці були краще класифікувати, ніж інші. Тому дослідники розробили більш складну ітераційну процедуру зважування, яка намагалася виявити найкращі класифікатори та надати їм більше ваги.
Таким чином, після триетапної процедури очищення, дебіації та зважування - дослідницька група Galaxy Zoo перетворила 40 мільйонів класифікацій волонтерів в набір консенсусних морфологічних класифікацій. Коли класифікації цих галактичних зоологій порівнювалися з трьома попередніми масштабними спробами професійних астрономів, включаючи класифікацію Швайінсі, яка допомагала надихнути зоопарк Галактики, існувала сильна згода. Таким чином, добровольці в сукупності мали змогу забезпечити якісне класифікацію і в масштабах, які дослідники не змогли зіставити (Lintott et al. 2008) . Насправді, маючи класифікацію людей для такої великої кількості галактик, Шавинські, Лінтот та інші змогли показати, що лише близько 80% галактик слідувати за очікуваними візерунками - синіми спіралями та червоними еліптиками - і написано багато документів це відкриття (Fortson et al. 2011) .
Враховуючи цей фон, тепер ви можете побачити, як Galaxy Zoo слідкує за рецептом split-apply-combine, той же рецепт, який використовується для більшості обчислювальних проектів. По-перше, велика проблема розділена на шматки. У цьому випадку проблема класифікації мільйонів галактик була розділена на мільйонні проблеми класифікації однієї галактики. Далі операція застосовується до кожного шару самостійно. У цьому випадку волонтери класифікують кожну галактику як спіральну, так і еліптичну. Нарешті, результати об'єднуються для досягнення консенсусу. У цьому випадку комбінований крок включав очищення, дебіалізацію та зважування для створення консенсусної класифікації для кожної галактики. Незважаючи на те, що в більшості проектів використовується цей загальний рецепт, кожен крок повинен бути налаштований на вирішення конкретної проблеми. Наприклад, в проекті обчислення людей, описаному нижче, слід дотримуватися одного і того ж рецепту, однак етапи застосування та об'єднання будуть зовсім іншими.
Для команди Галактичного зоопарку цей перший проект був лише початком. Дуже швидко вони зрозуміли, що, хоча вони змогли класифікувати близько мільйона галактик, цей масштаб недостатньо для роботи з новими дослідженнями цифрового неба, що дає змогу створювати зображення приблизно 10 мільярдів галактик (Kuminski et al. 2014) . Для обробки збільшення від 1 мільйони до 10 мільярдів - в 10 мільйонів доларів, Галактичний зоопарк повинен буде набрати приблизно 10 тисяч разів більше учасників. Хоча кількість волонтерів в Інтернеті велика, це не нескінченно. Тому дослідники зрозуміли, що, якщо вони збираються обробляти постійно зростаючу кількість даних, потрібен новий, ще більш масштабований підхід.
Тому Манда Банерджі, працюючи з Шавинським, Лінноттом та іншими членами колективу Галактичного зоопарку (2010) Розпочав навчання комп'ютерів для класифікації галактик. Більш конкретно, використовуючи людські класифікації, створені Галактичним зоопарком, Банержи побудував модель машинного навчання, яка могла б передбачити класифікацію людини галактики на основі характеристик зображення. Якщо ця модель могла б відтворити людські класифікації з високою точністю, то її могли б використовувати дослідники зоопарку Галактики, щоб класифікувати практично нескінченну кількість галактик.
Суть підходу Банерджи та його колег насправді дуже схожа на методи, які широко застосовуються в соціальних дослідженнях, хоча таке подібність на перший погляд може бути не зрозумілим. По-перше, Banerji та його колеги перетворили кожне зображення в набір чисельних функцій, які узагальнили його властивості. Наприклад, для зображень галактик може бути три функції: кількість синього зображення, різниця в яскравості пікселів та частка не-білих пікселів. Вибір правильних функцій є важливою частиною проблеми, і це, як правило, вимагає експертизи предметної сфери. Цей перший крок, зазвичай називається функцією , дає матрицю даних з однією рядком на зображення, а потім трьома стовпцями, що описують це зображення. З урахуванням матриці даних та бажаного результату (наприклад, чи було зображення класифіковано людиною як еліптичну галактику), дослідник створює статистичну або машинну модель навчання, наприклад, логістичну регресію, яка передбачає класифікацію людини на основі функцій зображення. Нарешті, дослідник використовує параметри в цій статистичній моделі для отримання оціночних класифікацій нових галактик (рис. 5.4). Під час навчання комп'ютера такий підхід, що містять наведені приклади для створення моделі, який може називати нові дані, називається контрольованим навчанням .
Особливості моделі машинного навчання Банерджі та колег були більш складними, ніж ті, що містяться в прикладі моєї іграшки, наприклад, вона використовувала такі функції, як "де Ваукоулерс вписується в осьове співвідношення" - і її модель не логістична регресія, це була штучна нейронна мережа. Використовуючи свої функції, модель та класифікацію консенсусу Галактики зоопарку, вона змогла створити ваги на кожну функцію, а потім використати ці ваги для прогнозування класифікації галактик. Наприклад, в її аналізі було виявлено, що зображення з низьким співвідношенням "осьове співвідношення Вакулера", швидше за все, були спіральними галактиками. Враховуючи ці ваги, вона змогла передбачити людську класифікацію галактики з розумною точністю.
Робота Банерджі та її колег перетворила Galaxy Zoo на те, що я б назвав системою обчислень з комп'ютером . Найкращий спосіб думати про ці гібридні системи полягає в тому, що замість того, щоб люди вирішили проблему, вони створюють набір даних, які можуть бути використані для навчання комп'ютера для вирішення проблеми. Іноді навчання комп'ютера для вирішення проблеми може вимагати багато прикладів, і єдиним способом створення достатньої кількості прикладів є масове співробітництво. Перевага цього підходу до комп'ютера полягає в тому, що він дозволяє обробляти суттєво нескінченну кількість даних за допомогою лише кінцевої кількості людських зусиль. Наприклад, дослідник із мільйонами людських галактик може створити прогнозну модель, яку потім можна використовувати для класифікації мільярдів або навіть трильйонів галактик. Якщо є величезна кількість галактик, то такий різновид людсько-комп'ютерного гібриду є дійсно єдиним можливим рішенням. Однак ця нескінченна масштабованість не є вільною. Побудова моделі машинного навчання, яка дозволяє правильно відтворити класифікацію людей, сама по собі є важкою проблемою, але, на щастя, вже є чудові книги, присвячені цій темі (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Галактичний зоопарк - хороша ілюстрація того, скільки людей розвиває обчислювальні проекти. По-перше, дослідник намагається здійснити проект самостійно або з невеликою групою помічників-дослідників (наприклад, початкова класифікація Шейвінського). Якщо цей підхід не має достатньої ваги, дослідник може перейти до обчислювального проекту з багатьма учасниками. Але для певного обсягу даних чистого людського зусилля буде недостатньо. На цьому етапі дослідникам потрібно побудувати комп'ютерну систему обчислень, в якій класифікація людей використовується для навчання моделі машинного навчання, яка потім може бути застосована до практично необмеженої кількості даних.