Galaxie Zoo kombinovala úsilí mnoha ne-expertních dobrovolníků o zařazení milionu galaxií.
Zoo Galaxy se vynořilo z problému, kterým čelil Kevin Schawinski, absolventský studijní program Astronomie na Oxfordské univerzitě v roce 2007. Schawinski se trochu zjednodušeně zajímal o galaxie a galaxie mohou být klasifikovány podle jejich morfologie - eliptických nebo spirálních - a podle jejich barvy modré nebo červené. V té době byla běžná moudrost mezi astronomy to, že spirální galaxie, stejně jako naše Mléčná dráha, měly modrou barvu (ukazující mládí) a eliptické galaxie byly červené (což naznačovalo stáří). Schawinski pochyboval o této konvenční moudrosti. Předpokládal, že zatímco tento vzorec může být obecně pravdivý, pravděpodobně existuje značný počet výjimek a studiem mnoha neobvyklých galaxií - těch, které neodpovídaly očekávanému vzoru - se mohl dozvědět něco o procesu, kterým vytvořené galaxie.
To, co potřeboval Schawinski k tomu, aby převrátil konvenční moudrost, byl velký soubor morfologicky klasifikovaných galaxií; to znamená, galaxie, které byly klasifikovány jako spirální nebo eliptické. Problémem však bylo, že existující algoritmické metody pro klasifikaci nebyly dosud dostatečně vhodné pro vědecký výzkum; jinými slovy, klasifikace galaxií byla v té době problémem, který byl pro počítače těžký. Proto bylo potřeba velké množství lidských klasifikovaných galaxií. Schawinski provedl tento klasifikační problém s nadšením absolventa. V maratónovém sedmihodinovém dvanáctihodinovém dni byl schopen klasifikovat 50 000 galaxií. Zatímco 50 000 galaxií může znít jako hodně, je to vlastně jen asi 5% téměř milionu galaxií, které byly pořízeny v průzkumu Sloan Digital Sky Survey. Schawinski si uvědomil, že potřebuje více škálovatelný přístup.
Naštěstí se ukázalo, že úkolem klasifikace galaxií nevyžaduje pokročilý výcvik v astronomii; můžete učit někoho, kdo by to docela rychle. Jinými slovy, i když klasifikaci galaxií je úkol, který bylo těžké pro počítače, to bylo docela snadné pro lidi. Takže, když seděl v hospodě v Oxfordu, Schawinski a kolega astronom Chris Lintott vymyslel webové stránky, kde by dobrovolníci zařadit obrazy galaxií. O několik měsíců později, Galaxy Zoo se narodil.
Na stránkách Galaxy Zoo by dobrovolníci absolvovali několik minut školení; například poznáním rozdílu mezi spirálou a eliptickou galaxií (obrázek 5.2). Po tomto tréninku každý dobrovolník musel projít poměrně snadnou kvíz správnou klasifikací 11 z 15 galaxií se známými klasifikacemi a pak by začal skutečné klasifikaci neznámých galaxií prostřednictvím jednoduchého webového rozhraní (obrázek 5.3). Přechod z dobrovolníka na astronom by se uskutečnil za necelých 10 minut a pouze vyžadoval absolvování nejmenšího překážky, jednoduchý kvíz.
Galaxie Zoo přilákala své počáteční dobrovolníky poté, co byl projekt uveden ve zpravodajském článku, a za zhruba šest měsíců se do projektu zapojilo více než 100 000 občanských vědců, kteří se zúčastnili, protože se jim to líbilo a chtěli pomoci pokročit v astronomii. Společně se těchto 100 000 dobrovolníků podílelo celkem více než 40 milionů klasifikací, přičemž většina klasifikací pocházela z relativně malé základní skupiny účastníků (Lintott et al. 2008) .
Výzkumní pracovníci, kteří mají zkušenosti s přijímáním vysokoškolských výzkumných asistentů, mohou být okamžitě skeptičtí ohledně kvality dat. Zatímco tento skepticismus je přiměřený, Galaxy Zoo ukazuje, že když dobrovolné příspěvky jsou správně vyčištěny, debianovány a agregovány, mohou produkovat vysoce kvalitní výsledky (Lintott et al. 2008) . Důležitým trikem pro získání davu při vytváření dat profesionální kvality je nadbytečnost , to znamená, že má stejný úkol vykonávaný mnoha různými lidmi. V Galaxy Zoo bylo okolo 40 klasifikací na galaxii; výzkumníci používající vysokoškolské výzkumné asistenty by si nikdy nemohli dovolit tuto úroveň nadbytečnosti, a proto by se měli mnohem více zabývat kvalitou každé jednotlivé klasifikace. Co dobrovolníci postrádali ve výcviku, se jim podařilo s redundancí.
I při několika klasifikacích na galaxii však kombinace souboru dobrovolnických klasifikací za účelem dosažení konsenzuální klasifikace byla složitá. Vzhledem k tomu, že ve většině lidských výpočetních projektů vznikají velmi podobné problémy, je užitečné stručně zhodnotit tři kroky, které vědci Galaxy Zoo používali při vytváření konsenzuálních klasifikací. Nejprve vědci "vyčistili" data odstraněním falešných klasifikací. Například lidé, kteří opakovaně klasifikovali stejnou galaxii - něco, co by se stalo, kdyby se pokoušeli manipulovat s výsledky - měly všechny své klasifikace vyřazené. Toto a jiné podobné čištění odstranilo přibližně 4% všech klasifikací.
Zadruhé, po vyčištění výzkumníci museli odstranit systematické předsudky v klasifikaci. Prostřednictvím série studií detekce předsudků, které byly začleněny do původního projektu - například ukázaly některé dobrovolníky galaxii v monochromu místo barvy - výzkumníci objevili několik systematických předsudků, jako je systematické předpojatost klasifikovat vzdálené spirální galaxie jako eliptické galaxie (Bamford et al. 2009) . Úprava těchto systematických předsudků je nesmírně důležitá, protože redundance automaticky neodstraní systematické zkreslení; pomůže pouze odstranit náhodné chyby.
Nakonec, po debiasingu, vědci potřebovali metodu, jak kombinovat jednotlivé klasifikace za účelem dosažení konsenzuální klasifikace. Nejjednodušší způsob kombinace klasifikací pro každou galaxii by byl výběr nejběžnější klasifikace. Tento přístup by však každému dobrovolníkovi poskytl stejnou váhu a výzkumní pracovníci měli podezření, že někteří dobrovolníci mají lepší kvalifikaci než jiní. Proto vědci vyvinuli složitější opakovací postup vážení, který se pokusil zjistit nejlepší klasifikátory a dát jim větší váhu.
Po třístupňovém procesu čištění, odstraňování a vážení - výzkumný tým Galaxy Zoo převedl 40 milionů dobrovolnických klasifikací do souboru konsensuálních morfologických klasifikací. Když byly tyto klasifikace Galaxy Zoo srovnávány s třemi předchozími menšími pokusy profesionálních astronomů, včetně klasifikace od Schawinského, které pomohly inspirovat Galaxy Zoo, existovala silná shoda. Dobrovolníci tak celkově dokázali poskytnout vysoce kvalitní klasifikaci a v takovém rozsahu, že výzkumníci nemohli odpovídat (Lintott et al. 2008) . Ve skutečnosti, díky lidským klasifikacím pro tak velký počet galaxií, Schawinski, Lintott a další dokázali ukázat, že jen asi 80% galaxií sleduje očekávanou modrou spirálu a červené eliptiky - a o něm bylo napsáno množství dokumentů tento objev (Fortson et al. 2011) .
Vzhledem k tomuto pozadí nyní můžete vidět, jak se Galaxy Zoo řídí receptem split-apply-combine, stejným receptorem, který se používá pro většinu lidských výpočetních projektů. Za prvé, velký problém je rozdělen na kusy. V tomto případě byl problém klasifikace milionu galaxií rozdělen na milion problémů klasifikace jedné galaxie. Dále je operace aplikována na každý blok nezávisle. V tomto případě dobrovolníci klasifikovali každou galaxii jako spirálovou nebo eliptickou. Konečně jsou výsledky kombinovány, aby se dosáhlo konsenzuálního výsledku. V tomto případě kombinační krok zahrnoval čištění, debisování a vážení, aby bylo dosaženo konsenzuální klasifikace pro každou galaxii. I když většina projektů používá tento obecný recept, každý krok musí být přizpůsoben danému konkrétnímu problému. Například v projektu lidského výpočtu, který je popsán níže, bude následován stejný recept, ale aplikovatelné a kombinované kroky budou zcela odlišné.
Pro tým Galaxy Zoo byl tento první projekt jen počátkem. Velmi rychle si uvědomili, že i když byli schopni klasifikovat téměř milión galaxií, tato stupnice nestačí k práci s novějšími průzkumy digitálních (Kuminski et al. 2014) , které mohou produkovat obrazy asi 10 miliard galaxií (Kuminski et al. 2014) . Aby bylo možné zvládnout nárůst z 1 milionu na 10 miliárd, bude muset faktor 10 000 galaxií potřebovat zhruba 10 000krát více účastníků. I když počet dobrovolníků na internetu je velký, není to nekonečné. Výzkumníci si proto uvědomili, že pokud budou zpracovávat stále rostoucí množství dat, bude zapotřebí nového, dokonce škálovatelnějšího přístupu.
Proto Manda Banerji - spolupracovala se Schawinskim, Lintottem a dalšími členy týmu Galaxy Zoo (2010) začala učit počítače k klasifikaci galaxií. Konkrétněji, za použití lidských klasifikací vytvořených Galaxy Zoo, Banerji postavil strojový učební model, který by mohl předpovídat lidskou klasifikaci galaxie na základě vlastností obrazu. Pokud by tento model mohl reprodukovat lidské klasifikace s vysokou přesností, mohl by ji použít vědci Galaxy Zoo k tomu, aby klasifikovali v podstatě nekonečný počet galaxií.
Jádro přístupu společnosti Banerji a kolegů je ve skutečnosti hodně podobné technikám běžně používaným v sociálním výzkumu, ačkoli tato podobnost nemusí být na první pohled jasná. Za prvé, Banerji a kolegové přeměnili každý snímek na soubor číselných prvků, které shrnuly jeho vlastnosti. Například u snímků galaxií mohou existovat tři funkce: množství modré v obraze, odchylka jasu pixelů a podíl nebilých pixelů. Výběr správných funkcí je důležitou součástí problému a obecně vyžaduje odborné znalosti z oblasti. Tento první krok, běžně nazvaný inženýrská funkce , vede k datové matici s jedním řádkem na jeden snímek a pak ke třem sloupcům popisujícím tento obrázek. Vzhledem k datové matici a požadovanému výstupu (např. Zda byl obraz klasifikován člověkem jako eliptická galaxie), vytvoří výzkumník model statistického nebo strojového učení - například logistickou regresi - která předpovídá klasifikaci člověka na základě vlastností obrázku. Konečně výzkumník používá parametry v tomto statistickém modelu, aby vytvořil odhadované klasifikace nových galaxií (obrázek 5.4). Při strojovém učení se tento přístup používá pomocí značkových příkladů k vytvoření modelu, který lze označit novými údaji, a je nazýván supervizovaným učením .
Funkce v modelu strojového učení od společnosti Banerji a kolegy byly mnohem složitější než ty, které jsem použil v mém příkladu hraček - používá například funkce jako "de Vaucouleurs fit axial ratio" - a její model nebyl logistickou regresí, byla to umělá neuronová síť. S využitím jejích vlastností, modelu a konsenzu klasifikace Galaxy Zoo dokázala vytvářet váhy pro každou funkci a pak tyto váhy použila k předpovědi klasifikace galaxií. Například její analýza zjistila, že obrazy s nízkým "axiálním poměrem fit de Vaucouleurs" byly spíše spirálními galaxiemi. Vzhledem k těmto závažim byla schopna předpovědět lidskou klasifikaci galaxie s přiměřenou přesností.
Práce Banerji a jeho kolegů změnila Galaxy Zoo na to, co bych nazval počítačovým systémem lidského výpočtu . Nejlepší způsob, jak přemýšlet o těchto hybridních systémech, je, že spíše než vyřešení problému s lidmi, mají lidé vybudovat soubor dat, který lze použít k vycvičení počítače k vyřešení problému. Někdy může školení počítače k vyřešení problému vyžadovat spoustu příkladů a jediným způsobem, jak vytvořit dostatečný počet příkladů, je masová spolupráce. Výhodou tohoto přístupu podporovaného počítačem je to, že umožňuje pracovat s nekonečně velkým množstvím dat pouze s konečným množstvím lidského úsilí. Například výzkumník s milionem klasifikovaných galaxií může postavit předpovědní model, který pak může být použit pro klasifikaci miliardy nebo dokonce biliónů galaxií. Pokud existuje obrovské množství galaxií, je tento druh hybridního člověka-počítač skutečně jediným možným řešením. Tato nekonečná škálovatelnost však není volná. Vytváření modelu strojového učení, které může správně reprodukovat lidské klasifikace, je samo o sobě těžkým problémem, ale naštěstí již existují vynikající knihy věnované tomuto tématu (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Zoo Galaxy je dobrou ukázkou toho, kolik lidských výpočetních projektů se vyvíjí. Za prvé se výzkumník pokouší o projekt sám nebo s malým týmem výzkumných asistentů (např. Počáteční klasifikační úsilí Schawinského). Pokud se tento přístup nezmění dobře, může se výzkumník přesunout do projektu lidského výpočtu s mnoha účastníky. Ale pro určitý objem dat nebude postačovat čistá lidská snaha. V tomto okamžiku musí vědci vybudovat počítačový počítačový systém, ve kterém jsou lidské klasifikace používány k výuce modelu strojového učení, který pak může být aplikován na prakticky neomezené množství dat.