星系動物園結合了許多非專業志願者的努力,一萬個星系進行分類。
星系動物園的前身是於2007年簡化了不少,Schawinski感興趣的星系所面臨的凱文Schawinski,研究生在牛津大學天文學的問題,和星系可以被歸類它們的形態,橢圓形或螺旋和可以通過顏色藍色或紅色。當時,天文學家之間的傳統智慧是螺旋星系,就像我們的銀河系,是在顏色(表明青年)的藍色和橢圓星系是在紅色(表示老年)。 Schawinski懷疑這種傳統智慧。他懷疑,儘管這種模式可能是一般真實的,大概有例外的一個相當大的數量,並通過研究大量的這些不尋常的星系,在那不適合的人的預期模式,他可以學到一些有關的程序,通過這種星系形成的。
因此,那些Schawinski必要的,以顛覆傳統的智慧是一大套形態分類星系;即,已被分類為螺旋或橢圓星系。的問題,然而,是現有的分類算法的方法尚未足夠好以用於科研;換句話說,分類星系是,在那個時候,這是很難的計算機中的問題。因此,需要的是大量的人力分類的星系。 Schawinski進行這種分類問題,研究生的積極性。在七,12個小時馬拉松會議上,他能夠到50000個星系進行分類。雖然50000的星系可能聽起來很多,但實際上只有5%左右的近百萬個星系先前她在斯隆數字巡天被拍到的。 Schawinski意識到他需要一個更加可擴展的方法。
幸運的是,事實證明,分類星系的任務不需要在天文學高級培訓;你可以教別人很快做到這一點。換句話說,即使分類星系是很難計算機任務,這是很容易為人類。所以,雖然坐在牛津,Schawinski和同事天文學家克里斯·林托特一家酒吧想出了一個網站,志願者們進行分類星系圖像。幾個月後,星系動物園誕生了。
在星系動物園網站,志願者將接受培訓幾分鐘;例如,學習和螺旋橢圓星系(圖5.2)之間的差異。這次培訓後,志願者必須通過一個相對容易的競猜正確分類11月15日的星系已知分類,然後將志願者通過一個簡單的基於Web的界面(如圖5.3)開始的未知星系的真實分類。從志願者天文學家的轉變將發生在不到10分鐘,只需要通過最低的障礙,一個簡單的測驗。
星系動物園吸引了其最初的志願者項目是在新聞報導後特色,並在半年左右的項目發展到涉及超過10萬公民科學家,人誰參加,因為他們享有的任務,他們想幫助推進天文學。總之,這些志願者10萬,共40多萬元的分類作出了貢獻,主要來自參與者相對較少,核心小組來的分類(Lintott et al. 2008)
誰有經驗的招聘本科生科研助理研究人員可能會立即會懷疑數據的質量。雖然這種懷疑是合理的,星系動物園表明,當志願人員的貢獻完全清潔乾淨,debiased,並匯總,就可以生產出高品質的結果(Lintott et al. 2008)獲取人群創建專業品質的數據的一個重要技巧是冗餘 ;即,具有相同的任務由許多不同的人進行。在星系動物園,有每銀河系約40分類;使用本科生研究助理可能永遠買不起這個級別的冗餘,因此研究人員需要更加關注每個分類的質量。什麼是志願者培訓缺乏,他們提出了與冗餘。
即使每星系多個分類,然而,組合所述一組志願者分類,以產生一種共識分類是棘手的。由於非常相似的挑戰,在大多數人的計算項目的出現,是有幫助的簡要回顧了星系動物園的研究人員用來製作他們的共識分類的三個步驟。首先,研究人員通過刪除虛假分類“乾淨”的數據。例如,誰一再歸類同一星系的東西,如果他們試圖操縱這會發生人的結果,有其所有分類丟棄。這個和其它類似的清洗除去所有分類的約4%。
二,清洗後,研究者需要刪除分類系統偏差。通過一系列的嵌入式原來的項目,例如在偏差檢測的研究,顯示出一些志願者單色,而不是星系的顏色,研究人員發現一些系統性偏差,如系統性偏差到很遠的螺旋星系橢圓星系進行分類(Bamford et al. 2009)調整這些系統偏差,因為平均的許多貢獻不排除系統性偏差是非常重要的;它不僅能消除隨機誤差。
最後,消除直流偏壓之後,研究人員需要對個人分類相結合,產生了共識分類的方法。為每個星系結合分類的最簡單的方法是將選擇最常見的分類。但是,這種做法會給每個志願者相同的權重,而研究人員懷疑,一些志願者在分類比別人做得更好。因此,研究人員開發了嘗試自動檢測的最佳分類器和給予他們更多重量的更複雜的迭代加權程序。
因此,三個步驟 - 清潔,消除直流偏壓和加權星系動物園的研究團隊經過改裝了4000萬志願者分類為一組的共識形態分類。當這些星系動物園的分類進行了比較,由專業天文學家前三次小規模的嘗試,包括通過Schawinski分類,有助於激發星系動物園,有強烈的共識。因此,志願者,合共能夠提供高品質的分類,並在規模,研究人員無法比擬(Lintott et al. 2008)事實上,有這樣一個大量星系的人分類,Schawinski,林托特,以及其他能夠證明,只有約80%的星系按照預期模式藍色螺旋和紅色橢圓和多篇論文已被寫入有關這一發現(Fortson et al. 2011)
在此背景下,我們現在可以看到星系動物園如何遵循拆分申請-結合的配方,即用於大多數人計算項目相同的配方。首先,一個很大的問題被分為組塊。在這種情況下,進行分類的百萬星系的問題被分成一個星系進行分類的一百萬的問題。接著,操作被獨立地施加到每個塊。在這種情況下,一個志願者將每個星系如任一螺旋或橢圓形進行分類。最後,結果被組合以產生一個共識的結果。在這種情況下,結合步驟包括清潔,消除直流偏壓,和加權以產生用於每個星系共識分類。雖然大多數項目使用通用配方,每個步驟需要定制特定的問題正在解決。例如,在下面描述的人類計算項目,相同的配方將遵循,但適用的結合步驟將是相當不同的。
對於星系動物園隊來說,這第一個項目是剛剛開始。很快他們意識到,即使他們能夠區分接近一百萬個星系,這個規模還不足以與新的數字化巡天觀測,這將產生約10十億個星系的圖像工作(Kuminski et al. 2014) 。為了處理從100萬到10增加了數十億10,000星系動物園的因素就需要招聘約10000倍更多的參與者。即使志願者在因特網上的數量大,這是不是無限的。因此,研究人員意識到,如果他們要處理不斷增長的數據量,需要一個新的,更加可擴展,方法。
因此,曼達巴納吉工作的凱文Schawinski,克里斯·林托特和星系動物園團隊開始教學電腦中的其他成員進行分類的星系。更具體地說,利用星系動物園,創造了人類的分類Banerji et al. (2010)建立了一個機器學習模型,可以預測基於圖像特徵的星系的人分類。如果這個機器學習模型可以重現人類的分類具有精度高,那麼它可能會被星系動物園的研究人員用來星系實質上無限數量分類。
巴納吉的和他的同事'方法的核心實際上是相當類似的社會研究常用的技巧,雖然這種相似可能不會在第一次一目了然。首先,巴納吉和同事轉換每個圖像轉換為一組匯總它的屬性數值的功能 。例如,對於星系圖片可以有三個特點:藍色的圖像中的量,在各像素的亮度方差和非白色像素比例。正確特性的選擇是問題的一個重要組成部分,它通常需要學科領域的專家。這第一步,通常被稱為功能的工程 ,導致數據矩陣,每幅圖像行,然後三列描述的形象。給出的數據矩陣和所需的輸出(例如,圖像是否由一個人作為一個橢圓星系分類),研究者估計統計模型 - 例如參數,像邏輯回歸-該預測基於人類分類上的圖像的特性。最後,研究人員使用的參數在這個統計模型來產生新的星系估計的分類(圖5.4)。想想看一個社會的模擬,設想你有一百萬學生人口統計信息,你知道他們是否從大學或沒有畢業。你可以安裝一個回歸到這個數據,那麼你可以使用生成的模型參數來預測新的學生是否會從大學畢業。在機器學習,這種方法,使用標記的例子來創建一個統計模型,然後可以標註新的數據被稱為監督學習 (Hastie, Tibshirani, and Friedman 2009) 。
在功能Banerji et al. (2010)機器學習模型均低於我的玩具的例子,例如,她用類似的特徵更為複雜的“德沃古勒適合軸比” -和她的模型並不Logistic回歸,這是一個人工神經網絡。用她的特點,她的模型,並達成共識星系動物園的分類,她能夠在每個功能創建的權重,然後利用這些權重做出關於星系的分類預測。例如,她的分析發現,與低“德沃古勒適合軸比”圖像更可能是螺旋星系。鑑於這些權重,她是能夠預測一個星系的人分類的合理準確。
的工作Banerji et al. (2010)變成星系動物園為我所說的第二代人腦運算系統。想想這些第二代系統的最好方法是,而不是人類解決一個問題,他們有人類構建可用於訓練計算機解決問題的數據集。訓練計算機所需的數據量可以是如此之大,它需要一個人的大規模協作來創建。在星系動物園,由所使用的神經網絡的情況下, Banerji et al. (2010)要求,以建立一個模型,能夠可靠地再現人類的分類非常多的人標記的例子。
這種電腦輔助方法的優點是,它使您能夠處理只使用人的努力是有限的數據量基本上是無限量的。例如,一百萬人的分類星系研究員可以建立,然後可以用於一個十億甚至萬億星系分類預測模型。如果有星系的巨大的數字,那麼這種人機混合的真的是唯一可能的解決方案。這無限的可擴展性是不是免費的,但是。建立一個機器學習模型,可以正確地再現人類的分類本身是一個很難的問題,但幸運的是,已經有專門為這個主題的優秀著作(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013)
星系動物園表明許多人類計算項目的發展。首先,研究人員通過自己或研究助理的一個小團隊(例如,Schawinski的初步分類的努力)試圖項目。如果這種方法不能很好地擴展,研究者可以移動到一個人的計算項目中,很多人貢獻的分類。但是,對於數據一定體積,純淨的人的努力是不夠的。在這一點上,研究人員需要建立,其中人類分類是用於訓練,然後可以應用到幾乎無限量的數據的機器學習模型的第二代系統。