Galaxy Zoo, bir milyon galaksiyi sınıflandırmak için pek çok uzman olmayan gönüllünün çabalarını birleştirdi.
Galaxy Zoo, 2007 yılında Oxford Üniversitesi'ndeki Astronomi'de yüksek lisans öğrencisi olan Kevin Schawinski'nin karşılaştığı bir sorundan kaynaklandı. Schawinski, birazcık basitleştirdi, galaksilerle ilgileniyordu ve galaksiler, morfolojileriyle eliptik veya spiral olarak sınıflandırılabilirdi. Renklerine göre - mavi veya kırmızı. O zamanlar, astronomlar arasındaki geleneksel akıl, Samanyolu'nuz gibi sarmal gökadaların, mavi renkte olduğunu (gençliği gösteren) ve eliptik gökadaların kırmızı olduğunu (yaşlılığı gösteren) olduğudur. Schawinski bu geleneksel bilgeliğinden şüphe ediyordu. Bu örüntü genel olarak doğru olsa da, büyük olasılıkla istisnai sayıda istisna vardı ve bu olağandışı gökadaların birçoğunu inceleyerek - beklenen paterne uymayanlar - bu süreçle ilgili bir şey öğrenebilirdi. galaksiler oluşmuştur.
Böylece, Schawinski'nin geleneksel bilgeliği devirmek için ihtiyaç duyduğu şey, büyük bir morfolojik olarak sınıflandırılmış gökada kümesiydi; Yani, sarmal veya eliptik olarak sınıflandırılmış olan galaksiler. Ancak problem, sınıflandırma için var olan algoritmik yöntemlerin henüz bilimsel araştırmalarda kullanılmak için yeterince iyi olmamasıydı; Başka bir deyişle, galaksilerin sınıflandırılması, o sırada, bilgisayarlar için zor bir problemdi. Bu nedenle, ihtiyaç duyulan şey, çok sayıda insan- sınıflandırılmış gökada idi. Schawinski, bu sınıflandırma problemini bir yüksek lisans öğrencisinin coşkusuyla üstlendi. Yedi 12 saatlik bir maraton seansında, 50.000 gökadayı sınıflandırabildi. 50.000 galaksi çok ses çıkarsa da, aslında Sloan Dijital Gökyüzü Anketi'nde çekilmiş olan neredeyse bir milyon galaksinin yaklaşık% 5'i. Schawinski, daha ölçeklenebilir bir yaklaşıma ihtiyacı olduğunu fark etti.
Neyse ki, sınıflandırmak gökadaların görev astronomi ileri eğitim gerektirmez çıkıyor; oldukça hızlı bir şekilde bunu yapmak için birini öğretebilir. galaksileri sınıflandırmak bilgisayarlar için zor bir görev olsa da, diğer bir deyişle, bu insanlar için oldukça kolay oldu. Yani, Oxford, Schawinski ve diğer astronom Chris Lintott bir barda otururken gönüllüler galaksilerin görüntülerini sınıflandırmak bir web sitesi hayal. Birkaç ay sonra, Galaxy Zoo doğdu.
Galaxy Zoo web sitesinde gönüllüler birkaç dakika eğitimden geçecek; Örneğin, bir spiral ve eliptik gökada arasındaki farkı öğrenmek (Şekil 5.2). Bu eğitimden sonra, her gönüllünün nispeten kolay bir sınavı geçmesi gerekiyordu - 15 gökadadan 11'i bilinen sınıflandırmalarla doğru olarak sınıflandırıyordu - ve daha sonra, bilinmeyen gökadaların basit bir web-tabanlı arayüz üzerinden gerçek sınıflandırmasına başlayacaktı (Şekil 5.3). Gönüllüden astronoma geçiş 10 dakikadan kısa bir sürede gerçekleşecek ve sadece en düşük engellerin geçmesi gerektiği, basit bir sınav.
Projenin bir haber makalesinde yer almasından sonra Galaxy Zoo ilk gönüllülerini çekti ve yaklaşık altı ay içinde proje 100.000'den fazla vatandaş bilim insanı, görev aldıkları ve katıldığı astronomiye yardım etmek istedikleri için katılmış kişilerin katılımıyla büyüdü. Bu 100.000 gönüllü, toplamda 40 milyondan fazla sınıflandırmaya katkıda bulunmuş, sınıfların çoğunluğu ise nispeten küçük, çekirdek bir katılımcı grubundan gelmektedir (Lintott et al. 2008) .
Lisans araştırma görevlilerini işe alma deneyimi olan araştırmacılar, veri kalitesi konusunda şüpheci olabilirler. Bu kuşkuculuk makul olsa da, Galaxy Hayvanat Bahçesi gönüllü katkıları doğru bir şekilde temizlendiğinde, tarafsız ve toplu olarak yüksek kaliteli sonuçlar üretebileceğini göstermektedir (Lintott et al. 2008) . Profesyonel kalitede veri oluşturmak için kalabalık almak için önemli bir hüner birçok farklı kişiler tarafından gerçekleştirilen aynı görevi haiz olduğu fazlalık vardır. Galaxy Hayvanat Bahçesi'nde, galaksi başına yaklaşık 40 sınıflandırma vardı; Lisans araştırma görevlilerini kullanan araştırmacılar bu fazlalık düzeyini asla karşılayamazlardı ve bu nedenle her bir sınıflamanın kalitesiyle daha fazla ilgilenmek zorunda kalacaklardı. Gönüllüler eğitimde neleri yoktu, fazlalıktan kurdular.
Ancak, gökada başına birden fazla sınıflandırma olsa bile, bir konsensüs sınıflandırması oluşturmak için gönüllü sınıflandırma kümesini birleştirmek zordu. Çoğu insan hesaplama projesinde çok benzer zorluklar ortaya çıktığı için, Galaxy Hayvanat Bahçesi araştırmacılarının fikir birliği sınıflandırmalarını yapmak için kullandıkları üç adımı kısaca gözden geçirmek yararlı olacaktır. İlk olarak, araştırmacılar, sahte sınıflamaları kaldırarak verileri “temizledi”. Örneğin, aynı gökadayı tekrar tekrar sınıflandırmış olan kişiler - sonuçları manipüle etmeye çalışırlarsa gerçekleşecek bir şey - tüm sınıflandırmaları atılmıştı. Bu ve diğer benzer temizlik, tüm sınıflandırmaların yaklaşık% 4'ünü kaldırdı.
İkincisi, temizlikten sonra, araştırmacıların sınıflandırmalarda sistematik önyargıları kaldırmaları gerekiyordu. Özgün projenin içerisine yerleştirilmiş bir dizi önyargı saptama çalışmaları aracılığıyla - örneğin, bazı gönüllüleri galaksinin tek renkli yerine renklendirdiğini gösteren - araştırmacılar, eliptik gökadalar olarak uzaktaki sarmal gökadaları sınıflandırmak için sistematik bir yanlılık gibi çeşitli sistematik yanlılıklar keşfettiler (Bamford et al. 2009) . Bu sistematik önyargıların ayarlanması son derece önemlidir çünkü artıklık sistematik önyargıyı otomatik olarak ortadan kaldırmaz; Sadece rastgele hatayı kaldırmaya yardımcı olur.
Son olarak, dezavantaj yaptıktan sonra, araştırmacıların bireysel sınıflandırmalarını bir konsensüs sınıflandırması oluşturmak için birleştirmek için bir yönteme ihtiyaçları vardı. Her bir gökada için sınıflandırmaları birleştirmenin en basit yolu, en yaygın sınıflandırmayı seçmek olurdu. Ancak, bu yaklaşım her gönüllüye eşit ağırlık verecekti ve araştırmacılar bazı gönüllülerin diğerlerinden daha iyi sınıflandırılmasından şüphe ettiler. Bu nedenle, araştırmacılar en iyi sınıflandırıcıları tespit etmeye ve onlara daha fazla ağırlık vermeyi deneyen daha karmaşık bir yineleme ağırlıklandırma prosedürü geliştirdiler.
Bu nedenle, üç adımlı bir süreçten sonra - temizlik, dezavantaj ve ağırlıklandırma– Galaxy Hayvanat Bahçesi araştırma ekibi 40 milyon gönüllü sınıflandırmayı bir dizi mutabakat morfolojik sınıflandırmasına dönüştürmüştü. Bu Galaxy Hayvanat Bahçesi sınıflandırmaları, Schawinski'nin Galaxy Hayvanat Bahçesi'ne ilham veren sınıflandırması da dahil olmak üzere profesyonel astronomların önceki küçük ölçekli üç denemesiyle karşılaştırıldığında, güçlü bir anlaşma vardı. Böylece, gönüllüler, toplu olarak, yüksek kaliteli sınıflandırmalar sağlayabilmişler ve araştırmacıların eşleştiremediği bir ölçekte (Lintott et al. 2008) . Aslında, bu kadar çok sayıda gökada için insan sınıflandırması yapılarak, Schawinski, Lintott ve diğerleri, gökadaların sadece% 80'inin beklenen paterni (mavi spiraller ve kırmızı eliptikler) izlediğini gösterebilmişlerdir ve çok sayıda makale yazılmıştır. Bu keşif (Fortson et al. 2011) .
Bu arka planı göz önünde bulundurarak, Galaxy Hayvanat Bahçesi'nin, çoğu insan hesaplama projesi için kullanılan aynı reçeteyi, bölünmüş-uygulamalı-tarifi tarifini nasıl izlediğini görebilirsiniz. İlk olarak, büyük bir sorun parçalara ayrılır . Bu durumda, bir milyon galaksiyi sınıflandırma sorunu, bir galaksiyi sınıflandırmak için milyonlarca probleme bölünmüştür. Daha sonra, her yığına bağımsız olarak bir işlem uygulanır . Bu durumda gönüllüler, her bir galaksiyi spiral veya eliptik olarak sınıflandırdılar. Son olarak, sonuçlar bir konsensüs sonucu üretmek için birleştirilmiştir . Bu durumda, birleştirme aşaması, her bir gökada için bir konsensüs sınıflandırması üretmek için temizleme, dezavantaj ve ağırlıklandırma içermiştir. Çoğu proje bu genel tarifi kullansa da, her adımın ele alınan belirli bir problemle özelleştirilmesi gerekmektedir. Örneğin, aşağıda açıklanan insan hesaplama projesinde, aynı tarif takip edilecek, ancak uygulama ve birleştirme adımları oldukça farklı olacaktır.
Galaxy Zoo ekibi için bu ilk proje sadece bir başlangıçtı. Çok hızlı bir şekilde, bir milyona yakın gökadaya sınıflandırma yapabildikleri halde, bu ölçeğin, yaklaşık 10 milyar gökada görüntüleri oluşturabilen yeni dijital gökyüzü araştırmaları ile çalışmak için yeterli olmadığını fark ettiler (Kuminski et al. 2014) . 1 milyondan 10 milyara (10.000 faktör) kadar bir artışı ele almak için, Galaxy Zoo'nun yaklaşık 10.000 kat daha fazla katılımcı alması gerekiyor. İnternet'teki gönüllülerin sayısı büyük olsa da, bu sonsuz değildir. Bu nedenle, araştırmacılar, giderek artan miktarda veriyi ele alacaklarsa, yeni, daha da ölçeklenebilir bir yaklaşıma ihtiyaç olduğunu fark ettiler.
Bu nedenle, Schawinski, Lintott ve Galaxy Zoo ekibinin (2010) diğer üyeleri ile çalışan Manda Banerji, galaksileri sınıflandırmak için bilgisayarları öğretti. Daha özel olarak, Galaxy Zoo tarafından yaratılan insan sınıflandırmaları kullanılarak Banerji, görüntünün özelliklerine dayanarak bir gökadanın insan sınıflandırmasını tahmin edebilen bir makine öğrenme modeli oluşturdu. Bu model, insan sınıflandırmasını yüksek doğrulukla yeniden üretebilirse, Galaxy Zoo araştırmacıları tarafından, sonsuz sayıda gökadayı sınıflandırmak için kullanılabilir.
Banerji'nin ve meslektaşlarının yaklaşımının özü aslında sosyal araştırmalarda yaygın olarak kullanılan tekniklere oldukça benzerdir, ancak benzerlik ilk bakışta net olmayabilir. İlk olarak, Banerji ve meslektaşları her bir görüntüyü özelliklerini özetleyen bir dizi sayısal özellik haline getirdiler. Örneğin, gökadaların görüntüleri için üç özellik olabilir: görüntüdeki mavi miktar, piksellerin parlaklığında varyans ve beyaz olmayan piksellerin oranı. Doğru özelliklerin seçimi sorunun önemli bir parçasıdır ve genellikle konu alanı uzmanlığı gerektirir. Genel olarak özellik mühendisliği olarak adlandırılan bu ilk adım, görüntü başına bir satır ve daha sonra bu resmi tanımlayan üç sütun içeren bir veri matrisiyle sonuçlanır. Veri matrisi ve istenen çıktı (örneğin, görüntünün eliptik bir gökada olarak bir insan tarafından sınıflandırılıp sınıflandırılmadığı) göz önüne alındığında, araştırmacı, özelliklere dayalı olarak insan sınıflandırmasını tahmin eden bir istatistiksel veya makine öğrenme modeli (örneğin, lojistik regresyon) yaratır. görüntünün Son olarak, araştırmacı bu istatistiki modeldeki parametreleri kullanarak yeni galaksilerin tahmini sınıflandırmasını üretmektedir (Şekil 5.4). Makine öğrenmesinde, bu yaklaşım - yeni verileri etiketleyebilen bir model oluşturmak için etiketli örneklerin kullanılması - denetimli öğrenme olarak adlandırılır.
Banerji ve meslektaşlarının makine öğrenme modelindeki özellikler benim oyuncak örneğimdekinden daha karmaşıktı - örneğin, “de Vaucouleurs fit axial ratio” gibi özellikler kullanıyordu - ve onun modeli lojistik regresyon değildi, yapay bir sinir ağıydı. Özelliklerini, modelini ve konsensüs Galaxy Zoo sınıflandırmalarını kullanarak, her özellik için ağırlık oluşturmayı başardı ve sonra galaksilerin sınıflandırılması hakkında tahminler yapmak için bu ağırlıkları kullandı. Örneğin, analizinde düşük “de Vaucouleur'lar eksenel orana uygun” görüntülerin spiral galaksiler olma olasılığının daha yüksek olduğu bulunmuştur. Bu ağırlıklar göz önüne alındığında, bir galaksinin insani sınıflandırmasını makul bir doğrulukla tahmin edebildi.
Banerji ve meslektaşlarının çalışması, Galaxy Hayvanat Bahçesi'ni bilgisayar destekli bir insan hesaplama sistemi olarak adlandırdığım duruma dönüştürdü . Bu karma sistemler hakkında düşünmenin en iyi yolu, insanların bir sorunu çözmekten ziyade, problemi çözmek için bir bilgisayarı eğitmek için kullanabilecekleri bir veri kümesi oluşturmalarıdır. Bazen, problemi çözmek için bir bilgisayarı eğitmek çok fazla örnek gerektirebilir ve yeterli sayıda örnek üretmenin tek yolu kitlesel bir işbirliğidir. Bu bilgisayar destekli yaklaşımın avantajı, yalnızca sınırlı miktarda insan emeği kullanarak esasen sınırsız miktarda veriyi kullanabilmenizdir. Örneğin, bir milyon insan sınıflandırılmış galaksisi olan bir araştırmacı, daha sonra bir milyar veya hatta bir trilyon galaksiyi sınıflandırmak için kullanılabilecek bir tahmin modeli oluşturabilir. Eğer muazzam sayıda gökada varsa, o zaman bu tür insan-bilgisayar melezi gerçekten mümkün olan tek çözümdür. Bununla birlikte, bu sonsuz ölçeklenebilirlik ücretsizdir. İnsan sınıflandırmalarını doğru bir şekilde yeniden üretebilen bir makine öğrenme modeli oluşturmak zor bir problemdir, ancak neyse ki zaten bu konuya adanmış mükemmel kitaplar vardır (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo, kaç insan hesaplama projesinin evrim geçirdiğini gösteren iyi bir örnek. Birincisi, bir araştırmacı projeyi kendisi veya küçük bir araştırma asistanları ekibi (örneğin, Schawinski'nin ilk sınıflandırma çabası) ile dener. Bu yaklaşım iyi ölçeklenmezse, araştırmacı birçok katılımcı ile bir insan hesaplama projesine geçebilir. Ancak, belirli bir veri hacmi için, saf insan gücü yeterli olmayacaktır. Bu noktada, araştırmacıların, insan sınıflandırmalarının, neredeyse sınırsız miktarda veriye uygulanabilecek bir makine öğrenme modelini eğitmek için kullanıldığı, bilgisayar destekli bir insan hesaplama sistemi oluşturması gerekmektedir.