Galaxy Zoo bir milyon Gökadalar təsnif bir çox qeyri-ekspert könüllü səylərini birləşdirir.
Galaxy Zoo, Schawinski Gökadalar maraqlı olduğunu 2007-ci bir qədər sadələşdirilməsi Kevin Schawinski, Oksford Universitetinin astronomiya bir aspirant üzləşdiyi bir problem həyata artıb və Gökadalar ilə təsnif edilə bilər onların morfoloji-eliptik və ya spiral və onların rəng mavi və ya qırmızı ilə. zamanda, astronomları arasında şərti hikmət spiral Gökadalar bizim Samanyolu kimi, rəng (ifadə gənclər) mavi idi ki, eliptik Gökadalar (yaş göstərilməklə) rəngi qırmızı idi. Schawinski bu şərti hikmət şübhə. O, bu model ümumiyyətlə doğru ola bilər isə, orada yəqin ki, istisnalar əhəmiyyətli sıra idi ki, ki, şübhəli, bu qeyri-adi qalaktika-sığmadı olanları çox öyrənməklə model o prosesi haqqında bir şey öyrənmək bilər gözlənilir vasitəsilə Gökadalar meydana gətirdi.
Belə ki, nə Schawinski şərti hikmət ləğv etmək üçün lazım olan morfoloji təsnif Gökadalar böyük bir set idi ki, spiral və ya oval kimi təsnif edilmişdir Gökadalar edir. problem, lakin təsnifatı üçün mövcud alqoritmik üsulları hələ kifayət qədər yaxşı elmi-tədqiqat üçün istifadə etmək deyil idi; başqa sözlə, təsnifatı Gökadalar kompüterlər üçün çətin olan bir problem, o zaman idi. Buna görə də, lazım nə insan təsnif Gökadalar çox sayda idi. Schawinski məzunu tələbə coşğuyla bu təsnifat problemi həyata keçirmişdir. yeddi, 12 saat gün bir marafon iclasında, o 50,000 Gökadalar təsnif bacardı. 50.000 Gökadalar bir çox kimi görünə bilər baxmayaraq, Sloan Digital Sky Survey şəkli edilmişdir demək olar ki, bir milyon qalaktikaların yalnız 5% əslində. Schawinski o, bir daha ölçeklenebilir yanaşma lazımdır ki, həyata keçirilir.
Xoşbəxtlikdən, bu təsnif Gökadalar vəzifəsi astronomiya qabaqcıl təlim tələb etmir çıxır; Siz olduqca tez bunu kimsə öyrətmək olar. Gökadalar təsnifatı kompüterlər üçün çətin olan bir məsələ olsa, başqa sözlə, o, insanlar üçün olduqca asan idi. Belə ki, Oxford, Schawinski və tabeçilikdə astronom Chris Lintott bir pub oturarkən könüllü Gökadalar images təsnif ki, bir haqqinda arzusunda. Bir neçə ay sonra, Galaxy Zoo anadan olub.
Galaxy Zoo veb At könüllü təlim bir neçə dəqiqə məruz olardı; məsələn, spiral və eliptik galaxy (Şəkil 5.2) arasında fərq öyrənmək. bu təlim sonra, könüllü məlum ilə nisbətən asan viktorina düzgün təsnif 11 15 Gökadalar keçməli idi təsnifatların və sonra könüllü sadə web-based interface (Şəkil 5.3) vasitəsilə naməlum Gökadalar real təsnifatı başlayacağını söylədi. astronom üçün könüllü keçid az 10 dəqiqə keçiriləcək və yalnız maneələr, sadə viktorina ən aşağı keçən tələb edirəm.
Layihə xəbər məqalə nümayiş və təxminən altı ay layihə 100.000-dən çox vətəndaş alim, onlar vəzifə idilər və onlar əvvəlcədən astronomiya kömək etmək istəyirdi, çünki iştirak insanları cəlb artıb sonra Galaxy Zoo ilkin könüllüləri cəlb. Birlikdə, bu 100,000 könüllülər iştirakçıların nisbətən kiçik, əsas qrup gələn təsnifatların çoxluğu ilə, 40-dan çox milyon təsnifatların cəmi əməyi (Lintott et al. 2008) .
təcrübə işə bakalavr tədqiqat köməkçiləri var Tədqiqatçılar dərhal data keyfiyyəti barədə şübhə ola bilər. Bu skeptisizm ağlabatan olsa da, Galaxy Zoo könüllü qatqılarıyla düzgün təmizlənmiş debiased və toplandığında zaman, onlar yüksək keyfiyyətli nəticələr istehsal edə bilər göstərir ki, (Lintott et al. 2008) . Professional keyfiyyət data yaratmaq izdiham almaq üçün mühüm oyun ixtisar edir; ki, eyni məsələ bir çox müxtəlif insanlar tərəfindən həyata olan. Galaxy Zoo, galaxy təxminən 40 təsnifatları var idi; Buna görə də ixtisar bu səviyyədə ödəyə və heç vaxt lisenziya tədqiqat köməkçiləri istifadə tədqiqatçılar hər bir fərdi təsnifatı keyfiyyəti ilə daha çox narahat olmaq lazımdır. könüllü təlim yoxdur, onlar ixtisar ilə təşkil edib.
Hətta galaxy birdən çox təsnifatları ilə, lakin könüllü təsnifatların set birləşdirən konsensus təsnifat çətin deyil çıxaracaq. çox oxşar problemləri ən insan hesablama layihələr ortaya, çünki qısa Galaxy Zoo tədqiqatçılar onların konsensus təsnifatların istehsal etmək üçün istifadə üç addımlar nəzərdən faydalıdır. Birincisi, tədqiqatçılar saxta təsnifatların çıxararaq data "təmizlənir". Məsələn, dəfələrlə manipulyasiya üçün çalışırıq, əgər nə olardı eyni galaxy-bir şey təsnif insanların bütün təsnifatlar atılır nəticələri-idi. Bu və digər oxşar təmizləmə bütün təsnifatların təxminən 4% qaldırıldı.
İkincisi, təmizləndikdən sonra, tədqiqatçılar təsnifatlar sistemli biases aradan qaldırılması lazımdır. Orijinal layihə məsələn katıştırılmış bias aşkar işlər yerinə monoxrom olan galaxy bəzi könüllülər göstərən bir sıra rəng-tədqiqatçılar belə eliptik Gökadalar kimi uzaq spiral Gökadalar təsnif sistematik bias kimi bir neçə sistemli meyli aşkar (Bamford et al. 2009) . çox töhfələr orta sistemli qərəzli aradan qaldırılması deyil, çünki bu sistemli fikirlərinə üçün uyğunlaşdırılması son dərəcə vacibdir; yalnız təsadüfi səhv rədd et.
Nəhayət, debiasing sonra, tədqiqatçılar konsensus təsnifat istehsal fərdi təsnifatların birləşdirmək üçün bir üsul lazımdır. Hər galaxy üçün təsnifatların birləşdirmək üçün sadə yoludur ən ümumi təsnifatı seçmək olardı. Lakin, bu yanaşma hər könüllü bərabər ağırlıq verəcək, və tədqiqatçılar bəzi könüllülər daha təsnifat daha yaxşı idi ki, şübhəli. Buna görə də, tədqiqatçılar avtomatik olaraq ən yaxşı təsnifat aşkar və onlara daha çox ağırlıq verməsi cəhdləri daha mürəkkəb təkrarlanan çəki proseduru inkişaf etmişdir.
Belə ki, üç addım prosesi təmizləmə, debiasing və ağırlığını-Galaxy Zoo araşdırma qrupu sonra konsensus morfoloji təsnifatların bir sıra daxil 40 milyon könüllü təsnifatları çevrilir idi. Bu Galaxy Zoo təsnifatların Galaxy Zoo ilham kömək Schawinski tərəfindən təsnifat o cümlədən professional astronomları tərəfindən üç əvvəlki kiçik miqyaslı cəhdləri ilə müqayisədə zaman, güclü saziş var idi. Belə ki, könüllü, ümumi, yüksək keyfiyyətli təsnifatlar təmin edə bildik və tədqiqatçılar uyğun deyil ki, bir miqyasda (Lintott et al. 2008) . Əslində, Gökadalar belə çox sayda insan təsnifatları olan, Schawinski, Lintott və digər qalaktikaların yalnız 80% haqqında yazılmışdır gözlənilir model mavi spiral və qırmızı Eliptik və çoxsaylı sənədləri izləmək göstərir ki bilmişlər bu kəşf (Fortson et al. 2011) .
Bu background nəzərə alaraq, biz indi Galaxy Zoo belə necə görə bilərsiniz split-müraciət-birləşdirmək resept, ən insan hesablama layihələr üçün istifadə eyni resept. Birincisi, böyük bir problem chunks parçalanması olunur. Bu halda, bir milyon Gökadalar təsnif problem bir galaxy təsnif bir milyon problemləri parçalanması olunur. Next, bir əməliyyat müstəqil hər yığın tətbiq edilir. Bu halda, bir könüllü spiral və ya oval olaraq hər galaxy təsnif olardı. Nəhayət, nəticələr konsensus nəticəsində istehsal birləşir. Bu halda, birləşdirmək addım hər galaxy üçün konsensus təsnifat istehsal təmizləmə, debiasing və ağırlığını daxildir. ən layihələr general resept istifadə baxmayaraq, addımlar hər bir konkret problem həllini tapır xüsusi lazımdır. Məsələn, aşağıda təsvir insan hesablama layihə, eyni resept əvəz olunacaq, lakin müraciət birləşdirmək addımlar tamamilə fərqli olacaq.
Galaxy Zoo komanda üçün, bu ilk layihə yalnız başlanğıcı idi. Çox tez onlar olsa da, onlar bir milyon qalaktika yaxın təsnif edə bildik ki, həyata keçirilir, bu miqyaslı təxminən 10 milyard qalaktika images istehsal edə bilər yeni digital göy sorğular, ilə işləmək üçün kifayət deyil (Kuminski et al. 2014) . 1 milyon 10-dən artım idarə etmək milyard-a 10,000-Galaxy Zoo amil təxminən 10,000 dəfə daha çox iştirakçıları cəlb etmək lazımdır. İnternet könüllülərin sayı böyük olsa da, bu sonsuz deyil. Buna görə də, tədqiqatçılar həyata keçirilir ki, onlar yeni, daha genişlənən, yanaşma lazım idi məlumatların daim artan məbləğlər idarə etmək üçün gedir, əgər.
Buna görə də, Manda Banerji iş Kevin Schawinski, Chris Lintott və Galaxy Zoo komanda başlayan tədris kompüter digər üzvləri ilə Gökadalar təsnif. Daha konkret desək, Galaxy Zoo yaratdığı insan təsnifatları istifadə Banerji et al. (2010) image xüsusiyyətləri əsasında bir galaxy insan təsnifatı proqnozlaşdırmaq bilər ki, bir maşın təlim model inşa edilmişdir. bu maşın öyrənmə model yüksək dəqiqliyi ilə insan təsnifatlar çoxalda bilər, onda Gökadalar bir mahiyyətcə sonsuz sayda təsnif Galaxy Zoo tədqiqatçılar tərəfindən istifadə edilə bilər.
ki, oxşarlıq ilk baxışda aydın ola bilər, baxmayaraq ki Banerji və həmkarları "yanaşma əsas, həqiqətən çox sosial tədqiqat istifadə üsulları olduqca oxşardır. Birincisi, Banerji və həmkarları bu xüsusiyyətləri var ümumiləşdirmək rəqəmli funksiyalar bir sıra daxil hər image çevrilir. image mavi məbləği piksel parlaqlıq variance və qeyri-ağ piksel nisbəti: Məsələn, Gökadalar images üçün üç xüsusiyyətləri ola bilər. doğru xüsusiyyətləri seçilməsi məsələsinin mühüm hissəsidir və bu, ümumiyyətlə, mövzu alan təcrübə tələb edir. Adətən xüsusiyyət mühəndislik adlanan bu ilk addım, image hər bir satır və resim təsvir sonra üç sütun bir karekod ilə nəticələnir. bir logistik reqressiya əsasında insan təsnifatı nəzərdə tutur kimi data matrix və istədiyiniz çıxış (məsələn, şəkil bir eliptik galaxy kimi bir insan tərəfindən təsnif edilib), tədqiqatçı statistik model üçün nümunə parametrləri qiymətləndirir şey nəzərə alaraq image xüsusiyyətləri. Nəhayət, tədqiqatçı yeni Gökadalar təxmin təsnifatları (Şəkil 5.4) istehsal üçün bu statistik model parametrləri istifadə edir. sosial analoq hesab üçün, bir milyon şagird haqqında demoqrafik məlumatlar var idi ki, təsəvvür və onlar kollec və ya deyil məzun olub-olmadığını bilmək. Bu data bir logistik reqressiya uyğun ola bilər, və sonra yeni tələbələr kollec məzun gedir olub proqnozlaşdırmaq nəticəsində model parametrləri istifadə edə bilər. Maşın öyrənmə, bu yanaşma istifadə etiketli nümunələri sonra yeni etiket bilər ki, bir statistik model yaratmaq üçün məlumat-öyrənmək nəzarət deyilən (Hastie, Tibshirani, and Friedman 2009) .
Xüsusiyyətləri Banerji et al. (2010) maşın öyrənmə model misal üçün, məsələn, o, kimi xüsusiyyətləri istifadə mənim oyuncaq olanlar daha mürəkkəb idi "de Vaucouleurs ox nisbəti uyğun" Və onun model logistik reqressiya deyil, bu, süni neyron şəbəkə idi. onun xüsusiyyətləri, onun model, və konsensus Galaxy Zoo təsnifatları istifadə edərək, o, hər xüsusiyyət çəkilər yaratmaq və sonra qalaktikaların təsnifatı haqqında proqnozlar etmək üçün bu çəkilər istifadə edə idi. Məsələn, onun təhlili "Vaucouleurs ox nisbəti uyğun de" aşağı images spiral Gökadalar olmaq daha çox idi ki, tapılmadı. bu çəkilər nəzərə alaraq, o, ağlabatan dəqiqliklə bir galaxy insan təsnifatı proqnozlaşdırmaq edə idi.
Iş Banerji et al. (2010) Mən ikinci nəsil insan hesablama sistemi zəng nə Galaxy Zoo çevrildi. Bu ikinci nəsil sistemləri haqqında düşünmək üçün ən yaxşı yolu olan insanlar bir problemi həll deyil, onlar insan problemi həll etmək üçün bir kompüter hazırlanması üçün istifadə edilə bilər bir verilənlər bazasının qurmaq var. kompüter yetişdirmək lazım data məbləği yaratmaq üçün insan kütləvi əməkdaşlıq tələb edir ki, böyük ola bilər. Galaxy Zoo tərəfindən istifadə neyron şəbəkələrinin halda Banerji et al. (2010) etibarlı insan təsnifat yeniden bacardı bir model qurmaq üçün insan etiketli nümunələri bir çox sayda tələb olunur.
Bu kompüter dəstəkli yanaşma üstünlüyü insan səy yalnız məhdud məbləği istifadə data mahiyyətcə sonsuz məbləğlər idarə etmək üçün imkan verir ki. Məsələn, bir milyon insan təsnif Gökadalar ilə bir tədqiqatçı sonra milyard və ya hətta bir trilyon Gökadalar təsnif etmək üçün istifadə edilə bilər bir sadələşdirilmiş model inşa edə bilərsiniz. Gökadalar böyük nömrələri var, onda insan-kompüter hibrid bu cür həqiqətən yeganə mümkün həll edir. Bu sonsuz ölçeklenebilirlik, lakin pulsuz deyil. Özü ağır problem düzgün insan təsnifatları çoxalda bilərsiniz ki, bir maşın öyrənmə model bina, lakin xoşbəxtlikdən bu mövzuya həsr olunmuş əla kitab artıq var (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo çox insan hesablama layihələr təkamül göstərir. Birincisi, bir tədqiqatçı özü və ya araşdırma vəzifəlisi kiçik bir komanda (məsələn, Schawinski ilkin təsnifat səy) ilə layihə çalışır. Bu yanaşma yaxşı miqyaslı deyil, tədqiqatçı bir çox insanlar təsnifatları töhfə insan hesablama layihə hərəkət edə bilər. Lakin, məlumatların müəyyən həcmi, təmiz insan səy kifayət qədər olmayacaq. Bu noktada, tədqiqatçılar insan təsnifatlar sonra məlumatların faktiki olaraq qeyri-məhdud miqdarda tətbiq edilə bilər ki, bir maşın təlim model qatar üçün istifadə olunur, ikinci nəsil sistemi qurmaq lazımdır.