Galaxy Zoo nggabungake upaya sukarelawan non-pakar kanggo ngelasake galaksi yuta.
Zoo Galaxy mundur saka masalah sing didandani dening Kevin Schawinski, mahasiswa lulusan Astronomi ing Universitas Oxford taun 2007. Nganggo modhèl sing rada gampang, Schawinski kepéngin dadi galaksi, lan galaksi bisa diklasifikasèkaké déning morfologi-elliptical utawa spiral-lan kanthi warna biru utawa abang. Ing wekdal punika, kawicaksanan ingkang konvensional ing antawisipun para astronom inggih punika galaksi spiral, kados Bima Sakti kita, biru ing werna (nedahaken pemuda) lan galaksi ellips inggih punika abang (nedahaken yuswa tua). Schawinski meragukan kawicaksanan konvensional. Dheweke curiga yen pola iki bisa uga bener ing umum, ana uga sing gedhe-gedhe perkecualian, lan kanthi nyinaoni akeh galaksi sing ora biasa-sing gedhe-gedhe sing ora cocog karo pola sing dikarepake-bisa sinau babagan proses sing liwat galaksi dibentuk.
Mangkono, apa sing dibutuhake Schawinski kanggo mbungkus kawicaksanan konvensional yaiku galaksi sing diklasifikasikake sacara morfologis; yaiku, galaksi sing wis diklasifikasikaké minangka spiral utawa elliptical. Nanging, masalah sing ana ing algoritma sing ana klasifikasi durung cukup kanggo digunakake kanggo riset ilmiah; ing tembung liya, galaksi klasifikasi, nalika iku, masalah sing angel kanggo komputer. Mulane, apa sing dibutuhake minangka galaksi-galaksi manungsa sing akeh. Schawinski ngalami masalah klasifikasi kanthi semangat mahasiswa sarjana. Ing sesi maraton pitung dina 12 jam, dheweke bisa ngelas 50.000 galaksi. Nalika 50.000 galaksi mungkin kaya swara, mung ana sekitar 5% saka galaksi meh siji yuta sing wis difoto ing Sloan Digital Sky Survey. Schawinski nyadari yen dheweke butuh pendekatan sing luwih cepet.
Begjanipun, iku dadi metu sing tugas saka kelas galaksi ora perlu latihan majeng ing astronomi; sampeyan bisa mulang wong apa iku cantik cepet. Ing tembung liyane, malah sanadyan kelas galaksi punika tugas sing hard kanggo komputer, iku cantik gampang kanggo manungsa. Dadi, nalika lungguh ing pub in Oxford, Schawinski lan fellow astronom Chris Lintott ngimpi munggah website ngendi sukarelawan golongan images of galaksi. A sawetara sasi mengko, Zoo Galaxy lair.
Ing situs Zoo Galaxy, sukarelawan bakal ngalami sawetara menit latihan; contone, sinau beda antarane galaksi spiral lan elips (gambar 5.2). Sawisé latihan iki, saben sukarelawan kudu mlebu kanthi bener kuis kanthi bener ngelas 11 saka 15 galaksi kanthi klasifikasi sing cocog-banjur bakal miwiti klasifikasi galaksi sing ora dingerteni liwat antarmuka berbasis web sing prasaja (angka 5.3). Transisi saka sukarelawan kanggo astronom bakal kedadeyan kurang saka 10 menit lan mung kudu ngliwati sing paling angel, kuis sederhana.
Galaksi Galaxy narik kawigaten para sukarelawan awal sawisé proyek kasebut ditampilake ing artikel warta, lan watara enem sasi proyek kasebut tansaya nyakup luwih saka 100.000 ilmuwan warga, wong sing melu amarga padha seneng tugas lan padha kepengin mbiyantu ngembangake astronomi. Bebarengan, 100.000 sukarelawan iki nyumbang luwih saka 40 yuta klasifikasi, kanthi mayoritas klompok kasebut teka saka kelompok inti sing relatif cilik (Lintott et al. 2008) .
Peneliti sing duwe pengalaman nganggep asisten riset sarjana bisa langsung mamang babagan kualitas data. Nalika skeptis iki cukup, Kebon Binatang Galaxy nunjukake yèn nalika kontribusi sukarela wis di resiki, dibudidaya, lan digabungake kanthi bener, bisa gawé asil sing apik (Lintott et al. 2008) . Trik penting kanggo njupuk wong akeh kanggo nggawe data kualitas profesional minangka redundansi , yaiku, tugas sing padha ditindakake dening akeh wong. Ing Galaxy Zoo, ana sekitar 40 klasifikasi saben galaksi; peneliti sing nggunakake asisten riset sarjana ora bisa nanggung tingkat redundansi iki lan mulane kudu luwih prihatin karo kualitas saben klasifikasi individu. Apa sukarelawan sing ora ana ing latihan, padha gawe kanthi redundansi.
Sanajan nduweni klasifikasi saben per galaksi, Nanging, nggabungake klompok klompok sukarela kanggo ngasilake klasifikasi konsensus iku angel. Amarga tantangan banget ana ing proyek-proyek komputasi manungsa, mbiyantu ngetung kanthi teliti telung langkah para peneliti Zoo Galaxy digunakake kanggo ngasilake klasifikasi konsensus. Kapisan, peneliti "ngresiki" data kanthi ngilangi klasifikasi palsu. Contone, wong-wong sing bola-bali nggolongake galaksi sing padha-soko sing bakal kedadeyan yen padha nyoba ngapusi asil-wis kabeh klasifikasi sing dibuang. Pembersih sanès lan sanèsipun nyopir babagan 4% saking sadaya klasifikasi.
Kapindho, sawise diresiki, para peneliti kudu mbusak bias kanthi sistematis ing klasifikasi. Liwat seri saka studi deteksi bias sing kasedhiya ing proyek asli-umpamane, nuduhake sawetara sukarelawan galaksi ing monokrom tinimbang warna-peneliti nemokake sawetara bias sistematis, kayata bias sing sistematis kanggo ngelasake galaksi spiral sing adoh minangka galaksi elliptical (Bamford et al. 2009) . Nyetel kanggo bias sistematis iki penting banget amarga redundansi ora kanthi otomatis mbusak bias sistematis; mung bantuan mbusak kesalahan acak.
Akhire, sawise debiasing, peneliti butuh metode kanggo gabungke klasifikasi individu kanggo ngasilake klasifikasi konsensus. Cara paling gampang kanggo gabungke klasifikasi kanggo saben galaksi mesthine milih klasifikasi paling umum. Nanging, pendekatan iki bakal menehi bobot saben sukarelawan, lan para peneliti nyangka sawetara relawan luwih apik ing klasifikasi tinimbang liyane. Mulane, para peneliti mrodhuksi prosedur bobot iteratif sing luwih kompleks sing nyoba ndeteksi klompok paling apik lan menehi luwih bobot.
Mangkono, sawisé proses cleaning-cleaning, debiasing, lan weighting-3 tim panlitagan Zoo Galaxy wis ngubah 40 yuta klompok sukarela menyang klasifikasi morfologi konsensus. Nalika klasifikasi Galaxy Zoo iki dibandhingake karo usaha telung cilik sadurunge oleh astronom profesional, kalebu klasifikasi dening Schawinski sing mbantu ngilhami Galaxy Zoo, ana persetujuan sing kuat. Mangkono, para sukarelawan, kanthi agregat, bisa nyedhiyakake klasifikasi kanthi kualitas dhuwur lan ing skala sing ora bisa cocog karo peneliti (Lintott et al. 2008) . Jebule, amarga nduweni klasifikasi manungsa kaya galaksi gedhe, Schawinski, Lintott, lan liya-liyane bisa nuduhake yen mung kira-kira 80% galaksi ngetutake spiral-biru lan abang-abang pola sing dikarepake-lan akeh makalah ditulis babagan panemuan iki (Fortson et al. 2011) .
Given latar mburi iki, sampeyan saiki bisa ndeleng carane Galaxy Zoo nderek resep pamisah-aplikasi-gabungan, resep sing padha digunakake kanggo proyek komputasi manungsa paling. Pisanan, masalah gedhe dipisah dadi potongan. Ing kasus iki, masalah klasifikasi galaksi yuta dipérang dadi salah sawijining masalah yuta kanggo ngelasaké siji galaksi. Sabanjure, operasi dileksanakake kanggo saben bagean kanthi mandiri. Ing kasus iki, sukarelawan nglasifikasikake saben galaksi minangka spiral utawa elliptical. Akhire, asil digabungake kanggo ngasilake asil konsensus. Ing kasus iki, langkah gabungan kalebu pembersih, debiasing, lan weighting kanggo ngasilake klasifikasi konsensus kanggo saben galaksi. Sanajan akeh proyek nganggo resep umum, saben langkah kudu disesuaikan karo masalah khusus sing ditangani. Contone, ing project komputasi manungsa sing dijelasake ing ngisor iki, resep sing padha bakal diterusake, nanging aplikasi lan gabungan langkah-langkah bakal beda banget.
Kanggo tim Galaxy Zoo, proyek pisanan iki mung wiwitan. Kanthi cepet banget, dheweke uga nyadari yen sanajan bisa ngelompokake cedhak karo galaksi yuta, ukuran iki ora cukup kanggo bisa nggunakake survey langit digital anyar, sing bisa ngasilake gambar babagan 10 milyar galaksi (Kuminski et al. 2014) . Kanggo nangani peningkatan saka 1 yuta nganti 10 milyar-faktor saka Zoo 10,000-Galaxy bakal kudu nganakake luwih saka 10.000 peserta. Sanajan jumlah sukarelawan ing Internet amba, iku ora ana wates. Mulane, para panaliti nyadari yen manawa arep ngatasi jumlah data sing terus berkembang, pendekatan sing luwih anyar, luwih maju, perlu.
Dadi, Manda Banerji-kerja sama karo Schawinski, Lintott, lan anggota tim Zoo Galaxy (2010) -wara komputer pandhuan kanggo ngelasake galaksi. Luwih khusus, nggunakake klasifikasi manungsa sing digawe dening Zoo Galaxy, Banerji nggawé model pembelajaran mesin sing bisa ngramal klasifikasi manungsa saka galaksi sing adhedhasar karakteristik gambar kasebut. Yen model iki bisa ngasilake klasifikasi manungsa kanthi akurasi sing dhuwur, mula bisa digunakake dening peneliti Zoo Galaxy kanggo ngelasake galaksi sing ora ana wates.
Inti pendekatan Banerji lan kolega bener-bener meh padha karo teknik-teknik umum sing digunakake ing riset sosial, senadyan kasadharan kasebut ora bisa katon kanthi jelas. Pisanan, Banerji lan kanca-kanca ngubah saben gambar dadi set fitur numerik sing diringkes dadi properti. Contone, kanggo gambar galaksi, bisa uga ana telung fitur: jumlah biru ing gambar, variasi ing padhang piksel, lan proporsi piksel non-putih. Pemilihan fitur sing bener minangka bagian penting saka masalah, lan umume mbutuhake keahlian subyek bidang. Langkah pisanan, sing umum diarani rékayasa fitur , ngasilake matriks data kanthi saben baris saben gambar lan banjur telung kolom sing nggambarake gambar kasebut. Amarga matriks data lan output sing dikarepake (kayata, gambar kasebut diklasifikasikake dening manungsa minangka galaksi elliptical), peneliti nyiptakake model pembelajaran statistik utawa mesin-umpamane, regression logistic-sing prédhiksi klasifikasi manungsa adhedhasar fitur saka gambar. Pungkasan, peneliti nggunakake paramèter ing modhél statistik kanggo ngasilaké klasifikasi galaksi anyar (angka 5,4). Ing learning machine, conto iki nggunakake label sing dicithak kanggo nggawe model sing bisa label data anyar-diarani learning supervised .
Fitur-fitur ing model pembelajaran mesin Banerji lan koleganya luwih rumit tinimbang conto dolananku-kayata, dheweke nggunakake fitur kaya "rasio aksial fit de Vaucouleurs" -dan model dheweke ora regresi logistik, iku jaringan syaraf buatan. Nggunakake fitur, model, lan konsensus Galaxy Zoo, dheweke bisa nggawé bobot ing saben fitur, banjur nggunakake bobot iki kanggo nggawe ramalan babagan klasifikasi galaksi. Contone, analisis dheweke nemokake yen gambar kanthi "de Vaucouleurs pas aksial rasio" luwih cenderung dadi galaksi spiral. Given bobot kasebut, dheweke bisa ngramal klasifikasi manungsa saka galaksi kanthi akurat.
Karya Banerji lan kanca-kancane nguripake Galaxy Zoo dadi apa aku bakal nyebut sistem komputasi manungsa sing dibantu komputer . Cara sing paling apik kanggo mikir babagan sistem hibrida iki yaiku tinimbang ngatasi masalah manungsa, manungsa duwe mbangun data sing bisa digunakake kanggo nglatih komputer kanggo ngatasi masalah kasebut. Kadhangkala, latihan komputer kanggo ngatasi masalah bisa mbutuhake akeh conto, lan cara mung kanggo ngasilake conto sing cukup yaiku kolaborasi massa. Kauntungan saka pendekatan sing dibantu komputer iki mbiyantu sampeyan ngatasi jumlah data sing ora ana watese kanthi nggunakake jumlah usaha manungsa sing sampurna. Contone, sawijining panliten kanthi galaksi sing diklasifikasikake jagad bisa mbangun model prediktif sing bisa digunakake kanggo ngelas milyar utawa malah galaksi triliun. Yen ana galaksi sing gedhe banget, mula iki jenis hibrida manungsa komputer iku mung solusi sing bisa wae. Nanging, skalabilitas tanpa wates iki ora gratis, nanging. Nggawe model pembelajaran mesin sing bener bisa ngasilake klasifikasi manungsa dhewe dadi masalah sing angel, nanging untung wis ana buku sing apik kanggo topik iki (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo minangka ilustrasi apik babagan pirang-pirang proyek komputasi manungsa sing berkembang. Pisanan, panaliti nemokake proyek kanthi dhasar utawa kanthi tim asisten riset cilik (contone, usaha klasifikasi awal Schawinski). Yen pendekatan iki ora kecukupan, peneliti bisa pindhah menyang proyek komputasi manungsa kanthi akeh peserta. Nanging, kanggo data volume tartamtu, usaha manungsa murni ora bakal cukup. Ing wektu kuwi, peneliti kudu mbangun sistem pangompetsi manungsa sing dibantu komputer ing ngendi klasifikasi manungsa digunakake kanggo nglatih model pembelajaran mesin sing bisa diterapake ing jumlah data sing meh ora diwatesi.