Zoo Galaxy menggabungkan usaha sukarelawan bukan pakar untuk mengklasifikasikan sejuta galaksi.
Zoo Galaxy berkembang dari masalah yang dihadapi oleh Kevin Schawinski, seorang pelajar siswazah dalam Astronomi di University of Oxford pada tahun 2007. Memudahkan sedikit, Schawinski berminat dengan galaksi, dan galaksi boleh diklasifikasikan oleh morfologi mereka-elips atau spiral-dan dengan warna biru atau merah. Pada masa itu, kebijaksanaan konvensional di kalangan ahli astronomi ialah galax spiral, seperti Bima Sakti kita, berwarna biru (menunjukkan pemuda) dan galaksi elips adalah merah (menunjukkan usia tua). Schawinski meragui kebijaksanaan konvensional ini. Dia mengesyaki bahawa walaupun corak ini mungkin benar pada umumnya, mungkin terdapat banyak pengecualian, dan dengan mengkaji banyak galaksi-galaksi yang tidak biasa ini - yang tidak sesuai dengan corak yang diharapkan - ia dapat mempelajari sesuatu tentang proses melalui mana galaksi terbentuk.
Oleh itu, apa yang Schawinski diperlukan untuk membongkar kebijaksanaan konvensional adalah satu set besar galaksi dikelaskan secara morfologi; iaitu, galaksi yang diklasifikasikan sebagai lingkaran atau elips. Masalahnya, bagaimanapun, adalah kaedah algoritma sedia ada untuk klasifikasi belum cukup baik untuk digunakan untuk penyelidikan saintifik; dengan kata lain, mengklasifikasikan galaksi adalah, pada masa itu, masalah yang sukar untuk komputer. Oleh itu, apa yang diperlukan adalah sebilangan besar galaksi kelas manusia . Schawinski menjalankan masalah pengklasifikasian ini dengan semangat pelajar siswazah. Dalam sesi maraton tujuh hari 12 jam, beliau dapat mengklasifikasikan 50,000 galaksi. Walaupun 50,000 galaksi mungkin terdengar seperti banyak, sebenarnya ia hanya kira-kira 5% daripada hampir satu juta galaksi yang telah difoto dalam Sloan Digital Sky Survey. Schawinski menyedari bahawa dia memerlukan pendekatan yang lebih berskala.
Mujurlah, ia ternyata bahawa tugas galaksi mengklasifikasikan tidak memerlukan latihan lanjutan dalam bidang astronomi; anda boleh mengajar seseorang untuk melakukannya cukup cepat. Dalam erti kata lain, walaupun mengklasifikasikan galaksi merupakan satu tugas yang sukar untuk komputer, ia adalah agak mudah untuk manusia. Jadi, sambil duduk di sebuah pub di Oxford, Schawinski dan rakan-rakan ahli astronomi Chris Lintott bermimpi sebuah laman web di mana sukarelawan akan mengklasifikasikan imej galaksi. Beberapa bulan kemudian, Zoo Galaxy dilahirkan.
Di laman web Galaxy Zoo, sukarelawan akan menjalani beberapa minit latihan; contohnya, mempelajari perbezaan antara galaksi lingkaran dan elips (angka 5.2). Selepas latihan ini, setiap sukarelawan terpaksa lulus kuiz yang agak mudah dengan mengklasifikasikan 11 daripada 15 galaksi dengan klasifikasi yang diketahui-dan kemudian akan memulakan klasifikasi sebenar galaksi yang tidak diketahui melalui antara muka berasaskan web yang mudah (rajah 5.3). Peralihan dari sukarelawan kepada ahli astronomi akan berlaku dalam masa kurang dari 10 minit dan hanya diperlukan melepasi halangan yang paling rendah, kuiz sederhana.
Zoo Galaxy menarik sukarelawan awalnya selepas projek itu dipaparkan dalam artikel berita, dan dalam masa kira-kira enam bulan projek itu berkembang untuk melibatkan lebih daripada 100,000 saintis warga negara, orang yang mengambil bahagian kerana mereka menikmati tugas itu dan mereka mahu membantu memajukan astronomi. Bersama-sama, seramai 100,000 sukarelawan menyumbang lebih daripada 40 juta klasifikasi, dengan majoriti klasifikasi yang datang dari kumpulan peserta yang relatif kecil (Lintott et al. 2008) .
Penyelidik yang mempunyai pengalaman mengupah pembantu penyelidik sarjana mungkin dengan serta-merta akan ragu-ragu mengenai kualiti data. Walaupun skeptis ini munasabah, Zoo Galaxy menunjukkan bahawa apabila sumbangan sukarela dibersihkan dengan betul, dibebaskan, dan diagregatkan, mereka dapat menghasilkan hasil yang berkualiti tinggi (Lintott et al. 2008) . Satu helah penting untuk mendapatkan orang ramai untuk mencipta data berkualiti profesional adalah berlebihan , iaitu, mempunyai tugas yang sama yang dilakukan oleh ramai orang yang berbeza. Di Zoo Galaxy, terdapat kira-kira 40 klasifikasi setiap galaksi; penyelidik yang menggunakan pembantu penyelidik tidak dapat menanggung tahap redundansi ini dan oleh itu perlu lebih banyak perhatian terhadap kualiti setiap klasifikasi individu. Apa sukarelawan sukarelawan dalam latihan, mereka buat dengan redundansi.
Walaupun dengan pelbagai klasifikasi per galaksi, namun, gabungan kumpulan klasifikasi sukarela untuk menghasilkan klasifikasi konsensus adalah rumit. Oleh kerana cabaran-cabaran yang sangat serupa timbul dalam kebanyakan projek pengiraan manusia, sangat membantu untuk mengkaji secara ringkas tiga langkah yang digunakan para penyelidik Zoo Galaxy untuk menghasilkan klasifikasi konsensus mereka. Pertama, penyelidik "membersihkan" data dengan membuang klasifikasi palsu. Sebagai contoh, orang yang berulang kali mengelaskan galaksi yang sama-sesuatu yang akan berlaku jika mereka cuba memanipulasi keputusan-semua klasifikasi mereka dibuang. Ini dan pembersihan serupa yang lain mengeluarkan kira-kira 4% daripada semua klasifikasi.
Kedua, selepas pembersihan, para penyelidik perlu membuang bias yang sistematik dalam klasifikasi. Melalui beberapa siri kajian pengesanan bias yang tertanam di dalam projek asal-contohnya, menunjukkan beberapa sukarelawan galaksi dalam monokrom bukan warna - penyelidik menemui beberapa kecenderungan sistematik, seperti kecenderungan sistematik untuk mengklasifikasikan galaksi lingkaran jauh sebagai galaksi elips (Bamford et al. 2009) . Melaraskan untuk bias sistematik ini sangat penting kerana redundansi tidak secara automatik menghapuskan berat sebelah sistematik; ia hanya membantu menghilangkan ralat rawak.
Akhirnya, setelah dibebaskan, para penyelidik memerlukan satu kaedah untuk menggabungkan klasifikasi individu untuk menghasilkan klasifikasi konsensus. Cara paling mudah untuk menggabungkan klasifikasi untuk setiap galaksi adalah memilih klasifikasi yang paling biasa. Walau bagaimanapun, pendekatan ini akan memberi setiap sukarelawan sama rata, dan penyelidik mengesyaki bahawa sesetengah sukarelawan lebih baik di klasifikasi daripada yang lain. Oleh itu, para penyelidik telah membangunkan prosedur pembobakan berulang yang lebih kompleks yang cuba mengesan pengelas terbaik dan memberi mereka lebih banyak berat badan.
Oleh itu, selepas proses pembersihan tiga langkah, membebaskan, dan menimbang, pasukan penyelidikan Zoo Galaxy telah menukar 40 juta klasifikasi sukarela ke dalam satu set klasifikasi morfologi konsensus. Apabila klasifikasi Galaxy Zoo ini dibandingkan dengan tiga percubaan skala kecil sebelum ini oleh ahli astronomi profesional, termasuk klasifikasi oleh Schawinski yang membantu memberi inspirasi kepada Zoo Galaxy, terdapat persetujuan yang kuat. Oleh itu, para sukarelawan, secara agregat, mampu memberikan klasifikasi berkualiti tinggi dan pada skala yang tidak dapat dipadankan para penyelidik (Lintott et al. 2008) . Sebenarnya, dengan mempunyai klasifikasi manusia untuk sejumlah besar galaksi, Schawinski, Lintott, dan lain-lain dapat menunjukkan bahawa hanya kira-kira 80% galaksi yang mengikuti corak spiral biru yang dijangkakan dan elips merah - dan banyak karya tulis telah ditulis mengenai penemuan ini (Fortson et al. 2011) .
Memandangkan latar belakang ini, kini anda dapat melihat bagaimana Galaxy Zoo mengikuti resipi split-apply-combine, resipi yang sama yang digunakan untuk kebanyakan projek pengiraan manusia. Pertama, masalah besar dibahagikan kepada ketulan. Dalam kes ini, masalah mengklasifikasikan sejuta galaksi dipecahkan kepada satu juta masalah mengklasifikasikan satu galaksi. Seterusnya, satu operasi digunakan untuk setiap bahagian secara berasingan. Dalam kes ini, sukarelawan menggolongkan setiap galaksi sebagai sama ada lingkaran atau elips. Akhirnya, keputusan digabungkan untuk menghasilkan keputusan konsensus. Dalam kes ini, langkah gabungan termasuk membersihkan, membebaskan, dan menimbang untuk menghasilkan klasifikasi konsensus untuk setiap galaksi. Walaupun kebanyakan projek menggunakan resipi umum ini, setiap langkah perlu disesuaikan dengan masalah khusus yang ditangani. Sebagai contoh, dalam projek pengiraan manusia yang dihuraikan di bawah, resipi yang sama akan diikuti, tetapi permohonan dan menggabungkan langkah-langkah akan agak berbeza.
Untuk pasukan Galaxy Zoo, projek pertama ini hanya permulaan. Sangat cepat mereka sedar bahawa walaupun mereka dapat mengklasifikasikan hampir sejuta galaksi, skala ini tidak mencukupi untuk bekerja dengan kaji selidik langit digital yang lebih baru, yang dapat menghasilkan imej sekitar 10 bilion galaksi (Kuminski et al. 2014) . Untuk mengendalikan peningkatan dari 1 juta hingga 10 bilion-faktor 10,000-Zoo Galaxy perlu merekrut kira-kira 10,000 kali lebih ramai peserta. Walaupun jumlah sukarelawan di Internet adalah besar, ia tidak terbatas. Oleh itu, para penyelidik menyedari bahawa jika mereka akan mengendalikan jumlah data yang semakin meningkat, pendekatan baru yang lebih berskala diperlukan.
Oleh itu, Manda Banerji-bekerja dengan Schawinski, Lintott, dan ahli-ahli lain dari pasukan Zoo Galaxy (2010) - mengajar komputer untuk mengelaskan galaksi. Lebih khusus, menggunakan klasifikasi manusia yang dibuat oleh Zoo Galaxy, Banerji membina model pembelajaran mesin yang dapat meramalkan pengklasifikasian manusia galaksi berdasarkan ciri-ciri imej. Sekiranya model ini dapat menghasilkan klasifikasi manusia dengan ketepatan yang tinggi, maka ia boleh digunakan oleh penyelidik Zoo Galaxy untuk mengklasifikasikan jumlah galaksi yang tidak terhingga.
Inti pendekatan Banerji dan rakan sekerja sebenarnya sama seperti teknik yang biasa digunakan dalam penyelidikan sosial, walaupun persamaan itu mungkin tidak jelas pada pandangan pertama. Pertama, Banerji dan rakan-rakan menukar setiap imej menjadi satu set ciri - ciri berangka yang meringkaskan sifatnya. Misalnya, untuk imej galaksi, terdapat tiga ciri: jumlah biru dalam imej, varians dalam kecerahan piksel, dan bahagian piksel bukan putih. Pemilihan ciri yang betul adalah bahagian penting dari masalah ini, dan secara umumnya memerlukan kepakaran bidang subjek. Langkah pertama ini, biasanya dipanggil kejuruteraan ciri , menghasilkan matriks data dengan satu baris setiap imej dan kemudian tiga lajur yang menggambarkan imej itu. Memandangkan matriks data dan output yang diingini (contohnya, sama ada imej itu diklasifikasikan oleh manusia sebagai galaksi elips), penyelidik mencipta model pembelajaran statistik atau mesin-contohnya, regresi logistik - yang meramalkan klasifikasi manusia berdasarkan ciri-ciri imej. Akhirnya, penyelidik menggunakan parameter dalam model statistik ini untuk menghasilkan anggaran klasifikasi galaksi baru (angka 5.4). Dalam pembelajaran mesin, pendekatan ini menggunakan contoh berlabel untuk membuat model yang kemudian boleh label data baru-dipanggil pembelajaran yang diselia .
Ciri-ciri dalam model pembelajaran mesin Banerji dan rakannya lebih kompleks daripada contoh mainan saya-contohnya, dia menggunakan ciri-ciri seperti "de Vaucouleurs sesuai paksi nisbah" -dan modelnya tidak regresi logistik, ia adalah rangkaian neural buatan. Menggunakan ciri-cirinya, modelnya, dan klasifikasi Zoo Galaxy yang konsensus, dia dapat membuat bobot pada setiap ciri, dan kemudian menggunakan berat ini untuk membuat ramalan mengenai klasifikasi galaksi. Sebagai contoh, analisisnya mendapati imej yang rendah "de Vaucouleurs sesuai dengan paksi nisbah" lebih cenderung menjadi galaksi lingkaran. Memandangkan berat ini, dia dapat meramalkan pengklasifikasian manusia galaksi dengan ketepatan yang munasabah.
Kerja-kerja Banerji dan rekannya menjadikan Zoo Galaxy menjadi apa yang saya sebut sistem pengiraan manusia yang dibantu komputer . Cara terbaik untuk berfikir tentang sistem hibrid ini ialah daripada mengatasi masalah manusia, mereka mempunyai manusia yang membuat dataset yang boleh digunakan untuk melatih komputer untuk menyelesaikan masalah ini. Kadang-kadang, latihan komputer untuk menyelesaikan masalah boleh memerlukan banyak contoh, dan satu-satunya cara untuk menghasilkan sejumlah contoh yang mencukupi ialah kolaborasi massa. Kelebihan pendekatan yang dibantu komputer ini membolehkan anda mengendalikan sejumlah data yang tidak terhingga menggunakan hanya sejumlah usaha manusia yang terbatas. Sebagai contoh, seorang penyelidik dengan satu juta galaksi dikelaskan manusia boleh membina model ramalan yang kemudiannya boleh digunakan untuk mengklasifikasikan satu bilion atau bahkan satu triliun galaksi. Sekiranya terdapat sejumlah besar galaksi, maka jenis hibrida komputer manusia sememangnya satu-satunya penyelesaian yang mungkin. Walau bagaimanapun, skalabilitas tak terhingga ini tidak percuma. Membina model pembelajaran mesin yang dapat menghasilkan semula klasifikasi manusia sendiri adalah masalah yang sukar, tetapi mujurlah terdapat buku-buku yang sangat baik untuk topik ini (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Zoo Galaxy adalah ilustrasi yang baik tentang berapa banyak projek pengiraan manusia berkembang. Pertama, seorang penyelidik cuba projek sendiri atau dengan sekumpulan kecil penolong penyelidikan (contohnya, usaha klasifikasi awal Schawinski). Jika pendekatan ini tidak baik, penyelidik boleh berpindah ke projek pengkomputeran manusia dengan banyak peserta. Tetapi, untuk jumlah data tertentu, usaha manusia tulen tidak akan mencukupi. Pada masa itu, para penyelidik perlu membina sistem pengiraan manusia yang dibantu komputer di mana klasifikasi manusia digunakan untuk melatih model pembelajaran mesin yang kemudiannya boleh digunakan untuk hampir tidak terhad jumlah data.