Galaxy Zoo menggabungkan usaha ramai sukarelawan bukan pakar untuk mengelaskan satu juta galaksi.
Galaxy Zoo berkembang daripada satu masalah yang dihadapi oleh Kevin Schawinski, seorang pelajar siswazah di Astronomi di Universiti Oxford pada tahun 2007. Memudahkan agak sedikit, Schawinski berminat dalam galaksi, dan galaksi boleh diklasifikasikan oleh mereka morfologi-elips atau lingkaran dan oleh mereka warna biru atau merah. Pada masa itu, kebijaksanaan konvensional di kalangan ahli astronomi adalah bahawa galaksi lingkaran, seperti Milky Way kami, adalah berwarna biru (belia yang menunjukkan) dan galaksi elips adalah berwarna merah (menunjukkan usia tua). Schawinski meragui kebijaksanaan konvensional ini. Beliau mengesyaki bahawa walaupun corak ini mungkin benar secara umum, terdapat mungkin beberapa yang agak besar pengecualian, dan bahawa dengan mengkaji banyak ini luar biasa galaksi-orang-orang yang tidak sesuai yang diharapkan corak dia boleh belajar sesuatu tentang proses di mana galaksi terbentuk.
Oleh itu, apa Schawinski diperlukan untuk mengubah kebijaksanaan konvensional adalah satu set besar galaksi morfologi terperingkat; iaitu, galaksi yang telah diklasifikasikan sebagai sama ada lingkaran atau elips. Masalahnya, bagaimanapun, adalah bahawa kaedah algoritma yang sedia ada untuk pengelasan tidak belum cukup baik untuk digunakan untuk penyelidikan saintifik; dalam erti kata lain, mengelaskan galaksi adalah, pada masa itu, masalah yang sukar untuk komputer. Oleh itu, apa yang diperlukan adalah sebilangan besar galaksi diklasifikasikan manusia. Schawinski melaksanakan masalah pengelasan ini dengan semangat seorang pelajar siswazah. Dalam sesi marathon tujuh, hari 12-jam, dia mampu untuk mengelaskan 50,000 galaksi. Manakala 50,000 galaksi mungkin bunyi seperti banyak, ia sebenarnya hanya kira-kira 5% daripada hampir satu juta galaksi yang telah mengambil gambar di dalam Kajian Sky Sloan Digital. Schawinski sedar bahawa dia memerlukan pendekatan yang lebih berskala.
Mujurlah, ia ternyata bahawa tugas galaksi mengklasifikasikan tidak memerlukan latihan lanjutan dalam bidang astronomi; anda boleh mengajar seseorang untuk melakukannya cukup cepat. Dalam erti kata lain, walaupun mengklasifikasikan galaksi merupakan satu tugas yang sukar untuk komputer, ia adalah agak mudah untuk manusia. Jadi, sambil duduk di sebuah pub di Oxford, Schawinski dan rakan-rakan ahli astronomi Chris Lintott bermimpi sebuah laman web di mana sukarelawan akan mengklasifikasikan imej galaksi. Beberapa bulan kemudian, Zoo Galaxy dilahirkan.
Pada laman web Zoo Galaxy, sukarelawan akan menjalani beberapa minit latihan; sebagai contoh, belajar perbezaan antara lingkaran dan galaksi elips (Rajah 5.2). Selepas latihan ini, para sukarelawan terpaksa lulus agak mudah kuiz-betul mengklasifikasikan 11 15 galaksi dengan dikenali klasifikasi dan kemudian sukarelawan akan bermula klasifikasi sebenar galaksi yang tidak diketahui melalui antara muka berasaskan web yang mudah (Rajah 5.3). Peralihan dari sukarelawan untuk ahli astronomi akan berlaku dalam masa kurang daripada 10 minit dan hanya perlu lulus rendah halangan, kuiz yang mudah.
Galaxy Zoo menarik sukarelawan awal selepas projek itu dipaparkan dalam artikel berita, dan dalam kira-kira enam bulan projek itu meningkat kepada melibatkan lebih daripada 100,000 ahli-ahli sains warganegara, orang-orang yang mengambil bahagian kerana mereka menikmati tugas dan mereka mahu membantu astronomi awal. Bersama-sama, 100,000 sukarelawan menyumbang sejumlah lebih daripada 40 juta klasifikasi, dengan majoriti daripada klasifikasi yang datang dari, Kumpulan kecil teras peserta (Lintott et al. 2008) .
Penyelidik yang mempunyai pengalaman mencari pekerja pembantu penyelidikan mahasiswa mungkin segera menjadi ragu-ragu mengenai kualiti data. Walaupun keraguan ini adalah munasabah, Galaxy Zoo menunjukkan bahawa apabila caruman sukarela dengan betul dibersihkan, debiased, dan dijumlahkan, mereka boleh menghasilkan keputusan yang berkualiti tinggi (Lintott et al. 2008) . Helah penting untuk mendapatkan orang ramai untuk membuat data kualiti profesional adalah lebihan; iaitu, setelah tugas yang sama dilakukan oleh ramai orang yang berbeza. Di Zoo Galaxy, terdapat kira-kira 40 klasifikasi setiap galaksi; penyelidik menggunakan pembantu penyelidikan mahasiswa tidak mampu tahap ini lebihan dan oleh itu perlu menjadi lebih prihatin dengan kualiti setiap klasifikasi individu. Apa sukarelawan kekurangan dalam latihan, mereka membuat untuk dengan lebihan.
Walaupun dengan pelbagai klasifikasi setiap galaksi, bagaimanapun, menggabungkan set klasifikasi sukarelawan untuk menghasilkan pengelasan konsensus adalah sukar. Kerana cabaran hampir sama timbul dalam projek-projek pengiraan paling manusia, ia membantu untuk mengkaji secara ringkas tiga langkah yang penyelidik Zoo Galaxy digunakan untuk menghasilkan klasifikasi konsensus mereka. Pertama, penyelidik "dibersihkan" data dengan mengeluarkan klasifikasi palsu. Sebagai contoh, orang yang berulang kali diklasifikasikan sama galaxy-sesuatu yang akan berlaku jika mereka cuba untuk memanipulasi keputusan-mempunyai semua klasifikasi mereka dibuang. Ini dan perkhidmatan pencucian lain yang serupa dikeluarkan kira-kira 4% daripada semua klasifikasi.
Kedua, selepas pembersihan, penyelidik diperlukan untuk membuang berat sebelah yang sistematik dalam klasifikasi. Melalui satu siri kajian pengesanan berat sebelah tertanam dalam contoh projek untuk asal, menunjukkan beberapa sukarelawan galaksi dalam monokrom dan bukannya warna-penyelidik menemui beberapa berat sebelah sistematik, seperti berat sebelah yang sistematik untuk mengklasifikasikan galaksi jauh lingkaran sebagai galaksi elips (Bamford et al. 2009) . Pelarasan bagi ini berat sebelah sistematik sangat penting kerana dengan purata sumbangan tidak membuang berat sebelah yang sistematik; ia hanya mengeluarkannya ralat rawak.
Akhirnya, selepas debiasing, penyelidik diperlukan kaedah untuk menggabungkan klasifikasi individu untuk menghasilkan pengelasan konsensus. Cara yang paling mudah untuk menggabungkan klasifikasi bagi setiap galaksi akan untuk memilih klasifikasi yang paling biasa. Walau bagaimanapun, pendekatan ini akan memberi setiap sukarelawan keutamaan yang sama, dan para penyelidik mengesyaki beberapa sukarelawan adalah lebih baik di klasifikasi daripada yang lain. Oleh itu, penyelidik membangunkan prosedur pemberat lelaran yang lebih kompleks yang cuba untuk mengesan penjodoh bilangan yang terbaik secara automatik dan memberikan mereka lebih banyak berat badan.
Oleh itu, selepas tiga langkah proses pembersihan, debiasing, dan pemberat-pasukan penyelidikan Zoo Galaxy telah memeluk 40 juta klasifikasi sukarelawan ke dalam satu set konsensus klasifikasi morfologi. Apabila klasifikasi Zoo Galaxy telah berbanding tiga sebelum percubaan kecil-kecilan oleh ahli astronomi profesional, termasuk klasifikasi oleh Schawinski yang membantu untuk memberi inspirasi kepada Zoo Galaxy, terdapat perjanjian yang kuat. Oleh itu, para sukarelawan, dalam agregat, dapat memberikan klasifikasi berkualiti tinggi dan pada skala yang para penyelidik tidak dapat menandingi (Lintott et al. 2008) . Malah, dengan mempunyai klasifikasi manusia untuk sejumlah besar galaksi, Schawinski, Lintott, dan lain-lain dapat menunjukkan bahawa hanya kira-kira 80% daripada galaksi mengikuti pilin jangkaan corak biru dan ellipticals dan merah banyak kertas telah ditulis mengenai penemuan ini (Fortson et al. 2011) .
Memandangkan latar belakang ini, kita boleh melihat bagaimana Galaxy Zoo berikut perpecahan memohon menggabungkan resipi, resipi yang sama yang digunakan untuk projek-projek pengiraan paling manusia. Pertama, satu masalah besar dibahagikan menjadi ketulan. Dalam kes ini, masalah mengklasifikasikan satu juta galaksi berpecah kepada satu juta masalah mengklasifikasikan satu galaksi. Seterusnya, operasi yang digunakan untuk setiap sebahagian bebas. Dalam kes ini, sukarelawan akan mengklasifikasikan setiap galaksi sebagai sama ada lingkaran atau elips. Akhirnya, keputusan digabungkan untuk menghasilkan hasil konsensus. Dalam kes ini, langkah menggabungkan termasuk pembersihan, debiasing dan skema jawapan untuk menghasilkan pengelasan sepakat bagi setiap galaksi. Walaupun kebanyakan projek menggunakan resipi umum ini, setiap satu daripada langkah-langkah yang perlu disesuaikan dengan masalah tertentu ditangani. Sebagai contoh, dalam projek pengiraan manusia yang dinyatakan di bawah, resipi yang sama akan diikuti, tetapi dikenakan dan menggabungkan langkah-langkah yang akan menjadi agak berbeza.
Untuk pasukan Zoo Galaxy, projek pertama ini adalah hanya permulaan. Dengan cepat mereka sedar bahawa walaupun mereka dapat mengklasifikasikan hampir satu juta galaksi, skala ini tidak cukup untuk bekerja dengan tinjauan langit digital baru, yang boleh menghasilkan imej kira-kira 10 bilion galaksi (Kuminski et al. 2014) . Untuk mengendalikan meningkat daripada 1 juta kepada 10 bilion faktor 10,000 Galaxy Zoo perlu mengambil kira-kira 10,000 kali lebih peserta. Walaupun bilangan sukarelawan di Internet adalah besar, ia tidak terbatas. Oleh itu, penyelidik menyedari bahawa jika mereka akan mengendalikan jumlah yang semakin berkembang data, yang baru, yang lebih berskala, pendekatan yang diperlukan.
Oleh itu, Manda Banerji bekerja dengan Kevin Schawinski, Chris Lintott, dan ahli-ahli Zoo Galaxy komputer pengajaran berpasukan-mula mengklasifikasikan galaksi. Lebih khusus lagi, dengan menggunakan klasifikasi manusia dicipta oleh Zoo Galaxy, Banerji et al. (2010) membina sebuah model pembelajaran mesin yang boleh meramalkan klasifikasi manusia galaksi yang berdasarkan ciri-ciri imej. Jika ini model pembelajaran mesin boleh menghasilkan semula klasifikasi manusia dengan ketepatan yang tinggi, maka ia boleh digunakan oleh penyelidik Zoo Galaxy untuk mengelaskan nombor dasarnya terhingga galaksi.
Teras pendekatan Banerji dan rakan-rakan 'sebenarnya agak sama dengan teknik yang biasa digunakan dalam penyelidikan sosial, walaupun persamaan yang mungkin tidak jelas pada pandangan pertama. Pertama, Banerji dan rakan-rakan ditukar setiap imej ke dalam satu set ciri-angka yang merumuskan ia hartanah. Sebagai contoh, untuk imej galaksi mungkin ada tiga ciri-ciri: jumlah biru dalam imej, varians dalam kecerahan piksel, dan bahagian piksel bukan berkulit putih. Pemilihan ciri-ciri yang betul adalah satu bahagian penting dalam masalah ini, dan ia secara amnya memerlukan hal kawasan kepakaran. Langkah pertama, biasanya dipanggil kejuruteraan ciri, keputusan dalam matriks data dengan satu baris setiap imej dan kemudian tiga lajur menggambarkan imej itu. Memandangkan matriks data dan output yang dikehendaki (contohnya, sama ada imej telah diklasifikasikan oleh manusia sebagai galaksi elips), penyelidik menganggarkan parameter contoh model-untuk statistik, sesuatu seperti regresi-bahawa logistik meramalkan klasifikasi manusia berasaskan kepada ciri-ciri imej. Akhir sekali, penyelidik menggunakan parameter dalam model statistik ini untuk menghasilkan anggaran klasifikasi galaksi baru (Rajah 5.4). Untuk memikirkan analog sosial, bayangkan bahawa anda mempunyai maklumat demografi kira satu juta pelajar, dan anda tahu sama ada mereka lulus dari kolej atau tidak. Anda boleh memuatkan regresi logistik kepada data ini, dan kemudian anda boleh menggunakan parameter model yang terhasil untuk meramalkan sama ada pelajar baru akan menjadi graduan dari kolej. Dalam pembelajaran mesin, pendekatan-menggunakan contoh label ini untuk mencipta model statistik yang kemudian boleh label baru data dipanggil aktiviti pembelajaran (Hastie, Tibshirani, and Friedman 2009) .
Ciri-ciri dalam Banerji et al. (2010) model pembelajaran mesin lebih kompleks daripada yang di mainan saya contoh-contohnya, dia menggunakan ciri-ciri seperti "de Vaucouleurs patut nisbah paksi" -dan model itu, tidak ada regresi logistik, ia adalah satu rangkaian neural buatan. Menggunakan ciri-ciri, model, dan konsensus klasifikasi Zoo Galaxy, dia dapat mewujudkan berat pada setiap ciri, dan kemudian menggunakan berat ini untuk membuat ramalan tentang klasifikasi galaksi. Sebagai contoh, analisisnya mendapati bahawa imej dengan rendah "de Vaucouleurs patut nisbah paksi" adalah lebih cenderung untuk menjadi galaksi pilin. Memandangkan berat ini, dia dapat meramalkan klasifikasi manusia galaksi dengan ketepatan yang munasabah.
Kerja-kerja Banerji et al. (2010) bertukar Zoo Galaxy ke dalam apa yang saya akan memanggil satu sistem pengiraan manusia generasi kedua. Cara terbaik untuk berfikir mengenai sistem generasi kedua adalah bahawa daripada harus manusia menyelesaikan masalah, mereka mempunyai manusia membina set data yang boleh digunakan untuk melatih komputer untuk menyelesaikan masalah tersebut. Jumlah data yang diperlukan untuk melatih komputer boleh menjadi begitu besar bahawa ia memerlukan kerjasama besar-besaran manusia untuk mencipta. Dalam kes Zoo Galaxy, rangkaian neural yang digunakan oleh Banerji et al. (2010) diperlukan jumlah yang sangat besar contoh manusia yang dilabel untuk membina model yang dapat dengan pasti menghasilkan semula klasifikasi manusia.
Kelebihan pendekatan bantuan komputer ini adalah bahawa ia membolehkan anda untuk mengendalikan jumlah dasarnya terhingga data menggunakan hanya sejumlah terhingga usaha manusia. Sebagai contoh, seorang penyelidik dengan satu juta galaksi diklasifikasikan manusia boleh membina model ramalan yang kemudiannya boleh digunakan untuk mengelaskan satu bilion atau trilion galaksi. Jika ada nombor besar galaksi, maka ini jenis hibrid manusia-komputer adalah benar-benar satu-satunya penyelesaian yang mungkin. Ini berskala tak terhingga tidak bebas, namun. Membina model pembelajaran mesin yang betul boleh menghasilkan semula klasifikasi manusia adalah dengan sendirinya suatu masalah yang sukar, tetapi nasib baik sudah ada buku yang sangat baik khusus untuk topik ini (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy Zoo menunjukkan evolusi banyak projek pengiraan manusia. Pertama, penyelidik cuba projek itu dengan sendiri atau dengan pasukan kecil pembantu penyelidik (contohnya, Schawinski ini klasifikasi usaha awal). Jika pendekatan ini tidak skala baik, penyelidik boleh bergerak ke satu projek pengiraan manusia di mana ramai orang menyumbang klasifikasi. Tetapi, untuk jumlah tertentu data, usaha manusia tulen tidak akan cukup. Pada ketika itu, penyelidik perlu membina sistem generasi kedua di mana klasifikasi manusia digunakan untuk melatih model pembelajaran mesin yang kemudiannya boleh digunakan untuk jumlah yang hampir tidak terhad data.