Kebun Binatang Galaxy menggabungkan upaya banyak relawan non-ahli untuk mengklasifikasikan satu juta galaksi.
Kebun Binatang Galaxy tumbuh dari masalah yang dihadapi oleh Kevin Schawinski, seorang mahasiswa pascasarjana di Astronomi di Universitas Oxford pada 2007. Menyederhanakan sedikit, Schawinski tertarik pada galaksi, dan galaksi dapat digolongkan menurut morfologi mereka — elips atau spiral — dan dengan warna mereka — biru atau merah. Pada saat itu, kebijaksanaan konvensional di antara para astronom adalah bahwa galaksi spiral, seperti Bima Sakti kita, berwarna biru (menandakan pemuda) dan galaksi elips berwarna merah (menunjukkan usia tua). Schawinski meragukan kebijaksanaan konvensional ini. Dia menduga bahwa sementara pola ini mungkin benar secara umum, mungkin ada sejumlah pengecualian yang cukup besar, dan bahwa dengan mempelajari banyak galaksi yang tidak biasa ini - yang tidak sesuai dengan pola yang diharapkan - dia bisa belajar sesuatu tentang proses yang dilalui. galaksi terbentuk.
Jadi, apa yang dibutuhkan Schawinski untuk menggulingkan kearifan konvensional adalah sekumpulan besar galaksi yang diklasifikasikan secara morfologis; yaitu, galaksi yang telah digolongkan sebagai spiral atau elips. Masalahnya, bagaimanapun, adalah bahwa metode algoritmik yang ada untuk klasifikasi belum cukup baik untuk digunakan untuk penelitian ilmiah; dengan kata lain, mengklasifikasikan galaksi adalah, pada waktu itu, masalah yang sulit untuk komputer. Oleh karena itu, yang dibutuhkan adalah sejumlah besar galaksi yang diklasifikasi manusia . Schawinski melakukan masalah klasifikasi ini dengan antusiasme seorang mahasiswa pascasarjana. Dalam sesi maraton tujuh hari 12 jam, ia mampu mengklasifikasikan 50.000 galaksi. Sementara 50.000 galaksi mungkin terdengar seperti banyak, sebenarnya hanya sekitar 5% dari hampir satu juta galaksi yang telah difoto di Sloan Digital Sky Survey. Schawinski menyadari bahwa dia membutuhkan pendekatan yang lebih skalabel.
Untungnya, ternyata tugas mengklasifikasikan galaksi tidak memerlukan pelatihan lanjutan dalam astronomi; Anda bisa mengajarkan seseorang untuk melakukannya cukup cepat. Dengan kata lain, meskipun mengklasifikasi galaksi adalah tugas yang sulit untuk komputer, itu cukup mudah bagi manusia. Jadi, sambil duduk di sebuah pub di Oxford, Schawinski dan sesama astronom Chris Lintott bermimpi sebuah situs web di mana relawan akan mengklasifikasikan gambar galaksi. Beberapa bulan kemudian, Galaxy Zoo lahir.
Di situs web Zoo Zoo, relawan akan menjalani beberapa menit pelatihan; misalnya, mempelajari perbedaan antara galaksi spiral dan elips (gambar 5.2). Setelah pelatihan ini, setiap sukarelawan harus melewati kuis yang relatif mudah — dengan benar mengklasifikasikan 11 dari 15 galaksi dengan klasifikasi yang diketahui — dan kemudian akan memulai klasifikasi nyata dari galaksi yang tidak diketahui melalui antarmuka berbasis web yang sederhana (gambar 5.3). Transisi dari sukarelawan menjadi astronom akan berlangsung dalam waktu kurang dari 10 menit dan hanya diperlukan melewati rintangan terendah, kuis sederhana.
Kebun Binatang Galaxy menarik para sukarelawan awalnya setelah proyek itu ditampilkan dalam sebuah artikel berita, dan dalam waktu sekitar enam bulan proyek itu berkembang untuk melibatkan lebih dari 100.000 ilmuwan warga, orang-orang yang berpartisipasi karena mereka menikmati tugas itu dan mereka ingin membantu memajukan astronomi. Bersama-sama, 100.000 sukarelawan ini berkontribusi total lebih dari 40 juta klasifikasi, dengan mayoritas klasifikasi berasal dari kelompok peserta inti yang relatif kecil (Lintott et al. 2008) .
Para peneliti yang memiliki pengalaman menyewa asisten penelitian sarjana mungkin langsung merasa skeptis tentang kualitas data. Sementara skeptisisme ini masuk akal, Kebun Binatang Galaxy menunjukkan bahwa ketika kontribusi sukarela dibersihkan dengan benar, dikurangi, dan dikumpulkan, mereka dapat menghasilkan hasil berkualitas tinggi (Lintott et al. 2008) . Trik penting untuk membuat keramaian menciptakan data berkualitas profesional adalah redundansi , yaitu, memiliki tugas yang sama yang dilakukan oleh banyak orang yang berbeda. Di Kebun Binatang Galaxy, ada sekitar 40 klasifikasi per galaksi; Peneliti yang menggunakan asisten penelitian sarjana tidak pernah mampu untuk tingkat redundansi ini dan oleh karena itu perlu lebih peduli dengan kualitas setiap klasifikasi individu. Apa yang sukarelawan kurang dalam pelatihan, mereka mengimbangi dengan redundansi.
Bahkan dengan beberapa klasifikasi per galaksi, bagaimanapun, menggabungkan kumpulan klasifikasi relawan untuk menghasilkan klasifikasi konsensus itu sulit. Karena tantangan yang sangat mirip muncul di sebagian besar proyek komputasi manusia, akan sangat membantu untuk meninjau secara singkat tiga langkah yang digunakan para peneliti Kebun Binatang Galaxy untuk menghasilkan klasifikasi konsensus mereka. Pertama, para peneliti "membersihkan" data dengan menghapus klasifikasi gadungan. Misalnya, orang-orang yang berulang kali mengklasifikasikan galaksi yang sama — sesuatu yang akan terjadi jika mereka mencoba memanipulasi hasil — semua klasifikasi mereka dibuang. Ini dan pembersihan serupa lainnya dihapus sekitar 4% dari semua klasifikasi.
Kedua, setelah dibersihkan, para peneliti perlu menghapus bias sistematis dalam klasifikasi. Melalui serangkaian studi pendeteksian bias yang tertanam dalam proyek asli — misalnya, menunjukkan beberapa sukarelawan galaksi dalam monokrom, bukan warna — para peneliti menemukan beberapa bias sistematis, seperti bias sistematis untuk mengklasifikasikan galaksi spiral jauh sebagai galaksi elips (Bamford et al. 2009) . Menyesuaikan untuk bias sistematis ini sangat penting karena redundansi tidak secara otomatis menghilangkan bias sistematis; itu hanya membantu menghilangkan kesalahan acak.
Akhirnya, setelah debiasing, para peneliti membutuhkan metode untuk menggabungkan klasifikasi individu untuk menghasilkan klasifikasi konsensus. Cara paling sederhana untuk menggabungkan klasifikasi untuk setiap galaksi adalah memilih klasifikasi yang paling umum. Namun, pendekatan ini akan memberikan bobot yang sama bagi masing-masing sukarelawan, dan para peneliti menduga bahwa beberapa sukarelawan lebih baik dalam klasifikasi daripada yang lain. Oleh karena itu, para peneliti mengembangkan prosedur pembobotan berulang yang lebih kompleks yang berusaha mendeteksi pengklasifikasi terbaik dan memberi mereka lebih banyak berat.
Jadi, setelah proses tiga langkah — pembersihan, debiasing, dan pembobotan — tim riset Kebun Binatang Galaxy telah mengubah 40 juta klasifikasi sukarelawan menjadi satu set klasifikasi morfologi konsensus. Ketika klasifikasi Galaxy Zoo ini dibandingkan dengan tiga upaya berskala kecil sebelumnya oleh para astronom profesional, termasuk klasifikasi oleh Schawinski yang membantu menginspirasi Kebun Binatang Galaxy, ada kesepakatan yang kuat. Dengan demikian, para relawan, secara agregat, mampu memberikan klasifikasi berkualitas tinggi dan pada skala yang para peneliti tidak bisa menandingi (Lintott et al. 2008) . Bahkan, dengan memiliki klasifikasi manusia untuk sejumlah besar galaksi, Schawinski, Lintott, dan lain-lain mampu menunjukkan bahwa hanya sekitar 80% galaksi mengikuti pola yang diharapkan - spiral biru dan elips merah - dan banyak makalah telah ditulis tentang penemuan ini (Fortson et al. 2011) .
Dengan latar belakang ini, Anda sekarang dapat melihat bagaimana Kebun Binatang Galaxy mengikuti resep split-apply-combine, resep yang sama yang digunakan untuk sebagian besar proyek komputasi manusia. Pertama, masalah besar terbagi menjadi beberapa bagian. Dalam kasus ini, masalah pengelompokan sejuta galaksi terbagi menjadi jutaan masalah penggolongan satu galaksi. Selanjutnya, operasi diterapkan ke setiap bagian secara independen. Dalam hal ini, relawan mengklasifikasikan setiap galaksi sebagai spiral atau elips. Akhirnya, hasilnya digabungkan untuk menghasilkan hasil konsensus. Dalam hal ini, langkah menggabungkan termasuk pembersihan, debiasing, dan pembobotan untuk menghasilkan klasifikasi konsensus untuk setiap galaksi. Meskipun sebagian besar proyek menggunakan resep umum ini, setiap langkah perlu disesuaikan dengan masalah khusus yang ditangani. Misalnya, dalam proyek komputasi manusia yang dijelaskan di bawah ini, resep yang sama akan diikuti, tetapi langkah penerapan dan penggabungan akan sangat berbeda.
Untuk tim Kebun Binatang Galaxy, proyek pertama ini hanyalah permulaan. Sangat cepat mereka menyadari bahwa meskipun mereka mampu mengklasifikasikan hampir satu juta galaksi, skala ini tidak cukup untuk bekerja dengan survei langit digital yang lebih baru, yang dapat menghasilkan gambar sekitar 10 miliar galaksi (Kuminski et al. 2014) . Untuk menangani peningkatan dari 1 juta hingga 10 miliar — faktor 10.000 — Kebun Binatang Galaxy akan perlu merekrut sekitar 10.000 kali lebih banyak peserta. Meskipun jumlah relawan di Internet sangat besar, itu tidak terbatas. Oleh karena itu, para peneliti menyadari bahwa jika mereka akan menangani jumlah data yang terus bertambah, diperlukan pendekatan yang baru, bahkan lebih terukur.
Oleh karena itu, Manda Banerji — bekerja dengan Schawinski, Lintott, dan anggota lain dari tim Kebun Binatang Galaxy (2010) —mulai mengajar komputer untuk mengklasifikasikan galaksi. Lebih khusus lagi, dengan menggunakan klasifikasi manusia yang dibuat oleh Kebun Binatang Galaxy, Banerji membangun model pembelajaran mesin yang dapat memprediksi klasifikasi manusia atas galaksi berdasarkan karakteristik gambar. Jika model ini dapat mereproduksi klasifikasi manusia dengan akurasi tinggi, maka itu bisa digunakan oleh para peneliti Kebun Binatang Galaxy untuk mengklasifikasikan jumlah galaksi yang pada dasarnya tak terbatas.
Inti pendekatan Banerji dan rekan sebenarnya sangat mirip dengan teknik yang biasa digunakan dalam penelitian sosial, meskipun kesamaan itu mungkin tidak jelas pada pandangan pertama. Pertama, Banerji dan rekannya mengubah setiap gambar menjadi serangkaian fitur numerik yang meringkas propertinya. Misalnya, untuk gambar galaksi, mungkin ada tiga fitur: jumlah biru pada gambar, varians dalam kecerahan piksel, dan proporsi piksel non-putih. Pemilihan fitur yang benar merupakan bagian penting dari masalah, dan umumnya memerlukan keahlian bidang subjek. Langkah pertama ini, biasanya disebut rekayasa fitur , menghasilkan matriks data dengan satu baris per gambar dan kemudian tiga kolom yang menggambarkan gambar itu. Mengingat matriks data dan output yang diinginkan (misalnya, apakah gambar diklasifikasi oleh manusia sebagai galaksi elips), peneliti menciptakan model pembelajaran mesin atau statistik — misalnya, regresi logistik — yang memprediksi klasifikasi manusia berdasarkan fitur gambar. Akhirnya, peneliti menggunakan parameter dalam model statistik ini untuk menghasilkan estimasi klasifikasi galaksi baru (gambar 5.4). Dalam pembelajaran mesin, pendekatan ini — menggunakan contoh berlabel untuk membuat model yang kemudian dapat melabeli data baru — disebut pembelajaran terawasi .
Fitur-fitur dalam model pembelajaran mesin Banerji dan rekannya lebih kompleks daripada yang ada dalam contoh mainan saya — misalnya, dia menggunakan fitur seperti “de Vaucouleurs fit axial ratio” —dan modelnya bukan regresi logistik, itu adalah jaringan saraf tiruan. Menggunakan fitur-fiturnya, modelnya, dan klasifikasi konsensus Galaxy Zoo, ia mampu menciptakan bobot pada setiap fitur, dan kemudian menggunakan bobot ini untuk membuat prediksi tentang klasifikasi galaksi. Sebagai contoh, analisisnya menemukan bahwa gambar dengan rasio aksial rendah "de Vaucouleurs" lebih mungkin menjadi galaksi spiral. Mengingat bobot ini, ia mampu memprediksi klasifikasi manusia dari sebuah galaksi dengan akurasi yang wajar.
Karya Banerji dan koleganya mengubah Kebun Binatang Galaxy menjadi apa yang saya sebut sistem komputasi manusia yang dibantu komputer . Cara terbaik untuk berpikir tentang sistem hibrida adalah bahwa daripada memiliki manusia memecahkan masalah, mereka memiliki manusia membangun kumpulan data yang dapat digunakan untuk melatih komputer untuk memecahkan masalah. Terkadang, melatih komputer untuk memecahkan masalah dapat membutuhkan banyak contoh, dan satu-satunya cara untuk menghasilkan sejumlah contoh yang cukup adalah kolaborasi massa. Keuntungan dari pendekatan yang dibantu komputer ini adalah memungkinkan Anda untuk menangani sejumlah besar data yang tidak terbatas hanya dengan menggunakan usaha manusia yang terbatas. Sebagai contoh, seorang peneliti dengan jutaan galaksi manusia diklasifikasikan dapat membangun model prediktif yang kemudian dapat digunakan untuk mengklasifikasikan satu miliar atau bahkan satu triliun galaksi. Jika ada sejumlah besar galaksi, maka hibrida manusia-komputer ini benar-benar satu-satunya solusi yang mungkin. Namun skalabilitas tak terbatas ini tidak gratis. Membangun model pembelajaran mesin yang benar dapat mereproduksi klasifikasi manusia itu sendiri merupakan masalah yang sulit, tapi untungnya sudah ada buku-buku bagus yang didedikasikan untuk topik ini (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Kebun Binatang Galaxy adalah ilustrasi yang baik tentang berapa banyak proyek komputasi manusia yang berevolusi. Pertama, seorang peneliti mencoba proyek itu sendiri atau dengan tim kecil asisten penelitian (misalnya, upaya klasifikasi awal Schawinski). Jika pendekatan ini tidak mencapai skala yang baik, peneliti dapat pindah ke proyek komputasi manusia dengan banyak peserta. Namun, untuk sejumlah data tertentu, upaya manusia murni tidak akan cukup. Pada titik itu, peneliti perlu membangun sistem komputasi manusia yang dibantu komputer di mana klasifikasi manusia digunakan untuk melatih model pembelajaran mesin yang kemudian dapat diterapkan ke jumlah data yang hampir tidak terbatas.