Galaxy Zooは、多くの非専門家ボランティアの努力を組み合わせて、100万個の銀河を分類しました。
Galaxy Zooは、2007年にオックスフォード大学の天文学の大学院生Kevin Schawinskiが直面した問題から生まれました。かなり単純化すると、Schawinskiは銀河に興味がありました。銀河はその形態学によって分類できます - 楕円形またはらせん状青色または赤色で表示されます。当時の天文学者たちの知恵は、私たちの天の川のような螺旋銀河は青色(青年を示す)であり、楕円銀河は赤色(老朽化を示す)であったということでした。 Schawinskiはこの常識を疑った。彼は、このパターンは一般的には真実かもしれないが、おそらくかなりの数の例外が存在し、これらの異常な銀河の多くを研究することによって、期待されたパターンに合わない銀河が研究された。銀河が形成された。
したがって、Schawinskiが従来の知恵を覆すために必要だったのは、形態学的に分類された銀河の大集合であった。すなわち、らせん状または楕円形に分類された銀河です。しかし、問題は、既存のアルゴリズム分類法がまだ科学的研究に使用するのに十分ではなかったことであった。言い換えれば、銀河を分類することは、当時、コンピュータにとっては難しい問題でした。したがって、必要とされたのは、多数の人間分類された銀河でした。 Schawinskiは大学院生の熱意でこの分類問題に着手しました。 12時間の7日間のマラソンセッションで、彼は5万個の銀河を分類することができました。 5万個の銀河は多くのように聞こえるかもしれませんが、実際にはSloan Digital Sky Surveyで撮影された約100万個の銀河の約5%に過ぎません。 Schawinskiは、よりスケーラブルなアプローチが必要であることを認識しました。
幸いなことに、それは銀河を分類するタスクは天文学で高度な訓練を必要としないことが判明します。あなたはかなり迅速にそれを行うために誰かを教えることができます。分類銀河はコンピュータのために一生懸命だったタスクであっても、言い換えれば、それは人間のための非常に簡単でした。だから、オックスフォード、Schawinskiと仲間の天文学者クリスLintottでパブに座っている間は、ボランティアが銀河の画像を分類するウェブサイトを夢見ていました。数ヵ月後、銀河動物園が誕生しました。
Galaxy Zooのウェブサイトでは、ボランティアは数分間のトレーニングを受けます。例えば、渦巻銀河と楕円銀河の違いを知ることができます(図5.2)。この訓練の後、各ボランティアは、簡単なクイズを渡す必要がありました - 正確に分級された15個の銀河のうち11個を正確に分類し、単純なウェブベースのインターフェース(図5.3)によって未知の銀河の真の分類を開始します。ボランティアから天文学者への移行は10分もかからずに行われ、最低限のハードル、つまり簡単なクイズを通過するだけです。
Galaxy Zooは、このプロジェクトがニュース記事に掲載された後、最初のボランティアを引き付けました。約6ヶ月後には、10万人以上の市民科学者が参加しました。一緒に、これらの10万人のボランティアは合計で4,000万以上の分類に貢献しました。分類の大部分は、比較的小さなコア参加者グループからのものでした(Lintott et al. 2008) 。
学部の研究助手を雇った経験がある研究者は、すぐにデータの質に疑問を呈するかもしれません。この懐疑論は合理的ですが、Galaxy Zooは、ボランティアの寄付が正しく清掃され、除外され、集約されると、高品質の結果を生み出すことができることを示しています(Lintott et al. 2008) Lintott et al。2008 (Lintott et al. 2008) 。群衆にプロ品質のデータを作成させるための重要なトリックは、 冗長性です 。つまり、多くの異なる人々が同じタスクを実行することです。ギャラクシー動物園では、銀河あたり約40の分類がありました。学部の研究助手を使っている研究者は、このレベルの冗長性を与えることはできないため、個々の分類の質にもっと関心を寄せていく必要があります。ボランティアがトレーニングに欠けていたものは、冗長性を補ったものです。
しかし、銀河あたりの複数の分類であっても、コンセンサス分類を生成するためにボランティア分類のセットを組み合わせるのは難解でした。ほとんどの人間の計算プロジェクトでは非常に似通った問題が発生するため、Galaxy Zooの研究者がコンセンサスの分類を生成するために使用した3つのステップを簡単に見直すと役に立ちます。まず、研究者は偽の分類を取り除いてデータを「きれいにする」。たとえば、同じ銀河を何度も分類していた人々は、結果を操作しようとすると起こるようなことは、すべての分類が破棄されました。この洗浄と他の同様の洗浄は、すべての分類の約4%を除去した。
第二に、清掃後、研究者は分類における体系的偏見を除去する必要があった。元のプロジェクトのための例の中に埋め込まれたバイアス検出試験の代わりに、モノクロで銀河いくつかのボランティアを示す一連の色、研究者は、このような楕円銀河など遠い螺旋銀河を分類する体系的バイアスのようないくつかの系統的なバイアスを、発見(Bamford et al. 2009) 。これらの体系的なバイアスを調整することは、冗長性が体系的なバイアスを自動的に取り除くわけではないため、非常に重要です。ランダムエラーを取り除くのに役立ちます。
最後に、デバイス化後、研究者はコンセンサス分類を生成するために個々の分類を組み合わせる方法が必要でした。各銀河の分類を組み合わせる最も簡単な方法は、最も一般的な分類を選択することでした。しかし、このアプローチは各ボランティアに同等の体重を与え、ボランティアの中にはボランティアの中には他のボランティアよりも優れていると思っていたとの研究者もいました。したがって、研究者は最良の分類器を検出してより多くの重みを与えるように試みる、より複雑な反復重み付け手順を開発しました。
このように、3段階のプロセスクリーニング、デバギング、および重み付けの後、Galaxy Zooのリサーチチームは4,000万人のボランティア分類を合意形態分類に変換しました。これらのGalaxy Zooの分類を、Galaxy Zooのインスピレーションを助けたSchawinskiの分類を含む、プロの天文学者による以前の小規模の3回の試みと比較すると、強い合意がありました。したがって、ボランティアは、総計して、高品質の分類を提供することができ、研究者が一致することができなかった規模で提供することができました(Lintott et al. 2008) 。実際、このような数多くの銀河の人間分類を行うことで、Schawinski、Lintottなどは銀河の約80%しか青い螺旋や赤い楕円形のパターンに従っていないことを示すことができました。この発見(Fortson et al. 2011) 。
この背景を踏まえて、Galaxy Zooが、ほとんどの人間の計算プロジェクトで使用されているレシピと同じ分割適用結合レシピにどのように従っているかを確認できます。まず、大きな問題はチャンクに分割されます。この場合、100万個の銀河を分類する問題は、1個の銀河を分類する100万の問題に分割されました。次に、操作が各チャンクに独立して適用されます。この場合、ボランティアは各銀河をらせん状または楕円形に分類しました。最後に、結果を合算してコンセンサス結果を生成する。この場合、結合ステップには、各銀河のコンセンサス分類を生成するためのクリーニング、デバギング、および重み付けが含まれていました。ほとんどのプロジェクトでこの一般的なレシピが使用されていますが、それぞれのステップを特定の問題に合わせてカスタマイズする必要があります。例えば、以下に説明する人間の計算プロジェクトでは、同じレシピが適用されますが、適用および結合の手順はまったく異なります。
Galaxy Zooチームにとって、この最初のプロジェクトは始まりに過ぎませんでした。非常に迅速に、約100億個の銀河を分類することができたにもかかわらず、このスケールは、約100億個の銀河の画像を生成する新しいデジタル天体調査では十分ではないことを(Kuminski et al. 2014) 。 100万人から100億人への増加を処理するには、1万人のギャラクシー動物園の約1万倍の人員を募集する必要があります。インターネット上のボランティアの人数は多いものの、無限ではありません。したがって、研究者は、ますます増え続けるデータを処理しようとすれば、さらに新しいスケーラブルなアプローチが必要であることを認識しました。
したがって、Schawinski、Lintott、およびGalaxy Zooチームの他のメンバー(2010)と一緒に働いていたManda Banerjiは、コンピュータに銀河を分類するように指導しました。より具体的には、銀河動物園で作成された人間の分類を使用して、Banerjiは画像の特性に基づいて人間の銀河分類を予測できる機械学習モデルを構築しました。このモデルが人間の分類を高精度で再現できれば、Galaxy Zooの研究者は本質的に無限の数の銀河を分類することができます。
Banerjiとその同僚のアプローチの核心は、実際には社会調査でよく使われている技術とよく似ていますが、その類似点は一目瞭然ではないかもしれません。まず、Banerjiらは、各画像をその特性を要約した一連の数値的特徴に変換した。例えば、銀河の画像の場合、画像内の青の量、画素の明るさの分散、非白色画素の割合の3つの特徴があり得る。正しい機能の選択は問題の重要な部分であり、一般的にはサブジェクトエリアの専門知識が必要です。この第1ステップは、一般にフィーチャエンジニアリングと呼ばれ、1つの画像につき1つの行、次いでその画像を表す3つの列を有するデータマトリックスをもたらす。データマトリクスと所望の出力(例えば、画像が人間によって楕円銀河として分類されたかどうか)が与えられた場合、研究者は、特徴に基づいて人間の分類を予測する統計学的または機械学習モデル - 例えば、ロジスティック回帰 - を作成する画像の最後に、研究者はこの統計モデルのパラメータを用いて新しい銀河の推定分類を生成する(図5.4)。機械学習では、ラベル付きの例を使用して新しいデータにラベルを付けるモデルを作成するこのアプローチを監視学習と呼びます。
Banerjiと同僚の機械学習モデルの特徴は、私のおもちゃの例よりも複雑でした。たとえば、「デ・ボウクルースフィット軸比」のような特徴を使いました。彼女のモデルはロジスティック回帰ではなく、人工ニューラルネットワークでした。彼女の特徴、彼女のモデル、コンセンサスギャラクシー動物園の分類を使って、彼女は各特徴に重みをつけて、これらの重みを使って銀河の分類についての予測をすることができました。例えば、彼女の分析によると、 "de Vaucouleurs fit axis ratio"の低い画像はらせん銀河である可能性が高いことがわかりました。これらの重さを考えると、彼女は妥当な精度で銀河の人間の分類を予測することができました。
Banerjiらの研究は、Galaxy Zooを私がコンピュータ支援人間計算システムと呼ぶものに変えました。これらのハイブリッドシステムについて考える最良の方法は、人間が問題を解決するのではなく、人間が問題を解決するためにコンピュータを訓練するために使用できるデータセットを構築することです。場合によっては、問題を解決するためにコンピュータを訓練するには多くの例が必要になります。十分な数の例を生成する唯一の方法は、大規模な共同作業です。このコンピュータ支援のアプローチの利点は、限られた人的労力のみを使用して本質的に無限大のデータを処理できるということです。例えば、百万人のヒト分類銀河を持つ研究者は、予測モデルを構築して、数十億個の銀河を分類することができます。膨大な数の銀河がある場合、この種の人間 - コンピュータハイブリッドは本当に唯一可能な解決法です。しかし、この無限のスケーラビリティは無料ではありません。人間の分類を正確に再現できる機械学習モデルを構築すること自体が難しい問題ですが、幸いにもこのトピックに特化した優れた本があります(Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) 。
Galaxy Zooは、人間の計算プロジェクトがどれだけ進化しているかをよく表しています。最初に、研究者は、自分自身で、または研究アシスタントの小さなチーム(例えば、Schawinskiの最初の分類作業)でプロジェクトを試みます。このアプローチがうまく拡張できない場合、研究者は多くの参加者がいる人間の計算プロジェクトに移動できます。しかし、一定量のデータについては、純粋な人間の努力では十分ではありません。その時点で、研究者は、人間の分類を使用して機械学習モデルを訓練し、実質的に無制限の量のデータに適用できる、コンピュータ支援の人間計算システムを構築する必要があります。