दीर्घिका झूने दशलक्ष नवे आकाशगंगाचे वर्गीकरण करण्यासाठी अनेक गैर-विशेषज्ञ स्वयंसेवकांच्या प्रयत्नांची एकत्रित केली.
2007 मध्ये ऑक्सफोर्ड विद्यापीठात खगोलशास्त्रातील पदवीधर विद्यार्थी केविन शौविनकि यांच्यासमोर समस्या निर्माण झाली होती. थोड्या थोड्या अवधीत, स्कायन्स्कीला आकाशगंगामध्ये रस होता आणि आकाशगंगा त्यांच्या आकारविज्ञान-लंबवर्तूळकार किंवा सर्पिल यांनी वर्गीकृत केले जाऊ शकते-आणि त्यांच्या रंग-निळ्या किंवा लाल रंगाच्या त्या वेळी खगोलशास्त्रज्ञांमध्ये पारंपारिक शहाणपण हे होते की, आकाशगंगासारख्या सर्पिल आकाशगंगा, निळा रंग (युवक दर्शविणारा) आणि लंबवर्तूळ आकाशगंगा लाल होते (वृद्धत्व सूचित करणारे) लाल होते. स्कवान्सकीने या पारंपरिक बुद्धीवर संशय घेतला. तो असा संशय होता की हे पॅटर्न सर्वसाधारणपणे खरे असू शकते, कदाचित अपवादांची बर्याच संख्येने संख्या होती आणि यापैकी बरेच असामान्य आकाशगंगाचा अभ्यास करून -अशा अपेक्षित नमुन्याशी जुळत नसलेल्या-ते त्या प्रक्रियेबद्दल काहीतरी शिकू शकतात ज्याद्वारे आकाशगंगा बनविल्या
त्यामुळे, पारंपरिक शहाणपण उलथण्यासाठी स्कॉविन्स्कीला काय आवश्यक होते ते रूपरेषात्मक वर्गीकृत आकाशगंगांपैकी एक मोठे संच होते; म्हणजे, आकाशगंगांमध्ये ज्यांना सर्पिल किंवा लंबवर्तूळ म्हणून वर्गीकृत केले गेले आहे समस्या, तथापि, वर्गीकरण साठी विद्यमान अल्गोरिदमिक पद्धती अद्याप वैज्ञानिक संशोधनासाठी वापरण्यास पुरेसे चांगले नव्हते; इतर शब्दात सांगायचे तर, आकाशगंगाचे वर्गीकरण करणे, त्यावेळी, संगणकास कठीण असलेली समस्या. म्हणून, मानवी- वर्गीकृत आकाशगटांमध्ये मोठ्या संख्येने गरज होती. स्कुवन्स्की यांनी एका ग्रॅज्युएट विद्यार्थ्याचे उत्साह या वर्गीकरण समस्येचे काम केले. सात 12 तासांच्या मॅरेथॉन सत्रात त्यांनी 50,000 आकाशगंगेचे वर्गीकरण करण्यास सक्षम होते. तर 50,000 आकाशगंगा आवाजांसारखे वाटू शकते, पण खरे तर स्लोन डिजिटल स्काय सर्व्हेतील छायाचित्रित सुमारे एक दशलक्ष आकाशगंगांपैकी फक्त 5% आहे. स्कॉविन्स्कीला जाणवले की त्याला अधिक स्केलेबल दृष्टिकोन आवश्यक आहे.
सुदैवाने, तो वगीर्करण आकाशगंगा कार्य खगोलशास्त्र मध्ये प्रगत प्रशिक्षण आवश्यकता नाही बाहेर वळते; आपण तेही पटकन तो आस्वाद शिकवू शकता. दुसऱ्या शब्दांत, आकाशगंगा आहेतच वगीर्करण संगणक कठीण होते हे काम आहे तरी, तो मानव खूपच सोपे होते. त्यामुळे, ऑक्सफर्ड, Schawinski आणि सहकारी खगोलशास्त्रज्ञ ख्रिस Lintott मध्ये पब बसलेला असताना स्वयंसेवक आकाशगंगा आहेतच प्रतिमा वर्गीकरण होईल जेथे वेबसाइट स्वप्न पडले. काही महिने नंतर, दीर्घिका प्राणीसंग्रहालय जन्म झाला.
दीर्घिका चिनीमा वेबसाईटवर, स्वयंसेवक प्रशिक्षण काही मिनिटे घेतील; उदाहरणार्थ, सर्पिल आणि लंबवर्तूळ आकाशगंगामध्ये फरक शिकणे (आकृती 5.2). या प्रशिक्षणानंतर, प्रत्येक स्वयंसेवकांना एक सोपी वेब-आधारित इंटरफेस (आकृती 5.3) द्वारे अज्ञात आकाशगंगाचा वास्तविक वर्गीकरण सुरू होईल आणि त्यानंतर ज्ञात वर्गीकरणांसह 11 पैकी 15 आकाशगंगाचा वर्गीकरण करुन सहजपणे क्विझ-योग्यता पार करणे आवश्यक होते. स्वयंसेवक पासून खगोलशास्त्रज्ञांना संक्रमण 10 मिनिटांपेक्षा कमी वेळेत होईल आणि फक्त अडथळ्यांतील सर्वात निम्न, एक साधी प्रश्नोत्तरे पार करणे आवश्यक आहे.
या प्रकल्पाला प्रारंभिक स्वयंसेवकांनी एक वृत्तपत्रात प्रकाशित केले आणि सुमारे सहा महिने या प्रकल्पात 100,000 पेक्षा जास्त नागरीक शास्त्रज्ञ, लोक सहभागी होण्यास हातभार लावला ज्यामुळे त्यांना या कामाचा आनंद लुटला गेला आणि ते खगोलशास्त्रींना मदत करण्यास उत्सुक होते. एकत्रितपणे, या 100,000 स्वयंसेवकांनी एकूण 40 दशलक्ष पेक्षा अधिक वर्गीकरणांचे योगदान दिले आहे, बहुतेक वर्गवारीतील (Lintott et al. 2008) सहभागी होणारे (Lintott et al. 2008) .
अभ्यासाच्या अनुभवाचा शोध घेणार्या पदवीपूर्व संशोधन सहाय्यकांना डेटा गुणवत्तेविषयी संशय असण्याची शक्यता आहे. हे संशयवाद वाजवी आहे, परंतु दीर्घिका चिड़चिडाने असे दर्शविले आहे की जेव्हा स्वयंसेवकांचे योगदान योग्यरितीने साफ केले जाते, डीबिज केलेले असते आणि एकत्रित होते, तेव्हा ते उच्च दर्जाचे परिणाम (Lintott et al. 2008) . व्यावसायिक दर्जाचे डेटा तयार करण्यासाठी गर्दी मिळविण्याकरिता एक महत्त्वाची युक्ती म्हणजे रिडंडंसि आहे , म्हणजे त्याच कामाने बर्याच लोकांना वेगळे केले आहे दीर्घिका प्राणीसंग्रहामध्ये, प्रति आकाशगंगा सुमारे 40 वर्गीकरण होते; संशोधकांनी अंडरग्रेजुएट शोध सहाय्यकांचा वापर करून हे रिडंडंसिचे या पातळीला कधीही घेऊ शकणार नाही आणि म्हणून प्रत्येक वैयक्तिक वर्गीकरणाची गुणवत्तेशी अधिक संबंधित असणे आवश्यक आहे. स्वयंसेवकांच्या प्रशिक्षणात काय कमी पडले, ते रिडंडंसीसाठी बनले.
जरी प्रत्येक आकाशगंगासाठी एकापेक्षा जास्त वर्गीकरण असला तरीही, सर्वसाधारण वर्गीकरण तयार करण्यासाठी स्वयंसेवी वर्गांच्या सेट्सचा एकत्र करणे अवघड होते. बहुतेक मानवी मोजणी प्रकल्पांमध्ये खूपच आव्हाने उद्भवतात कारण दीर्घिका चिनी संशोधकांनी त्यांच्या सर्वसाधारण वर्गीकरण निर्मितीसाठी वापरलेल्या तीन चरणांची थोडक्यात समीक्षा करणे उपयुक्त ठरते. प्रथम, संशोधकांनी बोगस वर्गीकरण काढून माहिती साफ केली आहे. उदाहरणार्थ, जे लोक बारकाईने एकाच आकाशगंगाचे वर्गीकरण करतात- ते परिणाम घडवून आणण्याचा प्रयत्न करत असतील तर ते घडेल- त्यांच्या सर्व वर्गीकरण टाकून घेतले. हे आणि इतर तत्सम स्वच्छता सर्व वर्गीकरण सुमारे 4% काढली.
दुसरे म्हणजे, साफ केल्यानंतर, संशोधकांना वर्गीकरणांमध्ये पद्धतशीर पूर्वग्रहणे दूर करणे आवश्यक होते. मूळ प्रकल्पात अंतर्भूत केलेल्या पूर्वाग्रह ओळखण्यांच्या मालिकेतून - उदाहरणार्थ, काही स्वयंसेवकांनी रंगांऐवजी एका रंगात रंगवल्यातील आकाशगंगा दर्शविल्या- संशोधकांनी अनेक क्रमबद्ध बायस शोधून काढल्या, जसे की दीर्घकालीन स्पार्ली आकाशगंगाचा वर्गीकरण म्हणून अण्डाकार आकाशगंगा (Bamford et al. 2009) . या पद्धतशीर पूर्वग्रहणाचे समायोजन अत्यंत महत्वाचे आहे कारण रिडंडंसी आपोआप व्यवस्थित पूर्वाग्रह काढत नाही; हे फक्त यादृच्छिक त्रुटी काढून मदत करते.
अखेरीस, डीबिसींगनंतर, संशोधकांनी सर्वसमावेशक वर्गीकरण तयार करण्यासाठी वैयक्तिक वर्गीकरण एकत्र करण्याची एक पद्धत आवश्यक आहे. प्रत्येक आकाशगंगासाठी वर्गीकरण एकत्रित करण्याचा सर्वात सोपा मार्ग म्हणजे सर्वात सामान्य वर्गीकरण निवडणे. तथापि, या दृष्टिकोनाने प्रत्येक स्वयंसेवक समान वजन दिले असते, आणि संशोधकांनी संशयित केले की काही स्वयंसेवक इतरांपेक्षा वर्गीकरणापेक्षा चांगले होते. म्हणूनच, संशोधकांनी एक अधिक गुंतागुंतीच्या पद्धतीचा भारित करण्याची पद्धत विकसित केली ज्यात सर्वोत्तम वर्गमित्र शोधण्याचा प्रयत्न केला आणि त्यांना अधिक वजन दिले.
अशा प्रकारे, तीन-चरण प्रक्रियेनंतर - साफसफाईची, डीबिसीझिंग आणि वजन-दीर्घिका चिनी संशोधन संघाने 4 मिलियन स्वयंसेवक वर्गवारीने सर्वसाधारण स्वरूपाच्या वर्गीकरणांच्या संचात रूपांतरित केली. जेव्हा या दीर्घकालीन चिंटूच्या वर्गीकरणांची तुलना प्रोफेशनल खगोलशास्त्रज्ञांनी केली होती, तेव्हा स्काविनकिने वर्गीकरणदेखील दिला होता ज्यामुळे दीर्घिका झूंना प्रेरणा मिळाली. अशा प्रकारे, स्वयंसेवक, एकत्रित, उच्च दर्जाचे वर्गीकरण आणि संशोधक जे (Lintott et al. 2008) जुळत नाहीत त्या मोजमापाने सक्षम होते. वस्तुस्थिती अशी आहे की मोठ्या संख्येने आकाशगंगांतासाठी मानवी वर्गीकरण करून, स्कॉन्स्की, लिंटॉट आणि इतर हे दाखवून देतात की फक्त 80% आकाशगंगाचा आकृती अपेक्षित नमुना-निळा स्प्रिल आणि लाल अण्डाकारांप्रमाणे-आणि असंख्य वृत्तपत्रांविषयी लिहिले गेले आहेत हा शोध (Fortson et al. 2011) .
या पार्श्वभूमीवर आपण आता पाहू शकता की दीर्घपरीक्षण चिंटू स्प्लिट-ऍडिशनल-जॉयनी रेसिपीचे पालन करते, त्याच पद्धतीने बहुतेक मानवी मोजणी प्रकल्पांसाठी वापरले जाते. प्रथम, एक मोठी समस्या भागांमध्ये विभागली आहे . या प्रकरणात, एक दशलक्ष आकाशगंगा वर्गीकरण करण्याची समस्या एक आकाशगंगा वर्गीकरण एक दशलक्ष समस्या मध्ये विभाजीत करण्यात आले. पुढे, प्रत्येक चक्रात स्वतंत्रपणे ऑपरेशन लागू केले जाते या प्रकरणात, स्वयंसेवकांनी प्रत्येक आकाशगंगाला सर्पिल किंवा लंबवर्तूळ म्हणून वर्गीकृत केले. अखेरीस, परिणाम एकसमान परिणाम तयार करण्यासाठी एकत्रित केले जातात. या प्रकरणात, एकत्रित पाऊल प्रत्येक आकाशगंगा साठी एकमत वर्गीकरण निर्मिती साफसफाई, डीबिजिंग आणि भार समाविष्ट करते. बहुतेक प्रकल्प हा सामान्य कृती वापरत असला तरीही, प्रत्येक टप्प्यासाठी विशिष्ट समस्येचे निराकरण केले जाणे आवश्यक आहे. उदाहरणार्थ, खाली वर्णन केलेल्या मानवी मोजणी प्रकल्पामध्ये, समान पाककृती चालेल, परंतु लागू होईल आणि एकत्रित पायरी खूप भिन्न असतील.
दीर्घिका चिंटू संघासाठी, हा पहिला प्रकल्प केवळ सुरुवात आहे. ते लगेच लक्षात आले की जरी ते जवळजवळ दहा लाख आकाशगंगातींचे वर्गीकरण करण्यास सक्षम झाले असले तरी, या प्रमाणात नवीन डिजिटल आकाश (Kuminski et al. 2014) करण्यासाठी पुरेसे नाहीत, जे सुमारे 10 अब्ज आकाशगंगा (Kuminski et al. 2014) प्रतिमा निर्माण करू शकते. 10 लाखांपेक्षा जास्त -100000 पर्यंतचा वाढ हाताळण्यासाठी-दीर्घिका चिनीमांना सुमारे 10,000 पट अधिक सहभागींची भरती करणे आवश्यक आहे. जरी इंटरनेटवरील स्वयंसेवकांची संख्या मोठी असली तरी ते असीम नसते. म्हणूनच, संशोधकांना हे समजले की जर ते सतत वाढत्या प्रमाणात डेटा हाताळण्याचा प्रयत्न करीत असतील तर एक नवीन आणि अधिक स्केल योग्य दृष्टिकोन आवश्यक आहे.
म्हणूनच मंडाना बनर्जी - स्कायन्स्की, लिंटॉट, आणि गॅलेक्सी झू टीमच्या इतर सदस्यांशी (2010) कार्यरत - आकाशगंगाचा वर्गीकरण करण्यासाठी संगणकांना शिकवण्याचे प्रशिक्षण. अधिक विशेषतया, दीर्घिका चिड़ांमुळे मानव वर्गीकरण वापरून, बनर्जी यांनी मशीन शिकण्याचे मॉडेल तयार केले जे प्रतिमाच्या वैशिष्ट्यांवर आधारित आकाशगंगाच्या मानवी वर्गीकरणास अंदाज देऊ शकते. जर हे मॉडेल मानवी वर्गीकरण उच्च अचूकतेने पुनरुत्पादित करू शकते, तर ते दीर्घिका चिनी संशोधकांकडून अनिवार्यपणे असंख्य आकाशगंगाचा वर्गीकरण करू शकतात.
बॅनरजी आणि सहकाऱ्यांचे केंद्र प्रत्यक्षात सामाजिक संशोधनात वापरले जाणाऱ्या तंत्रांसारखेच आहे, परंतु हे समानता पहिल्या दृष्टीक्षेपात स्पष्ट होऊ शकत नाही. सर्वप्रथम, बॅनरजी आणि सहकार्यांनी प्रत्येक प्रतिमाला संख्यात्मक वैशिष्ट्यांचा संच दिला जो त्यातील गुणधर्मांचा सारांशित करण्यात आला. उदाहरणार्थ, आकाशगंगाच्या प्रतिमांसाठी, तीन वैशिष्ट्ये असू शकतात: प्रतिमेमधील निळ्या रंगाची संख्या, पिक्सेल्सची चमक मध्ये फरक आणि बिगर-पांढर्या पिक्सलच्या प्रमाणात. योग्य वैशिष्ट्यांची निवड ही समस्येचा एक महत्वाचा भाग आहे आणि सामान्यत: विषय-क्षेत्रातील तज्ञांची आवश्यकता आहे हे पहिले पाऊल, सर्वसाधारणपणे फीचर इंजिनिअरिंग म्हणून ओळखले जाते, परिणामी प्रति प्रतिमा एक पंक्ती असलेला डेटा मॅट्रिक्स आणि त्यानंतर त्या प्रतिमाचे तीन स्तंभ वर्णन केले जातात. डेटा मॅट्रिक्स आणि इच्छित आउटपुट (उदा., इमेजची मानवजात अंडाशीय आकाशगंगा म्हणून वर्गीकृत केलेली होती) दिलेल्या असताना, संशोधक एक सांख्यिकीय किंवा मशीन शिकण्याचे मॉडेल तयार करतो - उदाहरणार्थ, तर्कशुद्ध प्रतिगमन-जे गुणविशेषांवर आधारित मानव वर्गीकरणांचा अंदाज लावते प्रतिमा अखेरीस, संशोधक नवीन आकाशगंगाचा अंदाजे वर्गीकरण (आकृती 5.4) तयार करण्यासाठी या सांख्यिकीय मॉडेलमधील मापदंडांचा वापर करतो. मशीन शिकण्यामध्ये, लेबलेच्या उदाहरणांचा उपयोग करून मॉडेल तयार करण्यासाठी ही एक नवीन पद्धती तयार केली जाऊ शकते - ज्याला पर्यवेक्षी शिक्षण म्हणतात.
बॅनरजी आणि सहकर्मींच्या 'मशीन लर्निंग मॉडेल' ची वैशिष्ट्ये माझ्या खेळण्यातील उदाहरणांपेक्षा अधिक जटिल होती- उदाहरणार्थ, त्यांनी "डी व्हॅकूऊलर फॅट अॅक्अल रेशिओ" सारखी वैशिष्ट्ये वापरली-आणि तिचे मॉडेल लॅग्जिकल रिग्रेस नव्हते, हे एक कृत्रिम मज्जासंस्थेचे नेटवर्क होते तिच्या वैशिष्ट्यांचा, तिच्या मॉडेलचा आणि दीर्घिका चिड़ियाघर वर्गीकरणाचा वापर करून, ती प्रत्येक वैशिष्ट्यावर वजन तयार करण्यास सक्षम होते आणि नंतर तक्तयांचे वर्गीकरण बद्दल अंदाज देण्यासाठी या वजनांचा वापर केला. उदाहरणार्थ, तिच्या विश्लेषणात असे आढळून आले की "डी व्हकुऊलर्स फॅटी अॅक्शीअल रेसिटी" कमी असलेली प्रतिमा सर्पिल आकाशगंगा आहेत या वजनामुळे, ती वाजवी अचूकतेसह आकाशगंगाचा मानवी वर्गीकरण अंदाज लावण्यात सक्षम होते.
बॅनरजी आणि सहकाऱ्यांचे काम म्हणजे मला संगणकीय सहाय्य करणार्या मानवी मोजणी यंत्राविषयी बोलायचे आहे. या हायब्रीड सिस्टीमबद्दल विचार करण्याचा उत्तम मार्ग म्हणजे मानव समस्या सोडवण्याऐवजी, मानवांनी डेटासेट तयार केला आहे जो संगणकास समस्येचे निराकरण करण्यासाठी वापरले जाऊ शकते. कधीकधी, या समस्येचे निराकरण करण्यासाठी संगणकास प्रशिक्षण दिल्याने बर्याच उदाहरणे आवश्यक असू शकतात आणि पुरेशा संख्येची उदाहरणे तयार करण्याचा एकमेव मार्ग म्हणजे लोकांचा सहभाग आहे. या संगणक-सहाय्यक दृष्टिकोनाचा फायदा म्हणजे तो केवळ मानवी प्रयत्नांच्या मर्यादित रकमेचा उपयोग करून मूलत: अमर्यादित प्रमाणात डेटा हाताळण्यास सक्षम करतो. उदाहरणार्थ, एक दशलक्ष मानव वर्गीकृत आकाशगंगा एक संशोधक एक अंदाज मॉडेल तयार करू शकता जे नंतर एक अब्ज किंवा अगदी एक ट्रिलियन आकाशगंगा वर्गीकरण करण्यासाठी वापरले जाऊ शकते. प्रचंड आकाशगंगा आहेत, तर अशा प्रकारच्या मानवी संगणकाचा हायब्रिड खरोखरच एकमात्र उपाय आहे. हे असीम प्रमाणक्षमता विनामूल्य नाही, तथापि. मानवी वर्गीकरण योग्यरित्या पुनरुत्पादन करू शकणारे मशीन शिकण्याचे मॉडेल स्वतः तयार करणे ही एक कठीण समस्या आहे, परंतु सुदैवाने या विषयासाठी उत्कृष्ट पुस्तकेही उपलब्ध आहेत (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
मानवी गणना प्रकल्प किती उत्क्रांत होतात याचे उत्तम उदाहरण दीर्घिका चिटापेक्षा जास्त आहे. प्रथम, संशोधक स्वत: किंवा संशोधन सहाय्यकांचा एक छोटा संघ (उदा. स्वडिन्स्कीचा प्रारंभिक वर्गीकरण प्रयत्न) या प्रकल्पाचा प्रयत्न करतो. जर हा दृष्टीकोन चांगला नाही, तर संशोधक मानवी मोजणीच्या प्रकल्पामध्ये सहभागी होऊ शकतो. परंतु, एका ठराविक प्रमाणात डेटासाठी, शुद्ध मानवी प्रयत्न पुरेसे नाहीत. त्यावेळी, संशोधकांनी संगणकीय सहाय्य करणार्या मानवी मोजणी प्रणालीची निर्मिती करणे आवश्यक आहे ज्यामध्ये मानवी वर्गीकरणांचा वापर मशीन शिकण्याच्या मॉडेलला प्रशिक्षित करण्यासाठी होतो जे नंतर अक्षरशः अमर्यादित प्रमाणात डेटावर लागू केले जाऊ शकते.