ग्यालक्सी चिडिया धेरै गैर-विशेषज्ञ स्वयम्सेवकहरूको प्रयासमा एक लाख आकाशगंगा वर्गीकरण गर्न संयुक्त।
2007 मा ऑक्सफोर्ड विश्वविद्यालय में खगोल विज्ञान में स्नातक छात्र केविन Schawinski, का सामना करने वाली एक समस्या से गैलेक्सी चिड़िया का सामना करना पड़ा। काफी सरल, Schawinski आकाशगंगाओं में रुचि थी, और आकाशगंगाओं उनके morphology-अंडाकार या सर्पिल द्वारा वर्गीकृत किया जा सकता है तिनीहरूको रंग-नीलो वा रातो द्वारा। समयमा, खगोलविद्युतहरु बीच पारंपरिक ज्ञान सर्पिल आकाशगंगाहरु जस्तै हाम्रो मिल्की राई रङमा नीलो थिए (युवाहरु लाई संकेत गर्दछ) र अण्डागत आकाशगंगा रातो थियो (पुरानो उमेरको संकेत)। Schawinski यो पारंपरिक ज्ञान मा शंका भयो। उनीहरूले यस पद्धति सामान्यतया सामान्यतया हुन सक्दछन्, त्यहाँ सम्भवतः एक अपवादयोग्य संख्या थियो र यी असामान्य आकाशगंगाहरूको अध्ययन गरेर- जसले प्रत्याशित ढाँचा उपयुक्त पारेन - त्यो प्रक्रियाको बारेमा केहि सिक्न सक्छ आकाशगंगा बनाइयो।
त्यसकारण, पारंपरिक ज्ञानलाई पराजित गर्न कुन श्वाकिन्कीलाई चाहिन्छ कि मार्तिमानीकृत वर्गीकृत आकाशगंगाहरूको ठूलो सेट थियो; त्यो हो, आकाशगंगा जुन कि सर्पिल वा अण्डाकार को रूप मा वर्गीकृत गरिएको थियो। तथापि, समस्या थियो कि वर्गीकरण को लागि मौजूदा एल्गोरिदम तरिकाहरु लाई अझै सम्म पर्याप्त वैज्ञानिक अनुसन्धान को लागि उपयोग गरेन को लागि पर्याप्त नहीं थे; अन्य शब्दहरूमा, आकाशगंगा वर्गीकरण गर्दै थियो, त्यस समयमा, कम्प्युटरको लागि एउटा समस्या थियो। त्यसोभए, के आवश्यकता थियो मानव जातिको एक विशाल संख्यामा आकाशगंगा। Schawinski ले यो वर्गीकरण समस्या स्नातक छात्र को उत्साह संग गरे। सात 12-घण्टा दिनको म्याराथन सत्रमा, उहाँले 50,000 आकाशगंगा वर्गीकृत गर्न सक्नुभयो। जबकि 50,000 आकाशगंगाहरु धेरै जस्तै आवाज हुन सक्छ, यो वास्तव मा लगभग एक मिलियन आकाशगंगा मध्ये लगभग 5% छ जुन स्लोन डिजिटल स्काई सर्वेक्षण मा फोटो खिचेको थियो। Schawinski एहसास भयो कि उसलाई एक अधिक स्केलेबल दृष्टिकोण चाहिन्छ।
खुसीको कुरा, त्यो वर्गीकृत आकाशगंगाओं कार्य खगोल विज्ञान मा उन्नत प्रशिक्षण आवश्यकता छैन बाहिर जान्छ; तपाईं राम्रो चाँडै यो गर्न कसैले सिकाउन सक्छन्। अर्को शब्दमा, आकाशगंगाओं वर्गीकृत कम्प्युटर लागि गाह्रो थियो कि एक कार्य हो तापनि, यो राम्रो मानिसहरूलाई लागि सजिलो भएको थियो। त्यसैले, अक्सफोर्ड, Schawinski र सँगी astronomer क्रिस Lintott मा एक पब मा बसेर स्वयंसेवकहरु आकाशगंगाओं तस्बिरहरू वर्गीकरण थियो जहाँ एक वेबसाइट माथि सपना देख्यो। केही महिनापछि, ग्यालेक्सी चिडियाघर जन्म भएको थियो।
ग्यालेक्सी चिडियाघर वेबसाइटमा, स्वयम्सेवकहरूले केही मिनेटको प्रशिक्षण पाउँथे; उदाहरणका लागि, एक सर्पिल र अण्डाकार आकाशगंगा (5.2 अङ्क) बीचको भिन्नता सिक्न। यस प्रशिक्षण पछि, प्रत्येक स्वयंसेवकले अपेक्षाकृत सजिलो क्विज -15 लाई 15 वटा आकाशगंगाको वर्गीकरण वर्गीकरणको साथ वर्गीकरण गर्दछ - र त्यसपछि साधारण वेब-आधारित इन्टरफेस (चित्र 5.3) मा अज्ञात आकाशगंगाहरूको वास्तविक वर्गीकरण सुरु हुनेछ। स्वैच्छिक देखि खगोल विज्ञानको संक्रमण 10 मिनेट भन्दा कम हुनेछ र केवल सबै भन्दा कम बाधाहरू, एक सरल प्रश्नोत्तरी हुँदै जानुपर्छ।
ग्यालेक्सी चिडियाले आफ्नो शुरुआती स्वैच्छिकहरूलाई आकर्षित गरेपछि यो परियोजना एक समाचार लेखमा राखिएको थियो र लगभग 6 महिनामा यो परियोजनाले 100,000 भन्दा बढी नागरिक वैज्ञानिकहरू समावेश गरेको थियो, जसले जसले भाग लिइन् किनभने उनीहरूले कामबाट आनन्द उठाउँथे र उनीहरूलाई खगोल विज्ञानको अग्रगामी बनाउन चाहन्थे। साथसाथै, यी 100,000 स्वयंसेवकहरूले कुल 40 लाख वर्गीकरणको योगदान दिए, अधिकांश वर्गीकरणहरू अपेक्षाकृत साना, सहभागीहरूको मुख्य समूह (Lintott et al. 2008) बाट आउँदैछन्।
अनुसन्धानकर्ताहरू जसले स्नातक अनुसन्धान सहयोगीहरू भर्ती गर्ने अनुभव अनुभव गर्न सक्छन् तुरुन्त डेटा गुणस्तरको बारे मा शंकास्पद हुन सक्छ। यो संदेह उचित छ, ग्यालेक्सी चिडियाले बताउँछ कि जब स्वैच्छिक योगदान सही ढंगले सफा, दुर्व्यवहार र एकत्रित गरिन्छ, उनीहरूले उच्च-गुणस्तरको परिणामहरू उत्पादन गर्न सक्छन् (Lintott et al. 2008) । व्यवसाय-गुणस्तर डेटा सिर्जना गर्न भीड प्राप्त गर्नको लागि एक महत्त्वपूर्ण अचम्म अनावश्यक छ , जुन धेरै फरक मान्छे द्वारा गरेअनुसार एक कार्य छ। ग्यालेक्सी चिडियाघरमा, आकाशगंगा प्रति लगभग 40 वर्गीकरणहरू थिए; अनुसन्धानकर्ताहरूले स्नातक अनुसन्धान सहायकहरूको प्रयोग गर्न कहिल्यै पनि यो स्तर बेवास्ता गर्न सकेन र यसैले प्रत्येक व्यक्ति वर्गीकरणको गुणस्तरसँग बढी चिन्ता पर्दछ। कुन स्वयम्सेवकहरू प्रशिक्षणमा छन्, तिनीहरूले अनावश्यकताका साथ लिए।
तथापि प्रति ग्यालक्सी एकाधिक वर्गीकरणको साथ, एक सहमति वर्गीकरण उत्पादन गर्न स्वयंसेवक वर्गीकरणको सेट संयोजन ठिक थियो। किनभने धेरै समान समस्याहरू प्रायः मानव मानवता प्रोजेक्टहरूमा उत्पन्न हुन्छन्, यो ग्यालेक्सी चिडियाघरका शोधकर्ताहरू उनीहरूको सहमति वर्गीकरणको प्रयोग गर्न तीन चरणहरू संक्षेपमा समीक्षा गर्न उपयोगी छन्। पहिलो, शोधकर्ताहरूले "सफा" डाटा बोगस वर्गीकरण हटाउँदा। उदाहरणका लागि, जसले बारम्बार त्यहि आकाशगंगालाई वर्गीकृत गर्दछ - केही कुरा जुन परिणामहरू हेरफेर गर्ने प्रयास गरिसकेका थिए - उनीहरूका सबै वर्गीकरणहरू खारेज भएका थिए। यो र अन्य समान सफाई सबै वर्गीकरणहरूको लगभग 4% हटाइयो।
दोस्रो, सफाई पछि, शोधकर्ताहरूले वर्गीकरणमा व्यवस्थित पूर्वाधार हटाउन आवश्यक छ। मूल प्रोजेक्ट भित्र एम्बेडेड पूर्वाग्रह पत्ता लगाउने अध्ययनहरूको एक श्रृंखलाद्वारा - उदाहरणका लागि, केही स्वयंसेवकहरूले रंगको सट्टा मोनोक्रोममा आकाशगंगा देखाउँछन्- शोधकर्ताहरूले धेरै व्यवस्थित पूर्वाधारहरू पत्ता लगाउँछन्, जस्तै कि एक व्यवस्थित पूर्वाग्रह पत्ता लगाउने आकाशगंगाहरू अण्डागत आकाशगंगाहरू (Bamford et al. 2009) । यी व्यवस्थित पूर्वाधारहरूको लागि समायोजन अत्यन्तै महत्त्वपूर्ण छ किनकि अनावश्यकताले स्वचालित रूपमा व्यवस्थित पूर्वाग्रह हटाउँदैन; यसले मात्र यादृच्छिक त्रुटि हटाउँदछ।
अन्ततः, डिभिजन के बाद, शोधकर्ताओं को एक सहमति वर्गीकरण का उत्पादन करने के लिए व्यक्तिगत वर्गीकरण को संयोजन करने के लिए एक तरीका की जरूरत है। प्रत्येक आकाशगंगा को वर्गीकरण को संयोजन को लागी सरल तरीका को सबै भन्दा सामान्य वर्गीकरण को चयन भएको थियो। यद्यपि, यस दृष्टिकोणले प्रत्येक स्वयंसेवकको बराबर वजन दिनेछ, र शोधकर्ताहरूलाई शङ्का दिइन्छ कि केही स्वयम्सेवकहरू अरू भन्दा वर्गीकरणमा अझ राम्रो थिए। यसैले, शोधकर्ताहरु ले एक अधिक जटिल औसतर वजन प्रक्रिया को विकास गरे जो सर्वोत्तम वर्गीकरण को ठेगाना लगाए र उनलाई अधिक वजन दिइयो।
त्यसकारण, ग्यालेक्सी चिडियाघरको अनुसन्धान टोलीले तीन-चरणको प्रक्रिया-सफाई, विकृति र भारोत्सव पछि 40 मिलियन स्वैच्छिक वर्गीकरणलाई एकरूप सहमतिको आधारभूत वर्गीकरणमा परिवर्तन गर्यो। जब यी गैलेक्सी चिडियाघर वर्गीकरणले पेशेवर खगोलविद्हरूले तीनवटा सानो-सानो प्रयास गरे, जसमा स्किन्स्की द्वारा वर्गीकरण समेत ग्यालेक्सी चिडियाको प्रेरणा लिन मद्दत पुर्याए, त्यहाँ त्यहाँको बलियो सम्झौता थियो। यसैले, स्वयंसेवकों, समग्र मा, उच्च गुणवत्ता वाला वर्गीकरण प्रदान गर्न मा सक्षम थिए र एक स्तर मा शोधकर्ताओं संग मेल नहीं खा सकते (Lintott et al. 2008) । वास्तवमा, आकाशगंगाको यस्तो विशाल संख्याको लागि मानव वर्गीकरणहरू, श्विनिस्की, लिन्टोट र अरूले देख्न सकेन कि आकाशगंगाको लगभग 80% मात्र अपेक्षित ढाँचा-नीलो सर्पिल र रातो अण्डाकारहरूको अनुगमन गर्दछ र धेरै कागजातहरू लेखिएका छन्। यो खोज (Fortson et al. 2011) ।
यस पृष्ठभूमिलाई दिइयो, अब तपाइँ कसरी हेर्न सक्नुहुन्छ कि कसरी आकाशगंगा चिडिया विभाजित-लागू-गठबन्धन नुस्खा पालन गर्दछ, त्यस्ता नुस्खा जसको प्रयोग अधिकांश मानव गणना परियोजनाका लागि प्रयोग गरिन्छ। पहिलो, एक ठूलो समस्या chunks विभाजित गरिएको छ। यस अवस्थामा, एक आकाशगंगा वर्गीकरण को एक लाख आकाशगंगा वर्गीकरण को समस्या एक लाख समस्याहरु मा विभाजित भयो। अर्को, एक अपरेशन स्वतन्त्र रूपमा प्रत्येक भागमा लागू हुन्छ। यस अवस्थामा, स्वयंसेवकों प्रत्येक आकाशगंगा को रूप मा सर्पल या अंडाकार को रूप मा वर्गीकृत। अन्तमा, नतीजा एक सहमतिको परिणाम उत्पादन गर्न संयुक्त छन्। यस अवस्थामा, प्रत्येक ग्यालेक्सीको लागि एक सहमति वर्गीकरण उत्पादन गर्न गठबन्धनको चरण सफा, विकिरण, र भार समावेश गरिएको थियो। यद्यपि धेरै परियोजनाहरूले यो सामान्य नुस्खा प्रयोग गर्दछ, प्रत्येक चरणलाई निर्दिष्ट समस्यालाई अनुकूलित गर्न अनुकूलित हुनुपर्छ। उदाहरणको लागि, तल वर्णन गरिएको मानव गणना परियोजनामा, त्यस्ता नुस्खा पछि पछ्याइनेछ, तर आवेदन र गठबन्धन चरणहरू फरक हुनेछ।
ग्यालेक्सी चिडियाघर टोलीको लागि यो पहिलो परियोजना मात्र सुरुवात थियो। धेरै चाँडै उनीहरूले एहसास गरे कि उनीहरूले दस लाख आकाशगंगाको नजिक वर्गीकरण गर्न सक्षम भए तापनि यो माप नयाँ डिजिटल आकाश सर्वेक्षणका साथ काम गर्न पर्याप्त छैन, जुन लगभग 10 अरब आकाशगंगा (Kuminski et al. 2014) छविहरू उत्पादन गर्न सक्दछ। 1 मिलियन देखि 10 बिलियन सम्मको वृद्धि गर्न - 10,000-गैलेक्सी चिडियाको एक कारकले लगभग 10,000 पटक थप सहभागिता भर्ती गर्न आवश्यक छ। यद्यपि इन्टरनेटमा स्वयंसेवकहरूको संख्या ठूलो छ, यो अनंत होइन। यसैले, शोधकर्ताहरु लाई एहसास भयो कि यदि उनि डेटा को कभी बढती मात्रा को संभालने को लागि जा रहे थिए, एक नयाँ, र पनि अधिक स्केलेबल, दृष्टिकोण को आवश्यकता थियो।
यसैले, मन्डी Banerji - Schawinski, Lintott संग काम गर्दै, र ग्यालेक्सी चिडियाघर टोली (2010) अन्य सदस्यहरु - शिक्षण कम्प्यूटरहरु लाई आकाशगंगा वर्गीकृत गर्न को लागी। विशेष गरी, ग्यालेक्सी चिडियाघर द्वारा बनाईएको मानव वर्गीकरणको प्रयोग गरी, Banerji एक मेशिन सिकाउने मोडेल निर्माण गरेको छ जुन छविको विशेषताहरूको आधारमा आकाशगंगाको मानव वर्गीकरणको भविष्यवाणी गर्न सक्छ। यदि यो मोडेलले उच्च सटीकतासँग मानव वर्गीकरणहरू पुन: उत्पन्न गर्न सक्छ भने, यो आकाशगंगा चिडियाघरका शोधकर्ताहरूले प्रयोग गर्न सकिन्छ कि आकाशगंगाहरूको अनिवार्य संख्याको वर्गीकरण गर्नुहोस्।
ब्यानरजी र साथीहरूको दृष्टिकोणको वास्तवमा प्रायः प्रविधिहरूसँग समान छ जसमा प्रायः सामाजिक अनुसन्धानमा प्रयोग गरिन्छ, यद्यपि समानता पहिलो नजरमा स्पष्ट हुन सक्दैन। पहिलो, Banerji र सहकर्मीहरूले प्रत्येक छवि संख्यात्मक विशेषताहरूको एक सेट मा परिवर्तित गरेको छ जुन यसको गुणहरू संक्षेपमा छ। उदाहरणका लागि, आकाशगंगाका तस्बिरहरूका लागि, त्यहाँ तीनवटा सुविधाहरू हुन सक्दछ: छविमा नीलोको मात्रा, पिक्सलको चमकमा भिन्नता र गैर-सेतो पिक्सेलको अनुपात। सही सुविधाहरूको चयन समस्याको एक महत्वपूर्ण भाग हो, र यो सामान्यतया विषय-क्षेत्र विशेषज्ञताको आवश्यकता छ। यो पहिलो चरण, सामान्यतया फिचर ईन्जिनियरिङ भनिन्छ, डाटा म्याट्रिक्समा एक पङ्क्ति प्रति छवि र त्यसपछि तीन स्तम्भहरू त्यस छविको वर्णन गर्दछन्। डेटा म्याट्रिक्स र वांछित उत्पादन (जस्तै, छवि अण्डाकार आकाशगंगाको रूपमा मानव द्वारा वर्गीकृत गरिएको थियो) मा, शोधकर्ताले एक सांख्यिकीय वा मेशिन सिकाउने मोडेल बनाउँछ- उदाहरणका लागि, रसदवादी रिप्रेशन - जसले विशेषताहरूमा आधारित मानव वर्गीकरणको भविष्यवाणी गर्दछ छविको। अन्तमा, शोधकर्ताले नयाँ आकाशगंगाको अनुमानित वर्गीकरण उत्पादन गर्न यस सांख्यिकीय मोडेलको प्यारामिटरहरू प्रयोग गर्दछ (चित्र 5.4)। मेशिन सिकाइमा, यो पहुँच - लेबल गरिएका उदाहरणहरू प्रयोग गर्ने एउटा मोडेल सिर्जना गर्न सक्छ जुन त्यसपछि नयाँ डेटा लेबल गर्न सकिन्छ - पर्यवेक्षण गरिएको शिक्षा भनिन्छ।
Banerji र सहकर्मियों को मिसिन को शिक्षा मोडेल मा विशेषताहरु मेरो खिलौना उदाहरण मा उन भन्दा अधिक जटिल थियो - उदाहरण को लागि, उनले "डे वैकुलेले फिट अक्षीय अनुपात" को रूप मा प्रयोग गरे - र उनको मोडेल तार्किक रिप्रेशन थिएन, यो एक कृत्रिम तंत्रिका नेटवर्क थियो। उनको सुविधा, उनको मोडेल, र सहमतिको ग्यालक्सी चिडियाघर वर्गीकरणको प्रयोग गरी उनी प्रत्येक सुविधामा वजन सिर्जना गर्न सक्षम भए, र त्यसपछि आकाशगंगाहरूको वर्गीकरणको बारेमा भविष्यवाणीहरू बनाउन यी वजनहरू प्रयोग गर्न सक्थे। उदाहरणको लागि, उनको विश्लेषणले पत्ता लगाएको छ कि "कम वोक्लुलेर्स फिट अक्षीय अनुपात" मा छविहरू सर्पिल आकाशगंगाहरू भन्दा बढी सम्भावना थिए। यी वजनहरूलाई दिइयो, उनले उचित सटीकतासँग आकाशगंगाको मानव वर्गीकरणको भविष्यवाणी गर्न सकेन।
ब्यानरजी र सहकर्मीहरूको काम ग्यालेक्सी चिडियालाई बदल्यो जुन मैले कम्प्यूटर-समर्थित मानव गणना प्रणालीलाई फोन गर्नेछु। यी हाइब्रिड प्रणालीहरूको बारेमा सोच्ने सबैभन्दा राम्रो तरिका हो कि मानिसहरूलाई समस्या समाधान गर्नुको सट्टा, तिनीहरूसँग मानव डेटाबेस निर्माण गर्ने समस्या हो जुन कम्प्युटरलाई समस्या समाधान गर्न प्रयोग गर्न सकिन्छ। कहिलेकाहीँ, समस्या समाधान गर्न कम्प्यूटरलाई प्रशिक्षण गर्न धेरै उदाहरणहरूको आवश्यकता हुन सक्छ, र पर्याप्त संख्याहरू उत्पादन गर्ने एकमात्र तरिका एक ठूलो सहयोग हो। यस कम्प्यूटर-सहायक दृष्टिकोणको फाइदा यो हो कि यसले तपाईंलाई मानव प्रयास को एक परिमित मात्रा को उपयोग गरेर डेटा को अनिवार्य रूप देखि असीमित मात्रा को संभालने को लागि सक्षम बनािन्छ। उदाहरणका लागि, एक शोधकर्ताले लाखौं मानव वर्गीकृत आकाशगंगाहरूमा एक अनुमानजनक मोडेल निर्माण गर्न सक्छ जुन त्यसपछि एक अरब वा ट्रेलियन आकाशगंगाहरू वर्गीकरण गर्न प्रयोग गर्न सकिन्छ। यदि त्यहाँ आकाशगंगाहरूको विशाल संख्याहरू छन् भने, यस प्रकार मानव-कम्प्यूटर हाइब्रिड मात्र एक मात्र सम्भव समाधान हो। तथापि यो अनंत स्केलेबिलिटी निःशुल्क छैन। एक मेशिन सिकाउने मोडेल निर्माण गर्ने जुन मानव वर्गीकरणको सही ढंगले पुनरुत्पादन गर्न सक्छ आफैलाई एक कठिन समस्या हो, तर सौभाग्य देखि पहिले नै यस विषयको लागि समर्पित उत्कृष्ट पुस्तकहरू छन् (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) ।
ग्यालेक्सी चिडियाको एक राम्रो दृष्टान्त हो कि कति मानव संकलन परियोजनाहरू विकसित हुन्छन्। पहिलो, एक शोधकर्ताले यो परियोजना आफैलाई वा अनुसन्धान सहायक सहायहरूको सानो दल (जस्तै, Schawinski को पहिलो वर्गीकरण प्रयास) को प्रयास गर्दछ। यदि यो दृष्टिकोण राम्रो तरिकाले मापन गर्दैन भने, शोधकर्ताले धेरै सहभागीहरूको साथ मानव गणना परियोजनामा सार्न सक्छ। तर, निश्चित मात्राको डेटाको लागि शुद्ध मानव प्रयास पर्याप्त हुनेछैन। त्यसोभए, शोधकर्ताहरुले कम्प्यूटर-समर्थित मानव गणना प्रणाली को निर्माण गर्नु पर्छ जसमा मानव वर्गीकरण एक मेशिन सिकाउने मोडेल को प्रशिक्षित गर्न को लागी प्रयोग गरिन्छ जो कि डेटा को लगभग असीमित मात्रा मा लागू गर्न सकिन्छ।