Galaxy ژوبڼ د ډیرو غیر ماهر رضاکارانو د هڅو یو میلیون کهکشانونو طبقه ترکیبوي.
Galaxy ژوبڼ د يوه ستونزه په 2007. خورا يو څه ساده، Schawinski په کهکشانونو کې مينه وه له خوا کيون Schawinski، په کې د اکسفورډ پوهنتون ستورپېژندنه فارغ محصل سره مخامخ وو، او د کهکشانونو کولای شي له مخې په ډلبنديو شي خپل مورفولوژۍ-بيضوي یا spiral او د خپل رنګ، آبي يا سور. په هغه وخت کې، ستورو په منځ کې د دوديزې حکمت وه چې spiral کهکشانونو، زموږ Milky Way په څېر، په رنګ (اشاره ځوانانو) آبي وو او چې بيضوي کهکشانونو په رنګ سور وو (اشاره کلن عمر). Schawinski دې د دوديزې حکمت شک. د هغه په داسې حال کې چې دغه بيلګه ښايي په عمومي سمه وي چې، هلته ښايي په د استثنا د پام وړ شمېر وو، او دا چې د دغو غير عادي کهکشانونو-هغه چې يې چمتو نه ډېر زده تمه نمونې-هغه د بهير په اړه د څه زده کړي چې د کهکشانونو جوړه کړه.
په دې توګه، هغه څه Schawinski په خاطر د دوديزي حکمت کتنه د اړتيا د morphologically محرم کهکشانونو یوه لویه ټولګه وه. چې ده، کهکشانونو چې محرم شوي وو په توګه يا spiral یا بيضوي. ستونزه، که څه هم، دا و چې د طبقه موجوده algorithmic ميتودونه تر اوسه دومره ښه لپاره د علمي څيړنو وکارول شي څه نه دي. په بل عبارت، د ډلبندۍ کهکشانونو هغه ستونزه چې سخت لپاره د کمپيوټر و په هغه وخت کې وه،،. له همدې امله، څه ته چې اړتيا د بشر د طبقه کهکشانونو يو زيات شمېر و. Schawinski سره د يو فارغ محصل د ليوالتيا د دې طبقه ستونزه په غاړه واخيستل. په یوه د اوو، 12 ساعته ورځو کې د ځغاستې د غونډې، هغه په دې وتوانیده چې د 50،000 کهکشانونو طبقه بندی کړی. په داسې حال کې 50،000 کهکشانونو ښايي په څېر ډېر غږ، دا زموږ د نږدې يو ميليون کهکشانونو چې په Sloan Digital Sky سروې عکسونه شوي يوازې په اړه د 5٪ ده په حقيقت. Schawinski پوه چې هغه يو زيات پراخوالې پېدا روش ته اړتيا لري.
له نیکه مرغه، دا سينمايي چې د ډلبندۍ کهکشانونو دنده په نجوم د پرمختللو روزنو ته اړتيا نه لري؛ تاسو کولی شئ چا دا ښایسته په چټکۍ سره وکړو درس ورکړي. په بل عبارت، که څه هم کهکشانونو د ډلبندۍ يوه دنده ده، چې سخت لپاره د کمپيوټر و وي، د هغې ښایسته د انسانانو لپاره اسانه وه. نو، په داسې حال کې په اکسفورډ، Schawinski او هېوادوالو ستورپوه کریس Lintott يو Pub ناست يوه ويب پاڼه کې چې رضاکاران به د کهکشانونو انځورونه طبقه تخيل. څو میاشتې وروسته، Galaxy ژوبڼ کې وزږید.
په Galaxy ژوبڼ ویب پاڼه، رضاکاران به د روزنې د څو دقيقو لاندې؛ د مثال په توګه، د یو spiral او بيضوي په کهکشان (5.2 شکل کې) تر منځ د توپير د زده کړې. دې روزنې وروسته، د رضاکارانو درلود سره په نامه په نسبتا اسانه ازموینه-په سمه توګه د ډلبندۍ د 15 11 کهکشانونو پاس ډوله-او بیا د رضاکار به د يو ساده وېب پر بنسټ د ليدنمخ (5.3 شکل) له لارې د نامعلومو کهکشانونو اصلي طبقه پيل شي. د ستور له داوطلبو انتقال به د کم 10 دقیقو کې ترسره شي او يوازې د اړتيا د تيريدو د خنډ، يو ساده ازموینه ټیټ.
Galaxy ژوبڼ خپل لومړني داوطلبانو جذب د پروژې په يوه خبري ماده کې خبري وروسته شوې وه، او په اړه د شپږو میاشتو د پروژې کرلي 100،000 څخه زيات تبعه پوهانو، هغه خلک چې ګډون ځکه هغوی د دنده خوند او دوی غوښتل چې مخکې نجوم مرسته شامل دي. په ګډه، د دغو 100،000 رضاکارانو ټولټال د 40 میلیونو څخه زیات ډوله مرسته سره سره، د د ډوله څخه د ګډون کوونکو یو نسبتا کوچنۍ، د اصلي ډلې په راتلونکو اکثریت (Lintott et al. 2008) .
څېړونکي چې د ګومارنې تجربه لیسانس څېړنې مرستيالانو لري ښایی ژر تر ژره د ارقامو د کیفیت په اړه شکمن وي. حال کې چې دغه شک مناسبه ده، Galaxy ژوبڼ ښيي چې کله داوطلب ونډې په سمه توګه پاک، debiased، او ارق، دوی کولای شي د لوړ کیفیت نتيجه (Lintott et al. 2008) . لپاره د مسلکي کیفیت د معلوماتو د جوړولو د خلکو تر لاسه کولو مهمه چل دی اضافي زېرمتونونه؛ چې ده، چې په همدې دنده له خوا د مختلفو خلکو ترسره. په Galaxy ژوبڼ، د هر کهکشان په اړه 40 ډوله دي؛ څېړونکو د لیسانس څېړنې مرستيالانو په کارولو سره به د اضافي زېرمتونونه دې کچه هيڅکله وس او له همدې امله باید د هر فرد د ډلبندۍ د کیفیت ډېر اندېښمن دي. په روزنه کې د رضاکارانو څه نه لري، هغوی سره د اضافي زېرمتونونه جوړ شوی.
حتی د هر کهکشان کې د څو ډوله، که څه هم، د داوطلبو ډوله له ټاکل شوي دواړه د توليد د يوې اجماع په طبقه بندی ده منوی. ځکه چې په ټولو بشري computation پروژو سره ورته ننګونې راپورته، دا ګټور چې په لنډ ډول د درې ګامونه دي چې Galaxy ژوبڼ څېړونکو د خپلو اجماع ډوله د تولید لپاره کارول بیا کتنه وکړي. لومړی، د څیړونکو له خوا د جعلي ډوله له مينځه وړلو "پاک" د ارقامو. د مثال په توګه، هغه خلک چې په وار وار د همدې په کهکشان-هغه څه دي چې به پېښ شي که له دي چې دوي د څرخوي هڅه طبقه د پايلو پر خپلو ټولو ډوله ايسته غورځول کيږي. دا او نور ورته د پاکولو د ټولو ډوله په اړه 4٪ لرې.
دوهم، د پاکولو وروسته، د څېړونکو په ډوله سیستماتیک مهرداد لرې ته اړتیا لري. د تعصب د کشف مطالعاتو د وصل په چوکاټ کې د پروژو لپاره د اصلي مثال په توګه، ښيي ځينو رضاکارانو په ځای monochrome د کهکشان کې د يوې لړۍ په رنګ د څېړونکو څو سیستماتیک مهرداد، لکه د یوه سیستماتیک تعصب ته لرې spiral کهکشانونو په توګه بيضوي کهکشانونو طبقه کشف (Bamford et al. 2009) . د دغو سیستماتیک مهرداد، وصول خورا مهم دی ځکه چې په اوسط ډول ډېرو ونډې نه سیستماتیک تعصب نه لرې؛ دا يوازې لرې تصادفي تېروتنه.
په پای کې، debiasing وروسته، د څېړونکو یو میتود د فرد طبقه په ګډه د يوې اجماع د ډلبندۍ توليد ته اړتيا لري. د د هر کهکشان ډوله ګډه ساده لاره به دا وي چې تر ټولو معمول طبقه غوره کړي. په هرصورت، دا تګلاره به د هر داوطلب مساوي وزن ورکړي، او له څيړونکو شکمن، چې يو شمېر رضاکاران د نورو په پرتله د ډلبندۍ ډېر ښه شوي دي. له همدې امله، د څېړونکو یو پيچلی ساحات د وزن طرزالعمل چې په اتوماتيک ډول د ښه classifiers کشف او هغوی ته زيات وزن هڅه جوړ کړي دي.
په دې توګه، يو درې ګام پروسې-پاکول، debiasing، او د وزن-د Galaxy ژوبڼ څېړنې د ډلې وروسته يې د اجماع مورفولوژيکی ډوله سیټ 40 ميليونه رضاکار طبقه بدل شول. کله چې دا Galaxy ژوبڼ ډوله ته درې پخواني کوچني کچې له خوا مسلکي ستورپوهان هڅو، له خوا Schawinski د ډلبندۍ چې د Galaxy ژوبڼ الهام مرسته په ګډون په پرتله شوي، قوي تړون شتون و. په دې توګه، د رضاکارانو، په مجموعي، چې د لوړ کيفيت ډوله برابر وو او په يوه کچه چې د څیړونکو به سمون نه خوري (Lintott et al. 2008) . په حقیقت کې، له خوا د دغه ډول د کهکشانونو يو زيات شمېر درلودلو بشري ډوله، Schawinski، Lintott، او نور کولای شي چې وښايي چې د کهکشانونو يوازې 80٪ تمه نمونې-اسماني زڼغوزي او سور ellipticals-او يو شمېر پاڼې تعقیب په اړه لیکل شوي دي وو دغه کشف (Fortson et al. 2011) .
دغه شاليد په پام سره، موږ اوس څومره Galaxy ژوبڼ لاندې د بیلتون-غوښتنه-په ګډه بېلګه وي، په ورته بېلګه وي، چې د ټولو بشري computation پروژو هم کارېدلې وي. لومړی، يوه ستره ستونزه ویشل په ټوټو دی. په دې صورت کې د یو میلیون کهکشانونو ډلبندۍ ستونزه ویشل يو د يو په کهکشان کې د ډلبندۍ ميليونه ستونزې دی. بل، د یو عملیات په خپلواکه توګه د هر لاړه استعمال. په دې صورت کې به د رضاکار په توګه يا spiral یا بيضوي هر کهکشان کې طبقه بندی کړی. په پای کې، د پایلو شوي وي تر څو د نظریو له امله توليدوي. په دې صورت کې، د په ګډه ګام پاکول، debiasing، او د وزن د هر کهکشان کې د يوې اجماع د ډلبندۍ تولید شامل دي. که څه هم ډیری پروژې عمومي بېلګه وکاروي، د ګامونه هر اړتيا شته تر څو د ځانګړو ستونزه حل دودیزه کړی. د مثال په توګه، د انسان په computation پروژې ته چې لاندې تشريح شوي، په ورته بېلګه به تعقيب شي، خو د درخواست او په ګډه ګامونه به خورا توپير ولري.
د Galaxy ژوبڼ ټیم، دا لومړۍ پروژه يوازې د پيل وو. ډېر ژر دوی پوه شول، چې که څه هم دوی کولای شي چې د یو میلیون کهکشانونو نږدې طبقه وو، په دې کچه سره د نوي ډیجیټل اسمان سروې، چې کېدای شي د 10 میلیارده کهکشانونه انځورونه د تولید کار کافي نه ده (Kuminski et al. 2014) . له 1 میلیون څخه تر 10 زیاتوالی سمبال ملیارده د 10،000-Galaxy ژوبڼ عامل ته اړتيا لري چې نږدې 10،000 ځله د زیاتو ګډونوالو استخدام کړي. که څه هم د انټرنټ د داوطلبانو شمیر لوی، دا لایتناهی نه ده. له همدې امله، د څېړونکو پوه شول چې که دوی ته د معلوماتو کې، یو نوی، نور هم پراخوالې پېدا، روش اړتيا پيدا شوه، کله ودې اندازه سمبال کړي.
له همدې امله، مانده Banerji-کار سره کيون Schawinski، کریس Lintott، او د Galaxy ژوبڼ ټیم د پېل لپاره د تدريس کمپيوټرونه د نورو غړو ته د کهکشانونو طبقه بندی کړی. په ځانګړې توګه، د انسان ډوله لخوا جوړ Galaxy ژوبڼ، د کارولو Banerji et al. (2010) يو ماشين د زده کړې نمونه چې کیدای شي پر بنسټ د انځور د ځانګړتياوو د یوه کهکشان کې د بشر د ډلبندۍ وړاندوینه جوړ شوی دی. که دغه ماشين د زده کړې موډل سره لوړ دقت کولای شي د انسان ډوله مثل، نو دا به د Galaxy ژوبڼ څېړونکو کارول شي چې د کهکشانونو په اړینه لایتناهی شمېر طبقه بندی کړی.
د Banerji او د همکارانو د روش هسته ده په حقیقت کې ښایسته ته تخنیکونو په ټولنيزو څيړنو په عام ډول کارول کيږي ته ورته دي، که څه هم چې ورته ښايي په لومړي نظر په څرګندې نه وي. لومړی، Banerji او همکارانو ته د شمېريزو ځانګړتياوې چې لنډيز دا د شتمنيو ټولګه هر انځور بدل شول. د مثال په توګه، د کهکشانونو انځورونه شته کیدای شي درې بڼې: په انځور کې د آبي اندازه، د پېکسل د روښانتيا د توپیر موجود دی، او د غیر سپين پېکسل ومومي. د صحيح ځانګړنو ټولګه ده د ستونزې یوه مهمه برخه ده، او دا په عمومي موضوع-د سيمې مهارت ته اړتیا لري. دا لومړی ګام، چې په عامه فیچر انجنيري نامه يادېږي، چې د هر انځور په يو قطار او بيا درې ستنې تشریح کوي چې د انځور په د معلوماتو د جدول سبب شي. په څېر يو اکمالاتي regression-چې د انسان د ډلبندۍ پر بنسټ وړاندوينه د معلوماتو په جدول او متوقع محصول (د بيلګې په توګه، که د انځور له خوا يو انسان په توګه يو بيضوي په کهکشان طبقه)، د څېړونکي د یوه احصائیوي موډل-د مثال په توګه د پارامترونو اټکل کوي، هغه څه ته په پام د انځور د بڼې. په پای کې، د څېړونکي په دې احصایوي ماډل د پارامترونو کاروي او د نوي کهکشانونو اټکل ډوله (انځور 5.4) توليدوي. د يو ټولنيز انالوګ فکر، فرض وکړئ چې تاسې د یو میلیون زده کوونکو په هکله د وګړو د معلوماتو درلودل، او تاسو پوهېږئ چې آیا دوی له پوهن ي يا د نه فارغ شوی دی. تاسو کولی شی د دې معلوماتو د لوژیستیکي regression سره برابر شي، او بيا تاسو کولی شی چې له امله موډل پارامترونو وکاروي وويلای نوي زده کوونکي به له پوهنتون څخه فارغ ته. په ماشيني زده کړې، د دې روش په کارولو-بلله مثالونه د يو احصايوي نمونه چې بيا نوې نښه رامنځته د معلوماتو د ده په نامه څارنه د زده کړې (Hastie, Tibshirani, and Friedman 2009) .
په بڼې Banerji et al. (2010) ماشيني زده کړې موډل هغو په پرتله زما په نانځکې مثال-د مثال په توګه، د هغې ځانګړتياوې د پخوا په څېر ډېر پېچلي دي "de Vaucouleurs برابر محوري نسبت" -and د هغې د موډل د لوژیستیکي regression نه وه، دا د یو مصنوعي neural شبکې وه. د هغې ځانګړتياوې، د هغې د موډل، او په اجماع Galaxy ژوبڼ ډوله په کارولو سره، د هغې وکوالی شو چی د هر فیچر وزن برابر شي، او بیا د کهکشانونو د طبقه بندۍ په اړه وړاندوينه د دغو وزنونه کاروي. د مثال په توګه، د هغې د تحليل وموندل چې انځورونه کم "de Vaucouleurs برابر محوري نسبت" ډیر احتمال spiral کهکشانونو وو. د دې وزن په پام سره، د هغې په دی وتوانیده چې د یوه کهکشان کې د بشر د ډلبندۍ وړاندوینه سره مناسب سموالي ته.
د کار Banerji et al. (2010) بدل څه چې زه به د دوهم نسل د بشري computation سيستم غږ Galaxy ژوبڼ. د دې دوهم نسل سیستم په اړه فکر غوره لاره دا ده چې پر ځای لرلو انسانانو د ستونزو د حل لپاره، دوی د انسانانو د يو جز، چې کولی شي چې د ستونزې د حل لپاره د کمپيوټر د روزلو لپاره کارول شي جوړ کړي. د ارقامو د کمپيوټر د روزلو ته يې اړتیا اندازه شي نو لوی چې دا د بشر د ډله همکارۍ جوړولو ته اړتیا لري. د Galaxy ژوبڼ، د neural شبکو له خوا کارول په صورت Banerji et al. (2010) دې لپاره چې يو نمونه چې د دې وتوانید چې په کره توګه د انسان د ډلبندۍ د مثل د جوړولو د بشري بلله مثالونه يو ډېر زيات شمېر ته اړتيا لري.
د دې کمپيوټر په مرسته چلند ګټه دا ده چې تاسو ته د معلوماتو په اړینه لایتناهی اندازه يوازې د بشري هڅې د محدودو اندازه په کارولو سره سمبال کړي. د مثال په توګه، د یو میلیون بشري طبقه کهکشانونو يو څېړونکي کولای predictive نمونه چې بيا د يو ميليارد او آن يو تریلیون کهکشانونو طبقه وکارول شي جوړ کړي. که د کهکشانونو ستر شمېر شته وي، نو د انسان او کمپیوټر د دوه رګه دا ډول دی په رښتيا يوازنۍ حل لاره وي. دا لایتناهی scalability وړيا نه ده، خو. د جوړولو يو ماشين د زده کړې نمونه چې په سمه توګه کولای شي د انسان ډوله مثل پخپله يو سخت ستونزه ده، خو له نیکه مرغه هلته لا ښه کتابونو ته وقف دې موضوع دي (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Galaxy ژوبڼ د بشري computation ډيرو پروژو د تکامل په ګوته کوي. لومړی، یو څېړونکی له خوا د خپل ځان او يا د څيړنې مرستيالانو د یوې کوچنۍ ډلې (لکه، Schawinski د لومړنۍ ډلبندۍ هڅې) د پروژې هڅه کوي. که دا تګلاره نه ښه نه راکمې کړي، د څېړونکي کولای شي د بشري computation پروژه کې چې زيات شمېر خلک ډوله سره مرسته وکړي. خو، د یو د معلوماتو د ځانګړو حجم، سوچه بشري هڅې به نه وي. په دغه وخت کې، څېړونکو ته اړتيا لري تر څو د دويم -پښت غونډالونو کې چې د بشري ډوله دي یو ماشین د زده کړې نمونه چې بيا د معلوماتو د سرچېنې اندازه استعمال شي د روزلو لپاره کارول جوړ کړي.