باغ وحش کهکشان ترکیبی از تلاش های بسیاری از داوطلبان غیر متخصص برای طبقه بندی یک میلیون کهکشان.
باغ وحش کهکشان بزرگ از یک مشکل توسط Kevin Schawinski، دانشجوی کارشناسی ارشد در ستاره شناسی در دانشگاه آکسفورد در سال 2007. ساده بسیار کمی، Schawinski علاقه مند در کهکشان بود مواجه شد، و کهکشان ها را می توان با طبقه بندی آنها مورفولوژی بیضوی یا مارپیچی و توسط خود رنگ آبی یا قرمز. در آن زمان، عقل متعارف در میان ستاره شناسان این بود که کهکشان های مارپیچی مانند کهکشان راه شیری ما، رنگ آبی در رنگ (نشان می دهد جوانان) بودند و کهکشانهای بیضوی به رنگ قرمز بود (که نشان دهنده سن). Schawinski این عقل متعارف شک. او تصور میکرد که در حالی که این الگوی ممکن است به طور کلی درست است، احتمالا وجود دارد تعداد قابل توجهی از استثناها و که با مطالعه تعداد زیادی از این کهکشان ها-غیر معمول آنهایی که مناسب نیست و انتظار می رود الگوی او می تواند چیزی در مورد فرآیند یادگیری که از طریق آن کهکشان تشکیل شده است.
بنابراین، آنچه Schawinski مورد نیاز به منظور سرنگونی عقل متعارف یک مجموعه بزرگ از کهکشان مورفولوژی طبقه بندی شده بود. است که، کهکشان هایی که به صورت مارپیچ یا بیضوی طبقه بندی شده است. اما مشکل این بود که روش الگوریتمی موجود برای طبقه بندی شد و در عین حال به اندازه کافی خوب برای تحقیقات علمی استفاده می شود. به عبارت دیگر، کهکشان طبقه بندی یک مشکل است که سخت برای رایانه بود، در آن زمان،. بنابراین، آنچه لازم بود تعداد زیادی از کهکشان طبقه بندی انسان بود. Schawinski این مشکل طبقه بندی با شور و شوق از یک دانشجوی کارشناسی ارشد عهده گرفت. در یک جلسه ماراتن هفت، روزانه 12 ساعت، او قادر به طبقه بندی 50،000 کهکشان بود. در حالی که 50000 کهکشان ممکن است مانند بسیاری صدا، در واقع تنها در حدود 5٪ از تقریبا یک میلیون کهکشان هایی که در تحقیقات آسمان اسلون دیجیتال عکاسی شده بود. Schawinski متوجه شدم که او یک رویکرد مقیاس پذیر تر مورد نیاز است.
خوشبختانه، معلوم است که این کار از کهکشان طبقه بندی می کند آموزش پیشرفته در نجوم نیاز ندارد؛ شما می توانید کسی را به انجام آن خیلی سریع یاد می دهد. به عبارت دیگر، حتی اگر طبقه بندی کهکشان ها یک کار است که سخت برای رایانه بود، آن برای انسان بسیار آسان بود. بنابراین، در حالی که نشسته در یک میخانه در آکسفورد، Schawinski و ستاره شناس همکار کریس Lintott خواب اندازی یک وب سایت که در آن داوطلبان می تصاویر کهکشان طبقه بندی. چند ماه بعد، باغ وحش کهکشان متولد شد.
در وب سایت باغ وحش کهکشان، داوطلبان می دستخوش چند دقیقه از آموزش؛ به عنوان مثال، یادگیری تفاوت بین یک مارپیچ و کهکشان بیضوی (شکل 5.2). بعد از این آموزش، داوطلبان به تصویب نسبتا آسان مسابقه به درستی طبقه بندی 11 از 15 کهکشان با شناخته شده طبقه بندی و پس از آن داوطلب می طبقه بندی واقعی از کهکشان ناشناخته آغاز از طریق یک رابط مبتنی بر وب ساده (شکل 5.3). گذار از داوطلب به ستاره شناس می در کمتر از 10 دقیقه طول می کشد و تنها مورد نیاز عبور کمترین از موانع، یک مسابقه ساده است.
باغ وحش کهکشان داوطلبان اولیه خود جلب پس از این پروژه در یک مقاله خبری برجسته بود، و در حدود شش ماه این پروژه بزرگ شامل بیش از 100،000 دانشمندان شهروند، افرادی که شرکت به این دلیل که کار لذت می برد و آنها می خواستند برای کمک به ستاره شناسی پیش است. با هم، این 100.000 داوطلبان کمک در مجموع بیش از 40 میلیون طبقه بندی، با اکثریت طبقه بندی که از یک گروه نسبتا کوچک هسته ای از شرکت کنندگان (Lintott et al. 2008) .
محققان که تجربه استخدام دستیاران پژوهش در مقطع کارشناسی بلافاصله ممکن است تردید در مورد کیفیت داده شود. در حالی که این شک و تردید معقول است، باغ وحش کهکشان را نشان می دهد که زمانی که کمک های داوطلبانه به درستی تمیز، debiased، و جمع، آنها می توانند نتایج با کیفیت بالا تولید (Lintott et al. 2008) . یک ترفند مهم برای گرفتن جمعیت به ایجاد داده های با کیفیت حرفه ای افزونگی است؛ که است، داشتن همان کار انجام شده توسط بسیاری از افراد مختلف است. در باغ وحش کهکشان، حدود 40 طبقه بندی در هر کهکشان وجود دارد؛ محققان با استفاده از دستیاران پژوهش در مقطع کارشناسی هرگز نمی تواند این سطح افزونگی استطاعت و در نتیجه نیاز به بسیار بیشتر در رابطه با کیفیت هر یک از طبقه بندی های فردی است. چه داوطلبان در آموزش فاقد، آنها برای با افزونگی ساخته شده است.
حتی با طبقه بندی های متعدد در هر کهکشان، با این حال، ترکیب مجموعه ای از طبقه بندی های داوطلب برای تولید یک طبقه بندی اجماع روی حیله و تزویر است. از آنجا که چالش های بسیار مشابه در بسیاری از پروژه محاسبات انسانی بوجود می آیند، آن را مفید به طور خلاصه بررسی سه مرحله است که محققان باغ وحش کهکشان مورد استفاده برای تولید طبقه بندی اجماع است. اول، محققان "تمیز" داده ها با از بین بردن طبقه بندی ساختگی. به عنوان مثال، افرادی که بارها و بارها طبقه بندی همان کهکشان چیزی است که خواهد افتاد اگر آنها در تلاش بودند به دستکاری نتایج-حال همه طبقه بندی خود را دور ریخته میشود. این و تمیز کردن مشابه دیگر در حدود 4٪ از همه طبقه بندی خارج شده است.
دوم، پس از تمیز کردن، محققان مورد نیاز برای حذف تعصبات سیستماتیک در طبقه بندی. از طریق یک سری از مطالعات تشخیص تعصب جاسازی شده در داخل به عنوان مثال پروژه برای اصلی، نشان دادن برخی از داوطلبان کهکشان در تک رنگ به جای رنگ-محققان چند تعصبات نظاممند، از قبیل تعصب سیستماتیک برای طبقه بندی کهکشان های دور مارپیچی به عنوان کهکشانهای بیضوی کشف (Bamford et al. 2009) . برای نصب این تعصبات سیستماتیک بسیار مهم است چرا به طور متوسط بسیاری از کمکهای کند تعصب سیستماتیک را حذف کنید. آن تنها حذف خطای تصادفی.
در نهایت، پس debiasing، محققان یک روش برای ترکیب طبقه بندی منحصر به فرد برای تولید یک طبقه بندی اجماع مورد نیاز است. ساده ترین راه برای ترکیب طبقه بندی برای هر کهکشان خواهد بود برای انتخاب طبقه بندی رایج است. با این حال، این رویکرد هر داوطلب وزن برابر، می دهد و پژوهشگران معتقدند که برخی از داوطلبان بهتر است در طبقه بندی از دیگران بودند. بنابراین، محققان یک روش وزن تکراری پیچیده تر است که تلاش برای به طور خودکار تشخیص بهترین طبقه بندی و آنها را وزن بیشتری می دهد توسعه یافته است.
بنابراین، بعد از سه مرحله فرایند تمیز کردن، debiasing و وزن تیم تحقیقاتی باغ وحش کهکشان 40 میلیون طبقه بندی داوطلب به مجموعه ای از اجماع طبقه بندی مورفولوژیک گرویده بودند. هنگامی که این طبقه بندی باغ وحش کهکشان به سه تلاش در مقیاس کوچکتر قبلی ارسال شده توسط ستاره شناسان حرفه ای، از جمله طبقه بندی شده توسط Schawinski کمک کرد که برای الهام بخشیدن به باغ وحش کهکشان قرار گرفتهاند، شرایط قوی وجود دارد. بنابراین، داوطلبان، در مجموع، قادر به ارائه طبقه بندی با کیفیت بالا و در یک مقیاس است که محققان نمی توانستند مطابقت (Lintott et al. 2008) . در واقع، با داشتن طبقه بندی انسان برای چنین تعداد زیادی از کهکشان ها، Schawinski، Lintott، و دیگران قادر به نشان می دهد که تنها حدود 80٪ از کهکشان به دنبال مارپیچی انتظار الگوی آبی و بیضوی و قرمز مقالات متعددی در مورد نوشته شده است شد این کشف (Fortson et al. 2011) .
با توجه به این زمینه، ما اکنون می توانید ببینید که چگونه باغ وحش کهکشان به پیروی از تقسیم اعمال-ترکیب دستور غذا، دستور همان است که برای بسیاری از پروژه محاسبات انسانی استفاده می شود. اول، یک مشکل بزرگ است را به تکه های تقسیم می شود. در این مورد، مشکل طبقه بندی یک میلیون کهکشان را به یک میلیون مشکلات طبقه بندی یک کهکشان تقسیم می شود. بعد، یک عملیات به هر قطعه به طور مستقل استفاده شده است. در این مورد، یک داوطلب می هر کهکشان به صورت مارپیچی یا بیضوی طبقه بندی. در نهایت، نتایج به دست آمده در ترکیب برای تولید یک نتیجه اجماع. در این مورد، مرحله ترکیب شامل تمیز کردن، debiasing، و وزن برای تولید یک طبقه بندی اجماع برای هر کهکشان. با وجود اینکه اکثر پروژه های استفاده از این دستور غذا به طور کلی، هر یک از مراحل نیاز به سفارشی به مشکل خاص پرداخته باشند. به عنوان مثال، در پروژه محاسبات انسانی زیر توضیح داده شده، دستور العمل همان را دنبال خواهد کرد، اما اعمال و ترکیب مراحل خواهد بود کاملا متفاوت است.
برای تیم باغ وحش کهکشانی، این پروژه برای اولین بار فقط آغاز شد. خیلی به سرعت متوجه شدند که حتی اگر آنها قادر به طبقه بندی نزدیک به یک میلیون کهکشان بودند، این مقیاس به اندازه کافی برای کار با نظر سنجی آسمان دیجیتال جدیدتر، که می تواند تصاویر از حدود 10 میلیارد کهکشان تولید (Kuminski et al. 2014) . که مسئولیت رسیدگی به افزایش 1000000-10000000000-یک عامل از 10،000 باغ وحش کهکشان نیاز به استخدام حدود 10،000 برابر بیشتر شرکت کنندگان است. حتی اگر تعداد داوطلبان در اینترنت بزرگ است، آن بی نهایت است. بنابراین، پژوهشگران متوجه شدند که اگر آنها می خواهند که مسئولیت رسیدگی به مقادیر همیشه در حال رشد از داده ها، جدید، حتی مقیاس پذیر تر، رویکرد مورد نیاز بود.
بنابراین، ماندا Banerji کاری با کوین Schawinski، کریس Lintott، و دیگر اعضای تیم شروع باغ وحش کهکشان کامپیوتر آموزش برای طبقه بندی کهکشان ها. بیشتر به طور خاص، با استفاده از طبقه بندی های انسانی ایجاد شده توسط باغ وحش کهکشان، Banerji et al. (2010) یک مدل یادگیری ماشین است که می تواند طبقه بندی انسان از یک کهکشان بر اساس ویژگی از تصویر پیش بینی ساخته شده است. اگر این مدل یادگیری ماشین می تواند طبقه بندی انسان با دقت بالا تولید کنید، سپس آن را می توان توسط محققان باغ وحش کهکشان استفاده برای طبقه بندی تعداد اساسا نامحدود از کهکشان.
هسته رویکرد Banerji و همکاران است که در واقع بسیار شبیه به تکنیک معمولا در تحقیقات اجتماعی استفاده می شود، هر چند که شباهت ممکن است در نگاه اول روشن باشد. اول، Banerji و همکارانش هر تصویر را به مجموعه ای از ویژگی های عددی است که به طور خلاصه خواص آن تبدیل شده است. به عنوان مثال، برای تصاویر از کهکشان می تواند سه ویژگی وجود دارد: مقدار آبی در تصویر، واریانس در روشنایی پیکسل، و نسبت پیکسل های غیر سفید. انتخاب از ویژگی های درست، بخش مهمی از مشکل این است، و آن را به طور کلی نیاز به تخصص موضوع منطقه است. این اولین قدم، معمولا مهندسی ویژگی به نام، نتایج در یک ماتریس داده ها با یک ردیف در هر تصویر و سپس سه ستون توصیف که تصویر. با توجه به ماتریس داده ها و خروجی مورد نظر (به عنوان مثال، اینکه آیا تصویر توسط یک انسان به عنوان یک کهکشان بیضوی طبقه بندی شده بود)، محقق تخمین پارامترهای یک مدل برای مثال آماری، چیزی شبیه به یک رگرسیون که لجستیکی پیش بینی طبقه بندی انسان بر اساس در مورد ویژگی های تصویر. در نهایت، محقق با استفاده از پارامترها در این مدل آماری به تولید طبقه بندی برآورد کهکشان های جدید (شکل 5.4). به یک آنالوگ اجتماعی فکر می کنم، تصور کنید که شما اطلاعات دموگرافیک حدود یک میلیون دانش آموزان، و شما می دانید که آیا آنها فارغ التحصیل دانشگاه یا نه. شما می توانید یک رگرسیون لجستیک به این اطلاعات مناسب، و سپس شما می توانید از پارامترهای مدل حاصل شده را به پیش بینی اینکه آیا دانشجویان جدید در حال رفتن به از دانشگاه فارغ التحصیل استفاده کنید. در یادگیری ماشین، این رویکرد با استفاده از نمونه برچسب برای ایجاد یک مدل آماری پس از آن است که می تواند برچسب جدید داده است که به نام نظارت یادگیری (Hastie, Tibshirani, and Friedman 2009) .
ویژگی های در Banerji et al. (2010) مدل های یادگیری ماشین پیچیده تر از کسانی که در اسباب بازی های من به عنوان مثال، برای مثال، او ویژگی هایی مانند استفاده شد "د مقصد Vaucouleurs مناسب نسبت محوری" و مدل بود رگرسیون لجستیک نیست، آن یک شبکه عصبی مصنوعی است. با استفاده از ویژگی های او، مدل او، و توافق طبقه بندی باغ وحش کهکشان، او قادر به ایجاد وزن در هر ویژگی، و پس از آن استفاده از این وزن به پیش بینی در مورد طبقه بندی کهکشان ها بود. به عنوان مثال، تجزیه و تحلیل او پیدا شده است تصاویر را با کم "د مقصد Vaucouleurs مناسب نسبت محوری" است که به احتمال زیاد به کهکشان های مارپیچی بود. با توجه به این وزن، او قادر به پیش بینی طبقه بندی انسان از یک کهکشان با دقت مناسب بود.
کار Banerji et al. (2010) باغ وحش کهکشان به آنچه من یک نسل دوم سیستم محاسبات انسانی پاسخ تبدیل شده است. بهترین راه برای در مورد این سیستم نسل دوم فکر می کنم این است که به جای داشتن انسان یک مشکل را حل کند، آنها انسان ساخت یک مجموعه داده است که می تواند مورد استفاده برای آموزش یک کامپیوتر به حل مشکل. مقدار داده مورد نیاز برای آموزش کامپیوتر می تواند آنقدر بزرگ است که آن نیاز به یک همکاری جمعی انسان برای ایجاد. در مورد باغ وحش کهکشان، شبکه های عصبی استفاده شده توسط Banerji et al. (2010) به منظور ساخت یک مدل است که قادر به تولید مثل قابل اعتماد طبقه بندی انسان بود مورد نیاز تعداد بسیار زیادی از نمونه های انسانی با برچسب.
استفاده از این روش به کمک کامپیوتر است که شما را قادر به کنترل مقدار اساسا بی نهایت از داده ها با استفاده تنها مقدار محدودی از تلاش انسان. به عنوان مثال، یک محقق با یک میلیون کهکشان طبقه بندی انسان می تواند یک مدل پیش بینی پس از آن است که می تواند مورد استفاده قرار گیرد برای طبقه بندی یک میلیارد و یا حتی یک تریلیون کهکشان ساخت. اگر تعداد زیادی از کهکشان وجود دارد، پس این نوع ترکیبی انسان و کامپیوتر است که واقعا تنها راه حل ممکن است. این مقیاس پذیری بی نهایت است آزاد نیست، با این حال. ایجاد یک مدل یادگیری ماشین که به درستی می تواند تولید مثل طبقه بندی انسان به خودی خود یک مشکل سخت است، اما خوشبختانه در حال حاضر کتاب بسیار عالی اختصاص داده شده به این موضوع وجود دارد (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
باغ وحش کهکشان تکامل بسیاری از پروژه های محاسبات انسانی را نشان می دهد. اول، یک محقق تلاش این پروژه توسط خودش و یا با یک تیم کوچک از دستیاران پژوهشی (به عنوان مثال، تلاش طبقه بندی اولیه Schawinski است). اگر این روش به خوبی مقیاس نیست، محقق می تواند به یک پروژه محاسبات انسانی که در آن بسیاری از مردم کمک طبقه بندی حرکت می کند. اما، برای حجم معینی از داده ها، تلاش خالص انسان کافی نخواهد بود. در آن لحظه، محققان نیاز به ساخت سیستم های نسل دوم که در آن طبقه بندی انسان استفاده می شود برای آموزش یک مدل یادگیری ماشین ها که می تواند به مقدار نامحدود از داده ها استفاده می شود.