باغ وحش کهکشان تلاش بسیاری از داوطلبان غیر متخصص را برای طبقه بندی یک میلیون کهکشان ترکیب کرده است.
باغ وحش کهکشان با مشکلاتی روبرو شده که توسط کوین شواینسکی، دانشجوی کارشناسی نجوم در دانشگاه آکسفورد در سال 2007، رشد کرده است. Schawinski به راحتی در مورد کهکشان ها علاقه مند بود و می تواند کهکشان ها را به شکل مورفولوژی طبقه بندی کند - بیضی و یا مارپیچی توسط رنگ آنها آبی یا قرمز است. در آن زمان، عقل متعارف در میان ستاره شناسان این بود که کهکشان مارپیچی، مانند کهکشان راه شیری ما، به رنگ آبی رنگ (نشان دهنده جوانان) بود و کهکشانهای بیضوی قرمز بودند (نشان دهنده سن پیری). Schawinski این حکمت متعارف را تضعیف کرد. او مظنون شد که در حالی که این الگوی ممکن است به طور کلی درست باشد، احتمالا تعداد قابل توجهی استثنائات وجود دارد و با مطالعه بسیاری از این کهکشان های غیر معمول - آنهایی که الگوی مورد انتظار را نداشتند - می توانست چیزی درباره پروسه ای که از طریق آن کهکشانها تشکیل شده است.
بنابراین، چیزی که Schawinski مورد نیاز برای سرخوردن عقل متعارف مورد نیاز بود مجموعه ای بزرگ از کهکشان ها طبقه بندی مورفولوژیکی بود؛ یعنی کهکشان هایی که به صورت مارپیچی یا بیضی شکل طبقه بندی شده اند. با این حال، مشکل این بود که روش های الگوریتمی موجود برای طبقه بندی هنوز به اندازه کافی خوب نیستند تا برای تحقیقات علمی استفاده شوند؛ به عبارت دیگر، طبقه بندی کهکشان ها، در آن زمان، یک مشکل بود که برای رایانه ها سخت بود. بنابراین، آنچه که مورد نیاز بود، تعداد زیادی از کهکشان های طبقه بندی شده انسان بود . Schawinski مشکلی را با شور و شوق دانش آموختگان به عهده گرفت. او در یک جلسه ماراتن هفت ساعت 12 ساعته توانست 50،000 کهکشان را طبقه بندی کند. در حالی که 50،000 کهکشان ممکن است به نظر می رسد بسیار، آن است که در واقع تنها حدود 5٪ از تقریبا یک میلیون کهکشان است که در Sloan Digital Sky Survey عکس گرفته شده است. Schawinski متوجه شد که او نیاز به رویکرد مقیاس پذیر تر دارد.
خوشبختانه، معلوم است که این کار از کهکشان طبقه بندی می کند آموزش پیشرفته در نجوم نیاز ندارد؛ شما می توانید کسی را به انجام آن خیلی سریع یاد می دهد. به عبارت دیگر، حتی اگر طبقه بندی کهکشان ها یک کار است که سخت برای رایانه بود، آن برای انسان بسیار آسان بود. بنابراین، در حالی که نشسته در یک میخانه در آکسفورد، Schawinski و ستاره شناس همکار کریس Lintott خواب اندازی یک وب سایت که در آن داوطلبان می تصاویر کهکشان طبقه بندی. چند ماه بعد، باغ وحش کهکشان متولد شد.
در وب سایت Galaxy Zoo، داوطلبان چند دقیقه تمرین خواهند کرد به عنوان مثال، یادگیری تفاوت بین یک کهکشان مارپیچی و بیضوی (شکل 5.2). پس از این تمرین، هر داوطلب مجبور به انجام آزمایش ساده نسبتا آسان - درست طبقه بندی 11 کهکشان از 15 کهکشان با طبقه بندی شناخته شده است، و سپس طبقه بندی واقعی از کهکشان های ناشناخته را از طریق یک رابط کاربری مبتنی بر وب آغاز می کند (شکل 5.3). گذار از داوطلب به اخترشناس در کمتر از 10 دقیقه انجام می شود و تنها لازم است عبور از پایین ترین موانع، یک مسابقه ساده است.
باغ وحش کهکشان پس از آنکه پروژه در یک مقاله خبری برجسته شد، داوطلبان اولیه خود را جذب کرد و در حدود شش ماه، این پروژه به بیش از 100،000 دانشمند شهروندی، افرادی که به این امر مشغول بودند، مشارکت می کرد زیرا آنها از این کار لذت می بردند و می خواستند به پیشرفت اخترشناسی کمک کنند. با هم، این 100،000 داوطلب در مجموع بیش از 40 میلیون طبقه بندی داشتند؛ اکثریت طبقه بندی ها از یک گروه نسبتا کوچک و کوچکی از شرکت کنندگان (Lintott et al. 2008) .
محققانی که تجربه استخدام کارآموزان پژوهشی کارشناسی دارند ممکن است بلافاصله در مورد کیفیت داده ها شک و تردید کنند. در حالی که این شک و تردید منطقی است، باغ وحش Galaxy نشان می دهد که وقتی مشارکت داوطلبانه به درستی تمیز، انحلال داده شده و جمع می شود، می تواند نتایج با کیفیت بالا را تولید کند (Lintott et al. 2008) . یک ترفند مهم برای جلب جمعیت برای ایجاد داده های حرفه ای با کیفیت، کار اضافی است، یعنی انجام کارهای مشابه توسط بسیاری از افراد مختلف. در کهکشان گالري، حدود 40 طبقه بندی در هر کهکشان وجود دارد. محققان با استفاده از دستیارهای تحقیقاتی کارشناسی می توانند هرگز از این میزان اضافی صرف نظر نکنند و بنابراین باید بیشتر به کیفیت هر یک از طبقه بندی های فردی مربوط باشد. آنچه که داوطلبان در آموزش نداشتند، با اضافه کاری کار کردند.
با این حال، حتی با دسته بندی های چندگانه در هر کهکشی، ترکیب مجموعه ای از طبقه بندی داوطلب برای تولید یک طبقه بندی اجماعی، روی حیله و تزویر بود. از آنجا که چالش های بسیار مشابه در بیشتر پروژه های محاسبه انسانی بوجود می آید، مفید است که به طور خلاصه سه مرحله را که محققان باغ وحش Galaxy برای تولید طبقه بندی های اجتناب ناپذیر خود مورد استفاده قرار می دهند، مرور کنید. اول، محققان "پاک" داده ها را از بین بردن طبقه بندی های جعلی. به عنوان مثال، افرادی که بارها و بارها یک کهکشان مشابه را دسته بندی کرده اند، چیزی است که می تواند اتفاق بیفتد، اگر آنها سعی در دستکاری نتایج داشته باشند، همه طبقه بندی های آنها را رد کرد. این و دیگر تمیز کردن مشابه حدود 4٪ از تمام طبقه بندی را حذف کرد.
دوم، پس از تمیز کردن، محققان نیاز به حذف تعصبات سیستماتیک در طبقه بندی ها داشتند. به عنوان مثال، از طریق مجموعه ای از مطالعات تشخیص تعصب که درون پروژه اصلی قرار گرفته اند، برای مثال، نشان دادن بعضی از داوطلبان کهکشان در رنگ تک رنگ به جای رنگ، محققان چندین تعصب سیستماتیک را کشف کرده اند، مانند تعصب سیستماتیک برای دسته بندی کهکشان های مارپیچی دور به عنوان کهکشان های بیضی (Bamford et al. 2009) . تنظیم این تعصب های سیستماتیک بسیار مهم است، زیرا انحراف به طور خودکار تعصب سیستماتیک را حذف نمی کند؛ فقط کمک می کند خطای تصادفی را حذف کند.
سرانجام، پس از فروپاشی، محققان نیاز به یک روش برای ترکیب طبقه بندی های فردی برای ایجاد طبقه بندی اجماعی داشتند. ساده ترین روش ترکیب دسته بندی ها برای هر کهکشان، انتخاب شایع ترین طبقه بندی بود. با این حال، این رویکرد به هر وزن داوطلبانه برابر بود و محققان مظنون بودند که برخی از داوطلبان در طبقه بندی بهتر از دیگران بودند. بنابراین، محققان یک روش پیچیدگی تکراری پیچیده ای را ایجاد کردند که تلاش کرد تا بهترین طبقه بندی ها را تشخیص دهد و وزن آنها را بیشتر کند.
بنابراین، پس از سه مرحله تمیزکاری، انحلال و وزن - تیم تحقیقاتی باغ وحش کهکشان 40 میلیون طبقه بندی داوطلب را به مجموعه ای از طبقه بندی های مورفولوژیکی اجماع تبدیل کرده است. هنگامی که این دسته بندی های باغ وحش کهکشان با سه مقیاس کوچکتر در مقیاس بزرگ توسط ستاره شناسان حرفه ای مقایسه شد، از جمله طبقه بندی Schawinski که به الهام دادن باغ وحش Galaxy Zoo بود، توافق شدیدی وجود داشت. بنابراین، داوطلبان در مجموع توانستند طبقه بندی های با کیفیت بالا را ارائه دهند و در مقیاسی که محققان نمی توانند مطابقت داشته باشند (Lintott et al. 2008) . در حقیقت، با داشتن طبقه بندی های انسانی برای تعداد زیادی از کهکشان ها، Schawinski، Lintott و دیگران توانستند نشان دهند که تنها حدود 80٪ از کهکشان ها از مارپیچ ال ای دی و بیضی شکل قرمز دنبال می شوند- و مقالات متعددی درباره آن نوشته شده است این کشف (Fortson et al. 2011) .
با توجه به این پس زمینه، شما هم اکنون می توانید ببینید که چگونه گلوکسی باغ وحش دنبال دستور تقسیم تقسیم، ترکیبی از همان دستور العمل است که برای اکثر پروژه های محاسبه انسانی استفاده می شود. اول، یک مشکل بزرگ به تکه ها تقسیم می شود. در این مورد، مسئله طبقه بندی یک میلیون کهکشان به یک میلیون مسئله طبقه بندی یک کهکشان تقسیم شد. بعد، یک عملیات به هر قطعه به طور مستقل استفاده شده است. در این مورد، داوطلبان هر کهکشان را به صورت مارپیچی یا بیضی شکل طبقه بندی می کنند. در نهایت، نتایج ترکیب برای تولید یک نتیجه اجماع. در این مورد، گام ترکیبی شامل تمیز کردن، انحلال و وزن برای ایجاد طبقه بندی اجماعی برای هر کهکشان بود. گرچه اکثر پروژه ها از این دستور العمل عمومی استفاده می کنند، هر مرحله باید به مسئله خاصی که مورد توجه قرار می گیرد سفارشی شود. به عنوان مثال، در پروژه محاسبه انسانی که در زیر شرح داده شده است، دستور العمل مشابهی را دنبال خواهد کرد، اما مراحل اعمال و ترکیب کاملا متفاوت خواهد بود.
برای اولین بار در پروژه Galaxy Zoo، این نخستین پروژه بود. خیلی سریع آنها متوجه شدند که حتی اگر بتوانند نزدیک به یک میلیون کهکشان را طبقه بندی کنند، این مقیاس برای انجام کارهای جدید با نظرسنجی های دیجیتال آسمان که کافی است تصاویری از حدود 10 میلیارد کهکشان تولید کند، کافی نیست (Kuminski et al. 2014) . برای رسیدگی به افزایش از 1 میلیون تا 10 میلیارد - یک فاکتور 10،000 باغچه کهکشان Galaxy باید 10 هزار بار بیشتر شرکت کنندگان را جذب کند. اگرچه تعداد داوطلبان در اینترنت بزرگ است اما بی نهایت نیست. بنابراین، محققان دریافتند که اگر آنها قصد رسیدگی به مقدار داده های روزافزونی را داشته باشند، نیازمند یک روش جدید و حتی مقیاس پذیر است.
بنابراین، ماندان Baneriji با Schawinski، Lintott، و دیگر اعضای تیم باغ وحش Galaxy (2010) شروع به آموزش رایانه برای طبقه بندی کهکشان ها کردند. به طور خاص، با استفاده از طبقه بندی های انسانی ایجاد شده توسط Galaxy Zoo، بنرجی یک مدل یادگیری ماشین ساخته که می تواند طبقه بندی انسانی کهکشان را براساس ویژگی های تصویر پیش بینی کند. اگر این مدل بتواند طبقه بندی انسانی را با دقت بالا تولید کند، می توان از محققان گالوسی Zoo برای طبقه بندی تعداد قابل ملاحظه ای از کهکشان ها استفاده کرد.
هسته رویکرد بنرجی و همکارانش در واقع بسیار شبیه به تکنیک هایی است که معمولا در تحقیقات اجتماعی استفاده می شود، هرچند این شباهت ممکن است در نگاه اول روشن نباشد. اول، Banerji و همکارانش هر تصویر را به مجموعه ای از ویژگی های عددی تبدیل کرد که خواص آن را خلاصه کرد. به عنوان مثال، برای تصاویری از کهکشان ها، می توان سه ویژگی داشت: مقدار آبی در تصویر، واریانس روشنایی پیکسل ها و نسبت پیکسل های غیر سفید. انتخاب ویژگی های صحیح بخش مهمی از مشکل است و به طور کلی نیاز به تخصص موضوعی را دارد. این اولین گام، معمولا به نام مهندسی ویژگی ، به یک ماتریس داده با یک ردیف در هر تصویر و سپس سه ستون توصیف آن تصویر می پردازد. با توجه به ماتریس داده ها و خروجی مورد نظر (به عنوان مثال، آیا تصویر توسط یک انسان به عنوان یک کهکشان بیضی طبقه بندی شده است)، محقق مدل آماری یا مدل یادگیری را ایجاد می کند، به عنوان مثال، رگرسیون لجستیک - که طبقه بندی انسانی را بر اساس ویژگی های پیش بینی می کند از تصویر در نهایت، محقق با استفاده از پارامترهای این مدل آماری برای تولید طبقه بندی های برآورد شده از کهکشان های جدید (شکل 5.4). در یادگیری ماشین، این رویکرد با استفاده از نمونه های برچسب شده برای ایجاد یک مدل که می تواند برچسب جدید داده ها را یاد بگیرد، یادگیری تحت نظارت است .
ویژگی های مدل یادگیری ماشین Banerji و همکاران آنها پیچیده تر از نمونه های اسباب بازی من بود. برای مثال، او از ویژگی هایی مانند "de Vaucouleurs fit the axial ratio" استفاده کرد و مدل او رگرسیون لجستیک نبود، بلکه یک شبکه عصبی مصنوعی بود. با استفاده از ویژگی های او، مدل او و دسته بندی های متمایز Galaxy Zoo، او قادر به ایجاد وزن برای هر ویژگی بود و سپس از این وزن ها برای پیش بینی در مورد طبقه بندی کهکشان ها استفاده کرد. به عنوان مثال، تجزیه و تحلیل او نشان داد که تصاویر با کم "de Vaucouleurs مناسب درجه محوری" بیشتر احتمال دارد که کهکشان مارپیچی. با توجه به این وزن ها، او توانست پیش بینی طبقه بندی انسانی کهکشان را با دقت قابل قبول داشته باشد.
کار بانرجی و همکارانش، باغ وحش کهکشان را به یک سیستم کامپیوتری محاسبه شده انسان تبدیل کرد . بهترین راه برای فکر کردن در مورد این سیستم های ترکیبی این است که به جای اینکه انسان ها یک مشکل را حل کنند، انسان ها یک مجموعه داده ای را ایجاد می کنند که می تواند برای آموزش کامپیوتر برای حل مشکل استفاده شود. گاهی اوقات آموزش رایانه ای برای حل مشکل می تواند نمونه های زیادی داشته باشد و تنها راه برای تولید یک نمونه کافی از آن، همکاری تودهای است. مزیت این روش دستیابی به رایانه این است که شما را قادر به مقابله با مقادیر بی حد و حصر اطلاعات با استفاده از تنها مقدار محدودی از تلاش های انسانی می کند. به عنوان مثال، یک محقق با یک میلیون کهکشان دستهبندی شده انسان میتواند یک مدل پیشبینی را ایجاد کند که میتواند برای طبقهبندی یک میلیارد یا حتی یک تریلیون کهکشان باشد. اگر تعداد زیادی از کهکشان ها وجود داشته باشد، این نوع هیبرید انسان تنها یک راه حل ممکن است. با این حال، مقیاس پذیری نامحدود آزاد نیست. ساخت یک مدل یادگیری ماشین که بتواند طبقه بندی انسانی را به درستی تولید کند، خود یک مشکل سخت است اما خوشبختانه کتاب های بسیار خوبی برای این موضوع وجود دارد (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
کهکشان باغ وحش یک تصویر خوب از چگونگی تکامل محاسبات انسانی است. اولا یک محقق تلاش خود را برای انجام این پروژه یا با یک تیم کوچک از دستیاران تحقیق (به عنوان مثال، تلاش اولیه طبقه بندی Schawinski). اگر این رویکرد به اندازه کافی مقیاس نباشد، محقق می تواند پروژه ی محاسبه ی انسانی را با بسیاری از شرکت کنندگان حرکت دهد. اما برای یک حجم معینی از داده ها، تلاش نیروی انسانی کافی نخواهد بود. در آن لحظه، محققان باید یک سیستم محاسبات انسانی با کامپیوتر داشته باشند که در آن طبقه بندی های انسانی برای آموزش یک مدل یادگیری ماشین استفاده می شود که می تواند به مقدار تقریبا نامحدود داده ها اعمال شود.