Գալաքսի կենդանաբանական այգին միավորում է բազմաթիվ ոչ փորձագետների կամավորների մեկ միլիոն գալակտիկաների դասակարգումը:
Գալաքսի կենդանաբանական այգին աճել է 2007 թվականին Օքսֆորդի համալսարանում աստղագիտության ասպիրանտ Քեվին Սվավինսկիի առջեւ: Բավականին պարզեցնելու համար, Սավինսկին հետաքրքրված էր գալակտիկաներով, եւ գալակտիկաները կարող են դասակարգվել ըստ իրենց morphology-elliptical կամ spiral- եւ իրենց գունավոր-կապույտ կամ կարմիրով: Այդ ժամանակ աստղագետների շրջանում սովորական իմաստությունը այն էր, որ մեր Երկնային Ճանապարհի նման պարույր գալակտիկաները կապույտ էին գույնի (ցույց տալով երիտասարդությունը) եւ էլիպսաձեւ գալակտիկաները կարմիր էին (նշելով ծերությունը): Սվավինսկին կասկածի տակ էր դնում այս սովորական իմաստությունը: Նա կասկածում էր, որ ընդհանրապես այս օրինակները կարող են լինել ընդհանուր առմամբ, հավանաբար մեծ թվով բացառություններ կան, եւ որ այս անսովոր գալակտիկաների շատ ուսումնասիրություններով, որոնք չեն համապատասխանում ակնկալվող օրինակին, նա կարող էր ինչ-որ բան սովորել այն գործընթացին, որի միջոցով ձեւավորված գալակտիկաներ:
Այսպիսով, ինչ Schawinski- ի համար անհրաժեշտ էր պայմանական իմաստության խափանման համար մորֆոլոգիական դասակարգված գալակտիկաների մեծ հավաքածու. այսինքն, գալակտիկաներ, որոնք դասակարգվել էին որպես պարույր կամ էլիպլիկ: Խնդիրը, այնուամենայնիվ, այն էր, որ դասակարգման դասակարգված գոյություն ունեցող ալգորիթմային մեթոդները դեռեւս բավարար չեն, որոնք կօգտագործվեն գիտական հետազոտությունների համար. այլ կերպ ասած, գալակտիկաների դասակարգումը այն ժամանակ էր, երբ համակարգիչը դժվար էր: Հետեւաբար, ինչն էր անհրաժեշտ մարդկային դասակարգված գալակտիկաների մեծ թվաքանակ: Սավինսկին այս դասակարգման խնդիրը ստանձնեց ասպիրանտի ոգեւորությամբ: Յոթի 12 ժամվա մարաթոնի նիստում նա կարողացավ դասակարգել 50.000 գալակտիկաների: Թեեւ 50.000 գալակտիկաները կարող են շատ նման հնչել, դա իրականում միայն Sloan Digital Sky Survey- ում լուսանկարված գրեթե մեկ միլիոն գալակտիկաների միայն 5 տոկոսն է: Սավինսկին հասկացավ, որ նա պետք է ավելի լայնամասշտաբ մոտեցում:
Բարեբախտաբար, պարզվում է, որ այդ խնդիրն դասակարգումը գալակտիկաների չի պահանջում խորացված ուսուցում աստղագիտության. Դուք կարող եք սովորեցնել մեկին դա անել բավականին արագ: Այլ կերպ ասած, թեեւ դասակարգելով գալակտիկաների մի խնդիր է, որ դժվար էր համակարգիչների, որ դա բավականին հեշտ է մարդկանց համար: Այնպես որ, մինչդեռ նստած մի պանդոկ Օքսֆորդում, Schawinski եւ ծառայակիցներին աստղագետ Քրիս Lintott երազել մի կայք, որտեղ կամավորները պետք է դասակարգել պատկերները գալակտիկաների. Մի քանի ամիս անց, Galaxy Zoo ծնվել:
Գալակտիկայի կենդանաբանական այգում կամավորները կանցնեն մի քանի րոպե դասընթաց: օրինակ, սովորելու տարբերությունը պարույրով եւ էլիպլեյտիկ գալակտիկայից (նկար 5.2): Այս վերապատրաստումից հետո յուրաքանչյուր կամավոր պետք է անցներ համեմատաբար հեշտ վիկտորինան, որը հայտնի դասակարգում ունեցող 15 գալակտիկաների 11-ի ճիշտ դասակարգում էր, եւ այնուհետեւ կսկսի անհայտ գաղութների իրական դասակարգումը հասարակ վեբ-ինտերֆեյսի միջոցով (նկար 5.3): Կամավորներից մինչեւ աստղագետ անցումը տեղի կունենա ավելի քիչ, քան 10 րոպեում եւ պահանջում է անցնել ամենացածր խոչընդոտները, պարզ վիկտորինային:
Galaxy Zoo- ն ներգրավեց իր նախնական կամավորներին, նախագիծը ցուցադրվել է մի հոդվածում, իսկ մոտ վեց ամիս հետո ծրագիրը մեծացել է ավելի քան 100 հազար քաղաքացու գիտնականների մասնակցությամբ, ովքեր մասնակցում էին այդ աշխատանքին, եւ նրանք ուզում էին օգնել աստղագիտության առաջընթացը: Միասին, այս 100,000 կամավորները նպաստել են ավելի քան 40 միլիոն դասակարգում, այն դասակարգման մեծամասնությունը, որոնք գալիս են մասնակիցների համեմատաբար փոքր, հիմնական խմբից (Lintott et al. 2008) :
Բակալավրիատի գիտաշխատողներին վարձելու փորձ ունեցող հետազոտողները կարող են անմիջապես թերահավատորեն վերաբերվել տվյալների որակին: Թեեւ այս թերահավատությունը ողջամիտ է, Galaxy Zoo- ն ցույց է տալիս, որ երբ կամավոր ներդրումները ճիշտ մաքրվում են, debiased եւ aggregated, նրանք կարող են արտադրել բարձրորակ արդյունքներ (Lintott et al. 2008) : Մարդկանց համար պրոֆեսիոնալ որակյալ տվյալների ստեղծման համար կարեւոր հնարք է ավելորդությունը , այսինքն `նույնքան տարբեր մարդկանց կողմից կատարված նույն առաջադրանքով: Գալակտի կենդանաբանական այգում, մոտավորապես, մոտավորապես 40 դասակարգում է եղել մեկ գալակտիկայում. բակալավրիատի գիտաշխատողներից օգտվելով հետազոտողները երբեք թույլ չեն տա կրճատել այս մակարդակը եւ, հետեւաբար, պետք է ավելի շատ մտահոգվեն յուրաքանչյուր անհատական դասակարգման որակի վրա: Այն, ինչ կամավորները չունեին վերապատրաստում, նրանք ստիպված էին կրճատել:
Նույնիսկ մի քանի դասակարգում մեկ գալակտիկայում, այնուամենայնիվ, համախմբելով կամավոր դասակարգման մի շարք համադրություն կազմելու համար, խիզախ էր: Քանի որ շատ նմանատիպ մարտահրավերներ են ծագում մարդկային հաշվարկի շատ ծրագրերում, օգտակար է համառոտորեն վերանայել այն երեք քայլերը, որոնք Գալակտիկայի կենդանաբանական այգու հետազոտողները օգտագործում էին իրենց կոնսենսուսի դասակարգումները: Նախ, հետազոտողները «մաքրում են» տվյալները `կեղծիքի դասակարգումները հեռացնելու միջոցով: Օրինակ, մարդիկ, ովքեր մի քանի անգամ դասակարգում էին նույն գալակտիկային, ինչ որ տեղի ունեցավ, եթե փորձեին մանիպուլյացիայի արդյունքը, բոլոր դասակարգումները անտեսվեցին: Այս եւ նման այլ մաքրումից հանեցին բոլոր դասակարգումների մոտ 4% -ը:
Երկրորդը, մաքրումից հետո, հետազոտողները պետք է հեռացնեին դասակարգումների համակարգային կողմնապահությունները: Հետազոտության ընթացքում հայտնաբերվել են մի շարք համակարգային կողմնակալություններ, ինչպիսիք են հեռավոր պարուրաձեւ գալակտիկաների դասակարգումը, որպես էլիպլիկ գալակտիկաներ (Bamford et al. 2009) : Այս համակարգային կողմնորոշումների համար չափազանց կարեւոր է կարգավորումը, քանի որ ավելորդությունը ավտոմատ կերպով հեռացնում է համակարգված կողմնակալությունը, դա միայն օգնում է հեռացնել պատահական սխալից:
Վերջապես, վճռական լուծումից հետո, հետազոտողները պետք է մի մեթոդի համատեղեցեն անհատական դասակարգումները `կոնսենսուսի դասակարգման համար: Յուրաքանչյուր գալակտիկայում դասակարգումները համադրելու ամենադյուրին եղանակը կլիներ ընտրել ամենատարածված դասակարգումը: Այնուամենայնիվ, այս մոտեցումը յուրաքանչյուր կամավորի հավասար կշիռը կլիներ, իսկ հետազոտողները կասկածում էին, որ որոշ կամավորներ ավելի լավ են դասակարգում, քան մյուսները: Հետեւաբար, հետազոտողները մշակել էին ավելի բարդ բազմատեսակ կշռման կարգը, որը փորձել է հայտնաբերել լավագույն դասակարգիչները եւ տալ նրանց ավելի մեծ քաշ:
Այսպիսով, եռամյա գործընթացի մաքրման, խափանման եւ քաշի արդյունքում, Գալակտիկայի կենդանաբանական հետազոտությունների խումբը 40 միլիոն կամավոր դասակարգումներ է փոխանակել մի շարք կոնսենսուսի morphological դասակարգումների: Երբ այս Galaxy Zoo դասակարգումները համեմատվել են նախկին երեք փոքրածավալ փորձերի հետ `պրոֆեսիոնալ աստղագետների կողմից, ներառյալ Սկավինսկիի դասակարգումը, որն օգնել է ոգեշնչել Գալակտիկայի կենդանաբանական այգին, եղել է ուժեղ համաձայնություն: Այսպիսով, կամավորները, ընդհանրապես, կարողացան որակյալ դասակարգումներ ապահովել եւ այնպիսի մասշտաբով, որ հետազոտողները չեն կարողանում համապատասխանել (Lintott et al. 2008) : Փաստորեն, այսքան մեծ թվով գալակտիկաների համար, Սվավինսկին, Լինտոտը եւ ուրիշները, կարողացան ցույց տալ, որ գալակտիկաների միայն 80% -ը հետեւում է ակնկալվող օրինակին `կապույտ ոլորապտույտ եւ կարմիր էլիպսաձեւ: այս բացահայտումը (Fortson et al. 2011) :
Հաշվի առնելով այս ֆոնին, այժմ կարող եք տեսնել, թե ինչպես է Galaxy Zoo- ն հետեւում է պառակտված-կիրառման-բաղադրիչի բաղադրատոմսին, նույն բաղադրատոմսը, որն օգտագործվում է մարդկային հաշվարկի մեծ նախագծերի համար: Նախ, մեծ խնդիրը բաժանված է կտորների: Այս դեպքում մեկ միլիոն գալակտիկաների դասակարգման խնդիրը բաժանվել է մեկ գալակտիկայի դասակարգման մեկ միլիոն խնդրի: Հաջորդ, գործողությունը, որը կիրառվում է յուրաքանչյուր կտոր ինքնուրույն: Այս դեպքում կամավորները դասակարգեցին յուրաքանչյուր գալակտիկայում `որպես պարույր կամ էլիպտիկ: Վերջապես, արդյունքներն համակցված են, որպեսզի կոնսենսուսի արդյունքը լինի: Այս պարագայում համակցված քայլը ներառում էր մաքրում, մարում եւ կշռում, յուրաքանչյուր գալակտիկայի համար կոնսենսուսի դասակարգում ստեղծելու համար: Թեեւ շատ նախագծեր օգտագործում են այս ընդհանուր բաղադրատոմսը, յուրաքանչյուր քայլ պետք է հարմարեցվի կոնկրետ խնդրի լուծմանը: Օրինակ, ստորեւ նկարագրված մարդկային հաշվարկի նախագծում նույն բաղադրատոմսը կկատարվի, սակայն կիրառման եւ համատեղելու քայլերը բոլորովին այլ կլինեն:
Galaxy Zoo- ի թիմի համար այս առաջին նախագիծը սկիզբն էր: Շատ արագ հասկացան, որ թեեւ կարողացել են մոտավորապես մեկ միլիոն գալակտիկաների դասակարգել, այդ սանդղակը բավարար չէ թվային թվային երկնային հետազոտությունների հետ աշխատելու համար, որոնք կարող են արտադրել շուրջ 10 միլիարդ գալակտիկաների պատկերներ (Kuminski et al. 2014) : Հաշվի առնելով 1 միլիոնից մինչեւ 10 միլիարդի աճը, 10,000 Galaxy Zoo- ի գործոնը պետք է մոտավորապես 10,000 անգամ ավելի մասնակիցներ հավաքի: Չնայած համացանցում կամավորների թիվը մեծ է, դա անսահման չէ: Հետեւաբար, հետազոտողները հասկացան, որ եթե նրանք պատրաստվում են գործել աճող քանակությամբ տվյալների, նոր, ավելի լայնածավալ մոտեցում է պետք:
Հետեւաբար, Մանդա Բունջիին (Schawinski, Lintott) եւ Գալակտիկայի կենդանաբանական թիմի մյուս անդամները (2010) սկսեցին դասավանդման համակարգիչներ դասակարգել գալակտիկաներ: Ավելի կոնկրետ օգտագործելով Galaxy Zoo- ի կողմից ստեղծված մարդկային դասակարգումները, Banerji- ն կառուցեց մեքենա ուսուցման մոդելը, որը կարող էր կանխատեսել պատկերի բնութագրերի հիման վրա գաղափարի մարդկային դասակարգումը: Եթե այս մոդելը կարող է վերարտադրել մարդկային դասակարգումները բարձր ճշգրտությամբ, ապա այն կարող է օգտագործվել Գալակտիկայի կենդանաբանական այգու հետազոտողների կողմից `դասակարգելով էապես անսահման թվով գալակտիկաների:
Banerji- ի եւ գործընկերների մոտեցման հիմքը, ըստ էության, բավականին նման է սոցիալական հետազոտություններում սովորաբար օգտագործվող տեխնիկայի, թեեւ նման ընդհանրությունը չի կարող պարզ լինել առաջին հայացքից: Նախ, Banerji- ը եւ գործընկերները յուրաքանչյուր կերպարը վերափոխեցին մի շարք թվային հատկանիշներ, որոնք ամփոփեցին իր հատկությունները: Օրինակ, գալակտիկաների պատկերների համար կարող են լինել երեք առանձնահատկություններ `պատկերի մեջ կապույտ, չափսերը, պիքսելների պայծառությունը եւ ոչ սպիտակ պիքսելների հարաբերակցությունը: Ճիշտ հատկանիշների ընտրությունը խնդրի կարեւոր մասն է, եւ այն սովորաբար պահանջում է առարկայական ոլորտի փորձաքննություն: Այս առաջին քայլը, որը սովորաբար կոչվում է առանձնահատկություն , արդյունքում ստացվում է տվյալների մատրիցով մեկ պատուհանի մեկ տող, այնուհետեւ այդ պատկերն նկարագրող երեք սյունակ: Հաշվի առնելով տվյալների մատրիցան եւ ցանկալի արդյունքը (օրինակ, արդյոք պատկերը մարդու կողմից որպես էլիպլիկ գալակտիկայի դասակարգված է), հետազոտողը ստեղծում է վիճակագրական կամ մեքենայական ուսուցման մոդել, օրինակ, տրամաբանական ռեգրեսիան, որը կանխատեսում է մարդկային դասակարգումը, հիմնված հատկությունների վրա պատկերով: Վերջապես, հետազոտողն օգտագործում է այս վիճակագրական մոդելի պարամետրերը `նոր գալակտիկաների գնահատված դասակարգումներ արտադրելու համար (նկար 5.4): Մեքենայի ուսուցման մեջ այս մոտեցումը, օգտագործելով պիտակավորված օրինակները, ստեղծելու մոդել, որը կարող է դրսեւորել նոր տվյալներ `կոչվում է վերահսկվող ուսուցում :
Banerji- ի եւ գործընկերների մեքենայական մոդելի առանձնահատկությունները ավելի բարդ էին, քան իմ խաղալիքի օրինակով, օրինակ, նա օգտագործում էր այնպիսի առանձնահատկություններ, ինչպիսիք են «de Vaucouleurs fit axial ratio» - եւ մոդելը ոչ թե լոգիստիկ ռեգրեսիա էր, այլ արհեստական նեյրոնային ցանց: Օգտագործելով իր առանձնահատկությունները, նրա մոդելը եւ կոնսենսուսի Galaxy Zoo դասակարգումները, նա ի վիճակի էր ստեղծել կշիռները յուրաքանչյուր առանձնահատկություն, եւ ապա օգտագործել այդ կշիռները կանխատեսումներ անել գալակտիկաների դասակարգման մասին: Օրինակ, նրա վերլուծությունը ցույց է տվել, որ ցածր «de Vaucouleurs կցված է առանցքային հարաբերակցության» պատկերները ավելի հավանական են, որ պարուրաձեւ գալակտիկաներ են: Հաշվի առնելով այդ կշիռները, նա կարողացավ կանխատեսել գաղութի մարդկային դասակարգումը ողջամիտ ճշգրտությամբ:
Banerji- ի եւ գործընկերների աշխատանքը դարձավ Galaxy Zoo- ին այն, ինչ ես կոչում եմ համակարգչային օգնության հաշվարկային համակարգ : Հիբրիդային համակարգերի մասին մտածելու լավագույն տարբերակն այն է, որ ոչ թե մարդկանց խնդիրը լուծելու փոխարեն նրանք ունեն տվյալների հավաքածու, որը կարող է օգտագործվել խնդիրը լուծելու համար համակարգիչ պատրաստելու համար: Երբեմն խնդիրը լուծելու համար համակարգիչը կարող է պահանջել բազմաթիվ օրինակներ, եւ բավականաչափ քանակի օրինակներ արտադրելու միակ միջոցը զանգվածային համագործակցություն է: Այս համակարգչային օգնության մոտեցման առավելությունն այն է, որ այն հնարավորություն է տալիս իրականացնել անսահման քանակի տվյալներ, օգտագործելով միայն մարդկային ջանքերի վերջնական քանակ: Օրինակ, մեկ միլիոն մարդու դասակարգված գալակտիկաների հետ հետազոտողը կարող է կառուցել կանխատեսող մոդել, որը կարող է օգտագործվել որպես միլիարդ կամ նույնիսկ տրիլիոն գալակտիկաների դասակարգում: Եթե կան մեծ թվով գալակտիկաներ, ապա այսպիսի մարդկային համակարգչային հիբրիդը իսկապես միակ հնարավոր լուծումն է: Այս անսահման մեծածավալությունը, սակայն, ազատ չէ: Կառուցել մեքենա ուսուցման մոդելը, որը կարող է ճիշտ կերպով վերարտադրել մարդկային դասակարգումները ինքնին դժվար խնդիր է, բայց բարեբախտաբար, արդեն առկա են այս թեմաներին նվիրված գերազանց գրքեր (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) :
Galaxy Zoo- ն լավ պատկերացում է այն մասին, թե որքան մարդկային հաշվարկային ծրագրեր են զարգանում: Նախ, հետազոտողը փորձարկում է ինքնուրույն կամ հետազոտող օգնականների փոքր խմբի հետ (օրինակ, Սվավինսկու նախնական դասակարգման ջանք): Եթե այդ մոտեցումը լավ չի տարածվում, հետազոտողը կարող է տեղափոխվել մարդկային հաշվարկի նախագիծ, շատ մասնակիցների հետ: Սակայն, տվյալների որոշակի ծավալների համար մարդկային մաքուր ջանքերը բավարար չեն: Այդ առումով հետազոտողները պետք է համակարգչային օժանդակությամբ մարդկային հաշվարկային համակարգ կառուցեն, որտեղ մարդկային դասակարգումները կիրառվում են մեքենայական ուսուցման մոդել պատրաստելու համար, որը կարող է կիրառվել գրեթե անսահմանափակ քանակությամբ տվյալների վրա: