Galaxy Zoo համատեղում ջանքերը շատ ոչ փորձագիտական կամավորների դասակարգի միլիոն գալակտիկաների.
Galaxy Zoo աճել է մի խնդիր է կանգնած Kevin Schawinski մի ասպիրանտ աստղագիտության համալսարանում Օքսֆորդի է 2007 թ Պարզեցնել բավականին քիչ է, Schawinski հետաքրքրում էր գալակտիկաների, եւ գալակտիկաների կարելի է դասակարգել ըստ իրենց ձեւաբանություն-elliptical կամ պարուրաձեւ եւ են իրենց գունային կապույտ կամ կարմիր: Միեւնույն ժամանակ, պայմանական իմաստությունը թվում աստղագետների էր, որ պարույր գալակտիկաներ, ինչպես մեր Ծիր Կաթին էին կապույտ գույնի (նշելով, երիտասարդության), եւ որ elliptical գալակտիկաներ էին կարմիր գույնի է (ցույց է տալիս, հին տարիքը). Schawinski կասկածում է, այս պայմանական իմաստություն: Նա կասկածվում է, որ մինչ այս օրինակը կարող է ճիշտ լինել ընդհանրապես, կային, հավանաբար, մի զգալի թվով բացառությունների, եւ որ ուսումնասիրելով բազմաթիվ այդ անսովոր գալակտիկաների-նորերը, որոնք չեն համապատասխանում այդ ակնկալվում օրինակը նա կարող է իմանալ, մի բան մասին գործընթացում, որի միջոցով գալակտիկաների ձեւավորվել.
Այսպիսով, ինչ է Schawinski համար անհրաժեշտ է, որպեսզի տապալելու պայմանական իմաստություն էր մի մեծ շարք morphologically դասակարգված գալակտիկաների. այսինքն, գալակտիկաները, որ արդեն դասակարգված են որպես կամ պարույրի կամ elliptical: Խնդիրն այն է, սակայն, այն էր, որ գոյություն ունեցող ալգորիթմական մեթոդները դասակարգման չէին դեռ լավ բավարար է օգտագործվել գիտական հետազոտությունների, այլ կերպ ասած, դասակարգումը գալակտիկաներ էր, այդ ժամանակ, մի խնդիր է, որ դժվար էր համակարգիչների համար: Հետեւաբար, այն, ինչ անհրաժեշտ էր մեծ թվով մարդկային դասակարգված գալակտիկաների. Schawinski պարտավորվել Այս դասակարգումը խնդրի հետ ոգեւորությամբ ասպիրանտ: Մի մարաթոնի նստաշրջանում յոթ, 12-ժամյա օր, նա կարողացել է դասակարգել 50000 գալակտիկաների. Թեեւ 50000 գալակտիկաների հնչի նման մեծ է, որ, ըստ էության, միայն մոտ 5% -ը գրեթե մեկ միլիոն գալակտիկաների, որ արդեն լուսանկարել է Sloan Digital Sky Survey: Schawinski հասկացավ, որ պետք է ավելի scalable մոտեցում:
Բարեբախտաբար, պարզվում է, որ այդ խնդիրն դասակարգումը գալակտիկաների չի պահանջում խորացված ուսուցում աստղագիտության. Դուք կարող եք սովորեցնել մեկին դա անել բավականին արագ: Այլ կերպ ասած, թեեւ դասակարգելով գալակտիկաների մի խնդիր է, որ դժվար էր համակարգիչների, որ դա բավականին հեշտ է մարդկանց համար: Այնպես որ, մինչդեռ նստած մի պանդոկ Օքսֆորդում, Schawinski եւ ծառայակիցներին աստղագետ Քրիս Lintott երազել մի կայք, որտեղ կամավորները պետք է դասակարգել պատկերները գալակտիկաների. Մի քանի ամիս անց, Galaxy Zoo ծնվել:
Ին Galaxy Zoo կայքը, կամավորները պետք է անցնեն մի քանի րոպե վերապատրաստման. օրինակ, ուսուցման տարբերությունը պարույրի եւ elliptical Գալակտիկայի (Նկար 5.2). Հետո այս դասընթացին, կամավորները պետք է անցնել մի համեմատաբար հեշտ վիկտորինա-ճիշտ դասակարգող 11 15 գալակտիկաների հետ հայտնի դասակարգումների եւ ապա կամավորը կսկսի իրական դասակարգումը անհայտ գալակտիկաների միջոցով պարզ վեբ վրա հիմնված ինտերֆեյսի (Նկար 5.3). Անցումը կամավոր աստղագետ տեղի կունենա ավելի քիչ, քան 10 րոպե, եւ պահանջվում է միայն անցնող ամենացածրն է արգելավազք, պարզ վիկտորինայի.
Galaxy Zoo ներգրավել է իր նախնական կամավորներին բանից հետո, երբ այդ նախագիծը ցուցադրվել է լրատվական-րդ հոդվածում, եւ մոտ վեց ամիս հետո նախագիծը աճել է ներգրավել ավելի քան 100.000 քաղաքացի գիտնականներ, այն մարդկանց, ովքեր մասնակցել, քանի որ նրանք վայելեցին առաջադրանքը, եւ նրանք ցանկացել են օգնել նախապես աստղագիտություն: Միասին, այդ 100.000 կամավորները նպաստել ընդհանուր առմամբ ավելի քան 40 միլիոն դասակարգումներին, իսկ մեծամասնության դասակարգումների եկող համեմատաբար փոքր, հիմնական խմբի մասնակիցների (Lintott et al. 2008) :
Հետազոտողները, ովքեր փորձ ունեն վարձում բակալավրիատի հետազոտական օգնականներ կարող անմիջապես թերահավատորեն տվյալների որակի. Թեեւ այս թերահավատությունը արդարացված է, Galaxy Zoo ցույց է տալիս, որ երբ կամավորական ներդրումները ճիշտ են մաքրվում, debiased, եւ միավորվում, նրանք կարող են արտադրել բարձր որակի արդյունքներ (Lintott et al. 2008) : Կարեւոր հնարք ստանալու համար ամբոխին է ստեղծել մասնագիտական որակի տվյալների ավելորդություն. այսինքն, որ նույն խնդիրն է իրականացվում է տարբեր մարդկանց: Ի Galaxy Zoo, կային մոտ 40 դասակարգումները մեկ Գալակտիկայի. հետազոտողները, օգտագործելով բակալավրիատի հետազոտական օգնականներ երբեք չի կարող իրեն թույլ տալ այս մակարդակը ավելորդություն եւ, հետեւաբար, պետք է լինի շատ ավելի մտահոգված որակի յուրաքանչյուր անհատի դասակարգման: Ինչ են կամավորները զուրկ է վերապատրաստման, նրանք կազմել են հետ ավելորդություն:
Նույնիսկ բազմաթիվ դասակարգումների մեկ Գալակտիկայի, սակայն, համատեղելով շարք կամավորական դասակարգումների արտադրել կոնսենսուս դասակարգումը բարդ. Քանի որ շատ նման մարտահրավերներ են առաջանում է շատ մարդկային հաշվարկային նախագծերի, դա օգտակար է համառոտ վերանայել երեք քայլերը, որ Galaxy Zoo հետազոտողները օգտագործվել է արտադրել իրենց կոնսենսուսային դասակարգումը. Նախ, հետազոտողները «մաքրվել» տվյալներ, ըստ հեռացնելով կեղծ դասակարգումը. Օրինակ, մարդիկ, ովքեր բազմիցս դասակարգված է նույն Galaxy-որ բան, որ կպատահի, եթե նրանք փորձում են շահարկել արդյունքները, ստիպված իրենց բոլոր դասակարգումները անտեսվեցին. Այս եւ նմանատիպ այլ մաքրման հեռացվում մոտ 4% բոլոր դասակարգումների.
Երկրորդ, այն բանից հետո, մաքրման, հետազոտողները անհրաժեշտ է հեռացնել համակարգված շեղումներ դասակարգումների. Միջոցով մի շարք կողմնակալ հայտնաբերման ուսումնասիրությունների ներդրված շրջանակներում օրիգինալ նախագծի համար, օրինակ, ցույց տալով որոշ կամավորներ Գալակտիկայում monochrome փոխարեն գույնի-հետազոտողները հայտնաբերել են մի քանի համակարգային կողմնակալությունը, ինչպիսիք են համակարգված կողմնակալության դասակարգելու հեռու պարույր գալակտիկաների, ինչպես elliptical գալակտիկաների (Bamford et al. 2009) : Կանոնավորող համար այդ համակարգային կողմնակալության չափազանց կարեւոր է, քանի որ միջին շատ ներդրումները չի ազատում համակարգված կողմնակալություն. դա միայն հեռացնում պատահական սխալ:
Ի վերջո, debiasing, հետազոտողները համար անհրաժեշտ մի մեթոդ է համատեղել անհատական դասակարգումների արտադրել է կոնսենսուսային դասակարգում: Ամենապարզ ճանապարհն է համատեղել դասակարգումները յուրաքանչյուր Գալակտիկայի կլինի ընտրել առավել միասնական դասակարգում: Այնուամենայնիվ, այս մոտեցումը կտա յուրաքանչյուր կամավոր հավասար քաշը, եւ հետազոտողները կասկածում է, որ որոշ կամավորներ էին ավելի լավ է, դասակարգման, քան մյուսները: Հետեւաբար, հետազոտողները մշակել է ավելի բարդ կրկնվող կշռման ընթացակարգը, որ փորձում է ինքնաբերաբար հայտնաբերելու լավագույն դասակարգիչներ եւ տալ նրանց ավելի քաշ:
Այսպիսով, այն բանից հետո, երեք քայլ գործընթաց մաքրում, debiasing, եւ կշռման-Գալաքսի կենդանաբանական այգու հետազոտական թիմը դարձի 40 մլն կամավորական դասակարգումների մեջ մի շարք կոնսենսուսի ձեւաբանական դասակարգումների. Երբ այդ Galaxy Zoo դասակարգումները համադրվել են նախորդ երեք փոքր մասշտաբների փորձերը պրոֆեսիոնալ աստղագետների, այդ թվում `դասակարգման կողմից Schawinski, որ օգնել է ոգեշնչել Galaxy Zoo, կար ուժեղ պայմանավորվածություն: Այսպիսով, կամավորները, ի համախառն, կարողացան ապահովել բարձրորակ դասակարգումները եւ մի մասշտաբով, որ հետազոտողները չէին կարող (Lintott et al. 2008) : Ի դեպ, ունենալով մարդկային դասակարգումների նման մեծ թվով գալակտիկաների, Schawinski, Lintott, եւ մյուսները կարողացել են ցույց տալ, որ միայն 80% -ն է գալակտիկաների հետեւել ակնկալվող մոդելի-կապույտ պարույրներ եւ կարմիր ellipticals-եւ բազմաթիվ թղթեր են գրել այս բացահայտումը (Fortson et al. 2011) .
Հաշվի առնելով այս ֆոնի վրա, մենք կարող ենք այժմ տեսնում, թե ինչպես է Galaxy Zoo հետեւում պառակտում դիմել-համատեղել բաղադրատոմսը, նույն բաղադրատոմսը, որն օգտագործվում է մեծամասնության մարդկային հաշվարկային նախագծերի: Նախ, մի մեծ խնդիր է բաժանվել կտորների: Այս դեպքում, խնդիրը դասակարգելը միլիոն գալակտիկաների բաժանվում է մի միլիոն խնդիրների դասակարգում մեկ Գալաքսի: Հաջորդ, գործողությունը, որը կիրառվում է յուրաքանչյուր կտոր ինքնուրույն: Այս դեպքում, կամավոր դասակարգելու յուրաքանչյուր Գալակտիկայում որպես կամ պարույրի կամ elliptical: Վերջապես, արդյունքները համակցված են արտադրել կոնսենսուսային արդյունք: Այս դեպքում, համատեղել քայլը ներառել է մաքրում, debiasing եւ սուզման արտադրել է կոնսենսուսային դասակարգում յուրաքանչյուր Գալակտիկայում. Թեեւ Ամենա ծրագրերը օգտագործել այս ընդհանուր բաղադրատոմսը, յուրաքանչյուր քայլերի պետք է հարմարեցված կոնկրետ խնդիր է լուծվում. Օրինակ, մարդկային հաշվարկային նախագծի նկարագրված է ստորեւ, նույնը բաղադրատոմսը կլինի հետեւել, բայց կիրառել եւ միավորել քայլերը կլինեն բոլորովին այլ է.
Համար Galaxy Zoo թիմի, սա առաջին նախագիծն ընդամենը սկիզբն էր: Շատ արագ հասկացան, որ թեեւ նրանք կարողացան դասակարգելու մոտ է մեկ միլիոն գալակտիկաների, դա լայնածավալ բավարար չէ հետ աշխատելու նոր Digital Sky հարցումների, ինչը կարող է արտադրում պատկերները շուրջ 10 մլրդ գալակտիկաների (Kuminski et al. 2014) : Կարգավորել աճ ից 1 մլն 10 մլրդ մի գործոն 10,000-Galaxy կենդանաբանական այգում պետք է հավաքագրել մոտ 10.000 անգամ ավելի շատ մասնակիցներ: Նույնիսկ չնայած թիվը կամավորների վրա Ինտերնետում մեծ է, որ դա ոչ թե անվերջ. Հետեւաբար, հետազոտողները հասկացան, որ եթե նրանք պատրաստվում են կարգավորել երբեւէ աճող քանակությամբ տվյալների, նոր, նույնիսկ ավելի ընդլայնելի, մոտեցում է անհրաժեշտ:
Հետեւաբար, Manda Banerji-հետ աշխատելու Քեւին Schawinski, Քրիս Lintott, եւ այլ անդամների Galaxy Zoo Թիմերի մեկնարկային ուսուցում Համակարգիչներ դասակարգել գալակտիկաների. Ավելի կոնկրետ, օգտագործելով մարդկային դասակարգումների կողմից ստեղծված Galaxy Zoo, Banerji et al. (2010) Կառուցվել է մի մեքենա ուսուցման մոդել, որը կարող է կանխատեսել մարդու դասակարգումը մի Գալակտիկայի հիման վրա բնութագրերի պատկերով: Եթե այս մեքենան ուսուցման մոդելը կարող վերարտադրել մարդկային դասակարգումների բարձր ճշգրտության, ապա դա կարող է օգտագործվել է Galaxy Zoo հետազոտողների դասակարգել էապես անսահման թվով գալակտիկաների.
Միջուկը Banerji եւ գործընկերները »մոտեցման իրականում բավականին նման է տեխնիկայի սովորաբար օգտագործվող սոցիալական հետազոտությունների, չնայած, որ նմանությունը կարող է լինել պարզ է առաջին հայացքից: Նախ, Banerji եւ գործընկերները փոխակերպվել յուրաքանչյուր պատկերի մեջ մի շարք թվային առանձնահատկություններ, որոնք ամփոփել դա հատկությունները: Օրինակ, պատկերների գալակտիկաների այնտեղ կարող են լինել երեք հատկանիշները: չափը կապույտ պատկերով, գժտություն է պայծառությունը պիքսել, եւ համամասնությամբ ոչ սպիտակ պիքսել. Ընտրությունը ճիշտ հատկանիշներից է կարեւոր մասն է խնդրի, եւ դա ընդհանուր առմամբ պահանջում է առարկայական տարածք փորձաքննություն: Սա առաջին քայլն է, սովորաբար կոչվում հատկությունը ինժեներական, հանգեցնում է տվյալների մատրիցով, մեկ շարքով մեկ պատկերով եւ ապա երեք սյուների նկարագրող այդ կերպարը: Հաշվի առնելով տվյալների մատրիցան եւ ցանկալի արտադրանքի (օրինակ, թե արդյոք պատկերը դասակարգվում են մարդու որպես elliptical գալակտիկայի) գիտաշխատող գնահատում պարամետրերի մի վիճակագրական մոդելի համար օրինակ, նման բան լոգիստիկ հետընթաց-որ կանխորոշում է մարդկային դասակարգումը հիմնված վրա առանձնահատկությունների պատկերով: Վերջապես, հետազոտող օգտագործում պարամետրերի այս վիճակագրական մոդելի արտադրել գնահատված դասակարգումները նոր գալակտիկաների (Նկար 5.4). Է մտածել սոցիալական անալոգային, պատկերացրեք, որ դուք ունեցել ժողովրդագրական մասին տեղեկություններ միլիոն ուսանողների, եւ դուք գիտեք, թե արդյոք նրանք ավարտել է քոլեջը, թե ոչ: Դուք կարող եք տեղավորել լոգիստիկ ռեգրեսիան է այս տվյալները, ապա դուք կարող եք օգտագործել այն արդյունքում մոդելային պարամետրերի է կանխատեսել, թե արդյոք նոր ուսանողները պատրաստվում են ավարտել քոլեջը: Ի մեքենա ուսուցման, այս մոտեցումը օգտագործելով պիտակավորված օրինակներ, ստեղծել վիճակագրական մոդել, որը կարող է ապա պիտակի նոր տվյալները, կոչվում է վերահսկվում սովորում (Hastie, Tibshirani, and Friedman 2009) :
Հնարավորություններից Banerji et al. (2010) Մեքենա ուսուցման մոդելն էին ավելի բարդ է, քան նրանք, ովքեր իմ խաղալիքի օրինակ է, օրինակ, նա օգտագործեց առանձնահատկություններ, ինչպիսիք են «դե Vaucouleurs տեղավորվում առանցքային հարաբերակցության» -եւ իր մոդելը չէր թիկունքային հետընթացը, որ դա եղել է արհեստական նեյրոնային ցանցի. Օգտագործելով իր հատկանիշները, նրա մոդելը, եւ կոնսենսուսի Galaxy Zoo դասակարգումների, նա կարողացել է ստեղծել կշիռները յուրաքանչյուր խաղարկային, եւ ապա օգտագործել այդ կշիռները կանխատեսումներ կատարել դասակարգման գալակտիկաների. Օրինակ, իր վերլուծությունը պարզել է, որ պատկերները ցածր "de Vaucouleurs տեղավորվում առանցքային հարաբերակցության» էին, ավելի հավանական է, որ պարույր գալակտիկաների. Հաշվի առնելով այդ կշիռները, նա կարողացել է կանխատեսել մարդկային դասակարգումը մի Գալակտիկայի հետ ողջամիտ ճշգրտությամբ.
Աշխատանքը Banerji et al. (2010) Դիմել Galaxy Zoo, թե ինչ ես կանվանեի երկրորդ սերնդի մարդկային հաշվարկման համակարգ. Լավագույն միջոց է մտածել այն մասին, այդ երկրորդ սերնդի համակարգերի այն է, որ ավելի շուտ, քան ունենալու մարդիկ լուծել խնդիրը, նրանք ունեն մարդիկ կառուցել dataset, որը կարող է օգտագործվել է պատրաստել մի համակարգիչ է լուծել խնդիրը. Գումարը տվյալների անհրաժեշտ պատրաստել համակարգիչը կարող է լինել այնքան մեծ է, որ դա պահանջում է մարդկային զանգվածային համագործակցություն ստեղծելու: Այն դեպքում, Galaxy Zoo, նեյրոնային ցանցերի կողմից օգտագործված Banerji et al. (2010) Պահանջվում է մի շատ մեծ թվով մարդկային պիտակավորված օրինակներով կառուցելու նպատակով մի մոդել, որը կարողացել է հուսալիորեն վերարտադրել մարդկային դասակարգումը:
Առավելությունն այս համակարգչային օժանդակությամբ մոտեցման այն է, որ այն հնարավորություն է տալիս կարգավորել էապես անսահման քանակությամբ տվյալների օգտագործելով միայն վերջավոր քանակությամբ մարդկային ջանքերի: Օրինակ, մի հետազոտող մի միլիոն մարդու դասակարգված գալակտիկաների կարող է կառուցել մի կանխատեսող մոդել, որը կարող է օգտագործվել դասակարգի միլիարդ կամ նույնիսկ մի տրիլիոն գալակտիկաների. Եթե կան հսկայական թվով գալակտիկաների, ապա այս տեսակ մարդու համակարգչային հիբրիդային, իրոք միակ հնարավոր լուծումը: Այս անսահման scalability ազատ չէ, սակայն. Կառուցենք մեքենա ուսուցման մոդել, որը կարող է ճիշտ վերարտադրել մարդկային դասակարգումների ինքնին բարդ խնդիր է, բայց, բարեբախտաբար, կան արդեն գերազանց գրքեր նվիրված այս թեմային (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) :
Galaxy Zoo ցույց է տալիս բազմաթիվ մարդկային հաշվարկային նախագծերի: Նախ, մի հետազոտող փորձում նախագծին դնում, կամ մի փոքր թիմի հետազոտական օգնականներ (օրինակ, Schawinski նախնական դասակարգում ջանք). Եթե այս մոտեցումը չի մասշտաբների նաեւ, որ հետազոտող կարող է տեղափոխել մի մարդու հաշվարկային նախագծի, որտեղ շատ մարդիկ նպաստել դասակարգումը. Բայց, մի որոշակի ծավալի տվյալների, մաքուր մարդու ջանք չի կարող լինել բավարար. Այդ պահին, հետազոտողները պետք է կառուցել երկրորդ սերնդի համակարգեր, որտեղ մարդու դասակարգումներ օգտագործվում են վերապատրաստել մի մեքենա ուսուցման մոդել, որը կարող է կիրառվել գրեթե անսահմանափակ քանակությամբ տվյալների.