Chomhcheangail Réaltra Zú iarrachtaí oibrithe deonacha neamh-shaineolaithe chun milliún réaltra a rangú.
D'fhás Galaxy Zoo as fadhb a bhí ag Kevin Schawinski, mac léinn iarchéime sa Réalteolaíocht ag Ollscoil Oxford i 2007. Ag simpliú beagán beag, bhí suim ag Schawinski i réaltraí, agus is féidir réaltraí a aicmiú trína moirfeolaíocht-éilipteach nó bíseach-agus ag a dath-gorm nó dearg. Ag an am, ba í an eagna traidisiúnta i measc na réalteolaithe ná go raibh galar bíseach, cosúil lenár mBóthar Bó Finne, gorm i ndath (a léiríonn an óige) agus bhí réaltraí éilipteacha dearg (ag léiriú seanaoise). Chuir Schawinski amhras ar an eagna traidisiúnta seo. Bhí amhras ann, cé go bhféadfadh an patrún seo a bheith fíor i gcoitinne, is dócha go mbeadh roinnt eisceachtaí ann, agus gurb é a bhí ag déanamh staidéir ar go leor de na réaltraí neamhghnácha seo - na cinn nach raibh oiriúnach leis an bpatrún ionchasach - d'fhéadfadh sé rud éigin a fhoghlaim faoin bpróiseas trína réaltraí déanta.
Dá bhrí sin, ba é Schawinski a bhí ag teastáil chun eagla traidisiúnta a thoirmeasc sraith mhór de réaltraí aicmithe go morfolaíochta; is é sin, réaltraí a aicmíodh mar bíseach nó éilipseacha. Is í an fhadhb, áfach, ná go raibh na modhanna algartamacha atá ann cheana maidir le haicmiú fós go leor go leor le húsáid le haghaidh taighde eolaíoch; i bhfocail eile, bhí réaltraí a rangú, ag an am sin, fadhb a bhí deacair do ríomhairí. Dá bhrí sin, bhí líon mór de réaltraí daonna- shonraithe a bhí ag teastáil. Rinne Schawinski an fhadhb aicmithe seo le díograis mac léinn iarchéime. I seisiún marathón de sheacht lá 12 uair an chloig, bhí sé in ann 50,000 réaltra a rangú. Cé go bhféadfadh 50,000 réaltra a bheith cosúil le go leor, níl sé i ndáiríre ach thart ar 5% de na galairí beagnach aon mhilliún a bhí grianghraftha i Suirbhé Sloan Digiteach Sky. Thuig Schawinski go raibh gá le cur chuige níos inacmhainne.
Fortunately, casadh sé amach nach bhfuil an tasc de réaltraí aicmiú de dhíth ardoiliúint i réalteolaíocht; Is féidir leat a mhúineadh duine éigin a dhéanamh go tapa go leor. I bhfocail eile, cé go bhfuil réaltraí a rangú tasc a bhí crua do ríomhairí, bhí sé éasca go leor maidir leis an duine. Mar sin, agus ina suí i dteach tábhairne i Oxford, Schawinski agus eile réalteolaí Chris Lintott dreamed suas ar an suíomh gréasáin i gcás ina mbeadh oibrithe deonacha a rangú íomhánna de réaltraí. Cúpla mí ina dhiaidh sin, a rugadh Réaltra Zú.
Ag an láithreán Gréasáin Réaltraige Zoo, bheadh cúpla nóiméad oiliúna faoi deara ag oibrithe deonacha; mar shampla, ag foghlaim an difríocht idir réaltra bíseach agus éilipseacha (figiúr 5.2). Tar éis na hoiliúna seo, bhí ar gach saoránaigh a bheith ag ceistiú go réasúnta éasca le 11 de 15 réaltra a rangú le haicmithe aitheanta - agus ansin tosódh rangú fíor-réaltraí anaithnid trí chomhéadan simplí bunaithe ar an ngréasán (figiúr 5.3). Bheadh an t-aistriú ó oibrí deonacha go réalteolaí ar siúl i níos lú ná 10 nóiméad agus níor mhór ach an cheist is ísle a rith, tráth na gceist.
Mheall Galaxy Zoo a chuid oibrithe deonacha tosaigh tar éis go raibh an tionscadal le feiceáil in airteagal nuachta, agus i thart ar shé mhí d'fhás an tionscadal níos mó ná 100,000 eolaithe saoránach, daoine a ghlac páirt mar go raibh taitneamh as an tasc orthu agus gur theastaigh uaidh cuidiú le réalteolaíocht a chur chun cinn. Le chéile, chuir na 100,000 oibrí deonacha seo iomlán de níos mó ná 40 milliún aicmiú, le formhór na n-aicmithe ag teacht ó phríomhghrúpa rannpháirteach sách beag (Lintott et al. 2008) .
D'fhéadfadh taighdeoirí a bhfuil taithí acu ar fhostú cúntóirí taighde fochéime a bheith skeptical faoi chaighdeán na sonraí láithreach. Cé go bhfuil an t-amhras seo réasúnta, léiríonn Réaltraga Zú nuair a chuirtear ranníocaíochtaí deonacha i gceart glan, go bhfuil siad dlite agus comhiomlánaithe, is féidir leo torthaí ardchaighdeáin a tháirgeadh (Lintott et al. 2008) . Is trick tábhachtach ag fáil an slua a chruthú sonraí gairmiúil-chaighdeán iomarcaíochta, is é sin, tar éis an tasc céanna a rinne go leor daoine éagsúla. Sa Réaltra Zú, bhí thart ar 40 aicmiú in aghaidh an réaltra; níorbh fhéidir le taighdeoirí a úsáideann cúntóirí taighde fochéime an leibhéal iomarcaíochta seo a thabhairt agus dá bhrí sin ní mór go mbeadh i bhfad níos mó i gceist le cáilíocht gach aicmithe aonair. Cad é nach raibh na hoibrithe deonacha in oiliúint, rinne siad iomarcaíocht orthu.
Fiú amháin le haicmithe éagsúla in aghaidh an réaltra, áfach, bhí an t-aicmí deonacha a chomhcheangal le haicmiú comhsheasmhachta a chruthú deacair. Mar gheall ar dhúshláin an-chosúil a thagann chun cinn i bhformhór na dtionscadal ríomhaithe daonna, tá sé cabhrach athbhreithniú gearr a dhéanamh ar na trí chéime a d'úsáid na taighdeoirí Zú Réaltra chun a n-aicmiú comhaontaithe a chur ar fáil. Ar dtús, rinne na taighdeoirí na sonraí "a ghlanadh" trí aicmí bréagacha a bhaint. Mar shampla, daoine a d'aicmigh an réaltra céanna arís agus arís eile - rud a tharlódh dá mba rud é go raibh siad ag iarraidh na torthaí a ionramháil - go ndearnadh a n-aicmithe go léir a scriosadh. Bhain sé seo agus glanadh eile den chineál céanna thart ar 4% de na haicmithe go léir.
Ar an dara dul síos, tar éis a ghlanadh, ní mór do na taighdeoirí claonadh córasach a bhaint as na haicmithe. Trí sraith staidéar braite claonta atá leabaithe laistigh den tionscadal bunaidh - mar shampla, léirigh roinnt de na hoibrithe deonacha an réaltra i monacrómach seachas dath - d'aimsigh na taighdeoirí roinnt claonta córasacha, mar shampla claonadh córasach chun réaltraí bíseach fara a rangú mar réaltraí éilipteacha (Bamford et al. 2009) . Tá sé ríthábhachtach do choigeartú do na claonta córasacha seo toisc nach gcuireann iomarcaíocht claonadh córasach ar ais go huathoibríoch; cuideoidh sé ach earráid randamach.
Ar deireadh, tar éis dó dul i dtrácht, bhí gá le taighdeoirí chun na haicmiúcháin aonair a chomhcheangal le haicmiú comhaontaithe a thabhairt ar aird. Ba é an bealach is simplí aicmí le chéile do gach réaltra an t-aicmiú is coitianta a roghnú. Mar sin féin, chuirfeadh an cur chuige seo cothrom comhionann le gach oibrí deonach, agus bhí amhras ar na taighdeoirí go raibh cuid de na hoibrithe deonacha níos fearr ag an aicmiú ná mar a bhí ag daoine eile. Dá bhrí sin, d'fhorbair na taighdeoirí nós imeachta ualaithe níos casta a rinne iarracht na haicmithe is fearr a bhrath agus meáchan níos mó a thabhairt dóibh.
Dá bhrí sin, tar éis próiseáil trí chéim a ghlanadh, a phlé agus a ualú, bhí foireann taighde Galaxy Zoo tar éis 40 milliún de aicmithe deonacha a thiontú i sraith de aicmithe moirfeolaíocha comhaontaithe. Nuair a bhí na haicmithe Réaltraige Zoo seo i gcomparáid le trí iarrachtaí scála níos lú ag réalteolaithe gairmiúla, lena n-áirítear an t-aicmiú ag Schawinski a chabhraigh le Galaxy Zoo a spreagadh, bhí comhaontú láidir ann. Dá bhrí sin, bhí na hoibrithe deonacha, i gcomhiomlán, in ann aicmí ardchaighdeáin a sholáthar agus ar scála nach bhféadfadh na taighdeoirí a mheaitseáil (Lintott et al. 2008) . Go deimhin, de réir aicmithe daonna do líon mór réaltraí, bhí Schawinski, Lintott, agus daoine eile in ann a thaispeáint nach leanann ach thart ar 80% de na galair leis na bíseachí bradacha-gorm agus an éiliptíseach dearga - agus scríobhadh go leor páipéir faoi an fhionnachtana seo (Fortson et al. 2011) .
Mar gheall ar an gcúlra seo, is féidir leat a fheiceáil anois conas a dhéanann Galaxy Zoo an t-oideas scoite-iarratas a chomhcheanglaíonn an t-oideas céanna a úsáidtear don chuid is mó de thionscadail ríomhaithe daonna. Ar dtús, tá fadhb mhór roinnte ina smután. Sa chás seo, roinneadh an fhadhb maidir le haicmiú milliún réaltra a roinnt ina mhilliún fadhbanna a d'aicmigh réaltra amháin. Ina dhiaidh sin, cuirtear oibríocht i bhfeidhm ar gach sméar go neamhspleách. Sa chás seo, d'oibrigh deonacha gach réaltra mar bíseach nó éilipseacha. Ar deireadh, cuirtear na torthaí le chéile chun toradh comhaontaithe a thabhairt ar aird. Sa chás seo, bhí an ghlanadh, an tuiscint agus an ualú i gceist leis an gcéim a chur le chéile chun aicmiú comhaontaithe a thabhairt do gach réaltra. Cé go n-úsáideann an chuid is mó de na tionscadail seo an t-oideas ginearálta, caithfear gach céim a shaincheapadh chun an fhadhb shonrach atá á ndíriú. Mar shampla, sa tionscadal ríomhaithe daonna a thuairiscítear thíos, leanfar an t-oideas céanna, ach beidh na céimeanna a chur i bhfeidhm agus a chéile le chéile go leor difriúil.
Maidir leis an bhfoireann Réaltra Zú, ní raibh an chéad tionscadal seo ach an tús. Go tapa, thuig siad go raibh siad in ann aicmiú gar do mhilliún galaxies, níl an scála seo go leor le bheith ag obair le suirbhéanna nua spéir dhigiteacha, agus is féidir leo íomhánna de thart ar 10 billiún réaltra a (Kuminski et al. 2014) . Chun méadú ó 1 milliún go 10 billiún a láimhseáil-ba mhór go mbeadh 10,000 rannpháirtí níos mó rannpháirteach i bhfachtóir 10,000-Galaxy Zoo. Cé go bhfuil líon na n-oibrithe deonacha ar an Idirlíon mór, níl sé gan teorainn. Dá bhrí sin, thuig na taighdeoirí, dá mba rud é go raibh siad ag déileáil le suimeanna sonraí atá ag fás, bhí gá le cur chuige nua, fiú níos inscálaithe.
Dá bhrí sin, d'oibrigh Manda Banerji ag obair le Schawinski, Lintott, agus baill eile den fhoireann Réaltra Zú (2010) ríomhairí teagaisc chun réaltraí a rangú. Go sonrach, ag baint úsáide as na haicmithe daonna a chruthaigh Galaxy Zoo, rinne Banerji múnla foghlama meaisín a d'fhéadfadh a thuar aicmiú daonna réaltra bunaithe ar shaintréithe na híomhá. Más féidir leis an múnla seo aicmithe daonna a léiriú le cruinneas ard, d'fhéadfadh taighdeoirí Galaxy Zoo é a úsáid chun líon neamhghníomhach réaltraí a rangú.
Tá croílár cur chuige Banerji agus comhghleacaithe an-chosúil le teicnící a úsáidtear go coitianta i dtaighde sóisialta, cé nach bhféadfadh an chosúlacht sin a bheith soiléir ar an gcéad amharc. Ar dtús, thionóil Banerji agus comhghleacaithe gach íomhá isteach i sraith de ghnéithe uimhriúla a rinne achoimre ar a chuid maoine. Mar shampla, d'fhonn íomhánna réaltraí, d'fhéadfadh go mbeadh trí ghné: méid gorm san íomhá, an éagsúlacht i gile na pixel, agus an cion de picteilíní neamh-bán. Is cuid thábhachtach den fhadhb a roghnaíonn na gnéithe cearta, agus de ghnáth go dteastaíonn saineolas an ábhair faoi deara. Tá an chéad chéim seo, a úsáidtear go coitianta ar innealtóireacht ghné , mar thoradh ar mhaitrís sonraí le sraith amháin in aghaidh an íomhá agus ansin trí cholún ag cur síos ar an íomhá sin. Mar gheall ar an maitrís sonraí agus an t-aschur atá ag teastáil (m.sh., cibé an raibh an íomhá rangaithe de réir duine mar réaltra éilipseach), cruthaíonn an taighdeoir samhail foghlama staidrimh nó meaisín-mar shampla, aischéimniú logistic-a réitíonn an aicmiú daonna bunaithe ar na gnéithe den íomhá. Ar deireadh, úsáideann an taighdeoir na paraiméadair sa tsamhail staidrimh seo chun aicmí measta a dhéanamh ar réaltraí nua (figiúr 5.4). I bhfoghlaim meaisín, is é an cur chuige seo - ag baint úsáide as samplaí lipéadaithe chun múnla a chruthú a d'fhéadfadh lipéadú sonraí nua a lipéadú - ar a dtugtar foghlaim maoirseachta .
Bhí na gnéithe i múnla foghlama Banerji agus comhghleacaithe níos casta ná iad siúd a bhí i mo shampla bréagán-mar shampla, d'úsáid sí gnéithe cosúil le "cóimheas aicme oiriúnach d'aicme" - agus níorbh é an tsamhail sin ná aischéimniú loighisticiúil, is líonra neodrach saorga a bhí ann. Ag baint úsáide as a cuid gnéithe, a múnla, agus na haicmithe Galaxy Zoo comhaontú, bhí sí in ann meáchain a chruthú ar gach gné, agus ansin úsáid na meáchain sin chun tuar a dhéanamh maidir le haicmiú réaltraí. Mar shampla, fuair a hanailís amach gur dócha go mbeadh íomhánna a raibh cóimheas aiseach oiriúnach "de Vaucouleurs" orthu ina réaltraí bíseach. Mar gheall ar na meáchain seo, bhí sí in ann aicmiú daonna réaltra a thuar le cruinneas réasúnta.
Thionóil obair Banerji agus comhghleacaithe Galaxy Zoo isteach ar an méid a rachaidh mé ag glaoch ar chóras ríomhchúnamh daonna le cúnamh ríomhaire . Is é an bealach is fearr chun smaoineamh ar na córais hibrideach seo ná go gcuirfí fadhb ar fhadhbanna a réiteach, tá daoine ag tógáil tacar sonraí ar féidir iad a úsáid chun ríomhaire a oiliúint chun an fhadhb a réiteach. Uaireanta, is féidir go leor samplaí a oiliúint ar ríomhaire chun an fhadhb a réiteach, agus is comhoibriú ollmhór an t-aon bhealach le go leor samplaí a thabhairt ar aird. Is é an buntáiste a bhaineann leis an gcur chuige seo le cúnamh ríomhairí ná go gcuireann sé ar chumas tú méideanna sonraí neamhtheoranta a láimhseáil go bunúsach, gan úsáid a bhaint as méid críochnaitheach de iarracht an duine. Mar shampla, is féidir le taighdeoir le milliún réaltra aicmithe daonna a chruthú múnla réamh-mheastaigh a fhéadfar a úsáid ansin chun aicmiú billiún nó fiú trilliún galaxies. Má tá líon ollmhór réaltraí ann, is é an cineál céanna hibrideach ríomhairí an duine an t-aon réiteach is féidir. Níl an scalability gan teorainn saor in aisce, áfach. Is fadhb chrua é féin a chruthú múnla foghlama meaisín a d'fhéadfadh aicmí daonna a atáirgeadh i gceart, ach go fortanach tá leabhair den scoth ann cheana féin atá tiomanta don ábhar seo (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Is léiriú maith é Réaltraga Zú ar cé mhéad tionscadal ríomh daonna a thagann chun cinn. Ar dtús, déanann taighdeoir iarracht ar an tionscadal féin nó le foireann bheag de chúntóirí taighde (m.sh., iarracht tosaigh aicmithe Schawinski). Mura ndéanann an cur chuige seo scála maith, is féidir leis an taighdeoir dul i mbun tionscadal ríomh daonna le go leor rannpháirtithe. Ach, le haghaidh méid áirithe sonraí, ní bheidh iarracht an duine íon go leor. Ag an bpointe sin, is gá do thaighdeoirí córas ríomhairithe cúnamh daonna a thógáil ina n-úsáidtear aicmithe daonna chun múnla foghlama meaisín a oiliúint a fhéadfar a chur i bhfeidhm ansin ar mhéideanna neamhtheoranta sonraí.