Réaltra Zú chéile na hiarrachtaí go leor oibrithe deonacha neamh-saineolaithe a aicmiú ar bhealach milliún réaltraí.
D'fhás Réaltra Zú as fadhb a bhíonn ag Kevin Schawinski, mac léinn iarchéime sa Réalteolaíocht ag Ollscoil Oxford i 2007. Shimpliú go leor le beagán, bhí suim acu i réaltraí Schawinski, agus is féidir réaltraí a rangú de réir a mhoirfeolaíocht-éilipseacha nó bíseach-agus ag a dath-gorm nó dearg. Ag an am, bhí eagna traidisiúnta i measc réalteolaithe go réaltraí bíseach, ar nós ár Bealach na Bó Finne, bhí gorm i dath (óige léiríonn) agus go raibh réaltraí éilipseacha dearg i dath (a léiríonn seanaoise). Schawinski amhras an eagna traidisiúnta. amhras sé cé bhféadfadh an patrún seo a bheith fíor i gcoitinne, tá roinnt sizable de eisceachtaí bhí dócha, agus go bhfuil ag déanamh staidéir ar go leor de na réaltraí-an neamhghnách cinn nach raibh oiriúnach an súil patrún-sé d'fhéadfadh rud éigin a fhoghlaim mar gheall ar an bpróiseas trína réaltraí déanta.
Dá bhrí sin, cad Schawinski ag teastáil chun a chur ar ceal eagna traidisiúnta a bhí sraith mór de réaltraí morphologically aicmithe; is é sin, réaltraí a bhí rangaithe mar ceachtar bíseach nó éilipseacha. An fhadhb, áfach, go raibh go raibh modhanna algorithmic ann cheana maidir le haicmiú fós maith go leor chun a úsáid le haghaidh taighde eolaíoch; i bhfocail eile, bhí réaltraí rangú, ag an am sin, fadhb a bhí crua do ríomhairí. Dá bhrí sin, an méid a bhí ag teastáil a bhí le líon mór de réaltraí aicmithe daonna. Schawinski thug an fhadhb seo aicmithe le díograis mac léinn iarchéime. I seisiún maratón seacht, 12-uair an chloig lá, bhí sé in ann a rangú 50,000 réaltraí. Cé gur féidir 50,000 réaltraí fuaime mar go leor, tá sé i ndáiríre ach thart ar 5% de na réaltraí nach mór milliún a bhí grianghraf sa Suirbhé Sky Sloan Digiteach. Schawinski thuig go raibh gá sé cur chuige níos Inscálaithe.
Fortunately, casadh sé amach nach bhfuil an tasc de réaltraí aicmiú de dhíth ardoiliúint i réalteolaíocht; Is féidir leat a mhúineadh duine éigin a dhéanamh go tapa go leor. I bhfocail eile, cé go bhfuil réaltraí a rangú tasc a bhí crua do ríomhairí, bhí sé éasca go leor maidir leis an duine. Mar sin, agus ina suí i dteach tábhairne i Oxford, Schawinski agus eile réalteolaí Chris Lintott dreamed suas ar an suíomh gréasáin i gcás ina mbeadh oibrithe deonacha a rangú íomhánna de réaltraí. Cúpla mí ina dhiaidh sin, a rugadh Réaltra Zú.
Ag an suíomh gréasáin Réaltra Zú, bheadh oibrithe deonacha faoi cúpla nóiméad oiliúna; mar shampla, ag foghlaim an difríocht idir bíseach agus réaltra éilipseacha (Figiúr 5.2). Da éis sin fuair oiliúint, bhí na hoibrithe deonacha chun pas a aicmiú sách éasca tráth na gceist-i gceart 11 de 15 réaltraí a bhfuil ar eolas aicmithe-agus ansin bheadh an oibrí dheonaigh tús aicmiú fíor na réaltraí anaithnid trí bunaithe ar an ngréasán comhéadan simplí (Figiúr 5.3). Ba mhaith leis an t-aistriú ó deonach a réalteolaí siúl i níos lú ná 10 nóiméad agus gan ach is gá dul thar an líon is ísle de remain, tráth na gceist simplí.
mheall Réaltra Zú chuid oibrithe deonacha tosaigh i ndiaidh a bhí le feiceáil ar an tionscadal i airteagal nuachta, agus i thart ar shé mhí d'fhás an tionscadal chun páirt níos mó ná 100,000 eolaithe saoránach, daoine a ghlac páirt toisc taitneamh siad an tasc agus bhí siad a cabhrú réalteolaíocht roimh ré. Le chéile, chuir na 100,000 oibrithe deonacha iomlán de níos mó ná 40 milliún aicmithe, an chuid is mó de na haicmithe ag teacht ó, grúpa réasúnta beag lárnach de rannpháirtithe (Lintott et al. 2008) .
D'fhéadfadh do thaighdeoirí a bhfuil taithí fhostú cúntóirí taighde fochéime láithreach skeptical faoi cháilíocht na sonraí. Cé go bhfuil an amhras réasúnach, léiríonn Réaltra Zú go nuair a bhíonn ranníocaíochtaí deonacha glanadh i gceart, debiased, agus comhiomlánú, is féidir iad a tháirgeadh torthaí ar ardchaighdeán (Lintott et al. 2008) . Is trick tábhachtach ag fáil an slua a chruthú sonraí cáilíochta gairmiúla iomarcaíochta; is é sin, tar éis an tasc céanna a rinne a lán daoine éagsúla. I Réaltra Zú, bhí thart ar 40 aicmithe in aghaidh réaltra; taighdeoirí ag baint úsáide as cúntóirí taighde fochéime Riamh d'fhéadfadh acmhainn an leibhéal iomarcaíochta agus dá bhrí sin ní mór a bheith i bhfad níos mó i gceist le caighdeán na gach aicme ar leith. Cad hoibrithe deonacha easpa in oiliúint, rinne siad suas do le hiomarcaíocht.
Fiú amháin le haicmithe éagsúla in aghaidh an réaltra, áfach, le chéile leis an tacar aicmithe deonach a thabhairt ar aird go bhfuil aicmiú comhdhearcadh tricky. Toisc éiríonn dúshláin an-chosúil i bhformhór na tionscadail ríomh daonna, tá sé ina chuidiú chun athbhreithniú go hachomair na trí chéim a úsáidtear na taighdeoirí Réaltra Zú chun n-aicmithe chomhthoil. Gcéad dul síos, na taighdeoirí 'glanadh' na sonraí trí dheireadh aicmithe bréagach. Mar shampla, daoine a aicmithe arís agus arís eile ar an gcéanna réaltra-rud éigin a bheadh a tharlóidh má bhí siad ag iarraidh a ionramháil na torthaí-bhí go léir a n-aicmithe discarded. Seo agus glantacháin eile dá samhail a bhaint thart ar 4% de na haicmithe.
Dara, tar éis a ghlanadh, is gá na taighdeoirí a bhaint biases córasach aicmithe. Trí sraith staidéar bhrath claonadh leabaithe taobh istigh den sampla bunaidh tionscadail le, ag taispeáint roinnt oibrithe deonacha an réaltra i monacrómach ionad dath-na taighdeoirí aimsigh nósanna imeachta chun laofachtaí córasacha agus arís eile, ar nós claonadh córasach a rangú réaltraí i bhfad ar shiúl bíseach mar réaltraí éilipseacha (Bamford et al. 2009) . Is coigeartú do na biases córasacha thar a bheith tábhachtach toisc nach bhfuil an meán go leor ranníocaíochtaí a bhaint claonadh córasach; go mbainfidh sé ach earráid randamach.
Ar deireadh, tar éis debiasing, is gá na taighdeoirí modh a chur le chéile na haicmithe aonair a tháirgeadh a aicmiú chomhthoil. Ba mhaith leis an bealach is simplí chun aicmithe chéile i gcás gach réaltra bheith a roghnú an t-aicmiú is coitianta. Mar sin féin, bheadh an cur chuige seo a thabhairt do gach meáchan deonach cothrom, agus na taighdeoirí amhras go raibh roinnt oibrithe deonacha níos fearr ag aicmiú ná a chéile. Dá bhrí sin, d'fhorbair na taighdeoirí nós imeachta ualú níos casta atriallach a iarrachtaí a bhrath go huathoibríoch ar an lucht aicmithe is fearr agus a thabhairt dóibh meáchan níos mó.
Dá bhrí sin, tar éis trí chéim próiseas-ghlanadh, debiasing, agus ualú-an fhoireann taighde Réaltra Zú bhí a chomhshó 40 milliún aicmithe deonach i sraith de aicmithe comhthola moirfeolaíoch. Nuair rinneadh comparáid idir na haicmithe Réaltra Zú le trí iarrachtaí ar scála níos lú roimhe ag réalteolaithe gairmiúla, lena n-áirítear an t-aicmiú le Schawinski gur chabhraigh a spreagadh Réaltra Zú, bhí comhaontú láidir. Dá bhrí sin, na hoibrithe deonacha, san iomlán, bhí siad in ann aicmithe ar ardchaighdeán agus ar scála nach bhféadfadh na taighdeoirí mheaitseáil (Lintott et al. 2008) . Go deimhin, trí aicmithe daonna haghaidh a leithéid de líon mór de na réaltraí, Schawinski, bhí Lintott, agus daoine eile in ann a thaispeáint go leanann ach thart ar 80% de na réaltraí na bíseanna súil patrún-gorm agus ellipticals-agus dearg páipéir iomadúla a bheith scríofa faoi an fhionnachtain (Fortson et al. 2011) .
Mar gheall ar an chúlra, is féidir linn a fheiceáil anois cé leanas Réaltra Zú an scoilt-iarratas-chéile oideas, an t-oideas céanna a úsáidtear le haghaidh an chuid is mó tionscadail ríomh daonna. Gcéad dul síos, tá fadhb mhór roinnte i smután. Sa chás seo, tá an fhadhb a aicmiú milliún réaltraí dheighilt i milliún fadhbanna a aicmiú réaltra amháin. Next, tá an oibríocht i bhfeidhm ar gach smután go neamhspleách. Sa chás seo, bheadh oibrí deonach a rangú ar gach réaltra mar ceachtar bíseach nó éilipseacha. Ar deireadh, na torthaí le chéile chun toradh chomhthoil. Sa chás seo, bhí an chéad chéim le chéile ar an glanadh, debiasing, agus ualú a thabhairt ar aird aicmiú chomhthoil do gach réaltra. Cé a úsáid an chuid is mó tionscadail oideas ginearálta, ní mór gach ceann de na céimeanna a chur in oiriúint chun an fhadhb shonrach á. Mar shampla, sa tionscadal ríomh daonna cur síos orthu thíos, an t-oideas céanna bheidh le leanúint, ach beidh na céimeanna i bhfeidhm agus a chur le chéile a bheith an-éagsúil.
Maidir leis an bhfoireann Réaltra Zú, ba chéad tionscadal seo ach an tús. An-tapa thuig siad go cé go raibh siad in ann a rangú gar do milliún réaltraí, nach bhfuil an scála go leor a bheith ag obair le suirbhéanna spéir digiteach níos nuaí, a d'fhéadfadh a tháirgeadh íomhánna de thart ar 10 billiún réaltraí (Kuminski et al. 2014) . A láimhseáil méadú 1,000,000-10000000000-a bheadh fhachtóir de 10,000-Réaltra Zú gá thart 10,000 uaire níos mó rannpháirtithe a earcú. Cé go bhfuil líon na n-oibrithe deonacha ar an Idirlíon mór, nach bhfuil sé gan teorainn. Dá bhrí sin, thuig na taighdeoirí go má tá siad ag dul chun plé méideanna ag fás i gcónaí ar shonraí, bhí gá le, fiú níos Inscálaithe, cur chuige nua.
Dá bhrí sin, Manda Banerji-obair le Kevin Schawinski, Chris Lintott, agus baill eile den ríomhairí teagaisc Réaltra Zú foirne ag tosú le réaltraí a rangú. Go sonrach, ag baint úsáide as na haicmithe daonna cruthaithe ag Réaltra Zú, Banerji et al. (2010) a tógadh múnla foghlama meaisín a d'fhéadfadh a thuar an t-aicmiú daonna réaltra bunaithe ar na saintréithe an íomhá. Má d'fhéadfadh an múnla foghlaim meaisín atáirgeadh na haicmithe daonna le cruinneas ard, ansin d'fhéadfadh sé a úsáid ag taighdeoirí Réaltra Zú a rangú líon bunúsach gan teorainn de réaltraí.
Is é an croílár chur chuige Banerji agus comhghleacaithe 'i ndáiríre go leor cosúil le teicnící a úsáidtear go coitianta i dtaighde sóisialta, cé nach fhéadfadh a cosúlacht soiléir ar an gcéad amharc. Gcéad dul síos, Banerji agus comhghleacaithe thiontú gach íomhá i sraith de ghnéithe uimhriúil a thugann achoimre sé airíonna. Mar shampla, d'fhéadfadh íomhánna de réaltraí a bheith ann trí ghné: an méid gorm san íomhá, an athraitheas i gile ar an pixel, agus an cion de pixel neamh-bán. Is é an rogha de na gnéithe ceart mar chuid thábhachtach den fhadhb, agus éilíonn sé go ginearálta saineolas ábhair cheantar. Seo an chéad chéim, ar a dtugtar go coitianta gné innealtóireachta, torthaí i maitrís sonraí le chéile amháin in aghaidh íomhá agus ansin trí cholún cur síos go íomhá. Mar gheall ar an maitrís sonraí agus an t-aschur atá ag teastáil (m.sh., cibé acu a bhí rangaithe ar an íomhá le duine mar réaltra éilipseach), measann an taighdeoir na paraiméadair de shamhail-shampla staitistiúil, rud éigin cosúil le aischéimnithí-go logistic predicts an t-aicmiú an duine atá bunaithe ar na gnéithe de na íomhá. Ar deireadh, úsáideann an taighdeoir na paraiméadair sa mhúnla staidrimh a thabhairt ar aird aicmithe measta de réaltraí nua (Figiúr 5.4). Chun smaoineamh ar aschur sóisialta, a shamhlú go raibh tú eolas déimeagrafach faoi milliún mac léinn, agus tá a fhios agat cé acu fuair siad ó choláiste nó nach bhfuil. D'fhéadfá oiriúnach aischéimnithí logistic sonraí seo, agus ansin d'fhéadfaí tú a úsáid na paraiméadair tsamhail mar thoradh air a thuar cé acu an bhfuil mic léinn nua ag dul chun céim a bhaint amach ó choláiste. I bhfoghlaim meaisín, an cur chuige seo-úsáid samplaí lipéadaithe a chruthú múnla staidrimh féidir lipéad ansin nua sonraí a dtugtar maoirseacht foghlaim (Hastie, Tibshirani, and Friedman 2009) .
Ar na gnéithe i Banerji et al. (2010) Ba samhail foghlama meaisín níos casta ná iad siúd i mo bréagán sampla-shampla, a úsáidtear sí gnéithe cosúil le "de Vaucouleurs oiriúnach cóimheas aiseach" -agus ní raibh a samhail aischéimnithí logistic, ba líonra neural saorga. Ag baint úsáide as a cuid gnéithe, a samhail agus chomhthoil haicmithe Réaltra Zú, bhí sí in ann meáchain chruthú ar gach gné, agus ansin a bhaint as na meáchain chun tuar faoi aicmiú na réaltraí dhéanamh. Mar shampla, fuair sí anailís go raibh níos mó dócha go mbeidh réaltraí bíseach íomhánna le íseal "de Vaucouleurs oiriúnach cóimheas aiseach". Mar gheall ar na meáchain, bhí sí in ann a thuar an t-aicmiú daonna réaltra go measartha cruinn.
Obair na Banerji et al. (2010) iompú Réaltra Zú isteach an méid a ba mhaith liom glaoch ar an dara glúin córas ríomh daonna. Is é an bealach is fearr chun smaoineamh ar na córais dara glúin go seachas daoine a bhfuil fadhb a réiteach, tá siad daoine a thógáil tacar sonraí gur féidir a úsáid chun oiliúint ar ríomhaire chun an fhadhb a réiteach. Is féidir leis an méid na sonraí is gá chun oiliúint ar an ríomhaire a bheith chomh mór go n-éilíonn sé comhoibriú mais an duine a chruthú. Maidir Réaltra Zú, na líonraí neural a úsáideann Banerji et al. (2010) gá le líon an-mhór de shamplaí daonna-lipéadaithe chun a thógáil samhail a bhí in ann a atáirgeadh go hiontaofa ar an aicmiú daonna.
Is é an buntáiste a bhaint as an gcur chuige ríomhchuidithe a chuireann ar chumas sé leat a láimhseáil méideanna go bunúsach gan teorainn sonraí dá mbaintear úsáid ach méid teoranta de iarracht dhaonna. Mar shampla, is féidir le taighdeoir le milliún réaltraí aicmithe duine a thógáil samhail réamhaithriseach gur féidir a úsáid ansin chun aicmiú ar bhealach billiún nó fiú trilliún réaltraí. Má tá líon ollmhór de réaltraí, ansin is é an cineál hibrideach daonna-ríomhaire i ndáiríre an réiteach ach is féidir. Ní hé seo an scalability gan teorainn saor in aisce, áfach. Ag tógáil múnla foghlama meaisín is féidir a atáirgeadh i gceart na haicmithe daonna é féin ina fhadhb crua, ach ar an dea tá cheana féin leabhar den scoth a tiomanta chun an topaic (Hastie, Tibshirani, and Friedman 2009; Murphy 2012; James et al. 2013) .
Léiríonn Réaltra Zú éabhlóid go leor tionscadail ríomh daonna. Gcéad dul síos, iarracht taighdeoir ar an tionscadal ag í féin nó le foireann bheag cúntóirí taighde (m.sh., iarracht aicmiú tosaigh Schawinski s). Más rud é nach an gcur chuige seo scála maith, is féidir leis an taighdeoir aistriú chuig tionscadal ríomh an duine ina gcuireann go leor daoine aicmithe. Ach, ar feadh méid áirithe de shonraí, iarracht dhaonna íon ní bheidh go leor. Ag an bpointe sin, ní mór taighdeoirí a thógáil córais den dara glúin ina dtugtar aicmithe daonna a úsáidtear chun oiliúint samhail foghlama meaisín is féidir a chur i bhfeidhm ansin ar méideanna beagnach gan teorainn sonraí.