Adkayd Large yihiin hab dhammaado, ma ay joogin dhamaadka ah naftooda ku kalsoonaadaan.
Qaabka ugu ballaadhan ee laga soo xigtay ilaha xogta waa in ay yihiin BIG. Waraaqo badan, tusaale ahaan, waxay bilaabaan iyagoo ka doodaya-iyo mararka qaarkood si sharaf leh-ku saabsan inta xog ee ay falanqeynayaan. Tusaale ahaan, wargeys lagu daabacay Sayniska sayniska ee isbarbardhigga ereyga isticmaalka erayada Google Buugaagta Google waxa ku jira kuwa soo socda (Michel et al. 2011) :
Faransiiska (45 bilyan), Spanish (45 bilyan), Jarmal (37 bilyan), Shiinees (13 bilyan), Ruushka (35 bilyan), iyo Cibraaniga (2 bilyan). Shaqooyinka ugu da'da yar ayaa lagu daabacay 1500-dii. Tobannaan sano ka hor waxaa matala dhowr buug oo yar oo sanadkiiba, oo ka kooban dhowr boqol oo eray. Laga soo bilaabo 1800, korontadu waxay kor u kacdaa 98 milyan oo eray sanadkiiba; illaa 1900, 1,8 bilyan; iyo 2000, 11 bilyan. Dhismaha lama akhrin karo aadanaha. Haddii aad isku dayday inaad akhrisato keliya Ingiriisi-luuqadeedka sanadka 2000 oo keliya, adigoo ku qiyaasan 200 eray / daqiiqo, iyada oo aanad joojin cunto ama hurdo, waxay qaadan lahayd 80 sano. Tirada xarfaha waa 1000 jeer ka badan kan genome-ga: Haddii aad ku qorto xariiq toosan, waxa ay gaari doontaa bisha iyo 10-ka marba. "
Qiyaasta xogtan ayaa ah wax aan la taaban karo, waana nasiib darro in kooxda Google Books ay u gudbiyeen xogta dadweynaha (xaqiiqda, qaar ka mid ah hawlaha dhamaadka cutubkan waxay isticmaalaan xogtan). Laakiin, mar kasta oo aad aragto wax sidan oo kale ah waa inaad weydiisaa: miyay tahay in macluumaadkaas oo dhan run ahaantii sameeyaan? Ma waxay samayn lahaayeen cilmi-baaris la mid ah haddii xogta ay gaari karto bisha oo kaliya hal mar? Maxaa dhacaya haddii xogtu gaari karto buurta dusheeda sare ama dusha sare ee Eiffel Tower?
Xaaladdan, cilmi-baaristu, dhab ahaantii, waxay haysaa waxoogaa natiijooyin ah oo u baahan waxyaabo badan oo erayo badan oo muddo dheer ah. Tusaale ahaan, hal shey oo ay sahamiyaan waa horumarinta naxwaha, gaar ahaan isbeddelka xaddiga isudbinta aan caadiga ahayn. Maadaama ficillada aan caadiga ahayn ay aad u yaryihiin, xog badan oo badan waxay u baahan tahay in la ogaado isbedelka waqtiga. Inta badan, si kastaba ha ahaatee, cilmi-baarayaashu waxay u muuqdaan in ay daaweeyaan xajmiga ilaha xogta weyn ee dhammaadka- "fiiro intee le'eg oo xog ah oo aan ku kici karno" - maaddaama wax looga jeedo qaar ka mid ah ujeedooyinka cilmiga muhiimka ah.
Marka aan waayo-aragnimadayda ah, daraasaddaha dhacdooyinka dhifka ahi waa mid ka mid ah saddexda qodob oo cilmi-baaris ah oo muujinaya in datasets-yada waaweyni ay awoodaan. Midda labaad waa daraasad ku saabsan hijrada, sida lagu muujin karo daraasad ay samaysay Raj Chetty iyo asxaabteeda (2014) dhaqdhaqaaqa bulshada ee Maraykanka. Waqtigii hore, cilmi baarayaal badan ayaa wax ka bartay dhaqdhaqaaqa bulshada iyada oo la barbar dhigayo natiijooyinka nolosha ee waalidiinta iyo carruurta. Natiijada ka soo baxday qoraalladan waa in waalidiinta faa'iidada leh ay u leeyihiin inay helaan faa'iido caruur ah, laakiin xoogga xiriirkani wuxuu ku kala duwan yahay waqti iyo wadamada oo dhan (Hout and DiPrete 2006) . Si kastaba ha ahaatee, dhawaan, si kastaba ha ahaatee, Chetty iyo saaxiibadood ayaa awooday inay isticmaalaan xogta canshuurta laga bilaabo 40 milyan oo qof si ay u qiyaasaan hir-gelinta dhaqdhaqaaqa dhexdhexaadka ah ee gobollada Maraykanka (sawirka 2.1). Waxay heleen, tusaale ahaan, in ardaygu gaaro ugu sarreeya dakhliga ugu hooseeya ee dakhliga qaran ee laga bilaabo qooyska ugu hooseeya qiyaasta 13% ee San Jose, Kaliforniya, laakiin kaliya 4% ee Charlotte, North Carolina. Haddii aad aragto shaxda 2.1 daqiiqad, waxaa laga yaabaa inaad bilowdo inaad la yaabto sababta dhaqdhaqaaqa dhexdhexaadintu uu ka sareeyo meelo ka duwan kuwa kale. Xayawaanka iyo saaxiibada ayaa si sax ah u waydiiyay su'aal isku mid ah, waxayna ogaadeen in degaannada dhaqdhaqaaqa sare ay leeyihiin kala qaybsanaan degaan oo yar, sinnaan la'aanta dakhli, dugsiyada hoose ee fiican, raasamaal bulsheed oo weyn, iyo xasiloonida qoyska. Dabcan, xidhiidhadani kali ma muujinayaan in arrimahan ay sababi karaan dhaqdhaqaaqa, laakiin waxay soo jeedinayaan qaabab suurogal ah oo lagu dabbaqi karo shaqo dheeraad ah, taas oo ah sida dhabta ah ee ay shaqaaluhu iyo shaqaalahoodu ku sameeyeen shaqo dambe. Ogsoonow sida cabbirka xogta muhiimka u ahaa mashruucan. Haddii Chetty iyo saaxiibada ay isticmaalaan canshuuraha 40 kun oo qof halkii ay ka badnaayeen 40 milyan, ma awoodaan in ay qiyaasaan hijo-degaanka gobolka waxayna marnaba awoodi lahaayeen inay sameeyaan cilmi-baaris dambe oo lagu tijaabinayo inay tilmaamaan hababka abuuraya isbeddelkan.
Ugu dambeyntii, marka lagu daro barashada dhacdooyinka naadir ah iyo barashada hijrada, cilmi-baarayaasha waaweyn ayaa sidoo kale awood u leh inay cilmi-baadhayaashu ogaadaan kala-duwanaanta yar. Xaqiiqdii, inta badan diirada saara xogta weyn ee warshadaha ayaa ku saabsan khilaafyadan yaryar: Tilmaameeyaa helitaanka farqiga udhexeeya 1% iyo 1.1% qiimaha rukunka ee xayeysiinta ayaa turjumi kara malaayiin doolar oo dakhliga dheeraadka ah. Hase yeeshee, goobaha cilmi-baarista qaarkood, si kastaba ha ahaatee, khilaafaadyada yaryar ayaa laga yaabaa inaanay muhiim ahayn, xitaa haddii ay yihiin kuwo muhiim ah (Prentice and Miller 1992) . Laakiin, goobaha siyaasadda qaarkood, waxay noqon karaan kuwo muhiim ah marka la eego wadar ahaan. Tusaale ahaan, haddii ay jiraan laba waxqabadyo caafimaad oo dadweyne iyo mid ka mid ah waxoogaa ka waxtar badan marka loo eego kan kale, ka dibna qaadashada waxqabadka wax ku oolka ah wuxuu ku dhamaan karaa kumanaan nolol dheeraad ah.
Inkasta oo qalooca uu guud ahaan yahay hanti fiican marka loo isticmaalo si sax ah, waxaan dareemay in ay mararka qaarkood u horseedi karto khalad fikradeed. Sababtoo ah, majiraan inay u muuqdaan inay hoggaamiyaan cilmi-baarayaasha inay iska dhaga-tiraan sida xogtooda loo sameeyay. Inkastoo shaati-yaradu hoos u dhigto baahida loo qabo in laga walwalo qaladaadka khaldan, waxay dhab ahaantii kordhisaa baahida loo qabo in laga walaaco khaladaadka nidaamsan, noocyada qaladka ah ee aan ku sharxi doono hoosta taas oo ka soo ifbaxeysa sida ay xogta loo abuuray. Tusaale ahaan, mashruuc aan ku sharxi doono mar dambe cutubkan, cilmi baarayaashu waxay adeegsadeen fariimo la soo saaray 11-kii Sebtembar 2001 si ay u soo saaraan waqti xaddidan oo dareen-celin ah oo ku aaddan falcelinta weerarka argagixisada (Back, Küfner, and Egloff 2010) . Sababtoo ah cilmi-baarayaashu waxay lahaayeen farriimo farabadan, uma baahna inay ka walwalaan haddii qaababka ay u arkeen - sii kordhaya xanaaqa inta lagu jiro kooraska maalinta-waxaa lagu sharxi karaa isbeddel aan kala duwanayn. Waxaa jiray xog aad u badan, qaabkuna wuxuu cadeeyay in dhammaan baaritaanada tirokoobka ee tirakoobka ay soo jeediyeen in tani ay tahay qaab dhab ah. Hase yeeshee, imtixaannada tirakoobka ayaa ahaa jaahil ah sida xogta loo abuuray. Xaqiiqdii, waxa muuqatay in qaar badan oo ka mid ah astaamaha loogu talagalay hal bot oo abuuray farriimo macno darro ah maalin kasta. Bixinta hal bokhiyaddan ayaa gabi ahaanba burburay qaar ka mid ah natiijooyinka muhiimka ah ee waraaqda (Pury 2011; Back, Küfner, and Egloff 2011) . Si fudud, cilmi-baarayaasha oo aan ka fekerin khaladaadka nidaamku waxay la kulmaan khatarta ah in ay isticmaalaan xogahoodii waaweynaa si ay u helaan qiyaas saxan oo ah tiro aan muhiim ahayn, sida sheekada dareenka ee fariimaha aan macnaha lahayn ee ay soo saarto baasaboorka automated.
Gebogebada, datasets weyn ma ahan dhammaad iskeed, laakiin waxay awood u yeelan karaan noocyada cilmi-baarista qaarkood oo ay ka mid yihiin daraasadda dhacdooyinka naadirka ah, qiyaasitaanka heterogaanta, iyo ogaanshaha kala duwanaanta yar. Qiyaaso waaweyn ayaa sidoo kale u muuqda in ay hoggaamiyaan qaar ka mid ah cilmi-baarayaasha inay iska indhatiraan sida xogtooda loo abuuray, taas oo u horseedi karta inay helaan qiyaas saxan oo ah tiro aan muhiim ahayn.