Loj datasets yog ib tug txhais tau tias mus rau qhov kawg; lawv tsis yog kawg nyob rau hauv lawv tus kheej.
Feem ntau cov lus sib tham txog cov ntaub ntawv loj yog tias lawv yog BIG. Ntau cov ntaub ntawv, piv txwv li, pib los ntawm kev sib tham - thiab qee zaus bragging-li cas cov ntaub ntawv lawv soj ntsuam. Piv txwv li, ib daim ntawv luam tawm hauv Science kev kawm cov lus siv hauv cov lus hauv Google phau ntawv nrog cov nram qab no (Michel et al. 2011) :
"Peb [corpus] muaj ntau tshaj li 500 billion lo lus, ua lus Askiv (361 billions), Fab Kis (45 billion), Mev (45 billion), German (37 billion), Suav (13 billion), Lavxias (35 billion), thiab Hebrew (2 billion). Cov haujlwm uas ua haujlwm tshaj plaws tau luam tawm nyob rau hauv 1500s. Lub xyoo kaum ib xyoo yog sawv cev ntawm ob peb phau ntawv hauv ib xyoos xwb, uas muaj ntau pua txhiab lus. Thaum txog 1800, tus tub rog hlob mus rau 98 lab lus hauv ib lub xyoo; los ntawm 1900, 1.8 billion; thiab los ntawm 2000, 11 billion. Lub corpus tsis tau nyeem los ntawm ib tug tib neeg. Yog tias koj sim nyeem cov lus Askiv nkaus xwb thaum xyoo 2000 ib leeg, ntawm qhov siab tshaj ntawm 200 lo lus / feeb, tsis muaj kev cuam tshuam rau khoom noj los yog pw, nws yuav siv sij hawm 80 xyoo. Cov npe ntawm cov tsiaj ntawv yog 1000 npaug ntev tshaj li ntawm tib neeg genome: Yog tias koj sau nws tawm ncaj qha, nws yuav ncav cuag lub hli thiab rov qab 10 zaug. "
Cov lus ntawm cov ntaub ntawv no tsis tshua muaj txiaj ntsig, thiab peb txhua tus muaj hmoo tias Google Cov Pab Pawg neeg tau tso tawm cov ntaub ntawv no rau cov pej xeem (qhov tseeb, qee yam ntawm cov dej num tom kawg ntawm tshooj no siv cov ntaub ntawv no). Tab sis, thaum twg koj pom tej yam zoo li no koj yuav tsum tau nug: yog tias tag nrho cov ntaub ntawv no tiag tiag ua dab tsi? Lawv puas tau ua tib qho kev tshawb fawb yog tias cov ntaub ntawv yuav ncav cuag lub hli thiab tom qab xwb ib zaug? Yuav ua li cas yog tias cov ntaub ntawv tsuas yog mus txog saum Mount Everest lossis sab saum toj ntawm Eiffel Tower?
Hauv qhov no, lawv cov kev tshawb fawb tau, qhov tseeb, muaj qee cov kev tshawb pom uas xav tau lub cev loj ntawm cov lus ntev dhau los. Piv txwv li, ib yam lawv tshawb tau yog cov evolution ntawm qauv sau ntawv, tshwj xeeb yog hloov ntawm cov lus qhia tsis sib haum xeeb. Txij thaum qee cov lus siv tsis muaj lus tsis tshua muaj heev, ib qho loj ntawm cov ntaub ntawv yuav tsum tau pom cov kev hloov hauv lub sijhawm. Ntau zaus, txawm li cas los xij, cov kws tshawb fawb pom zoo kom kho qhov loj qhov loj ntawm cov ntaub ntawv los ntawm qhov kawg - "saib ntau npaum li cas cov ntaub ntawv uas kuv tau tawm tsam" -tsis tshaj ib lub tswv yim rau qee lub hom phiaj tseem ceeb dua.
Hauv kuv txoj kev kawm, kev kawm txog cov xwm txheej tsawg yog ib qho ntawm peb qho kev kawm xaus uas cov datasets loj yuav pab tau. Qhov thib ob yog kawm txog heterogeneity, raws li tau piav qhia los ntawm kev tshawb fawb los ntawm Raj Chetty thiab cov npoj yaig (2014) ntawm kev muaj kev ywj pheej hauv Tebchaws Meskas. Yav tag los, ntau cov kws tshawb fawb tau kawm txog kev muaj mob muaj txiaj ntsig los ntawm kev sib piv lub neej ntawm cov niam txiv thiab cov menyuam. Kev pom zoo ntawm cov ntaub ntawv no yog qhov zoo rau cov niam txiv zoo li cov menyuam yaus, tiam sis lub zog ntawm kev sib raug zoo no txawv lub sijhawm thiab thoob tebchaws (Hout and DiPrete 2006) . Nyuam qhuav tsis ntev los no, Chetty thiab cov npoj yaig tau siv cov ntaub ntawv ua se ntawm 40 lab tus tib neeg los kwv yees lub heterogeneity hauv intergenerational mobility thoob plaws hauv teb chaws Meskas (daim duab 2.1). Lawv nrhiav tau, piv txwv tias, qhov uas tus me nyuam tau nce siab tshaj plaws ntawm cov nyiaj tau los ntawm lub teb chaws pib ntawm ib tsev neeg hauv qab quintile yog txog 13% hauv San Jose, California, tab sis tsuas yog li 4% hauv Charlotte, North Carolina. Yog tias koj saib ntawm daim duab 2.1 ib ntus, koj yuav pib xav vim li cas intergenerational mobility siab dua nyob rau qee qhov chaw dua lwm tus. Chetty thiab cov npoj yaig muaj qhov kev nug tib yam nkaus xwb, thiab lawv pom tias qhov chaw siab dav dav muaj qhov tsis tshua muaj neeg nyob hauv tsev, tsis tshua khwv tsis tau nyiaj, cov tsev kawm ntawv zoo dua qub, muaj kev lag luam ntau, thiab tsev neeg muaj kev ruaj ntseg dua. Qhov tseeb, cov kev sib raug zoo ntawm no tsuas yog tsis qhia tias cov xwm txheej no ua rau muaj kev siab dua, tab sis lawv pom zoo cov tswv yim uas yuav raug tshawb tau hauv kev ua haujlwm ntxiv, uas yog Chetty thiab cov neeg ua haujlwm tau ua haujlwm tom qab. Daim ntawv ceeb toom qhia tias qhov loj ntawm cov ntaub ntawv yog qhov tseem ceeb hauv qhov project no. Yog hais tias Chetty thiab cov npoj yaig tau siv cov ntaub ntawv ua se ntawm 40 txhiab tus neeg es tsis tshaj li 40 plhom, lawv yuav tsis tau kwv yees li thaj tsam heterogeneity thiab lawv yeej tsis muaj peev xwm ua cov kev tshawb nrhiav tom qab los nrhiav cov qauv uas tsim qhov kev hloov no.
Thaum kawg, ntxiv rau cov txheej xwm tsis tshua muaj kev kawm thiab kawm heterogeneity, cov datasets loj loj kuj pab cov neeg tshawb xyuas kom pom cov kev sib txawv me me. Qhov tseeb, ntau ntawm cov ntsiab lus tseem ceeb hauv kev lag luam yog hais txog cov kev sib txawv ntawm cov me me no: ntes tau qhov txawv nruab nrab ntawm 1% thiab 1.1% nias-los ntawm cov nqi ntawm ib lub npe tuaj yeem hloov mus ua tsheej lab ntawm cov nyiaj ntxiv. Hauv qee qhov kev qhia, txawm li cas los xij, tej yam kev sib txawv no tsis yog qhov tseem ceeb, txawm tias lawv yog cov tseem ceeb (Prentice and Miller 1992) . Tab sis, hauv qee txoj cai, lawv tuaj yeem pib ua tseem ceeb thaum pom hauv aggregate. Piv txwv, yog tias muaj ob txoj kev pabcuam pejxeem pabcuam pejxeem thiab muaj ib qho zoo dua li lwm tus, ces qhov kev pabcuam zoo dua tuaj yeem txuag tau ntau txhiab lub neej ntxiv.
Txawm hais tias bigness feem ntau yog ib qho khoom zoo thaum siv kom raug, Kuv tau pom tias nws tuaj yeem ua rau ib qho yuam kev lawm. Vim qee zaum, khoov pob txha nkawd ua rau cov neeg soj ntsuam xyuas tsis pom zoo txog tias lawv cov ntaub ntawv tau tsim dab tsi. Thaum thev naus caj npab txo qhov kev xav tau kev txhawj xeeb txog qhov kev ua yuam kev, nws ua tau kom muaj kev txhawj xeeb txog kev tsis sib raug zoo, cov hom kev ua yuam kev uas kuv yuav piav qhia hauv qab no uas tshwm sim los ntawm kev txhawb siab nyob rau hauv cov ntaub ntawv raug tsim. Piv txwv, nyob rau hauv ib qhov project kuv mam li piav qhia rau hauv tshooj no, cov kws tshawb fawb tau siv cov lus tsim tawm rau lub Cuaj Hlis 11, xyoo 2001 los tsim cov kev daws teeb meem ntawm kev ua phem rau cov neeg ua phem (Back, Küfner, and Egloff 2010) . Vim tias cov neeg tshawb xyuas muaj ntau cov lus, lawv yeej tsis tas txhawj txog seb cov qauv lawv pom-nce kev chim siab npaum li cas rau hnub ntawd-yuav piav qhia los ntawm kev sib txawv random. Muaj ntau cov ntaub ntawv thiab qhov qauv ntawd kom meej meej tias tag nrho cov kev tshuaj ntsuam tawm pom tias qhov no yog ib qho qauv tiag. Tab sis, cov ntawv xeem no tsis paub txog tias cov ntaub ntawv raug tsim muaj li cas. Nyob rau hauv qhov tseeb, nws muab tawm tias ntau ntawm cov qauv tau attributable rau ib tus bot uas generated ntau ntau yam lus tsis tseem ceeb txhua hnub. Tshem tawm ib tus bot no ua rau tag nrho cov ntsiab lus tseem ceeb hauv daim ntawv (Pury 2011; Back, Küfner, and Egloff 2011) . Tsuas yog cov neeg tshawb nrhiav uas tsis xav txog kev ua yuam kev teebmeem uas yog kev siv cov datasets loj los ua kom muaj nuj nqis ntau tshaj qhov qub, xws li cov ntsiab lus ntawm cov lus tsis muaj qab hau uas ua los ntawm ib qho chaw automated bot.
Thaum kawg, cov ntaub ntawv pov thawj loj tsis xaus rau lawv tus kheej, tab sis lawv tuaj yeem pab tau qee hom kev tshawb fawb nrog rau txoj kev tshawb fawb txog cov xwm txheej tsawg, kev kwv yees li ntawm kev ntxub ntxaug, thiab kev paub txog kev sib txawv me me. Cov datasets loj kuj zoo li ua rau qee cov neeg soj ntsuam xyuas tsis pom zoo tias lawv cov ntaub ntawv raug tsim, uas tuaj yeem coj lawv mus kom tau ib qho kev kwv yees txog kev ua lag luam ntau npaum li cas.