အကြီးစားဒေတာအစုတခုအဆုံးမှတစ်ဦးနည်းလမ်းများပါ၏ သူတို့သည်မိမိတို့ကိုယ်၌အဆုံးမရှိကြပေ။
ကြီးမားတဲ့ data တွေကိုသတင်းရင်းမြစ်၏ဆုံးကျယ်ပြန့်ဆွေးနွေးတင်ပြ feature ကိုသူတို့ BIG ဖြစ်ပါတယ်။ အတော်များများကစာတမ်းများဥပမာ, ဆွေးနွေးခြင်းနှင့်တခါတရံကွှားပွော-အကြောင်းကိုသူတို့ဆန်းစစ်ဘယ်လောက် data တွေကိုအားဖြင့်စတင်ပါ။ ဥပမာ, ကို Google စာအုပ်များ Corpus အတွက်စကားလုံးသုံးခေတ်ရေစီးကြောင်းလေ့လာနေသိပ္ပံထုတ်ဝေနေတဲ့စက္ကူအောက်ပါတို့ပါဝင်သည် (Michel et al. 2011) :
"[ကျွန်ုပ်တို့၏] Corpus အင်္ဂလိပ်ဘာသာ (361 ဘီလျံ), ပြင်သစ် (45 ဘီလီယံ), စပိနျ (45 ဘီလီယံ), ဂျာမန် (37 ဘီလီယံ), တရုတ် (13 ဘီလီယံ), ရုရှား (35 ဘီလီယံ) နှင့်ဟီဘရူးအတွက်ဘီလျံအထိ 500 ကျော်စကားလုံးများကိုပါရှိသည် (2 ဘီလျံ) ။ အသက်အကြီးဆုံးအကျင့်ကိုကျင့်တို့သည် 1500 ခုနှစ်တွင်ပုံနှိပ်ထုတ်ဝေခဲ့သည်။ အစောပိုင်းဆယ်စုနှစ်တထောင်ရာပေါင်းများစွာသောစကားလုံးများကိုပါဝင်သော, တစ်နှစ်လျှင်သာအနည်းငယ်စာအုပ်တွေကကိုယ်စားပြုနေကြသည်။ 1800 by သည် Corpus တစ်နှစ်လျှင် 98 သန်းစကားကိုကြီးထွားလာ; 1900 အသုံးပြုပုံ 1.8 ဘီလီယံကို; နှင့် 2000, 11 ဘီလျံဖြင့်ပြုလုပ်နိုင်ပါတယ်။ အဆိုပါ Corpus လူသားတစ်ဦးခြင်းဖြင့်ဖတ်ပါမရနိုင်ပါ။ သင်တစ်ဦးတည်းယခုနှစ် 2000 ကနေမှသာအင်္ဂလိပ်ဘာသာစကား entries တွေကိုဖတ်ရှုဖို့ကြိုးစားခဲ့ပါလျှင်, 200 စကားလုံးများကို / min ၏ကျိုးကြောင်းဆီလျော်အရှိန်အဟုန်မှာ, အစားအစာသို့မဟုတ်အိပ်ပျော်ခြင်းအဘို့အနှောင့်ယှက်ခြင်းမရှိဘဲ, က 80 နှစ်ကြာလိမ့်မယ်။ စာလုံး၏ sequence ကိုလူ့မျိုးနွယ်၏မျိုးရိုးဗီဇထက် 1000 ကြိမ်ပိုရှည်သည်: သင်ကဖြောင့်လိုင်းထဲမှာထွက်ရေးသားခဲ့သည်ဆိုပါကကျော်ကျောကို 10 ကြိမ်မွန်းမှရောက်ရှိရန်နှင့်မယ်လို့ "။
ဒီအချက်အလက်များ၏စကေးခြောအထင်ကြီး, ငါတို့သည်ကို Google စာအုပ်များအဖွဲ့သည်အများပြည်သူဤဒေတာကိုဖြန့်ချိထားပြီးသမျှသောကံများမှာ (တကယ်တော့, ဤအခနျးရဲ့အဆုံးမှာလှုပ်ရှားမှုများကိုအချို့ကိုဒီအချက်အလက်များ၏အသုံးပြုမှုကိုအောင်) ။ ဒါပေမယ့်သင်ကဤကဲ့သို့သောအရာတစ်ခုခုကိုကြည့်ရှုအခါတိုင်းသင်မေးသင့်တယ်: အားလုံးကြောင်းဒေတာတကယ်ဘာမှလုပ်နေတာကြောင့်ဖြစ်သနည်း ဒေတာတစ်ခါသာပြန်မွန်းမှရောက်ရှိရန်နှင့်နိုင်လျှင်သူတို့အတူတူသုတသေနပွုပါပွီရနိုင်ပါသလား? ဒေတာသာဧဝရက်တောင်ဒါမှမဟုတ် Eiffel မျှော်စင်ရဲ့ထိပ်ထိပ်မှရောက်ရှိနိုင်ပါလျှင်အဘယ်သို့နည်း,
ဤကိစ္စတွင်ခုနှစ်, သူတို့ရဲ့သုတေသန, တကယ်တော့, အချိန်ကြာမြင့်စွာကာလကျော်စကားလုံးများကို၏ကြီးမားသော Corpus လိုအပ်အချို့တွေ့ရှိချက်များပါဘူး။ ဥပမာအားဖြင့်, သူတို့စူးစမ်းလေ့လာရာတစျခုမမှန်ကြိယာ conjugation နှုန်းအတွက်အထူးသဖြင့်အပြောင်းအလဲသဒ္ဒါ၏ဆင့်ကဲဖြစ်စဉ်ဖြစ်ပါတယ်။ တချို့မမှန်ကြိယာအတော်လေးရှားပါးကတည်းကအချက်အလက်များ၏ပမာဏကြီးမားတဲ့အချိန်ကြာလာတာနဲ့အမျှအပြောင်းအလဲများ detect လုပ်ဖို့လိုအပ်ပါတယ်ဖြစ်ပါတယ်။ များလွန်းမကြာခဏသို့သော်သုတေသီများတစ်ခု end- အချို့ သာ. အရေးကြီးသောသိပ္ပံဆိုင်ရာရည်မှန်းချက်တစ်ခုနည်းလမ်းများထက် -rather "ငါသည်အကြပ်အတည်းနိုင်ပါတယ်ဘယ်လောက် data တွေကိုကြည့်ရှု" အဖြစ်ကြီးမားသောဒေတာအရင်းအမြစ်၏အရွယ်အစားဆက်ဆံဖို့ပုံရသည်။
ကြှနျတေျာ့အတှေ့အကွုံမှာတော့ရှားပါးဖြစ်ရပ်များ၏လေ့လာမှုကြီးမားသောအချက်အလက်စာရင်းများအတွက် enable လေ့သောသုံးတိကျတဲ့သိပ္ပံနည်းကျစွန်းတစ်ခုဖြစ်ပါသည်။ Raj Chetty နှင့်လုပ်ဖော်ကိုင်ဘက်များကလေ့လာမှုတစ်ခုကသရုပ်ဖော်နိုင်ပါတယ်အဖြစ်ဒုတိယ, သောင်းပြောင်းထွေလာရောနှော၏လေ့လာမှုဖြစ်ပါတယ် (2014) အမေရိကန်ပြည်ထောင်စုရှိလူမှုရေး mobility ပေါ်မှာ။ အတိတ်ကာလများတွင်များစွာသောသုတေသီများမိဘများနှင့်သားသမီးများ၏ဘဝကိုရလဒ်များနှိုင်းယှဉ်ခြင်းဖြင့်လူမှုရေး mobility လေ့လာခဲ့ကြပါပြီ။ ဒီစာပေကနေတစ်ဦးကတသမတ်တည်းတွေ့ရှိချက်ရရှိကြရမိဘများရရှိကြရကလေးများရှိသည်ဖို့လေ့ဒါပေမဲ့ဒီဆက်ဆံရေးခွန်အားအချိန်ကျော်နှင့်နိုင်ငံများတလွှားကွာခြားသောကွောငျ့ဖွစျသညျ (Hout and DiPrete 2006) ။ ပိုများသောမကြာသေးမီကသို့သော် Chetty နှင့်လုပ်ဖော်ကိုင်ဘက်များကအမေရိကန်ပြည်ထောင်စု (ပုံ 2.1) တွင်ဒေသများတွင်ဖြတ်ပြီးမျိုးဆက် mobility အတွက်သောင်းပြောင်းထွေလာရောနှောခန့်မှန်းရန် 40 လူဦးရေသန်းထံမှအခွန်မှတ်တမ်းများကိုအသုံးပြုရန်နိုင်ခဲ့ကြတယ်။ သူတို့ကကလေးတစ်ဦးရဲ့အောက်ခြေငါးပုံအုပ်စုထဲမှာမိသားစုထံမှစတင်အမျိုးသားရေးဝင်ငွေဖြန့်ဖြူးထိပ်ငါးပုံအုပ်စုရောက်ရှိသောဖြစ်နိုင်ခြေ San Jose, California မှာ 13%, ဒါပေမယ့် Charlotte, မြောက်ကာရိုလိုင်းနားတွင်သာအကြောင်းကို 4% ကြောင်း, ဥပမာ, တွေ့ရှိခဲ့ပါတယ်။ သငျသညျခဏကိန်းဂဏန်း 2.1 ကိုကြည့်လျှင်, သင်မျိုးဆက် mobility အခြားသူများထက်အချို့သောအရပ်တွင်ပိုမိုမြင့်မားသည်အဘယ်ကြောင့်အံ့ဩခြင်းမှစတင်ပါလိမ့်မယ်။ Chetty နှင့်လုပ်ဖော်ကိုင်ဖက်များကအတိအကျတူညီသညျ့မေးခှနျးခဲ့, သူတို့ကြောင့်မြင့်မားတဲ့-Mobile ဒေသများလျော့နည်းလူနေအိမ်အသားအရောင်ခွဲခြားနည်းဝင်ငွေမညီမျှမှု, ပိုကောင်းတဲ့မူလတန်းကျောင်းများ, သာ. ကြီးမြတ်လူမှုရေးမြို့တော်နှင့် သာ. ကြီးမြတ်မိသားစုတည်ငြိမ်မှုရှိသည်တွေ့ရှိခဲ့ပါတယ်။ ဟုတ်ပါတယ်, တစ်ဦးတည်း, ဤဆက်စပ်မှုကဤအချက်များပိုမိုမြင့်မား mobility ဖြစ်ပေါ်စေကြောင်းမပြကြဘူး, ဒါပေမဲ့သူတို့ Chetty နှင့်လုပ်ဖော်ကိုင်ဖက်များကနောက်ဆက်တွဲအလုပ်အတွက်ပွုပါပွီအတိအကျကားအဘယ်သို့သောနောက်ထပ်အလုပ်အတွက်စူးစမ်းနိုင်ဖြစ်နိုင်သောယန္တရားများအကြံပြုကြဘူး။ ဒေတာ၏အရွယ်အစားဤစီမံကိန်းအတွက်တကယ်အရေးကြီးသောခဲ့ပုံကိုသတိပြုပါ။ Chetty နှင့်လုပ်ဖော်ကိုင်ဘက် 40 တထောင်ကလူထက်သန်း 40 ၏အခွန်မှတ်တမ်းများကိုအသုံးပြုခဲ့ကြပါလျှင်, သူတို့ကဒေသဆိုင်ရာသောင်းပြောင်းထွေလာရောနှောခန့်မှန်းနိုင်ပါပြီမဟုတ်ဘူးသူတို့ကဒီအပြောင်းအလဲဖန်တီးသောယန္တယားကိုသိရှိနိုင်ဖို့ကြိုးစားရန်နောက်ဆက်တွဲသုတေသနလုပ်ဖို့နိုင်ခဲ့ပါပြီမယ်လို့ဘယ်တော့မှမ။
နောက်ဆုံးအနေနဲ့ရှားပါးဖြစ်ရပ်များလေ့လာနေနှင့်ပင်သောင်းပြောင်းထွေလာရောနှောလေ့လာနေအပြင်, ကြီးမားသောအချက်အလက်စာရင်းများအတွက်လည်းသေးငယ်တဲ့ကွဲပြားခြားနားမှု detect လုပ်ဖို့သုတေသီများကို enable ။ တကယ်တော့, စက်မှုလုပ်ငန်းအတွက်ကြီးမားတဲ့ data တွေကိုအပေါ်အာရုံစူးစိုက်တာကဤအသေးစားကွဲပြားမှုအကြောင်းကိုဖြစ်ပါသည်: ယုံကြည်စိတ်ချရသောကြော်ငြာအပေါ် 1% နှင့် 1.1% ကလစ်-မှတဆင့်နှုန်းထားများအကြားခြားနားချက်ကို detect အပိုဝင်ငွေဒေါ်လာသန်းပေါင်းများစွာသို့ဘာသာပြန်ဆိုနိုင်ပါ။ အချို့သောသိပ္ပံနည်းကျ setting တွင်, သို့သော်, ထိုကဲ့သို့သောသေးငယ်တဲ့ကွဲပြားခြားနားမှုသူတို့ကစာရင်းအင်းသိသိသာသာရှိပါတယ်ရင်တောင်အရေးကြီးသောအထူးသဖြင့်မဖွစျစခွေငျးငှါ (Prentice and Miller 1992) ။ စုစုပေါင်းကြည့်ရှုသောအခါမူကား, အခြို့သောမူဝါဒ setting တွင်သူတို့အရေးကြီးသောဖြစ်လာနိုင်ပါတယ်။ အဲဒီမှာနှစ်ဦးကိုအများပြည်သူကျန်းမာရေးဆောင်ရွက်ချက်ဖြစ်ကြောင်းနှင့်တဦးသည်အခြားထက်အနည်းငယ်ပိုပြီးထိရောက်လျှင်ဥပမာ, ထို့နောက်ပိုမိုထိရောက်သောဝင်ရောက်စွက်ဖက်မှုကောက်နေအပိုဆောင်းဘဝတွေကိုထောင်ပေါင်းများစွာ၏ချွေတာတက်အဆုံးသတ်နိုင်ပါတယ်။
bigness ယေဘုယျအားဖြင့်အကောင်းတစ်ဦးပစ္စည်းဥစ္စာပိုင်ဆိုင်မှုဖြစ်သော်လည်းမှန်ကန်စွာအသုံးပြုသောအခါ, ငါကတစ်ခါတစ်ရံတစ်ဦးအယူအဆအမှားမှဦးဆောင်လမ်းပြနိုင်မသတိထားမိတယ်။ အချို့သောအကြောင်းပြချက်များအတွက်, bigness သူတို့ရဲ့ဒေတာထုတ်ပေးခဲ့ပုံကိုလစျြလြူရှုသုတေသီများဦးဆောင်လမ်းပြရန်ပုံရသည်။ bigness ကျပန်းအမှားနှင့် ပတ်သက်. စိုးရိမ်ပူပန်ရန်လိုအပ်ကြောင်းကိုလျှော့ချမနေချိန်တွင်သူကတကယ်စနစ်တကျအမှားများကိုစိုးရိမ်ရန်လိုအပ်ကြောင်းတိုးပွါး, ငါကိုအောက်တွင်ဖော်ပြရန်င့်အမှားအယွင်းများ၏မျိုး data ကိုဖန်တီးနေကြသည်ကိုဘယ်လိုအတွက်ဘက်လိုက်မှုကနေပျေါပေါ။ ဥပမာအားဖြင့်, ငါသညျဤအခနျးတှငျအနောက်ပိုင်းတွင်ကိုဖော်ပြရန်လိမ့်မယ်တဲ့စီမံကိန်းတစ်ခုအတွက်သုတေသီများအကြမ်းဖက်တိုက်ခိုက်မှုရန်တုံ့ပြန်မှုတစ်ခုက high-resolution ကိုစိတ်ခံစားမှုအချိန်ဇယားထုတ်လုပ်ရန်စက်တင်ဘာလ 11, 2001 ရက်တွင်ထုတ်ပေးမက်ဆေ့ခ်ျကိုသုံး (Back, Küfner, and Egloff 2010) ။ သုတေသီမက်ဆေ့ခ်ျ၏ကြီးမားသောအရေအတွက်ကိုခဲ့သောကြောင့်, သူတို့တကယ်၏သင်တန်းကျော်သူတို့-တိုးမြှင့်လေ့လာတွေ့ရှိပုံစံများအမျက်ဒေါသကျပန်းမူကွဲများကရှင်းပြတစ်နေ့-နိုင်ခြင်းရှိမရှိနှင့် ပတ်သက်. စိုးရိမ်ပူပန်ရန်မလိုအပ်ခဲ့ပါဘူး။ အဲဒီမှာဤမျှလောက် data ကိုကြီးနှင့်ပုံစံအပေါငျးတို့သစာရင်းအင်းကိန်းဂဏန်းစမ်းသပ်မှုဒီအစစ်အမှန်ပုံစံခဲ့ကြောင်းအကြံပြုနိုင်အောင်ရှင်းရှင်းလင်းလင်းဖြစ်ခဲ့သည်။ သို့သော်ဤကိန်းဂဏန်းစမ်းသပ်မှုဒေတာဖန်တီးခဲ့ပုံကိုမသိဘဲခဲ့ကြသည်။ တကယ်တော့ကပုံစံများများစွာကိုနေ့ကိုတလျှောက်လုံးပိုပိုပြီးအနတ္တမက်ဆေ့ခ်ျများထုတ်လုပ်ပြီးကြောင်းတစ်ခုတည်း bot တစ်ကောင်မှတွေကပေါ်ကနေဖြစ်ကြောင်းထွက်လှည့်။ ဒီတစ်ခု bot လုံးဝစက္ကူအတွက်သော့ချက်တွေ့ရှိချက်အချို့ကိုဖျက်ဆီးပစ်ဖယ်ရှားခြင်း (Pury 2011; Back, Küfner, and Egloff 2011) ။ အတော်လေးရိုးရှင်းစွာ, စနစ်တကျအမှားစဉ်းစားကြဘူးသူကိုသုတေသီများထိုကဲ့သို့သော automated bot တစ်ကောင်ကထုတ်လုပ်အနတ္တမက်ဆေ့ခ်ျ၏စိတ်ခံစားမှုအကြောင်းအရာအဖြစ်တစ်ခုအရေးမကြီးအရေအတွက်၏တစ်ဦးတိကျတဲ့ခန့်မှန်းချက်အရသူတို့ရဲ့ကြီးမားတဲ့ဒေတာအစုကို အသုံးပြု. ၏အန္တရာယ်ကိုရင်ဆိုင်ရသည်။
နိဂုံးချုပ်မှာတော့ကြီးမားတဲ့အချက်အလက်စာရင်းများအတွက်မိမိတို့ကိုယ်ကိုတစ်ခုအဆုံးမဟုတ်, ဒါပေမဲ့သူတို့ရှားပါးဖြစ်ရပ်များ၏လေ့လာမှု, သောင်းပြောင်းထွေလာရောနှော၏ခန့်မှန်းချက်များနှင့်အသေးစားကွဲပြားခြားနားမှုများ၏ထောက်လှမ်းအပါအဝင်သုတေသနလုပ်ငန်းအချို့မျိုးကို enable နိုင်ပါတယ်။ Big ဒေတာအစုလည်းတစ်ခုအရေးမကြီးအရေအတွက်၏တစ်ဦးတိကျတဲ့ခန့်မှန်းချက်အရသူတို့ကိုဦးဆောင်လမ်းပြနိုင်သည့်, သူတို့ရဲ့ဒေတာဖန်တီးခဲ့ပုံကိုလစျြလြူရှုအချို့သုတေသီများဦးဆောင်လမ်းပြရန်ပုံရသည်။