2.3.1.1 နဲ့ Big

အကြီးစားဒေတာအစုတခုအဆုံးမှတစ်ဦးနည်းလမ်းများပါ၏ သူတို့သည်မိမိတို့ကိုယ်၌အဆုံးမရှိကြပေ။

ကြီးမားသောအချက်အလက်များ၏သုံးကောင်းသောဝိသေသ၏ပထမဦးဆုံးကျဆုံးဆှေးနှေးခဲ့သည်ဤကြီးမားသောဒေတာရှိပါတယ်။ များစွာသောလူ, ပုဂ္ဂိုလ်တစ်ဦးနှုန်းသတင်းအချက်အလက်အမြောက်အမြား, ဒါမှမဟုတ်အချိန်ကျော်အများအပြားလေ့လာတွေ့ရှိချက်: ဤဒေတာသတင်းရပ်ကွက်သုံးကွဲပြားခြားနားတဲ့နည်းလမ်းတွေထဲမှာကြီးမားတဲ့စေနိုင်ပါတယ်။ ကြီးမားတဲ့ Datasets ရှိခြင်းသေးငယ်တဲ့ကွဲပြားခြားနားမှုဖော်ထုတ်မယ်, ရှားပါးဖြစ်ရပ်များကိုလေ့လာ, သုတေသန-တိုင်းပင်သောင်းပြောင်းထွေလာရောနှောအချို့ကိုသတ်သတ်မှတ်မှတ်အမျိုးအစားများနိုင်ပါတယ်နှင့်စူးစမ်းဒေတာမှကြောင်းကျိုးဆက်စပ်ခန့်မှန်းပါတယ်။ ဒါဟာအစမသေချာသောတစ်ဦးသတ်သတ်မှတ်မှတ်အမျိုးအစားဖို့ဦးဆောင်လမ်းပြရန်ပုံရသည်။

အရွယ်အစားအထူးသဖြင့်အသုံးဝင်သောသောအဘို့ကိုပထမဦးဆုံးအရာတိကျသောလူမျိုးကွဲများအတွက်ခန့်မှန်းစေပျမ်းမျှထက်ကျော်လွန်ရွေ့လျားလျက်ရှိသည်။ ဥပမာအားဖြင့်, ဂယ်ရီရှငျဘုရငျ, ဂျနီဖာပန်နှင့် Molly Roberts သည် (2013) တရုတ်နိုင်ငံအတွက်လူမှုရေးမီဒီယာ၏ရေးသားချက်များကိုအစိုးရကဆင်ဆာမည်ဖြစ်ကြောင်းဖြစ်နိုင်ခြေကိုတိုင်းတာ။ သူ့ဟာသူ deletion '၏ဤပျှမ်းမျှဖြစ်နိုင်ခြေကိုအစိုးရကအချို့သောရေးသားချက်များသော်လည်းမတခြားသူတွေကို censor လုပ်အဘယ်ကြောင့်နားလည်သဘောပေါက်အတွက်အလွန်အထောက်အကူဖြစ်စေမဟုတ်ပါဘူး။ သူတို့ရဲ့ Datasets 11 သန်းရေးသားချက်များပါဝင်ရှိသောကြောင့်, ဘုရငျနှငျ့လုပ်ဖော်ကိုင်ဘက်လည်း 85 သီးခြားအမျိုးအစား (ဘေဂျင်းတွင်ဥပမာညစ်ညမ်း, တိဘက်နှင့်ယာဉ်အသွားအလာ) အပေါ်ရေးသားချက်များများအတွက်ဆင်ဆာဖြတ်တောက်မှု၏ဖြစ်နိုင်ခြေများအတွက်ခန့်မှန်းချက်ကိုထုတ်လုပ်ခဲ့ပါတယ်။ ကွဲပြားခြားနားတဲ့အမျိုးအစားထဲမှာရေးသားချက်များများအတွက်ဆင်ဆာဖြတ်တောက်မှု၏ဖြစ်နိုင်ခြေနှိုင်းယှဉ်ခြင်းအားဖြင့်သူတို့အစိုးရအရေးသားချက်များအချို့အမျိုးအစားများကို censor လုပ်ပုံကိုအဘယျကွောငျ့အကြောင်းပိုမိုနားလည်ရန်နိုင်ခဲ့ကြတယ်။ 11 တထောင်ရေးသားချက်များ (အစားထက် 11 သန်းရေးသားချက်များ) နှင့်အတူ, သူတို့ကဤအမျိုးအစား-တိကျတဲ့ခန့်မှန်းချက်ထုတ်လုပ်နိုင်ခဲ့ပါပြီမဟုတ်ပေ။

ဒုတိယအချက်မှာအရွယ်အစားရှားပါးသောဖြစ်ရပ်များ၏လေ့လာနေသည်အထူးသဖြင့်အသုံးဝင်သည်။ ဥပမာအားဖြင့်, Goel နှင့်လုပ်ဖော်ကိုင်ဖက်များက (2015) မှာ tweet ဗိုင်းရပ်စ်သွားနိုငျသောကွဲပြားခြားနားတဲ့နည်းလမ်းတွေကိုလေ့လာချင်တယ်။ Re-မှာ tweet ၏ကြီးမားသောကက်စကိတ်တဲ့ 3000-သူတို့ခွဲခြမ်းစိတ်ဖြာများအတွက်လုံလောက်ကြီးမားသောကက်စကိတ်ကိုရှာဖွေနိုင်ဖို့အတွက်ပိုပြီးထက်တစ်ဘီလီယံခန့်မှာ tweet လေ့လာဖို့လိုအပ်အတွက်အလွန်ရှားပါးအကြောင်းကိုတဝတည်းဖြစ်ကြ၏လို့ပါပဲ။

တတိယအချက်ကြီးများဒေတာအစုသေးငယ်တဲ့ကွဲပြားခြားနားမှု detect မှသုတေသီများကို enable ။ တကယ်တော့စက်မှုလုပ်ငန်းအတွက်ကြီးမားတဲ့ data တွေကိုအပေါ်အာရုံစူးစိုက်တာကဤသေးငယ်တဲ့ကွဲပြားခြားနားမှုအကြောင်း: ယုံကြည်စိတ်ချရသောကြော်ငြာအပေါ် 1% နှင့် 1.1% ကလစ်-မှတဆင့်နှုန်းထားများအကြားခြားနားချက်ကိုဖော်ထုတ်မယ်အပိုဝင်ငွေဒေါ်လာသန်းပေါင်းများစွာသို့ဘာသာပြန်ဆိုနိုင်။ အချို့သောသိပ္ပံနည်းကျ setting တွင်ထိုကဲ့သို့သောသေးငယ်တဲ့ကွဲပြားခြားနားမှု (သူတို့ကစာရင်းအင်းသိသိသာသာများမှာပင်လျှင်) အရေးကြီးသောအထူးသဖြင့်မဖွစျနိုငျတယျ။ စုစုပေါင်းကြည့်ရှုသောအခါ, အချို့သောမူဝါဒကို setting တွင်ထိုကဲ့သို့သောသေးငယ်တဲ့ကွဲပြားခြားနားမှုအရေးကြီးသောဖြစ်လာနိုင်ပါတယ်။ အဲဒီမှာနှစ်ဦးအများပြည်သူကျန်းမာရေးကိုဝင်ရောက်စွက်ဖက်ဖြစ်ကြပြီးတဦးတည်းကအခြားထက်အနည်းငယ်ပိုပြီးထိရောက်ပါလျှင်ဥပမာ, ထို့နောက်ပိုပြီးထိရောက်တဲ့ကြားဝင်မှ switching နောက်ထပ်ဘဝထောင်ပေါင်းများစွာ၏ချွေတာတက်အဆုံးသတ်နိုင်။

နောက်ဆုံးအနေနဲ့ကြီးမားတဲ့ data တွေကိုစုံကိုအလွန်စူးစမ်းဒေတာမှကြောင်းကျိုးဆက်စပ်ခန့်မှန်းစေပါအောင်ကျွန်တော်တို့ရဲ့စွမ်းရည်ကိုတိုးမြှင့်။ ကြီးမားသောအချက်အလက်စာရင်းများအတွက်အခြေခံကျကျအစူးစမ်းဒေတာမှကြောင်းကျိုးဆက်စပ်အခြအောင်နှင့်အတူပြဿနာများ, ကိုက်ညီတဲ့နှင့်သဘာစမ်းသပ်ချက်နှစ်ယောက်သုတေသီများသည်အလွန်ကြီးမားဒေတာအစုမှအကြိုးခံစားစူးစမ်းဒေတာ-နှစ်ဦးစလုံးမှကြောင်းကျိုးဆက်စပ်တောင်းဆိုမှုများအောင်များအတွက်တီထွင်ကြပြီနည်းစနစ်မပြောင်းကြဘူးပေမယ့်။ ငါသုတေသနလုပ်ငန်းမဟာဗျူဟာကိုဖော်ပြရန်သောအခါငါနောက်ပိုင်းတွင်ဤအခနျးတှငျ သာ. ကြီးမြတ်အသေးစိတ်အတွက်ဤပြောဆိုချက်ကိုမရှင်းပြနဲ့သရုပျဖျောပါလိမ့်မယ်။

bigness ယေဘုယျအားဖြင့်အကောင်းတစ်ဦးပစ္စည်းဥစ္စာပိုင်ဆိုင်မှုဖြစ်သော်လည်းမှန်ကန်စွာအသုံးပြုတဲ့အခါ, ငါ bigness လေ့တစ်ဦးအယူအဆအမှားမှဦးဆောင်ကြောင်းသတိပြုမိပါတယ်။ အချို့သောအကြောင်းပြချက်များအတွက်, bigness သူတို့ရဲ့ဒေတာထုတ်ပေးခဲ့ပုံကိုလစျြလြူရှုရန်သုတေသနပညာရှင်များဦးဆောင်လမ်းပြရန်ပုံရသည်။ bigness ကျပန်းအမှားစိုးရိမ်ပူပန်ရန်လိုအပ်ကြောင်းကိုလျှော့ချမနေချိန်တွင်သူကတကယ်စနစ်တကျအမှားအယွင်းများနှင့် ပတ်သက်. စိုးရိမ်ပူပန်ရန်လိုအပ်ကြောင်းတိုးပွါး, ငါသည်ပိုပြီးကြောင်းအောက်တွင်ဖော်ပြထားသောအတွက်ဖော်ပြဖို့ပါလိမ့်မယ်ကအမှားအယွင်းများ၏မျိုး data တွေကိုဖန်တီးစုဆောင်းကြသည်ကိုမည်သို့အတွက်ဘက်လိုက်မှုကနေပျေါပေါ။ သေးငယ်တဲ့ Datasets ခုနှစ်, ကျပန်းအမှားနှင့်စနစ်တကျအမှားနှစ်ခုလုံးအရေးကြီးနိုင်ပေမယ့်ကြီးမားတဲ့ Datasets အတွက်ကျပန်းအမှားကွာပျမ်းမျှနိုင်ပါတယ်နှင့်စနစ်တကျအမှားလက်ဝါးကြီးအုပ်ချယ်လှယ်။ စနစ်တကျအမှားအကြောင်းမစဉ်းစားကြဘူးသောသူသုတေသီတွေကမှားအရာတစ်ခုအတိအကျကိုခန့်မှန်းရသူတို့ရဲ့ကြီးမားတဲ့ဒေတာအစုကို အသုံးပြု. တက်အဆုံးသတ်လိမ့်မည်, သူတို့အတိအကျတိဖြစ်လိမ့်မည် (McFarland and McFarland 2015)