ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက် junk နှင့် spam များကိုတင်ဆောင်နိုင်ပါသည်။
တချို့ကသုတေသီများကကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက်များယုံကြည်သူတို့အလိုအလျှောက်စုဆောင်းနေသောကြောင့်, အထူးသဖြင့်သူတို့အားအွန်လိုင်းအရင်းအမြစ်များမှ, သဘာဝရှိပါတယ်။ တကယ်တော့ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက်များနှင့်အတူအလုပ်လုပ်ခဲ့ကြသူကလူသူတို့မကြာခဏညစ်ပတ်ပေရေဖြစ်ကြောင်းကိုသင်တို့သိကြ၏။ ဒါကသူတို့မကြာခဏသုတေသီများမှအကျိုးစီးပွားကိုမှန်ကန်လုပ်ရပ်ရောင်ပြန်ဟပ်မ data ကိုပါဝင်ဖြစ်ပါတယ်။ အများစုကလူမှုရေးသိပ္ပံပညာရှင်များကပြီးသားအကြီးစားလူမှုရေးစစ်တမ်းဒေတာသန့်ရှင်းရေး၏ဖြစ်စဉ်ကိုအကျွမ်းတဝင်သော်လည်း, ကြီးမားတဲ့ data တွေကိုသတင်းရပ်ကွက်များသန့်ရှင်းရေးအကြောင်းရင်းနှစ်ခုအဘို့ပိုပြီးခက်ခဲသည်: 1) သူတို့သုတေသီများနှင့် 2 အဘို့အသုတေသီများကအသုံးပြုနေသူများကဖန်တီးကြသည်မဟုတ်) သုတေသီများယေဘုယျအားဖြင့်ဘယ်လိုနည်းဥာဏ်ရှိသည် သူတို့ဖန်တီးထားကြသည်။
ညစ်ပတ်ပေရေဒစ်ဂျစ်တယ်သဲလွန်စဒေတာသို့ပြန်သွားရန်နှင့်လုပ်ဖော်ကိုင်ဖက်များက '' အားဖြင့်သရုပ်ဖော်ကြသည်၏အန်တရာယျ (2010) ခုနှစ်စက်တင်ဘာလ 11 တိုက်ခိုက်မှုဖို့စိတ်ခံစားမှုတုန့်ပြန်၏လေ့လာမှု, 2001 သုတေသီများကပုံမှန်အားဖြင့်ပင်လအတွင်းသို့မဟုတ်နှစ်ကျော်စုဆောင်းနောက်ကြောင်းပြန်ဒေတာကို အသုံးပြု. ကြေကွဲဖွယ်ဖြစ်ရပ်များမှတုန့်ပြန်လေ့လာဖို့။ သို့သော်သို့ပြန်သွားရန်နှင့်လုပ်ဖော်ကိုင်ဖက်များကဒစ်ဂျစ်တယ်ခြေရာတွေ-The TIMESTAMP ၏အရင်းအမြစ်အမြဲ-အပေါ်တစ်ဦးကိုတွေ့ 85,000 အမေရိကန်ပေဂျာနှင့်ဒီကနေအလိုအလြောကျမှတျတမျးတငျထားမက်ဆေ့ခ်ျတာအသေးစိတ် timescale အပေါ်စိတ်ခံစားမှုတုန့်ပြန်လေ့လာသုတေသီ enabled ။ နောက်ကျောနှင့်လုပ်ဖော်ကိုင်ဘက်များ (1) ဝမ်းနည်းမှု (ဥပမာ, ဟစျကျွော, ဝမ်းနည်းခြင်း), (2) စိုးရိမ်ပူပန်မှု (ဥပမာ, ဆက်စပ်သောစကားလုံးများ၏ရာခိုင်နှုန်းအားဖြင့်ပေဂျာမက်ဆေ့ခ်ျ၏စိတ်ခံစားမှုအကြောင်းအရာ coding အားဖြင့်စက်တင်ဘာလ 11 တစ်မိနစ်-by-မိနစ်စိတ်ခံစားမှုအချိန်ဇယားဖန်တီး , စိုးရိမ်နေကြ) ၌လည်းကြောက်မက်ဘွယ်သော, နှင့် (3) အမျက်ဒေါသ (ဥပမာ, အမုန်း, ဝေဖန်) ။ သူတို့ကဝမ်းနည်းမှုနှင့်စိုးရိမ်ပူပန်မှုအားကြီးသောပုံစံမပါဘဲသောနေ့ရက်ကာလကိုတစ်လျှောက်လုံးမြန်သည်ကိုတွေ့ရှိပေမယ့်နေ့ကိုတလျှောက်လုံးအမျက်ဒေါသအတွက်ဒီကဗျာတိုးလာရှိကွောငျး။ ဒီသုတေသနကိုဒေတာသတင်းရပ်ကွက်အမြဲ-on ရဲ့အာဏာကိုတစ်ဦးအံ့သြဖွယ်ပုံဥပမာကိုဖြစ်ဟန်: စံနည်းလမ်းများသုံးပြီးကမျှော်လင့်မထားတဲ့အဖြစ်အပျက်မှချက်ချင်းတုန့်ပြန်၏ထိုကဲ့သို့သော high-resolution ကိုအချိန်ဇယားရှိသည်ဖို့မဖြစ်နိုင်ဘူးလိမ့်မည်။
ရုံတစျနှစျနောကျပိုငျးတှငျ, သို့သော်, စင်သီယာ Pury (2011) ကိုပိုမိုဂရုတစိုက် data တွေကိုကြည့်ရှု။ သူမသည်နေလည်းအမျက်ထွက်မက်ဆေ့ခ်ျ၏ကြီးမားသောအရေအတွက်တစ်ခုတည်းပေဂျာများကနေထုတ်လုပ်လိုက်တဲ့ထိုသူအပေါင်းတို့သည်တူညီခဲ့ကြသည်ကြောင်းရှာဖွေတွေ့ရှိခဲ့သည်။ ဒီနေရာမှာသူတို့အနေလည်းအမျက်ထွက်မက်ဆေ့ခ်ျကပြောကြားခဲ့သည်ယျ:
"Reboot NT စက် [အမည်] ကက်ဘိနက်ထဲမှာ [အမည်] [တည်နေရာ] မှာ: ဝေဖန်မှုများ: [နေ့စွဲနှင့်အချိန်]"
သူတို့ယေဘုယျအားဖြင့်အမျက်ဒေါသညွှန်ပြပေမယ့်ဒီအမှု၌မစေခြင်းငှါအရာစကားလုံး "ဝေဖန်မှု" ထည့်သွင်းသောကွောငျ့ဤအမက်ဆေ့ခ်ျအမျက်ထွက်တံဆိပ်ကပ်ခဲ့သည်။ ဒီတစ်ခုတည်း automated ပေဂျာကနေထုတ်လုပ်လိုက်တဲ့မက်ဆေ့ခ်ျကိုဖယ်ရှားခြင်းလုံးဝနေ့၏သင်တန်းကိုကျော်အမျက်ဒေါသအတွက်သိသာတိုး (ပုံ 2.2) ရှင်းလင်းစေပါတယ်။ တစ်နည်းဆိုရသော်အတွက်အဓိကရလဒ် Back, Küfner, and Egloff (2010) တစ်ပေဂျာတစ်ဦးရှေးဟောင်းပစ္စည်းခဲ့သည်။ ဒီဥပမာသရုပ်ဖော်အဖြစ်, အတော်လေးရှုပ်ထွေးပြီးရှုပ်ထွေးအချက်အလက်များ၏အတော်လေးရိုးရှင်းတဲ့ခွဲခြမ်းစိတ်ဖြာအလေးအနက်မှားသွားကြဖို့အလားအလာရှိပါတယ်။
တဦးတည်းဆူညံထံမှအဖြစ်သတိလစ်-ထိုကဲ့သို့သောနေသူများကဖန်တီးသောအညစ်ပတ်ပေရေဒေတာတစ်ခုဖြစ်နိုင်သလိုသတိထားသုတေသီများကတွေ့ရှိပေဂျာ-နိုင်ပါတယ်နေစဉ်, ရည်ရွယ်ချက်ရှိရှိ Spam တွေကိုဆွဲဆောင်သောသူအချို့အွန်လိုင်းစနစ်များလည်းရှိပါသည်။ ဤရွေ့ကား Spam တွေကိုတက်တက်ကြွကြွအတုဒေတာ generate နှင့်-မကြာခဏဖုံးကွယ်သူတို့၏ spam ဖြန်စောင့်ရှောက်ဖို့အလွန်ခဲယဉ်းအမြတ်-အလုပ်အားဖြင့်လှုံ့ဆော်။ ဥပမာအားဖြင့်, Twitter တွင်နိုင်ငံရေးအရလှုပ်ရှားမှုအချို့နိုင်ငံရေးအရအကြောင်းတရားများရည်ရွယ်ချက်ရှိရှိသူတို့အမှန်တကယ်ထက်ပိုပြီးလူကြိုက်များကြည့်ဖို့လုပ်နေကြတယ်မထွက်ရအနည်းဆုံးအချို့ဖြစ်နိုင်သလိုခေတ်မီဆန်းပြားကို spam, ပါဝင်ဟန်များမှာ (Ratkiewicz et al. 2011) ။ ရည်ရွယ်ချက်ရှိရှိ spam များကိုဆံ့သောငှါဒေတာနဲ့အလုပ်လုပ်သုတေသီများကသူတို့ရှာဖွေတွေ့ရှိနှင့်သက်ဆိုင်ရာ spam များကိုဖယ်ရှားပစ်ကြပြီသူတို့ရဲ့ပရိသတ်ကိုနားချဖို့ဆိုတာများ၏စိန်ခေါ်မှုနှင့်ရင်ဆိုင်ရ။
နောက်ဆုံးတွင်အဘယ်ညစ်ပတ်ပေရေဒေတာစဉ်းစားသည်သင်တို့၏သုတေသနမေးခွန်းများအပေါ်သိမ်မွေ့နည်းလမ်းများအတွက်မှီခိုနိုင်ပါတယ်။ ဥပမာအားဖြင့်, ဝီကီပီးဒီးယားဖို့အများကြီးတည်းဖြတ်အလိုအလျောက် bot တွေဟာအသုံးပြုနေသူများကဖန်တီးနေကြတယ် (Geiger 2014) ။ သငျသညျဝီကီပီးဒီးယား၏ဂေဟဗေဒကိုစိတ်ဝင်စားလျှင်, ဤ bot တွေဟာအရေးကြီးလှသည်။ သငျသညျလူသားမြားကိုဝီကီပီးဒီးယားအထောက်အကူပြုဘယ်လောက်စိတ်ဝင်စားလျှင်မူကား, ဤ bot တွေဟာအားဖြင့်ဖန်ဆင်းသည်ဤတည်းဖြတ်ဖယ်ထုတ်လိုက်ရပါမည်။
ညစ်ပတ်ပေရေဒေတာများကအရူးလုပ်ခံရရှောင်ရှားဖို့အကောင်းဆုံးနည်းလမ်းများသင့်ရဲ့ဒေတာကိုဒီလိုရိုးရှင်းတဲ့ကြဲဖြန့်ကွက်အောင်အဖြစ်, ရိုးရှင်းတဲ့ရေနံဓါတ်ငွေ့ရှာဖွေရေးခွဲခြမ်းစိတ်ဖြာဖျော်ဖြေဖို့ဖန်တီးခဲ့ကြပုံကိုနားလည်သဘောပေါက်ရန်ဖြစ်ပါသည်။