Big мэдээллийн эх сурвалж хог болон спам ачсан болно.
Зарим судлаачид их хэмжээний мэдээллийн эх сурвалж, ялангуяа онлайн эх сурвалж нь автоматаар цуглуулагддаг учраас цэвэрхэн байдаг гэж үздэг. Үнэн хэрэгтээ том мэдээллийн эх сурвалжид ажиллаж байсан хүмүүс тэд байнга бохир байдаг гэдгийг мэддэг. Өөрөөр хэлбэл, судлаачдад сонирхлын бодит үйл ажиллагааг тусгаагүй өгөгдлийг байнга оруулдаг. Нийгмийн ихэнх эрдэмтэд нийгмийн томоохон судалгааны мэдээллийг цэвэрлэх үйл явцыг мэддэг байсан ч том мэдээллийн эх үүсвэрийг цэвэрлэх нь илүү хэцүү мэт санагдаж байлаа. Энэ хүндрэлийн эцсийн эх сурвалж бол эдгээр мэдээллийн томоохон эх сурвалжуудын ихэнх нь судалгаа хийхэд ашиглахаар төлөвлөгдөөгүй гэж боддог бөгөөд ингэснээр өгөгдөл цэвэрлэхэд тус дөхөм болдог арга замыг цуглуулж, хадгалж, баримтжуулаагүй болно.
Бохир дижитал ул мөр өгөгдлийг аюул Буцах болон хамтран ажиллагсад харуулсан байна " (2010) би товчхон өмнөх бүлэгт дурдсан есдүгээр сарын 11, 2001 халдлага, сэтгэл зүйн хариу судалгаа. Судлаачид голдуу хэдэн сар, жилээр цуглуулсан өгөгдлийг ашиглан эмгэнэлт үйл явдлуудын хариуг судладаг. Гэтэл Back and colleagues нь тоон мэдээллийн байнгын эх сурвалжийг олж илрүүлсэн бөгөөд энэ нь 85,000 америк пастерийн мессежийг шууд автоматаар бүртгэсэн бөгөөд энэ нь тэднийг илүү нарийн цаг үед сэтгэл хөдлөлийн хариу үйлдэл хийх боломжийг олгосон юм. Тэд пейжерийн зурвасын сэтгэл хөдлөлийн агууламжийг (1) уй гашуу (жишээ нь, "уйлж", "уй гашуу" гэх мэт үг хэллэгийн хувиар илэрхийлсэн), (2) Жишээ нь: "санаа зовох", "айдас" гэх мэт), (3) уур хилэн (жишээ нь "үзэн ядалт", "чухал" гэх мэт). Тэд гунигтай байдал, сэтгэлийн зовнил өдөржингөө хүчтэй хэв маягаар хэлбэлзэж байгааг олж мэдсэн боловч өдөр бүр уур хилэн ихээр нэмэгдэж байв. Энэхүү судалгаа нь байнгын мэдээллийн эх сурвалжуудын хүч чадлын гайхалтай жишээ юм. Үүнд: хэрэв уламжлалт өгөгдлийн эх сурвалжууд ашиглагдсан бол гэнэтийн үйл явдлын даруй хариу арга хэмжээ авах өндөр нарийвчлалтай цаг хугацаа авах боломжгүй юм.
Гэсэн хэдий ч нэг жилийн дараа Cynthia Pury (2011) өгөгдлийг илүү анхааралтай судалсан. Тэрбээр нэг пейжерээр олон тооны догшин ууртай мессежүүдийг бий болгосон бөгөөд тэд бүгд адилхан байв. Иймэрхүү уурлан хилэгнэж буй хүмүүс хэлэхдээ:
"Reboot NT машин [байршил] -т Засгийн газрын [нэр] нь [нэр]: маш чухал: [он сар өдөр, цаг]"
Эдгээр зурвасууд нь "CRITICAL" гэсэн үг орсон бөгөөд тэд ерөнхийдөө уурыг зааж болох боловч энэ тохиолдолд тийм биш байсан тул " Энэ дансны автомат пейжерээс гаргасан мэдээг устгах нь өдрийн туршид уур хилэн илт нэмэгддэг (Зураг 2.4). Өөрөөр хэлбэл, Back, Küfner, and Egloff (2010) нарын гол үр дүн нь нэг пейжер юм. Энэ жишээнээс харахад харьцангуй нарийн төвөгтэй, бохир мэдээлэлтэй харьцангуй энгийн дүн шинжилгээ хийх нь ноцтой алдаатай байж болзошгүй юм.
Мэдээжийн хэрэг, бохирдсон өгөгдлийг санамсаргүйгээр хийдэг болгоомжтой хийдэг, тухайлбал болгоомжтой судлаачаар илрүүлж болох боловч санаатайгаар согтууруулах ундаа хэрэглэдэг онлайн системүүд байдаг. Эдгээр спаммонууд нь хуурамч өгөгдлийг идэвхтэй үүсгэдэг бөгөөд ихэвчлэн ашгийн төлөө ажилладаг. Жишээлбэл, Твиттер дэх улс төрийн үйл ажиллагаа наад зах нь зарим үндэслэлтэй спамыг багтаасан байж болох юм, үүнд зарим улс төрийн шалтгааныг бодитойгоор (Ratkiewicz et al. 2011) . Харамсалтай нь энэ санаатай спамыг устгах нь маш хэцүү байж болох юм.
Мэдээж хэрэг, бохир өгөгдөл гэж юу вэ гэдэг нь судалгааны асуултанд хамааралтай байж болно. Жишээлбэл, Википедиа руу хийсэн олон засварыг автоматжуулсан ваар (Geiger 2014) . Хэрэв та Википедиа экологийн сонирхолтой байгаа бол эдгээр bot-засвар хийсэн нь чухал юм. Гэхдээ хэрэв та хүн хэрхэн Википедиа хувь нэмэр оруулахыг сонирхож байгаа бол bot-засварлах засвар оруулахгүй.
Таны бохир өгөгдлийг хангалттай цэвэрлэж чадах статистик арга эсвэл арга барил байхгүй. Эцэст нь, бохир өгөгдөлд хууртагдахаас зайлсхийх хамгийн шилдэг арга бол таны өгөгдлийг хэрхэн бий болгосон талаар ойлгох явдал юм.