Big мэдээллийн эх сурвалж хог болон спам ачсан болно.
Зарим судлаачид тэд автоматаар цуглуулсан учир нь том мэдээллийн эх үүсвэр, нэн ялангуяа онлайн эх сурвалжаас авсан хүмүүс, онгон байна гэж үзэж байна. Ер нь, том мэдээллийн эх үүсвэр нь ажиллаж байсан хүмүүс байнга бохир байдаг гэдгийг би мэднэ. Энэ нь юм тэд байнга судлаачдын сонирхлыг бодит үйл ажиллагааг тусгаж байхгүй бол мэдээлэл орно. ерөнхийдөө хэрхэн бага ойлголттой байдаг 1) тэдгээр судлаачдын судлаачид, 2) судлаачид бий болгоогүй байна: нийгмийн олон эрдэмтэд аль хэдийн хоёр шалтгаанаар илүү хэцүү томоохон хэмжээний нийгмийн судалгаа мэдээллийг цэвэрлэх, гэхдээ том мэдээллийн эх үүсвэрийг цэвэрлэх байгаа үйл явц нь мэддэг тэд бүтээсэн байна.
Бохир дижитал ул мөр өгөгдлийг аюул Буцах Give болон түүний хамтрагчид "харуулав (2010) оны есдүгээр сарын 11-ын халдлагад сэтгэл санааны хариу 2001 судлаачид ихэвчлэн сар, тэр ч байтугай жилийн хугацаанд цуглуулсан буцаан мэдээллийг ашиглан эмгэнэлт үйл явдалд хариу судлах судалгаа. Харин Буцах Give болон түүний хамтрагчид 85,000 Америкийн аас ямагт дээр нь дижитал ул мөр-timestamped эх үүсвэр, автоматаар бичигдсэн мэдээллүүдийг олж пейжер ба энэ нь их нарийн Хугацаа дээр сэтгэл санааны хариу судлах боломжийг судлаачдад олгож. Буцах Give болон хамт олон (1) гуниг холбоотой үгсийн хувиар пейжер мессежийн сэтгэл санааны агуулгыг бичих аас есдүгээр сарын 11-ний минут тус минутын сэтгэл санааны цагийн хуваарийг бий (жишээ нь, уйлж, уй гашуу), (2) түгшүүр (жишээ нь, санаа зовж, айж), (3) уур хилэн (жишээ нь, үзэн ядалт, чухал). Тэд гуниг, сэтгэл зовнил нь хүчтэй хэв маяг ч өдрийн турш хэлбэлзэж болохыг олж, харин өдрийн турш уур нь гайхалтай өсөлт байсан юм. Энэ нь гэнэтийн үйл явдалд яаралтай хариу ийм өндөр нарийвчлалтай цаг хугацаа байх боломжгүй байх болно стандарт аргаар: Энэ судалгаа нь үргэлж дээр мэдээллийн эх сурвалжаас хүч нь гайхалтай жишээ байх шиг байна.
Зүгээр л нэг жилийн дараа, гэхдээ Cynthia Pury (2011) тоо нь илүү их анхааралтай харав. Тэр магадгүй ууртай мессеж тооны нэг пейжер бий бөгөөд тэд бүгд ижил байна гэдгийг олж мэдсэн. Энд тэд магадгүй ууртай мэдээллүүд нь хэлсэн юм:
"Reboot NT машин [байршил] -т Засгийн газрын [нэр] нь [нэр]: маш чухал: [он сар өдөр, цаг]"
тэд үгийг "чухал", ерөнхийдөө уур заах боловч энэ тохиолдолд тийм биш байж болох орсон, учир нь эдгээр мэдэгдлүүд нь ууртай хаяглагдсан байв. Энэ нь нэг автомат пейжер бий мессеж устгах бүрэн өдөр байна (Зураг 2.2) туршид уур илт нэмэгдсэн арилгадаг. Өөрөөр хэлбэл, гол үр дүн Back, Küfner, and Egloff (2010) нэг пейжер нь олдворуудыг байсан юм. Дээрх жишээнээс харьцангуй төвөгтэй, эмх замбараагүй мэдээллийн харьцангуй энгийн шинжилгээ ноцтой буруу явах боломжтой юм.
харьцангуй болгоомжтой судлаач нэг дуу чимээтэй эхлэн санамсаргүйгээр, тухайлбал үүсдэг бохир мэдээлэл пейжер, болно илрүүлж боловч бас санаатай Спам тараагчдыг татах зарим онлайн систем юм. Эдгээр Спам тараагчдыг идэвхтэй хуурамч мэдээлэл бий, ба ихэвчлэн Спамдах нуун дарагдуулсан байлгах ашиг ажилд маш их өдөөгддөг. Жишээ нь, Twitter дээр улс төрийн үйл ажиллагаа нь наад зах нь зарим харьцангуй боловсронгуй спам, зарим нь улс төрийн шалтгаан санаатайгаар нь бодит юм ч илүү алдартай харагдах хийсэн түүгээр оруулах бололтой (Ratkiewicz et al. 2011) . санаатайгаар спам агуулж болно мэдээлэл ажиллаж Судлаачид тэдгээр нь илэрсэн болон холбогдох спам арилгасан байна гэсэн тэдний үзэгчдийг итгүүлэхийн сорилттой тулгарч байна.
Эцэст нь юу гэж үздэг бохир мэдээллийг таны судалгааны асуудлаар нарийн замаар хамааралтай байж болно. Жишээ нь, Wikipedia олон засвар автомат Bots бүтээсэн байна (Geiger 2014) . Та Википедиа экологи сонирхож байгаа бол эдгээр Bots чухал ач холбогдолтой юм. Гэхдээ та ямар хүн Википедиа хувь нэмэр оруулахыг сонирхож байгаа бол эдгээр Bots хийсэн эдгээр засвар оруулахгүй байх ёстой.
Бохир мэдээлэл таны өгөгдөл ийм энгийн тарсан талбай болгох гэх мэт энгийн хайгуулын шинжилгээ хийж бүтээсэн хэрхэн ойлгох ёстой автахгүй байх зайлсхийх хамгийн сайн арга зам.