2.3.2.6 бохир

Big мэдээллийн эх сурвалж хог болон спам ачсан болно.

Зарим судлаачид тэд автоматаар цуглуулсан учир нь том мэдээллийн эх үүсвэр, нэн ялангуяа онлайн эх сурвалжаас авсан хүмүүс, онгон байна гэж үзэж байна. Ер нь, том мэдээллийн эх үүсвэр нь ажиллаж байсан хүмүүс байнга бохир байдаг гэдгийг би мэднэ. Энэ нь юм тэд байнга судлаачдын сонирхлыг бодит үйл ажиллагааг тусгаж байхгүй бол мэдээлэл орно. ерөнхийдөө хэрхэн бага ойлголттой байдаг 1) тэдгээр судлаачдын судлаачид, 2) судлаачид бий болгоогүй байна: нийгмийн олон эрдэмтэд аль хэдийн хоёр шалтгаанаар илүү хэцүү томоохон хэмжээний нийгмийн судалгаа мэдээллийг цэвэрлэх, гэхдээ том мэдээллийн эх үүсвэрийг цэвэрлэх байгаа үйл явц нь мэддэг тэд бүтээсэн байна.

Бохир дижитал ул мөр өгөгдлийг аюул Буцах Give болон түүний хамтрагчид "харуулав (2010) оны есдүгээр сарын 11-ын халдлагад сэтгэл санааны хариу 2001 судлаачид ихэвчлэн сар, тэр ч байтугай жилийн хугацаанд цуглуулсан буцаан мэдээллийг ашиглан эмгэнэлт үйл явдалд хариу судлах судалгаа. Харин Буцах Give болон түүний хамтрагчид 85,000 Америкийн аас ямагт дээр нь дижитал ул мөр-timestamped эх үүсвэр, автоматаар бичигдсэн мэдээллүүдийг олж пейжер ба энэ нь их нарийн Хугацаа дээр сэтгэл санааны хариу судлах боломжийг судлаачдад олгож. Буцах Give болон хамт олон (1) гуниг холбоотой үгсийн хувиар пейжер мессежийн сэтгэл санааны агуулгыг бичих аас есдүгээр сарын 11-ний минут тус минутын сэтгэл санааны цагийн хуваарийг бий (жишээ нь, уйлж, уй гашуу), (2) түгшүүр (жишээ нь, санаа зовж, айж), (3) уур хилэн (жишээ нь, үзэн ядалт, чухал). Тэд гуниг, сэтгэл зовнил нь хүчтэй хэв маяг ч өдрийн турш хэлбэлзэж болохыг олж, харин өдрийн турш уур нь гайхалтай өсөлт байсан юм. Энэ нь гэнэтийн үйл явдалд яаралтай хариу ийм өндөр нарийвчлалтай цаг хугацаа байх боломжгүй байх болно стандарт аргаар: Энэ судалгаа нь үргэлж дээр мэдээллийн эх сурвалжаас хүч нь гайхалтай жишээ байх шиг байна.

Зүгээр л нэг жилийн дараа, гэхдээ Cynthia Pury (2011) тоо нь илүү их анхааралтай харав. Тэр магадгүй ууртай мессеж тооны нэг пейжер бий бөгөөд тэд бүгд ижил байна гэдгийг олж мэдсэн. Энд тэд магадгүй ууртай мэдээллүүд нь хэлсэн юм:

"Reboot NT машин [байршил] -т Засгийн газрын [нэр] нь [нэр]: маш чухал: [он сар өдөр, цаг]"

тэд үгийг "чухал", ерөнхийдөө уур заах боловч энэ тохиолдолд тийм биш байж болох орсон, учир нь эдгээр мэдэгдлүүд нь ууртай хаяглагдсан байв. Энэ нь нэг автомат пейжер бий мессеж устгах бүрэн өдөр байна (Зураг 2.2) туршид уур илт нэмэгдсэн арилгадаг. Өөрөөр хэлбэл, гол үр дүн Back, Küfner, and Egloff (2010) нэг пейжер нь олдворуудыг байсан юм. Дээрх жишээнээс харьцангуй төвөгтэй, эмх замбараагүй мэдээллийн харьцангуй энгийн шинжилгээ ноцтой буруу явах боломжтой юм.

Зураг 2.2: 85,000 Америкийн пейжер дээр суурилсан оны есдүгээр сарын 11, 2001 оны турш уур тооцоолсон чиг хандлага (Буцах Give, Küfner болон Egloff 2010; Pury 2011; Буцах Give, Küfner болон Egloff 2011). Анх Буцах Give, Küfner болон Egloff (2010) өдрийн турш уур нэмэгдүүлэх загварыг байна. Reboot NT машин [нэр] Засгийн газрын [байршил] нь [нэр]: маш чухал: [он сар өдөр, цаг] Гэхдээ эдгээр мэдээжийн ууртай мессеж ихэнх нь удаа дараа гарч Дараах мэдэгдлийг илгээсэн нэг пейжер үүссэн байна. Энэ мэдээ арилгасан нь, уур хилэн нь илэрхий нэмэгдсэн (; буцах, Küfner болон Egloff 2011 оны Pury 2011) алга. Энэ зураг Pury (2011) Зураг 1B визээр нь нөхөн сэргээх, үржүүлэх юм.

Зураг 2.2: 85,000 Америкийн пейжер дээр суурилсан оны есдүгээр сарын 11, 2001 оны турш уур тооцоолсон чиг хандлага (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Анх Back, Küfner, and Egloff (2010) өдрийн турш уур нэмэгдүүлэх загварыг байна. "Чухал: [огноо, цаг] [байршил] -т Засгийн газрын [нэр]-д дахин ачаалан NT машин [нэр]:" Гэхдээ эдгээр мэдээжийн ууртай мессеж ихэнх нь нэг удаа дараа зурвас явуулсан пейжер үүссэн байна. Энэ мэдээ арилгасан нь, уур хилэн нь илэрхий нэмэгдсэн алга (Pury 2011; Back, Küfner, and Egloff 2011) . Энэ зураг нь Зураг 1B визээр нь нөхөн сэргээх, үржүүлэх юм Pury (2011) .

харьцангуй болгоомжтой судлаач нэг дуу чимээтэй эхлэн санамсаргүйгээр, тухайлбал үүсдэг бохир мэдээлэл пейжер, болно илрүүлж боловч бас санаатай Спам тараагчдыг татах зарим онлайн систем юм. Эдгээр Спам тараагчдыг идэвхтэй хуурамч мэдээлэл бий, ба ихэвчлэн Спамдах нуун дарагдуулсан байлгах ашиг ажилд маш их өдөөгддөг. Жишээ нь, Twitter дээр улс төрийн үйл ажиллагаа нь наад зах нь зарим харьцангуй боловсронгуй спам, зарим нь улс төрийн шалтгаан санаатайгаар нь бодит юм ч илүү алдартай харагдах хийсэн түүгээр оруулах бололтой (Ratkiewicz et al. 2011) . санаатайгаар спам агуулж болно мэдээлэл ажиллаж Судлаачид тэдгээр нь илэрсэн болон холбогдох спам арилгасан байна гэсэн тэдний үзэгчдийг итгүүлэхийн сорилттой тулгарч байна.

Эцэст нь юу гэж үздэг бохир мэдээллийг таны судалгааны асуудлаар нарийн замаар хамааралтай байж болно. Жишээ нь, Wikipedia олон засвар автомат Bots бүтээсэн байна (Geiger 2014) . Та Википедиа экологи сонирхож байгаа бол эдгээр Bots чухал ач холбогдолтой юм. Гэхдээ та ямар хүн Википедиа хувь нэмэр оруулахыг сонирхож байгаа бол эдгээр Bots хийсэн эдгээр засвар оруулахгүй байх ёстой.

Бохир мэдээлэл таны өгөгдөл ийм энгийн тарсан талбай болгох гэх мэт энгийн хайгуулын шинжилгээ хийж бүтээсэн хэрхэн ойлгох ёстой автахгүй байх зайлсхийх хамгийн сайн арга зам.