Компаниуд, засгийн газар гэсэн мэдээллийг зарим нь мэдрэмтгий байдаг.
Эрүүл мэндийн даатгалын компаниуд өөрсдийн үйлчлүүлэгчдийн хүлээн авсан эмнэлгийн тусламжийн талаарх дэлгэрэнгүй мэдээлэлтэй. Энэ мэдээлэл нь эрүүл мэндийн талаар чухал судалгаа хийхэд ашиглагдаж болох боловч хэрэв энэ нь олон нийтэд хүрсэн бол энэ нь сэтгэл санааны хохирол учруулах (жишээ нь, ичиж зовох), эдийн засгийн хор хөнөөл (жишээ нь, хөдөлмөрийн харьцаа алдагдахад хүргэх) байж болно. Бусад олон том мэдээллийн эх сурвалж нь мэдрэмтгий мэдээлэлтэй байдаг бөгөөд энэ нь ихэвчлэн хүрч очих боломжгүй байдаг шалтгаан юм.
Харамсалтай нь Netflix Prize-ийн дүрслэн үзүүлсэн шиг мэдээлэл ямар мэдрэмжтэй болохыг (Ohm 2015) шийдвэрлэхэд төвөгтэй байдаг. Би 5-р бүлэгт тайлбарлахдаа, 2006 онд Netflix 500,000 гишүүдийн өгсөн 100 сая киноны үнэлгээг гаргасан ба Netflix-ийн киног санал болгох чадварыг сайжруулснаар дэлхийн өнцөг булан бүрээс ирсэн хүмүүс илгээгдсэн байна. Өгөгдлийг гаргахаасаа өмнө Netflix нэрийг таних гэх мэт мэдэгдэж буй мэдээллийг устгасан. Гэвч мэдээлэл өгсний дараа хоёр долоо хоногийн дараа Arvind Narayanan болон Виталий Шматиков (2008) нар тодорхой хүмүүс киноны рейтингийн тухай сурч мэдэх боломжтой болохыг үзүүлсэн. 6-р бүлэгт харуулав. Хүний киноны рейтинг, энд эмзэг зүйл байхаа больсон хэвээр байна. Энэ нь ерөнхийдөө мэдээллийн сан дахь 500,000 хүний зарим нь үнэн байж болох ч киноны рейтинг мэдрэмтгий байдаг. Үнэн хэрэгтээ, өгөгдөл гаргах, дахин таниулахын тулд, лесбиян эмэгтэй Netflix-ийн эсрэг ангийн үйлдэл хийсэн. Энэ асуудалд энэ асуудлыг хэрхэн тусгасаныг энд (Singel 2009) :
"[M] ovie болон рейтингийн өгөгдөл нь хувийн болон мэдрэмтгий шинж чанартай холбоотой мэдээллийг агуулдаг. Гишүүний киноны өгөгдөл нь Netflix-ийн хувийн сонирхол, бэлгийн харьцаа, сэтгэцийн өвчин, архидан согтуурахаас сэргийлж, бэлгийн хүчирхийлэл, хүчирхийлэл, хүчирхийлэл, гэр бүлийн хүчирхийлэл, завхайрал, хүчирхийлэл зэрэг хувийн чанартай асуудлуудтай тулгарч байдаг.
Энэ жишээ нь зарим хүмүүс нууцлалын мэдээллийн сан шиг байхын тулд эмзэг асуудалд анхаарлаа хандуулдаг гэж үзэж болно. Цаашилбал, мэдрэмтгий өгөгдөл-де-identification-ыг хамгаалахын тулд судлаачдын хэрэглэдэг гол хамгаалалт нь гайхалтай арга замыг алдаж байгааг харуулж байна. Эдгээр хоёр санааг 6-р бүлэгт нарийвчлан боловсруулсан болно.
Мэдрэмтгий өгөгдөлтэй холбоотой хамгийн сүүлийн зүйл бол хүмүүсийн зөвшөөрөлгүйгээр цуглуулсан нь ёс зүйн ямар ч асуудал үүсгээгүй байсан ч гэсэн ёс суртахууны асуултуудыг тавих явдал юм. Тэдний зөвшөөрөлгүйгээр шүршүүрт орж буй хүнийг харах нь тэр хүний хувийн нууцыг зөрчсөн, эмзэг мэдээллийг цуглуулах гэх мэт мэдрэмжтэй байхыг анхаарч үзээрэй. Би 6-р бүлэг дэх нууцлалын тухай асуултуудад хариулах болно.
Эцэст нь хэлэхэд засгийн газрын болон бизнесийн удирдлагын томоохон мэдээллийн эх сурвалжийг ерөнхийдөө нийгмийн судалгааны зорилгын үүднээс хийдэггүй. Өнөө өгөгдлийн мэдээллийн томоохон эх сурвалж маргааш нь 10 шинж чанартай байдаг. Томоохон, байнга идэвхтэй, идэвхигүй байдалд судалгаа хийхэд сайн гэж тооцогддог олон тооны шинж чанарууд нь дижитал эриний компаниуд болон засгийн газрууд өмнө нь боломжгүй байсан хэмжээний мэдээллийг цуглуулах боломжтой байдаг. Судлаачдын судлаачдын судалгааны үр дүнг судлаачид судлаачдаас цуглуулсан мэдээлэл нь бүрэн бус, хүртээмжтэй, үл ойшоогүй, алгассан, алгассан, ойлгомжгүй, бохир, эмзэг байдалтай байдаг. Өнөөдөр би Засгийн газар, бизнесийн өгөгдлүүдийн талаар ярилцаж байсан боловч энэ хоёр хоёрын ялгаа байгаа. Миний туршлагад засгийн газрын өгөгдлүүд нь төлөөлж чадахааргүй, алгоритмаар төөрөлдсөн, бага зэргийн гүйлгээтэй байдаг. Нөгөө талаас, бизнесийн захиргааны бүртгэлүүд нь үргэлж илүү байдаг. Эдгээр 10 ерөнхий шинж чанарыг ойлгох нь том мэдээллийн эх сурвалжаас суралцах эхний алхам юм. Одоо бид энэ өгөгдлөөр ашиглах судалгааны стратеги руу хандаж байна.