Kompaniyalari va hukumatlar mavjud ma'lumotlar Ba'zi sezgir.
Tibbiy sug'urta kompaniyalari o'z mijozlari tomonidan olingan tibbiy yordam haqida batafsil ma'lumotga ega. Ushbu ma'lumot sog'liqni saqlash borasida muhim tadqiqot uchun ishlatilishi mumkin, ammo agar jamoatchilikka ma'lum bo'lsa, bu hissiy zararni (masalan, noqulaylik) yoki iqtisodiy zararni (masalan, ish joyini yo'qotishga) olib kelishi mumkin. Ko'p boshqa katta ma'lumot manbalari ham sezgir bo'lgan ma'lumotlarga ega, bu esa ular tez-tez foydalana olmaydigan sabablardir.
Afsuski, Netflix mukofoti orqali ko'rsatilgandek, qanday ma'lumotlarni aslida sezgir (Ohm 2015) olish juda qiyin bo'ladi. Men 5-bobda tasvirlab berganimdek, 2006-yilda Netflix deyarli 500,000 a'zo tomonidan taqdim etilgan 100 million kino reytingini e'lon qildi va butun dunyodagi odamlar Netflixning filmlarni tavsiya etish qobiliyatini yaxshilash algoritmlarini taqdim etgan ochiq muloqotga kirishdi. Ma'lumotlar chiqarilishidan avval, Netflix ismlar kabi aniq shaxslarni aniqlaydigan har qanday ma'lumotlarni o'chirib tashladi. Ammo, Arvind Narayanan va Vitaliy Shmatikov (2008) ma'lumotlaridan keyin ikki hafta o'tgach, 6-bobda sizni ko'rsatadigan hiyla-nayrang yordamida odamlarning kino baholari haqida bilib olish mumkinligini ko'rsatdi. insonning kino reytinglari, bu erda hali ham sezgir ko'rinmaydi. Umuman olganda, bu ma'lumotlar to'plamidagi kamida 500 ming kishi uchun filmlar reytinglari sezgir edi. Aslida, ma'lumotlarning ozod etilishi va qayta identifikatsiya qilinishiga javoban, yopiq lezbiyen ayol Netflixga qarshi sinf-aksiyalar kostyumiga qo'shildi. Muammoni ushbu (Singel 2009) qanday ifodalanganligi (Singel 2009) :
"[M] ovie va reyting ma'lumotlari ... juda shaxsiy va nozik tabiat haqidagi ma'lumotlarni o'z ichiga oladi. A'zoning kino ma'lumotlari Netflix a'zosi shaxsiy qiziqish va / yoki jismoniy, jismoniy kasallik, alkogolizmdan qutulish va jabr-zulm, jismoniy zo'ravonlik, uy ichidagi zo'ravonlik, zino va zo'rlash kabi turli xil shaxsiy muammolar bilan kurashadi. "
Ushbu misoldan ma'lumki, ba'zi odamlar yaxshi ma'lumotlar bazasi sifatida ko'riladigan narsalarni sezgir deb bilishadi. Bundan tashqari, tadqiqotchilar aniq ma'lumotni aniqlashni himoya qilish uchun ishlaydigan asosiy mudofaa ham ajablanarli tarzda muvaffaqiyatsiz bo'lishi mumkinligini ko'rsatmoqda. Bu ikki fikr 6-bobda batafsilroq ishlab chiqilgan.
Haqiqiy ma'lumotni yodda tutish kerak bo'lgan yakuniy narsa shundaki, odamlar uni roziligisiz to'plash axloqiy masalalarni ko'taradi, hatto ma'lum bir zarar etkazilmasa ham. O'zlarining roziligisiz dushmanni qabul qilishni tomosha qilish kabi, bu shaxsning maxfiyligini buzish, nozik ma'lumotlarni to'plash kabi xatti-harakatlarga qaramaslik mumkin. Men 6-bo'limda shaxsiy hayotga oid savollarga qaytaman.
Natijada, hukumat va biznes ma'muriy yozuvlar kabi katta ma'lumot manbalari odatda ijtimoiy tadqiqotlar uchun yaratilmagan. Bugungi va, ehtimol, ertangi kunning katta ma'lumot manbalari 10 ta xususiyatga ega. Odatda tadqiqot uchun yaxshi deb hisoblanadigan ko'pgina xususiyatlar - har doim, doimo va reaktiv bo'lmagan - raqamli yosh kompaniyalarida yuzaga kelgan haqiqatdan kelib chiqadi va hukumat bundan oldin imkoni bo'lmagan o'lchamdagi ma'lumotlarni to'plash imkoniyatiga ega. Tadqiqotchilar to'liq tadqiqotchilar tomonidan to'planmaganligi sababli tadqiqotlarning to'liq bo'lmagan, etishmaydigan, nodematsiz, drifting, algoritmik tarzda aralashtirilmagan, etishmaydigan, iflos va sezgir bo'lgan ko'pgina xususiyatlarini keltirib chiqardi. Hozirgacha men hukumat va biznes ma'lumotlarini birgalikda muhokama qildim, biroq ular orasida ba'zi farqlar bor. Mening tajribamga binoan, hukumat ma'lumoti kam vakillikka ega emas, kamroq algoritmik ravishda aralashtiriladi va kamroq sürüklenir. Boshqa tomondan, biznes ma'muriy yozuvlar har doim ham ko'proq bo'ladi. Ushbu 10 umumiy xususiyatni tushunish katta ma'lumot manbalaridan o'rganishga yordam beradigan birinchi qadamdir. Va hozir biz ushbu ma'lumotlardan foydalanishimiz mumkin bo'lgan tadqiqot strategiyalariga murojaat qilmoqdamiz.