Big ma'lumot manbalari ahamiyatsiz va spam bilan joylashtirish mumkin.
Ayrim tadqiqotchilar, katta ma'lumot manbalari, ayniqsa, onlayn manbalar, ular avtomatik tarzda to'plangani uchun bejiz ekanliklariga ishonishadi. Aslida, katta ma'lumot manbalari bilan ishlaydigan odamlar tez-tez iflos ekanligini biladilar. Ya'ni, ular tez-tez tadqiqotchilarga qiziqishning haqiqiy harakatlarini aks ettirmagan ma'lumotlarni kiritadilar. Aksariyat ijtimoiy olimlar keng miqyosli ijtimoiy so'rovlar ma'lumotlarini tozalash jarayonini yaxshi bilishadi, lekin katta ma'lumot manbalarini tozalash yanada murakkabroq ko'rinadi. Menimcha, bu qiyinchilikning asosiy manbai, bu katta ma'lumot manbalarining ko'pchiligi hech qachon tadqiqot uchun ishlatilmasligi kerak va shuning uchun ularni yig'ish, saqlash va ma'lumotlarni tozalashga yordam beradigan tarzda hujjatlashtirilmaydi.
Kirli raqamli kuzatuv ma'lumotlarining xatarlari "Back" va "colleagues" (2010) tomonidan 11 sentyabr 2001 yilgi hujumlarga nisbatan hissiy hissiyotlarni o'rganish bilan tasvirlangan. Tadqiqotchilar odatda oylar va hatto yillar davomida to'plangan retrospektiv ma'lumotlar yordamida fojiali hodisalarga javob berishni o'rganadilar. Ammo, Back va uning hamkasblari doimiy ravishda raqamli izlar manbasini - 85 000 Amerika peyjeridan avtomatik tarzda qayd qilingan va vaqtinchalik yozib olingan xabarlar manbasini topdi va bu ularga ancha chuqur vaqt bo'yicha hissiyotlarni o'rganishga yordam berdi. Ular 11 sentyabrdagi daqiqali daqiqalar bilan pager xabarlarining hissiy mazmunini 1) qayg'u (masalan, "yig'lash" va "qayg'u"), (2) tashvish ( (masalan, "tashvishlangan" va "qo'rqinchli") va (3) g'azab (masalan, "nafrat" va "tanqidiy"). Ular kunduzi kuchli namunasiz qayg'u va tashvishlanishning o'zgarib ketganini angladilar, ammo kun bo'yi g'azabga duchor bo'lishdi. Ushbu tadqiqot doimo ma'lumot manbalarining kuchi haqida ajoyib tasavvurga ega bo'lib tuyuladi: agar an'anaviy ma'lumot manbalari ishlatilgan bo'lsa, bunday kutilmagan hodisaga bevosita javob berishning bunday yuqori aniqlikdagi vaqt jadvalini olish imkoni bo'lmadi.
Faqat bir yil o'tgach, Cynthia Pury (2011) ma'lumotlarga diqqat bilan qaradi. U g'azablangan xabarlarning ko'pchiligini bitta chaqiriq tomonidan yaratilganligini va ularning hammasi bir xil ekanligini aniqlashdi. Mana bu jahl chiqqan xabarlar quyidagicha edi:
"[Joyda] da kabinet [nomi] bilan Reboot NT mashinasi [nomi]: MUHIM: [Sana va vaqt]"
Ushbu xabarlar g'azablangan, chunki ular "CRITICAL" so'zini qo'shgan edi, bu odatda g'azabni ko'rsatishi mumkin, ammo bu holda bunday emas. Ushbu yagona avtomatlashtirilgan chaqirgich tomonidan chiqarilgan xabarlarni olib tashlash, kunduz davomida g'azabning oshib borishini oshiradi (2.4-rasm). Boshqacha aytganda, " Back, Küfner, and Egloff (2010) ning asosiy natijasi Back, Küfner, and Egloff (2010) bir pagerning asaridir. Ushbu misolda tasvirlanganidek, nisbatan murakkab va tarqoq ma'lumotlarni nisbatan oddiy tahlil qilish jiddiy noto'g'ri yo'l bilan borish mumkin.
Biror shovqinli chaqirgichdan, xuddi ehtiyotkorlik bilan yaratilgan harom ma'lumotni juda ehtiyotkorlik bilan tadqiqotchi tomonidan aniqlash mumkin bo'lsa-da, qasddan spammerlarni jalb qiluvchi ba'zi onlayn tizimlar mavjud. Bu spamerlar soxta ma'lumotni faol ravishda ishlab chiqaradi va ko'pincha foyda bilan shug'ullanishadi. Misol uchun, Twitterdagi siyosiy faollik, eng kamida, ba'zi bir siyosiy sabablar qasddan, aslida (Ratkiewicz et al. 2011) ko'ra ko'proq mashhur bo'lishga qaratilgan spamlarni o'z ichiga oladi (Ratkiewicz et al. 2011) . Afsuski, bu qasddan spamni olib tashlash juda qiyin bo'lishi mumkin.
Albatta, iflos ma'lumotlar, qisman tadqiqot savoliga bog'liq bo'lishi mumkin. Masalan, Vikipediyadagi ko'pgina tahrirlar avtomatlashtirilgan botlardan iborat (Geiger 2014) . Agar siz Vikipediya ekologiyasi bilan qiziqsangiz, bu bot yaratilgan tahrirlar muhim ahamiyatga ega. Agar siz odamlar Vikipediyaga qanday yordam berishni xohlasangiz, unda bot yaratgan o'zgarishlar bekor qilinadi.
Sizning iflos ma'lumotlaringizni etarlicha tozalashni ta'minlashi mumkin bo'lgan yagona statistik texnik yoki yondashuv yo'q. Oxir-oqibat, men iflos ma'lumotlar bilan aldanmaslikning eng yaxshi usuli - ma'lumotlarning qanday yaratilganligi to'g'risida iloji boricha tushunishdir.