Big məlumat mənbələri junk və spam ilə yüklü edilə bilər.
Bəzi tədqiqatçılar hesab edirlər ki, böyük məlumat mənbələri, xüsusilə də onlayn mənbələr, praktikdir, çünki onlar avtomatik olaraq yığılırlar. Əslində, böyük məlumat mənbələri ilə işləyən insanlar tez-tez çirkin olduğunu bilirlər. Yəni, tez-tez tədqiqatçılar üçün maraqların real hərəkətlərini əks etdirməyən məlumatlar daxildir. Ən çox ictimai elm adamları artıq böyük miqyaslı ictimai araşdırma məlumatlarının təmizlənməsi prosesi ilə tanış olur, amma böyük məlumat mənbələrinin təmizlənməsi daha çətin görünür. Hesab edirəm ki, bu çətinliyin əsas mənbəyi bu böyük məlumat mənbələrinin bir çoxunun tədqiqat üçün nəzərdə tutulmamışdır və onlar məlumatların təmizlənməsini asanlaşdıran bir şəkildə yığılmır, saxlanmır və sənədləşdirilmir.
Çirkli rəqəmsal iz məlumatlarının təhlükələri, 11 sentyabr 2001-ci ildəki hücumlara dair emosional cavabın Geri və həmkarlarının (2010) işini təsvir edir. Tədqiqatçılar, aylar və ya hətta il ərzində yığılmış retrospektiv məlumatları istifadə edərək, faciəli hadisələrə cavab verməyi öyrənirlər. Lakin, Geri və həmkarları həmişə digital izlərin mənbəyini - 85,000 Amerika peycinin avtomatik olaraq qeydə alınmış mesajlarını - vaxtında göstərilən məlumat mənbəyini tapdılar və bu, onlara daha həssas bir vaxtda emosional cavab öyrənməyə imkan verdi. Onlar (1) kədər (məsələn, "ağlayan" və "qəm"), (2) narahatlıq (2) ilə bağlı sözlərin faizi ilə çağırış mesajlarının emosional məzmununu kodlaşdırmaqla 11 sentyabrda bir dəqiqəlik emosional qrafiki yaratdılar ("narahat" və "qorxulu") və (3) qəzəb (məsələn, "nifrət" və "tənqidi"). Onlar kədər və narahatlıq gün ərzində güclü bir model olmadan dalğalanır, lakin gün ərzində qəzəbli bir artım var idi. Bu tədqiqat həmişə məlumat mənbələrinin gücünün gözəl bir nümunəsi kimi görünür: ənənəvi məlumat mənbələri istifadə edildikdə gözlənilməz bir hadisəyə dərhal cavab verən belə yüksək qətnamə qrafiki əldə etmək mümkün olmayacaqdı.
Yalnız bir il sonra, Cynthia Pury (2011) məlumatları daha diqqətlə nəzərdən keçirdi. O, çox sayda qəzəbli mesajların tək bir çağrı cihazı tərəfindən yaradıldığını və hamısı eyni olduğunu aşkar etdi. Bu sözdə qəzəbli mesajlar bunlar:
"[Yeri] at kabinet [adı] ilə Reboot NT maşın [adı]: KRİTİK: [tarix və vaxt]"
Bu mesajlar qəzəbləndi, çünki "QƏZA" sözü ümumiyyətlə qəzəbi göstərə bilər, amma bu halda deyil. Bu tək avtomatlaşdırılmış çağrı cihazı tərəfindən yaradılan mesajların silinməsi, günün gedişində həddindən artıq həssaslıq artımını tamamilə aradan qaldırır (şəkil 2.4). Başqa sözlə, Back, Küfner, and Egloff (2010) əsas nəticə bir Back, Küfner, and Egloff (2010) əsəridir. Bu nümunədə göstərildiyi kimi, nisbətən mürəkkəb və dağınık məlumatların nisbətən sadə analizi ciddi yanlış getmək potensialına malikdir.
Bir səs-küylü çağrı cihazından istənməyən şəkildə yaradılan çirkli məlumatlar olduqca diqqətli bir araşdırmaçı tərəfindən aşkar edilsə də, kasıtlı spammerləri cəlb edən bəzi online sistemlər də var. Bu spamerlər saxta məlumatlar yaradırlar və tez-tez mənfəət işi ilə motivasiya edirlər. Məsələn, Twitter-də siyasi fəaliyyət, ən azı, kifayət qədər mürəkkəb inkişaf etmiş spam daxildir və bəzi siyasi səbəblər (Ratkiewicz et al. 2011) ki, onlar həqiqətən daha məşhurdurlar (Ratkiewicz et al. 2011) . Təəssüf ki, bu qəsdən spamın çıxarılması olduqca çətin ola bilər.
Əlbəttə ki, çirkin məlumatlar tədqiqat məsələsinə bağlı ola bilər. Məsələn, Vikipediyanın bir çox redaktəsi avtomatlaşdırılmış botlarla yaradılır (Geiger 2014) . Vikipediyanın ekologiyasında maraqlıysanız, bu bot yaradılmış dəyişikliklər vacibdir. Ancaq əgər insanlar Vikipediyaya necə kömək etdilərsə, bot yaradılmış dəyişikliklər istisna edilməlidir.
Çirkli məlumatlarınızı kifayət qədər təmizlədiyinizi təmin edə biləcək bir tək statistik metod və ya yanaşma yoxdur. Sonda, mən hesab edirəm ki, çirkin məlumatlar ilə aldadılmanın qarşısını almaq üçün ən yaxşı yol məlumatların necə yaradıldığına dair mümkün qədər anlaşılan məlumatdır.