2.3.2.6 Dirty

Big məlumat mənbələri junk və spam ilə yüklü edilə bilər.

Bəzi tədqiqatçılar onlar avtomatik olaraq toplanmış, çünki böyük məlumat mənbələri, online mənbələrdən xüsusilə, prisitine inanıram. Əslində, big məlumat mənbələri ilə işləmişik insanlar tez-tez çirkli olduğunu bilirik. Yəni onlar tez-tez tədqiqatçılar üçün maraqlı real hərəkətləri əks etdirmir məlumat daxil edir. Bir çox sosial elm artıq iki səbəbə görə daha çətin genişmiqyaslı sosial sorğu məlumatları təmizlik, lakin böyük məlumat mənbələri təmizlənməsi prosesi ilə tanış: 1) onlar tədqiqatçılar üçün tədqiqatçılar və 2) tədqiqatçılar tərəfindən yaradılmış deyil, ümumiyyətlə necə az anlaşma var yaranıblar.

Çirkli digital iz məlumatların təhlükələr Geri və həmkarları tərəfindən təsvir olunur (2010) 2001-ci Tədqiqatçılar adətən ay və ya hətta il ərzində toplanmış retrospektiv veri istifadə edərək faciəli hadisələr cavab öyrənmək 11 sentyabr hücumlarına emosional reaksiya öyrənilməsi. Lakin, Back və həmkarları 85,000 Amerika bir həmişə-on digital izləri-timestamped mənbəyi, avtomatik qeydə messages aşkar pagers və bu bir çox finer timescale haqqında emosional cavab öyrənmək üçün tədqiqatçılar imkan. Geri və həmkarları (1) kədər ilə bağlı sözləri faiz çağrı cihazı mesaj emosional məzmunu kodlaşdırma Sentyabr 11 dəqiqə-by-dəqiqə emosional qrafiki yaradılmış (məsələn, kədər ağlayan) (məsələn, (2) narahatlıq, narahat, qorxulu) və (3) qəzəb (məsələn, nifrət, tənqidi). Onlar kədər və narahatlıq güclü model olmadan gün ərzində dəyişkən ki, aşkar, lakin gün ərzində qəzəbi təəccüblü artım var idi. Bu gözlənilməz hadisə dərhal cavab belə yüksək qətnamə qrafiki etmək mümkün olacaq standart üsullardan istifadə: Bu tədqiqat həmişə-on məlumat mənbələri hakimiyyəti gözəl illüstrasiya görünür.

Yalnız bir il sonra, lakin, Cynthia Pury (2011) daha diqqətlə data baxdı. O, guya qəzəbli mesaj sayda bir çağrı cihazı tərəfindən edilmişdir və onlar bütün eyni idi ki, aşkar. Burada o guya qəzəbli mesaj nə dedi var:

"[Yeri] at kabinet [adı] ilə Reboot NT maşın [adı]: KRİTİK: [tarix və vaxt]"

ümumiyyətlə qəzəb göstərir, lakin bu halda deyil bilərsiniz sözü "kritik", daxil, çünki bu mesajlar qəzəbli etiketli edilib. bu bir avtomatlaşdırılmış çağrı cihazı tərəfindən yaradılan mesaj aradan qaldırılması tamamilə gün (Şəkil 2.2) ərzində qəzəbi aydın artım aradan qaldırır. Başqa sözlə, əsas nəticə Back, Küfner, and Egloff (2010) bir çağrı cihazı bir artifact idi. Bu misal göstərir ki, nisbətən mürəkkəb və messy məlumatların nisbətən sadə təhlili ciddi yanlış getmək üçün potensial var.

2.2 Şəkil: qəzəblə Tahmini istiqamətləri 85,000 American pagers əsasında 11 sentyabr 2001-ci il ərzində (Back, Kufner və Egloff 2010; Pury 2011; Back, Kufner və Egloff 2011). Originally, Back (2010) Kufner və Egloff gün ərzində hirs artan bir model məlumat verib. KRİTİK: [tarix və vaxt] [yeri] at kabinet [adı] Reboot NT maşın [adı] Lakin, bu aydın qəzəbli mesaj ən dəfələrlə bu mesajı göndəriləcək bir çağrı cihazı tərəfindən edilmişdir. Bu mesajı silindi ilə qəzəb aydın artım (; Back, Kufner və Egloff 2011 Pury 2011) yox. Bu rəqəm Pury (2011) Fig 1B bir bərpası edir.

2.2 Şəkil: qəzəblə Tahmini istiqamətləri 85,000 American pagers əsasında 11 sentyabr 2001-ci il ərzində (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . Originally, Back, Küfner, and Egloff (2010) gün ərzində hirs artan bir model məlumat verib. "Reboot NT maşın [adı] kabinet [adı] ilə [yeri] at: KRİTİK: [tarix və vaxt]" Lakin bu aydın qəzəbli mesaj ən dəfələrlə bu mesajı göndəriləcək bir çağrı cihazı tərəfindən edilmişdir. Bu mesajı silindi ilə qəzəb aydın artım yox (Pury 2011; Back, Küfner, and Egloff 2011) . Bu rəqəm da Fig 1B bir bərpası edir Pury (2011) .

bir səs-küylü kimi istəmədən-belə yaradılmışdır çirkin data çağrı cihazı-bilər ki, bir ağıllısı ehtiyatlı tədqiqatçı aşkar edilə edərkən də qəsdən spam cəlb bir online sistemləri var. Bu spam fəal saxta data yaratmaq, və tez-tez onların spam gizli saxlamaq çox çətin mənfəət iş motivasiya. Məsələn, Twitter siyasi fəaliyyəti bəzi siyasi səbəbləri qəsdən onlar faktiki daha çox məşhur baxmaq edilir vasitəsi ən azı bir əsaslı mürəkkəb spam daxildir görünür (Ratkiewicz et al. 2011) . qəsdən spam ola bilər data ilə iş Tədqiqatçılar onlar aşkar və müvafiq spam qaldırdıq ki, onların tamaşaçı inandırıcı problem üzləşirlər.

Nəhayət, hesab olunur nə çirkli data tədqiqat məsələləri üzrə incə yollarla asılı ola bilər. Məsələn, Vikipediya çox edits avtomatlaşdırılmış botlara tərəfindən yaradılmışdır (Geiger 2014) . Vikipediya ekologiya istəyirsinizsə, onda bu botlara vacibdir. Siz insanlar Wikipedia töhfə necə istəyirsinizsə Lakin, bu botlara tərəfindən bu edits çıxarılmalıdır.

çirkli data sizin data belə sadə dağıtmaq sahələri edilməsi, sadə kəşfiyyat analizi üçün yaradılmışdır necə anlamaq üçün var ən yaxşı yolları fooled olunur qarşısını almaq üçün.