Büyük veri kaynakları önemsiz ve spam ile yüklenebilir.
Bazı araştırmacılar, otomatik olarak tahsil edilir çünkü büyük veri kaynakları, çevrimiçi kaynaklardan, özellikle de bozulmamış olduğuna inanıyoruz. Aslında, büyük veri kaynakları ile çalıştım insanlar sık sık kirli olduğunu biliyoruz. Yani sık sık araştırmacıların ilgi gerçek eylemlerini yansıtmamaktadır veri içerir vardır. Birçok sosyal bilimciler zaten iki nedenden dolayı daha zor olduğu büyük ölçekli sosyal anket verilerini temizleme, ancak büyük veri kaynaklarını temizleme süreci aşina şunlardır: 1) onlar araştırmacılar için araştırmacılar ve 2) araştırmacılar tarafından oluşturulmamış genellikle nasıl daha az bir anlayışa sahip onlar yaratıldı.
Kirli dijital iz veri tehlikeleri Arka ve arkadaşları 'ile izah edilir (2010) 2001 Araştırmacılar genellikle aylar hatta yıllar boyunca toplanan geriye dönük verileri kullanarak trajik olaylara tepki çalışma 11 Eylül saldırılarına duygusal tepki çalışmada. Ama, Arka ve arkadaşları 85.000 Amerikan gelen her zaman açık dijital izleri-timestamped kaynağı, otomatik olarak kaydedilmiş mesajları bulundu çağrı cihazları-ve bu çok daha ince zaman ölçeği üzerinde duygusal tepki incelemek için araştırmacılara sağladı. Sırt ve arkadaşları (1) hüzünle ilgili kelimelerin yüzdesi ile çağrı mesajlarının duygusal içeriği kodlama ile 11 Eylül bir dakika-by dakika duygusal bir zaman çizelgesi hazırlandı (örneğin, keder ağlıyor) (örn, (2) anksiyete, endişeli, korkulu), ve (3) öfke (örneğin, nefret, kritik). Onlar üzüntü ve kaygı güçlü bir desen olmadan gün boyunca dalgalanma bulundu, ancak gün boyunca öfke çarpıcı bir artış olduğunu söyledi. beklenmedik bir olaya anında yanıt böyle bir yüksek çözünürlüklü zaman çizelgesi olması imkansız olurdu standart yöntemler kullanılarak: Bu araştırma her zaman açık veri kaynaklarının iktidar harika bir örnek gibi görünüyor.
Sadece bir yıl sonra, ancak, Cynthia Pury (2011) daha dikkatli verilerine baktı. O sözde kızgın mesajların bir sayıda tek bir çağrı cihazı tarafından üretilen ve hepsi aynı olduğunu keşfettik. İşte o sözde kızgın mesajlar demişti:
"[Konumda] de kabine [isim] olarak yeniden başlatın NT makine [ad]: KRİTİK: [tarih ve saat]"
genellikle öfke gösterir, ancak bu durumda değil olabilir kelime "KRİTİK" dahil, çünkü bu iletiler öfkeli işaretlendi. Bu tek otomatik çağrı cihazı tarafından oluşturulan mesajlar çıkarılması tamamen gün (Şekil 2.2) boyunca öfke belirgin bir artış ortadan kaldırır. Başka bir deyişle, ana sonuç Back, Küfner, and Egloff (2010) bir çağrı bir eserdi. Bu örnekte gösterildiği gibi, nispeten karmaşık ve dağınık verilerin nispeten basit bir analiz ciddi yanlış gitmek için bir potansiyele sahiptir.
bir gürültülü itibaren istemeden-gibi oluşturulur kirli veri çağrı-bir makul dikkatli bir araştırmacı tarafından tespit edilebilir olsa da, aynı zamanda kasıtlı spam çeker bazı online sistemler vardır. Bu spam aktif sahte veri oluşturmak ve-genellikle spam gizli tutmak çok zor kar çalışması ile motive. Örneğin, Twitter'da siyasi faaliyet bazı siyasi nedenler bilerek onlar gerçek olduğunu daha popüler bakmak için yapılan bu sayede en azından bazı makul sofistike spam dahil görünüyor (Ratkiewicz et al. 2011) . kasıtlı Spam içerebilir verilerle çalışan araştırmacılar tespit ve ilgili istenmeyen kaldırdık onların kitleye ikna sorunuyla karşı karşıya.
Son olarak, kabul edilir ne kirli veriler araştırma soruları üzerine ince şekilde bağlı olabilir. Örneğin, Wikipedia birçok düzenlemeler otomatik botlar tarafından oluşturulur (Geiger 2014) . Vikipedi'nin ekoloji ile ilgilenen varsa, o zaman bu botlar önemlidir. Eğer insanlar Vikipedi nasıl katkıda ilgilenen Ama, eğer bu botlar tarafından yapılan bu düzenlemeler ekarte edilmelidir.
Kirli veriler veriler, basit dağılım araziler yapma gibi basit keşif analizini gerçekleştirmek için nasıl yaratıldığını anlamak için en iyi yolu aldatmasın önlemek için.