Büyük veri kaynakları önemsiz ve spam ile yüklenebilir.
Bazı araştırmacılar, büyük veri kaynaklarının, özellikle çevrimiçi kaynakların, otomatik olarak toplandıklarından, bozulmadıklarına inanmaktadır. Aslında, büyük veri kaynakları ile çalışan kişiler sıklıkla kirli olduklarını bilirler. Yani, sıklıkla araştırmacıların ilgisini çeken gerçek eylemleri yansıtmayan veriler içerir. Çoğu sosyal bilimci, büyük ölçekli sosyal araştırma verilerini temizleme sürecine aşinadır, ancak büyük veri kaynaklarını temizlemenin daha zor olduğu görülmektedir. Bu zorluğun nihai kaynağının, bu büyük veri kaynaklarının çoğunun hiçbir zaman araştırma için kullanılmadığı ve bu nedenle de veri temizliğini kolaylaştıracak şekilde toplanmadığı, saklanmadığı ve belgelenmediği düşüncesindeyim.
Kirli dijital eser verilerinin tehlikeleri, Back ve meslektaşlarının (2010) , daha önce kısaca bahsetmiş olduğum 11 Eylül 2001 saldırılarına karşı duyulan duygusal tepki çalışması ile gösterilmiştir. Araştırmacılar tipik olarak, aylar hatta yıllar boyunca toplanan retrospektif verileri kullanarak trajik olaylara verilen yanıtı inceler. Ancak, Back ve meslektaşları her zaman açık dijital izler kaynağı buldular; bu zaman zarfında, 85.000 Amerikan çağrı cihazından gelen otomatik olarak kaydedilen mesajlar vardı ve bu da onların daha iyi bir zaman ölçeğinde duygusal tepkileri incelemesini sağladı. Çağrı mesajlarının duygusal içeriğini, (1) hüzün (örneğin, “ağlama” ve “keder”), (2) endişesi ile ilgili kelimelerin yüzdesine göre kodlayarak, 11 Eylül'de bir dakika dakika duygusal zaman çizelgesi oluşturdular. örneğin “endişeli” ve “korkulu”) ve (3) öfke (örneğin “nefret” ve “eleştirel”). Gün boyunca güçlü bir model olmadan üzüntü ve kaygının dalgalandığını, ancak gün içinde öfkede çarpıcı bir artış olduğunu bulmuşlardır. Bu araştırma, her zaman açık veri kaynaklarının gücünün harika bir örneğidir. Geleneksel veri kaynakları kullanılsaydı, beklenmedik bir olaya anında yanıt verebilecek yüksek çözünürlüklü bir zaman çizelgesi elde etmek imkansız olurdu.
Ancak bir yıl sonra, Cynthia Pury (2011) verilere daha dikkatli baktı. Sözde kızgın mesajların çok sayıda tek bir çağrı cihazı tarafından oluşturulduğunu keşfetti ve hepsi aynıydı. İşte sözde kızgın mesajların söylediği:
"[Konumda] de kabine [isim] olarak yeniden başlatın NT makine [ad]: KRİTİK: [tarih ve saat]"
Bu mesajlar öfkeli olarak adlandırıldı çünkü “öfke” kelimesini de içeriyorlardı, bunlar genellikle öfkeyi gösterebiliyor ama bu durumda değil. Bu tek otomatik çağrı cihazı tarafından üretilen mesajların kaldırılması, günün ilerlemesi sırasında öfkede görülen belirgin artışı tamamen ortadan kaldırmaktadır (Şekil 2.4). Başka bir deyişle Back, Küfner, and Egloff (2010) daki ana sonuç, bir çağrı cihazının bir eseriydi. Bu örnekte görüldüğü gibi, nispeten karmaşık ve karmaşık verilerin nispeten basit bir analizi, ciddi bir şekilde yanlış gitme potansiyeline sahiptir.
İstenmeyen bir şekilde (örneğin, bir gürültülü çağrı cihazından gelen) kirli veri, dikkatli bir araştırmacı tarafından tespit edilebilirken, kasıtlı spam gönderenleri çeken bazı çevrimiçi sistemler de vardır. Bu spam göndericiler aktif olarak sahte veriler oluştururlar ve genellikle kârla motive edilirler - spam'larının gizlenmesini engellemek için çok çalışırlar. Örneğin, Twitter'daki politik etkinlik, en azından bazı makul derecede karmaşık spam'leri içeriyor gibi görünmektedir; bu nedenle bazı politik nedenler, aslında olduklarından daha popüler görünmek için kasıtlı olarak yapılmaktadır (Ratkiewicz et al. 2011) . Maalesef, bu kasıtlı spam'ı kaldırmak oldukça zor olabilir.
Elbette, kirli veri olarak düşünülen şey, kısmen, araştırma sorusuna bağlı olabilir. Örneğin, Vikipedi'ye yapılan birçok düzenleme otomatik robotlar tarafından oluşturulur (Geiger 2014) . Vikipedi'nin ekolojisi ile ilgileniyorsanız, bu bot oluşturulmuş düzenlemeler önemlidir. Ancak, insanların Wikipedia'ya nasıl katkıda bulunduğuyla ilgileniyorsanız, bot oluşturulmuş düzenlemeler hariç tutulmalıdır.
Kirli verilerinizi yeterince temizlemenizi sağlayan tek bir istatistiksel teknik veya yaklaşım yoktur. Sonunda, kirli verilerden kandırılmamanın en iyi yolunun, verilerinizin nasıl oluşturulduğu hakkında olabildiğince anlaşılması olduğunu düşünüyorum.