बिग डेटा स्रोतों जंक और स्पैम के साथ लोड किया जा सकता है।
कुछ शोधकर्ताओं का मानना है कि बड़े डेटा स्रोतों, विशेष रूप से ऑनलाइन स्रोतों से उन लोगों के, प्राचीन रहे हैं, क्योंकि वे स्वचालित रूप से एकत्र कर रहे हैं। वास्तव में, जो लोग बड़ा डेटा स्रोतों के साथ काम किया है पता है कि वे अक्सर गंदा कर रहे हैं। यही है, वे अक्सर डेटा है कि शोधकर्ताओं के लिए ब्याज की वास्तविक कार्यों को प्रतिबिंबित नहीं करते शामिल हैं। कई सामाजिक वैज्ञानिकों को पहले से ही बड़े पैमाने पर सामाजिक सर्वेक्षण के आंकड़ों की सफाई, लेकिन बड़ा डेटा स्रोतों की सफाई है दो कारणों के लिए और अधिक कठिन करने की प्रक्रिया से परिचित हैं: 1) वे 2) के शोधकर्ताओं शोधकर्ताओं के लिए शोधकर्ताओं और द्वारा नहीं बनाया गया आम तौर पर कैसे की कम समझ है वे बनाए गए थे।
गंदा डिजिटल ट्रेस डेटा के खतरों के पीछे और 'सहयोगियों से यह साफ कर रहे हैं (2010) 11 सितंबर के हमलों के लिए भावनात्मक प्रतिक्रिया 2001 शोधकर्ता आम तौर पर महीनों या वर्षों से एकत्र पूर्वव्यापी डेटा का उपयोग कर दुखद घटनाओं की प्रतिक्रिया का अध्ययन का अध्ययन। लेकिन, पीठ और उनके सहयोगियों ने 85,000 अमेरिकी से एक हमेशा पर डिजिटल निशान-timestamped का स्रोत है, स्वचालित रूप से दर्ज संदेशों पाया पेजर और इस शोधकर्ताओं ने एक बहुत महीन timescale पर भावनात्मक प्रतिक्रिया का अध्ययन करने के लिए सक्षम होना चाहिए। पीठ और सहयोगियों के लिए (1) उदासी से संबंधित शब्दों के प्रतिशत के आधार पर पेजर संदेशों के भावनात्मक सामग्री कोडिंग से एक मिनट-दर-मिनट सितंबर 11 वीं भावनात्मक समय बनाया (जैसे, रो रही है, दु: ख), (2) चिंता (जैसे, चिंतित, भयभीत), और (3) क्रोध (जैसे, नफरत, महत्वपूर्ण)। उन्होंने पाया कि उदासी और चिंता एक मजबूत पैटर्न के बिना दिन भर में उतार-चढ़ाव, लेकिन दिन भर में गुस्से में एक हड़ताली वृद्धि हुई थी। मानक तरीकों का उपयोग कर यह एक अप्रत्याशित घटना के लिए तत्काल प्रतिक्रिया के इस तरह के एक उच्च संकल्प समय है करने के लिए असंभव हो जाएगा: इस शोध हमेशा पर डेटा स्रोतों की शक्ति का एक अद्भुत उदाहरण हो रहा है।
सिर्फ एक साल बाद, हालांकि, सिंथिया Pury (2011) के आंकड़ों पर अधिक ध्यान से देखा। उसे पता चला कि माना जाता है कि गुस्से में संदेशों की एक बड़ी संख्या के लिए एक एकल पेजर द्वारा उत्पन्न किया गया है और वे सभी समान थे। यहाँ क्या उन माना जाता है कि गुस्से में संदेशों कहा है:
"रिबूट NT मशीन में मंत्रिमंडल [नाम] [नाम] पर [स्थान]: महत्वपूर्ण: [दिनांक और समय]"
इन संदेशों को गुस्सा लेबल थे, क्योंकि वे शब्द "महत्वपूर्ण" है, जो आम तौर पर क्रोध का संकेत मिलता है लेकिन इस मामले में ऐसा नहीं करता हो सकते हैं शामिल थे। इस एक स्वचालित पेजर द्वारा उत्पन्न संदेशों को हटाने के लिए पूरी तरह से दिन (चित्रा 2.2) के पाठ्यक्रम पर गुस्से में स्पष्ट वृद्धि समाप्त। दूसरे शब्दों में, में मुख्य परिणाम Back, Küfner, and Egloff (2010) एक पेजर का एक artifact था। इस उदाहरण के रूप में दिखाता है, अपेक्षाकृत जटिल और गन्दा डेटा की अपेक्षाकृत सरल विश्लेषण गंभीरता से गलत जाने की क्षमता है।
एक हद तक सावधान शोधकर्ता द्वारा गंदे डेटा है कि एक शोर से के रूप में अनजाने में इस तरह बनाई गई है पेजर-पता लगाया जा सकता है, वहाँ भी कुछ ऑनलाइन प्रणाली है कि जानबूझकर स्पैमर्स को आकर्षित कर रहे हैं। ये स्पैमर्स सक्रिय रूप से नकली डेटा उत्पन्न, और अक्सर लाभ का काम बहुत मुश्किल से प्रेरित उनकी स्पैमिंग छुपा रखने के लिए। उदाहरण के लिए, ट्विटर पर राजनीतिक गतिविधि कम से कम कुछ हद तक परिष्कृत स्पैम, जिससे कुछ राजनीतिक कारणों जानबूझकर अधिक लोकप्रिय तुलना में वे वास्तविक हैं देखने के लिए बना रहे हैं को शामिल करने के लिए लगता है (Ratkiewicz et al. 2011) । डेटा के साथ काम कर रहे शोधकर्ताओं कि जानबूझकर स्पैम हो सकता है अपने दर्शकों है कि वे पता लगाया और प्रासंगिक स्पैम को हटा दिया है समझाने की चुनौती का सामना करना पड़ता है।
अंत में, क्या माना जाता है गंदा डेटा अपने अनुसंधान के सवालों पर सूक्ष्म तरीके में निर्भर कर सकते हैं। उदाहरण के लिए, विकिपीडिया के कई संपादन स्वचालित बॉट द्वारा बनाई गई हैं (Geiger 2014) । आप विकिपीडिया की पारिस्थितिकी में रुचि रखते हैं, तो इन बोट्स महत्वपूर्ण हैं। लेकिन, अगर आप में मनुष्य कैसे विकिपीडिया के योगदान रुचि रखते हैं, इन इन बॉट द्वारा बनाया संपादन बाहर रखा जाना चाहिए।
मूर्ख बनाया जा रहा से बचने के लिए सबसे अच्छे तरीके से गंदे डेटा को समझने के लिए कैसे अपने डेटा ऐसे सरल तितर बितर भूखंडों बनाने के रूप में सरल, खोजपूर्ण विश्लेषण प्रदर्शन करने के लिए बनाया गया है।