बिग डेटा स्रोतों जंक और स्पैम के साथ लोड किया जा सकता है।
कुछ शोधकर्ता मानते हैं कि बड़े डेटा स्रोत, विशेष रूप से ऑनलाइन स्रोत, प्राचीन हैं क्योंकि वे स्वचालित रूप से एकत्र किए जाते हैं। वास्तव में, जिन लोगों ने बड़े डेटा स्रोतों के साथ काम किया है, वे जानते हैं कि वे अक्सर गंदे होते हैं । यही है, वे अक्सर उस डेटा को शामिल करते हैं जो शोधकर्ताओं के हित के वास्तविक कार्यों को प्रतिबिंबित नहीं करता है। अधिकांश सामाजिक वैज्ञानिक पहले से ही बड़े पैमाने पर सामाजिक सर्वेक्षण डेटा की सफाई की प्रक्रिया से परिचित हैं, लेकिन बड़े डेटा स्रोतों की सफाई करना अधिक कठिन लगता है। मुझे लगता है कि इस कठिनाई का अंतिम स्रोत यह है कि इनमें से कई बड़े डेटा स्रोतों का कभी भी अनुसंधान के लिए उपयोग नहीं किया गया था, और इसलिए वे डेटा की सफाई को सुविधाजनक बनाने के तरीके से एकत्रित, संग्रहित और दस्तावेज नहीं किए गए हैं।
गंदे डिजिटल ट्रेस डेटा के खतरों को 11 सितंबर, 2001 के हमलों के भावनात्मक प्रतिक्रिया के पीछे और सहयोगियों (2010) अध्ययन द्वारा चित्रित किया गया है, जिसे मैंने पहले अध्याय में संक्षेप में उल्लेख किया था। शोधकर्ता आमतौर पर महीनों या यहां तक कि वर्षों में एकत्र किए गए पूर्वदर्शी डेटा का उपयोग करके दुखद घटनाओं के जवाब का अध्ययन करते हैं। लेकिन, बैक और सहकर्मियों को डिजिटल निशानों का हमेशा-हमेशा स्रोत मिला - टाइमस्टैम्प, 85,000 अमेरिकी पेजर्स से स्वचालित रूप से रिकॉर्ड किए गए संदेश - और इससे उन्हें बहुत ही बेहतर समय पर भावनात्मक प्रतिक्रिया का अध्ययन करने में सक्षम बनाया गया। उन्होंने (1) उदासी से संबंधित शब्दों (उदाहरण के लिए, "रोना" और "दु: ख") से संबंधित शब्दों के प्रतिशत द्वारा पेजर संदेशों की भावनात्मक सामग्री को कोड करके 11 सितंबर की एक मिनट-दर-मिनट भावनात्मक समयरेखा बनाई, (2) चिंता ( उदाहरण के लिए, "चिंतित" और "भयभीत"), और (3) क्रोध (उदाहरण के लिए, "नफरत" और "महत्वपूर्ण")। उन्होंने पाया कि पूरे दिन एक मजबूत पैटर्न के बिना उदासी और चिंता में उतार-चढ़ाव हुआ, लेकिन पूरे दिन क्रोध में भारी वृद्धि हुई। यह शोध हमेशा डेटा स्रोतों की शक्ति का एक अद्भुत उदाहरण प्रतीत होता है: यदि पारंपरिक डेटा स्रोतों का उपयोग किया गया था, तो अप्रत्याशित घटना के तत्काल प्रतिक्रिया की ऐसी उच्च-रिज़ॉल्यूशन टाइमलाइन प्राप्त करना असंभव होता।
सिर्फ एक साल बाद, हालांकि, सिंथिया पुरी (2011) ने डेटा को अधिक ध्यान से देखा। उसने पाया कि माना जाता है कि बड़ी संख्या में गुस्सा संदेश एक पेजर द्वारा उत्पन्न किए गए थे और वे सभी समान थे। यहां बताया गया है कि उन नाराज संदेशों ने क्या कहा:
"रिबूट NT मशीन में मंत्रिमंडल [नाम] [नाम] पर [स्थान]: महत्वपूर्ण: [दिनांक और समय]"
इन संदेशों को गुस्से में लेबल किया गया था क्योंकि उनमें "क्रिटिकल" शब्द शामिल था, जो आमतौर पर क्रोध को इंगित कर सकता है लेकिन इस मामले में नहीं। इस एकल स्वचालित पेजर द्वारा उत्पन्न संदेशों को हटाने से दिन के दौरान क्रोध में स्पष्ट वृद्धि पूरी हो जाती है (आंकड़ा 2.4)। दूसरे शब्दों में, Back, Küfner, and Egloff (2010) में मुख्य परिणाम एक पेजर का एक आर्टिफैक्ट था। जैसा कि इस उदाहरण से पता चलता है, अपेक्षाकृत जटिल और गन्दा डेटा के अपेक्षाकृत सरल विश्लेषण में गंभीरता से गलत होने की संभावना है।
जबकि गंदे डेटा को अनजाने में बनाया गया है- जैसे कि एक शोर पेजर से-एक उचित सावधानीपूर्वक शोधकर्ता द्वारा पता लगाया जा सकता है, कुछ ऑनलाइन सिस्टम भी हैं जो जानबूझकर स्पैमर को आकर्षित करते हैं। ये स्पैमर सक्रिय रूप से नकली डेटा उत्पन्न करते हैं, और अक्सर लाभ-कार्य से प्रेरित होते हैं ताकि उनकी स्पैमिंग छिपी जा सके। उदाहरण के लिए, ट्विटर पर राजनीतिक गतिविधि में कम से कम कुछ उचित परिष्कृत स्पैम शामिल होते हैं, जिससे कुछ राजनीतिक कारण जानबूझकर वास्तव में अधिक लोकप्रिय दिखने के लिए बनाए जाते हैं (Ratkiewicz et al. 2011) । दुर्भाग्य से, इस जानबूझकर स्पैम को हटाने में काफी मुश्किल हो सकती है।
निश्चित रूप से, गंदे डेटा के रूप में क्या माना जाता है, कुछ हद तक, अनुसंधान प्रश्न पर निर्भर करता है। उदाहरण के लिए, विकिपीडिया में कई संपादन स्वचालित बॉट (Geiger 2014) द्वारा बनाए जाते हैं। यदि आप विकिपीडिया की पारिस्थितिकी में रुचि रखते हैं, तो इन बॉट-निर्मित संपादन महत्वपूर्ण हैं। लेकिन यदि आप रुचि रखते हैं कि मनुष्य विकिपीडिया में कैसे योगदान करते हैं, तो बॉट-निर्मित संपादन को बाहर रखा जाना चाहिए।
कोई भी सांख्यिकीय तकनीक या दृष्टिकोण नहीं है जो यह सुनिश्चित कर सके कि आपने अपने गंदे डेटा को पर्याप्त रूप से साफ कर लिया है। अंत में, मुझे लगता है कि गंदे डेटा द्वारा बेवकूफ होने से बचने का सबसे अच्छा तरीका यह समझना है कि आपका डेटा कैसा बनाया गया था।