ठूलो डाटा स्रोतहरु जंक र स्पैम संग लोड गर्न सकिँदैन।
केही शोधकर्ताहरूले विश्वास गर्छन् कि ठूला डेटा स्रोतहरू, विशेषतया अनलाइन स्रोतहरू, पूर्वनिर्धारित हुन्छन् किनभने तिनीहरू स्वचालित रूपमा एकत्रित हुन्छन्। वास्तवमा, जसले धेरै ठूला डेटा स्रोतहरूसँग काम गरेका छन् भनेर जान्दछन् कि उनी प्रायः गन्दा हुन्छन् । त्यो हो, तिनीहरू प्रायः डेटा समावेश गर्दछ जुन शोधकर्ताहरूको रुचिको वास्तविक कार्यहरू प्रतिबिम्बित गर्दैनन्। प्रायः सामाजिक वैज्ञानिकहरूले ठूलो मात्रामा सामाजिक सर्वेक्षण डेटा सफा गर्ने प्रक्रियासँग परिचित छन्, तर ठूला डेटा स्रोतहरू सफा गर्न गाह्रो देखिन्छ। मलाई लाग्छ यो कठिनाईको अन्तिम स्रोत यो हो कि यी ठूला डेटा स्रोतहरू अनुसन्धानको लागि कहिल्यै प्रयोग गर्न को लागी थिएनन्, र त्यसैले तिनीहरू संग्रह, भण्डारण, र डेटा सफाईको सुविधा प्रदान गर्ने तरिकामा दस्तावेज गरिएको छैन।
गंदे डिजिटल ट्रेस डेटा को खतरनाकहरु पिछला र सहयोगिहरु ' (2010) द्वारा 11 सेप्टेम्बर, 2001 को हमलाहरु को भावनात्मक प्रतिक्रिया को अध्ययन द्वारा चित्रित गर्दछ, जुन मैले अध्याय मा पहिले संक्षिप्त उल्लेख गरे। शोधकर्ताहरु सामान्यतया महीना वा साढे वर्षहरु मा एकत्रित पर्यवेक्षक डेटा को उपयोग गरेर दुखद घटनाहरु को प्रतिक्रिया को अध्ययन गर्छन। तर, पछाडि र साथीहरूले डिजिटल निशानहरूको सधैंभरि स्रोत पाए - टाइमस्टैम्प, स्वचालित रूपमा रेकर्ड गरिएको सन्देशहरू 85,000 अमेरिकन प्यानरबाट- र यसले उनीहरूलाई धेरै फाइनल टाइमसेलमा भावनात्मक प्रतिक्रिया अध्ययन गर्न सक्षम बनायो। तिनीहरूले 11 सेप्टेम्बरको एक मिनेट-मिनेटको भावनात्मक समयरेखा सिर्जना गरे जुन पेजर सन्देशहरूको भावनात्मक सामग्री कोडिंग (1) उदासी (जस्तै, "रोइरहेको" र "दु: ख"), (2) चिन्ता ( उदाहरणार्थ, "चिन्तित" र "डरलाग्दो"), र (3) क्रोध (जस्तै, "नफरत" र "महत्त्वपूर्ण")। तिनीहरूले पत्ता लगाए कि उदासी र चिन्ता भरिएको दिन बिना बलियो ढाँचा बिना उचाल्दै, तर त्यो दिनभरि क्रोधमा ठूलो वृद्धि भएको थियो। यो अनुसन्धान सधैं डेटा डेटा स्रोतहरूको शक्तिको अद्भुत दृष्टान्त जस्तो देखिन्छ: यदि पारंपरिक डेटा स्रोतहरू प्रयोग गरिएमा, यो अप्रत्याशित घटनाको तुरुन्त प्रतिक्रियाको यस्तो उच्च-रिजोल्युसन टाइमलाइन प्राप्त गर्न असम्भव थियो।
एक वर्ष पछि, तथ्याङ्क, सिन्थिया परी (2011) ले अझ सावधानीपूर्वक डेटालाई हेरे। उनले पत्ता लगाए कि धेरै गुस्सा सन्देशहरू एकजना पिसाब द्वारा उत्पन्न भएका थिए र तिनीहरू सबै समान थिए। यहाँका अनुचित क्रोधित सन्देशहरूले के भन्छ:
"पुन: बुट NT मिसिन कैबिनेट [नाम] मा [नाम] मा [स्थान]: गंभीर [मिति र समय]"
यी सन्देशहरू गुस्सा लगाइएका थिए किनभने तिनीहरू "मौलिक" शब्द समावेश भएका थिए जुन सामान्यतया रिसलाई संकेत गर्दछ तर यो अवस्थामा होइन। यस स्वचालित स्वचालित पृष्ठबाट उत्पन्न गरिएको सन्देशहरू हटाउँदै पूर्णतया दिनको समयमा क्रोधमा स्पष्ट वृद्धि समाप्त (चित्रा 2.4)। अन्य शब्दहरूमा, Back, Küfner, and Egloff (2010) मा मुख्य परिणाम एक पेजरको कलाकृति थियो। यस उदाहरणको रूपमा उदाहरणका लागि, अपेक्षाकृत जटिल र गन्दा डेटाको अपेक्षाकृत सरल विश्लेषणसँग गम्भीर गल्ती गर्ने क्षमता छ।
गहिरो डेटा जुन अनियमित रूपमा सिर्जना गरिएको छ - जस्तै कि एक शोर पेजर बाट पत्ता लगाउन सकिन्छ - एक सावधानीपूर्वक सावधान शोधकर्ता द्वारा पत्ता लगाउन सकिन्छ, त्यहाँ केहि अनलाइन प्रणालीहरू पनि छन् जुन जान्दछ वा स्प्यामरहरू आकर्षित गर्छन्। यी स्प्यामरहरू सक्रिय रूपमा नकली डेटा उत्पन्न गर्छन्, र प्रायः लाभद्वारा उत्प्रेरित हुन्छन् - स्प्यामिंग लुकाउन धेरै कठिन काम गर्छन्। उदाहरणका लागि, चहचहानामा राजनीतिक गतिविधि कम्तिमा केही व्यावहारिक परिष्कृत स्प्याम समावेश भएको देखिन्छ, जसको कारण केही राजनीतिक कारणहरू जान्थे र अधिक लोकप्रिय हेर्नका लागि उनीहरूले वास्तवमा (Ratkiewicz et al. 2011) हुन् भन्दा बढी बनाइएका छन्। दुर्भाग्यवश, यो जानबूझो स्प्याम हटाउन निकै गाह्रो हुन सक्छ।
निस्सन्देह कुन प्रश्न गम्भीर डेटा मानिन्छ, अनुसन्धान प्रश्न मा निर्भर गर्दछ। उदाहरणको लागि, विकिपीडियामा धेरै सम्पादनहरू स्वचालित बिट्स (Geiger 2014) द्वारा सिर्जना गरिन्छ। यदि तपाई विकिपीडियाको पारिस्थितिकीमा रुचि राख्नुहुन्छ भने, यी बट-सिर्जनाहरू सम्पादनहरू महत्त्वपूर्ण छन्। तर यदि तपाईं कसरी विकिपीडियामा योगदान गर्दछ भन्ने चासो राख्नुहुन्छ, त्यसपछि बट-सिर्जना गरिएको सम्पादनहरू हटाउन सकिन्छ।
त्यहाँ कुनै पनि सांख्यिकीय प्रविधि वा दृष्टिकोण छ जुन तपाइँले तपाइँको गंदे डेटा सफा गरी सफा गर्न सक्नु भएको छ। अन्त मा, म गन्दा डेटा को द्वारा मूर्ख देखि बचने को सर्वश्रेष्ठ तरीका हो कि तपाईंको डाटा बनाइयो को बारे मा यथासंभव बुझ जान्छ।