बिग डेटा स्रोत जंक आणि स्पॅम लोड केले जाऊ शकते.
काही संशोधक विश्वास मोठा डेटा स्रोत, विशेषत: त्या ऑनलाइन स्रोत पासून, ते आपोआप गोळा केली जाते कारण मूळचा आहेत. खरं तर, मोठे डेटा स्रोत काम केले आहे लोक वारंवार गलिच्छ आहेत हे मला माहीत आहे. आहे, ते वारंवार संशोधक व्याज व वास्तव क्रिया प्रतिबिंबित नाही डेटा समाविष्ट आहे. अनेक सामाजिक शास्त्रज्ञ आधीच दोन कारणांसाठी अधिक कठीण मोठ्या प्रमाणात सामाजिक सर्वेक्षण डेटा साफ, पण मोठा डेटा स्रोत स्वच्छता प्रक्रिया परिचित आहेत: 1) ते 2) संशोधक संशोधक यांच्यासाठी संशोधक आणि अस्तित्वात नव्हते साधारणपणे कसे कमी समज आहे ते तयार केले होते.
गलिच्छ डिजिटल ट्रेस डेटा धोके करून मागे आणि सहकारी 'विलयाप्रमाणे (2010) 2001 संशोधक विशेषत: महिने किंवा वर्षे गोळा पूर्वलक्ष्यी प्रभावाने डेटा वापरून शोकांतिकेचा घटना प्रतिसाद अभ्यास सप्टेंबर 11, हल्ला भावनिक प्रतिसाद अभ्यास. पण मागे व सहकारी 85,000 अमेरिकन पासून एक नेहमी डिजिटल मागोवा-timestamped स्त्रोत आपोआप रेकॉर्ड संदेश आढळले pagers आणि हे एक जास्त चांगल्या timescale वर भावनिक प्रतिसाद अभ्यास संशोधक सक्षम. परत आणि सहकारी (1) दु: ख संबंधित शब्द टक्केवारी पेजर संदेश भावनिक सामग्री कोडींग करून सप्टेंबर 11 व्या मिनिट-यांनी मिनिट भावनिक वेळेत तयार (उदा मोठ्याने ओरडून म्हणाल, दु: ख), (2) चिंता (उदा, भिती वाटत भयंकर), आणि (3) राग (उदा, द्वेष, गंभीर). ते आढळले दु: ख आणि चिंता मजबूत नमुना न दिवसभर चढउतार, पण दिवसभर संताप उल्लेखनीय वाढ झाली आहे. तो एक अनपेक्षित घटना तत्काळ प्रतिसाद अशा उच्च ठराव वेळेत अशक्य होईल मानक पद्धती वापरून: हे संशोधन नेहमी डेटा स्रोत शक्ती एक आश्चर्यकारक उदाहरण असल्याचे दिसते.
फक्त एक वर्ष नंतर, तथापि, सिंथिया Pury (2011) डेटा अधिक काळजीपूर्वक पाहिले. ती, supposedly राग संदेश मोठ्या प्रमाणात आणि एकाच पेजर व्युत्पन्न ते सर्व समान होते की शोधला. येथे त्या मानले राग संदेश काय म्हणाला आहे:
"एनटी रीबूट करा मशीन [स्थान] येथे कॅबिनेट [नाव] मध्ये [नाव]: गंभीर: [तारीख आणि वेळ]"
ते शब्द "गंभीर", साधारणपणे राग सूचित करू शकते पण या प्रकरणात नाही समाविष्ट कारण हे संदेश राग लेबल होते. या एकच स्वयंचलित पेजर व्युत्पन्न संदेश काढून पूर्णपणे दिवस (आकृती 2.2) अर्थातच संताप उघड वाढ काढून टाकते. दुसऱ्या शब्दांत, मुख्य परिणाम Back, Küfner, and Egloff (2010) एक पेजर एक मानवनिर्मित वस्तू होती. हे उदाहरण स्पष्ट म्हणून, तुलनेने क्लिष्ट आणि गुंतागुंतीचे आहे डेटा तुलनेने सोपे विश्लेषण गंभीरपणे चुकीच्या करण्याची क्षमता आहे.
एक माफक काळजी संशोधक एक गोंगाट करणारा म्हणून अनावधानाने अशा तयार आहे गलिच्छ डेटा पेजर-शकता आढळले जाणार तर, जाणून स्पॅमर्सना आकर्षित काही ऑनलाइन प्रणाली देखील आहेत. या स्पॅमर्सना सक्रियपणे बनावट डेटा निर्माण, आणि अनेकदा त्यांच्या स्पॅम दृष्टीस ठेवणे नफा काम खूप कठीण करून प्रवृत्त केले. उदाहरणार्थ, Twitter वर राजकीय क्रियाकलाप काही राजकीय कारणे हेतुपुरस्सर ते प्रत्यक्ष अधिक लोकप्रिय दिसत केले जातात ज्यायोगे किमान काही माफक अत्याधुनिक स्पॅम समावेश दिसते (Ratkiewicz et al. 2011) . जाणून स्पॅम असू शकते डेटा काम संशोधक आढळले आणि संबंधित स्पॅम काढले आहेत त्यांचे प्रेक्षक समजावताना आव्हान.
शेवटी, काय मानले जाते गलिच्छ डेटा आपल्या संशोधन प्रश्न सूक्ष्म प्रकारे अवलंबून करू शकता. उदाहरणार्थ, विकिपीडिया अनेक संपादने स्वयंचलित सांगकामे निर्माण केले जातात (Geiger 2014) . आपण विकिपीडिया पर्यावरणाच्या स्वारस्य असल्यास, नंतर या सांगकामे महत्वाचे आहेत. पण, आपण मानवांना विकिपीडियावर आपले योगदान कसे रस असेल, तर या सांगकामे केलेल्या या संपादनांचे वगळले जाऊ नये.
फसवणुक जात टाळण्यासाठी सर्वोत्तम मार्ग गलिच्छ डेटा आपला डेटा अशा साध्या स्कॅटर भूखंड करतांना, साधी शोध विश्लेषण निर्माण केले गेले होते कसे समजून द्वारे.