बिग डेटा स्रोत जंक आणि स्पॅम लोड केले जाऊ शकते.
काही संशोधकांचा विश्वास आहे की मोठ्या डेटा स्त्रोत, विशेषत: ऑनलाइन स्त्रोत मूळ आहेत, कारण ते आपोआप जमा होतात. खरं तर, जे लोक मोठ्या डेटा स्त्रोतांसह कार्य केले आहेत ते ज्ञात आहेत की ते वारंवार गलिच्छ असतात . म्हणजेच, त्यामध्ये डेटा समाविष्ट असतो ज्या संशोधकांना व्याजांची वास्तविक कृती प्रतिबिंबित करत नाहीत. बहुसंख्य सामाजिक शास्त्रज्ञ मोठ्या प्रमाणात सामाजिक सर्वेक्षणाचे डेटा साफ करण्याच्या प्रक्रियेपासून परिचित आहेत, परंतु मोठ्या डेटा स्रोतांना साफ करणे अधिक कठीण वाटत आहे. मला वाटते की या अडचणचा अंतिम स्त्रोत हे आहे की यापैकी बरेच डेटा स्त्रोतांचा शोध प्रयोगांसाठी वापरण्याचा उद्देश नव्हता, आणि म्हणून त्यास संकलित, संग्रहित केलेले आणि दस्तऐवजीकरण अशा प्रकारे केले जात नाही जे डेटा सफाईस मदत करतात.
गलिच्छ डिजिटल ट्रेस डेटाचे धोके बॅक आणि सहकर्मींनी (2010) सप्टेंबर 11, 2001 च्या हल्ल्यांना भावनात्मक प्रतिसादांचा अभ्यास केला आहे, ज्याचा मी थोडक्यात या प्रकरणात आधी उल्लेख केला आहे. संशोधक विशेषत: महिन्यांपर्यंत किंवा वर्षांनी गोळा केलेला पूर्वगामी डेटा वापरून शोकांतिक प्रसंगांच्या प्रतिसादाचा अभ्यास करतात. पण, मागे आणि सहकर्मींना डिजिटल ट्रेसचे नेहमीचे स्त्रोत आढळले- टाइमस्टेप केलेले, 85,000 अमेरिकन पेजर्सकडून आपोआप रेकॉर्ड केलेले संदेश - आणि हे त्यांना अधिक सुरेख वेळाच्या वेळी भावनिक प्रतिसादांचा अभ्यास करण्यास सक्षम करते. त्यांनी (1) दु: ख (उदा. "रडणे" आणि "दु: ख"), (2) चिंता ("चिंता") यांच्याशी संबंधित शब्दांची टक्केवारित द्वारे पेजर संदेशांची भावनिक सामग्री कोडे करून एक मिनिट-द-मिनिट भावनिक टाइमलाइन तयार केली ( उदा., "काळजी" आणि "भयभीत") आणि (3) क्रोध (उदा., "द्वेष" आणि "गंभीर"). त्यांना असे आढळले की संपूर्ण दिवसांमध्ये उदासीनता आणि चिंता दिवसभर बदलत असतात, परंतु दिवसभर रागाने एकदम वाढ होते. हे संशोधन नेहमीच्या डेटा स्त्रोतांच्या शक्तीचे एक अद्भुत उदाहरण आहे असे दिसते: जर पारंपारिक डेटा स्त्रोत वापरला गेला असेल तर अनपेक्षित प्रसंगी तत्काळ प्रतिसादाची अशी उच्च-रिझोल्यूशन वेळेची अट मिळणे अशक्य आहे.
फक्त एका वर्षानंतर, सिन्थिया प्युरी (2011) ही आकडेवारी अधिक काळजीपूर्वक पाहिली. तिला असे आढळले की क्वचितच एक पेजरद्वारे मोठ्या प्रमाणावर कथित संदेश तयार झाले आणि ते सर्व एकसारखे होते. येथे त्या supposedly रागाच्या संदेश आहेत काय आहे:
"एनटी रीबूट करा मशीन [स्थान] येथे कॅबिनेट [नाव] मध्ये [नाव]: गंभीर: [तारीख आणि वेळ]"
या संदेशांवर राग आले कारण त्यांनी "गंभीर" शब्दाचा समावेश केला आहे जे सहसा राग दर्शवितात परंतु या बाबतीत नाही. या एकमेव स्वयंचलित पेजरद्वारे व्युत्पन्न केलेले संदेश काढून टाकून संपूर्णपणे राग (दिवस 2.4) वरून राग वाढतो. दुसऱ्या शब्दांत, Back, Küfner, and Egloff (2010) मधील मुख्य परिणाम एक Back, Küfner, and Egloff (2010) एक वस्तू होता. हे उदाहरण स्पष्ट करते, तुलनेने जटिल आणि अव्यवहात्मक डेटाचे तुलनेने सोपे विश्लेषणमध्ये गंभीरपणे चुकीच्या गोष्टी करण्याची क्षमता आहे
गलिच्छ डेटा जे अनावधानाने तयार केले जाते- जसे की एक गोंगाटयुक्त पेजरवरून - शोधपूर्वक शोधकार्यर्याद्वारे शोधले जाऊ शकते, काही ऑनलाईन सिस्टम देखील आहेत जे इव्हेंटल स्पॅमरना आकर्षित करतात हे स्पॅमर सक्रियपणे बनावट डेटा तयार करतात आणि -साधारणपणे त्यांचे स्पॅमिंग लपवून ठेवण्यासाठी नफा-कामाने प्रेरित असतात. उदाहरणार्थ, ट्विटरवरील राजकीय कृतीमध्ये कमीतकमी काही तरी अत्याधुनिक स्पॅम समाविष्ट आहे, ज्यायोगे काही राजकीय कारणे जाणूनबुजून अधिक लोकप्रिय दिसत आहेत जे प्रत्यक्षात आहेत (Ratkiewicz et al. 2011) . दुर्दैवाने, हे जाणून घेणे स्पॅम हटवणे फार कठीण असू शकते.
अर्थातच गलिच्छ डेटा कशास मानले जाऊ शकते याचा विचार केला जाऊ शकतो, थोडक्यात, संशोधन प्रश्नावर. उदाहरणार्थ, विकिपीडियावर बर्याच संपादने स्वयंचलित बॉट्स (Geiger 2014) द्वारा तयार केली आहेत. आपण विकिपीडियाच्या पर्यावरणास मध्ये स्वारस्य असल्यास, नंतर या बॉट-तयार संपादने महत्वाचे आहेत. परंतु आपल्याला विकिपीडियावर मानव कसे योगदान द्यायचे याबद्दल आपल्याला स्वारस्य असेल तर बॉट-निर्मित संपादनांमध्ये वगळण्यात यावा.
आपण आपल्या गलिच्छ डेटास पर्याप्तपणे साफ केल्याची खात्री करू शकणारे एकच एकल सांख्यिकीय तंत्र किंवा दृष्टिकोण नाही अखेरीस, मला असे वाटते की आपला डेटा कसे तयार झाले याबद्दल जितके शक्य असेल तितके समजून घेणे गलिच्छ डेटाने फसवले जाणे टाळण्याचा सर्वोत्तम मार्ग आहे.