2.3.2.6 गंदा

बिग डेटा स्रोतों जंक और स्पैम के साथ लोड किया जा सकता है।

कुछ शोधकर्ताओं का मानना ​​है कि बड़े डेटा स्रोतों, विशेष रूप से ऑनलाइन स्रोतों से उन लोगों के, प्राचीन रहे हैं, क्योंकि वे स्वचालित रूप से एकत्र कर रहे हैं। वास्तव में, जो लोग बड़ा डेटा स्रोतों के साथ काम किया है पता है कि वे अक्सर गंदा कर रहे हैं। यही है, वे अक्सर डेटा है कि शोधकर्ताओं के लिए ब्याज की वास्तविक कार्यों को प्रतिबिंबित नहीं करते शामिल हैं। कई सामाजिक वैज्ञानिकों को पहले से ही बड़े पैमाने पर सामाजिक सर्वेक्षण के आंकड़ों की सफाई, लेकिन बड़ा डेटा स्रोतों की सफाई है दो कारणों के लिए और अधिक कठिन करने की प्रक्रिया से परिचित हैं: 1) वे 2) के शोधकर्ताओं शोधकर्ताओं के लिए शोधकर्ताओं और द्वारा नहीं बनाया गया आम तौर पर कैसे की कम समझ है वे बनाए गए थे।

गंदा डिजिटल ट्रेस डेटा के खतरों के पीछे और 'सहयोगियों से यह साफ कर रहे हैं (2010) 11 सितंबर के हमलों के लिए भावनात्मक प्रतिक्रिया 2001 शोधकर्ता आम तौर पर महीनों या वर्षों से एकत्र पूर्वव्यापी डेटा का उपयोग कर दुखद घटनाओं की प्रतिक्रिया का अध्ययन का अध्ययन। लेकिन, पीठ और उनके सहयोगियों ने 85,000 अमेरिकी से एक हमेशा पर डिजिटल निशान-timestamped का स्रोत है, स्वचालित रूप से दर्ज संदेशों पाया पेजर और इस शोधकर्ताओं ने एक बहुत महीन timescale पर भावनात्मक प्रतिक्रिया का अध्ययन करने के लिए सक्षम होना चाहिए। पीठ और सहयोगियों के लिए (1) उदासी से संबंधित शब्दों के प्रतिशत के आधार पर पेजर संदेशों के भावनात्मक सामग्री कोडिंग से एक मिनट-दर-मिनट सितंबर 11 वीं भावनात्मक समय बनाया (जैसे, रो रही है, दु: ख), (2) चिंता (जैसे, चिंतित, भयभीत), और (3) क्रोध (जैसे, नफरत, महत्वपूर्ण)। उन्होंने पाया कि उदासी और चिंता एक मजबूत पैटर्न के बिना दिन भर में उतार-चढ़ाव, लेकिन दिन भर में गुस्से में एक हड़ताली वृद्धि हुई थी। मानक तरीकों का उपयोग कर यह एक अप्रत्याशित घटना के लिए तत्काल प्रतिक्रिया के इस तरह के एक उच्च संकल्प समय है करने के लिए असंभव हो जाएगा: इस शोध हमेशा पर डेटा स्रोतों की शक्ति का एक अद्भुत उदाहरण हो रहा है।

सिर्फ एक साल बाद, हालांकि, सिंथिया Pury (2011) के आंकड़ों पर अधिक ध्यान से देखा। उसे पता चला कि माना जाता है कि गुस्से में संदेशों की एक बड़ी संख्या के लिए एक एकल पेजर द्वारा उत्पन्न किया गया है और वे सभी समान थे। यहाँ क्या उन माना जाता है कि गुस्से में संदेशों कहा है:

"रिबूट NT मशीन में मंत्रिमंडल [नाम] [नाम] पर [स्थान]: महत्वपूर्ण: [दिनांक और समय]"

इन संदेशों को गुस्सा लेबल थे, क्योंकि वे शब्द "महत्वपूर्ण" है, जो आम तौर पर क्रोध का संकेत मिलता है लेकिन इस मामले में ऐसा नहीं करता हो सकते हैं शामिल थे। इस एक स्वचालित पेजर द्वारा उत्पन्न संदेशों को हटाने के लिए पूरी तरह से दिन (चित्रा 2.2) के पाठ्यक्रम पर गुस्से में स्पष्ट वृद्धि समाप्त। दूसरे शब्दों में, में मुख्य परिणाम Back, Küfner, and Egloff (2010) एक पेजर का एक artifact था। इस उदाहरण के रूप में दिखाता है, अपेक्षाकृत जटिल और गन्दा डेटा की अपेक्षाकृत सरल विश्लेषण गंभीरता से गलत जाने की क्षमता है।

2.2 चित्रा: 11 सितंबर, 2001 के पाठ्यक्रम 85,000 अमेरिकी पेजर के आधार पर गुस्से में अनुमानित रुझान (वापस, Küfner, और Egloff 2010, Pury 2011; वापस, Küfner, और Egloff 2011)। मूल रूप से, वापस, Küfner, और Egloff (2010) दिन भर में गुस्से में वृद्धि का एक पैटर्न की सूचना दी। महत्वपूर्ण: [दिनांक और समय] [स्थान] पर कैबिनेट में रिबूट NT मशीन [नाम] [नाम]: हालांकि, इन स्पष्ट गुस्सा संदेशों में से अधिकांश एक एकल पेजर कि बार बार निम्न संदेश बाहर भेजा द्वारा उत्पन्न किया गया। इस संदेश के साथ हटाया, क्रोध में स्पष्ट वृद्धि गायब हो जाता है (Pury 2011; वापस, Küfner, और Egloff 2011)। यह आंकड़ा Pury (2011) में छवि 1 बी के एक प्रजनन है।

2.2 चित्रा: 11 सितंबर, 2001 के पाठ्यक्रम 85,000 अमेरिकी पेजर के आधार पर गुस्से में अनुमानित प्रवृत्तियों (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) । मूल रूप से, Back, Küfner, and Egloff (2010) दिन भर में गुस्से में वृद्धि का एक पैटर्न की सूचना दी। "रिबूट NT मशीन [नाम] में मंत्रिमंडल [नाम] [स्थान] में:: महत्वपूर्ण: [दिनांक और समय]" हालांकि, इन स्पष्ट गुस्सा संदेशों में से अधिकांश एक एकल पेजर कि बार बार निम्न संदेश बाहर भेजा द्वारा उत्पन्न किया गया। इस संदेश के साथ हटाया, क्रोध में स्पष्ट वृद्धि गायब हो जाता है (Pury 2011; Back, Küfner, and Egloff 2011) । इस आंकड़े में छवि 1 बी के एक प्रजनन है Pury (2011)

एक हद तक सावधान शोधकर्ता द्वारा गंदे डेटा है कि एक शोर से के रूप में अनजाने में इस तरह बनाई गई है पेजर-पता लगाया जा सकता है, वहाँ भी कुछ ऑनलाइन प्रणाली है कि जानबूझकर स्पैमर्स को आकर्षित कर रहे हैं। ये स्पैमर्स सक्रिय रूप से नकली डेटा उत्पन्न, और अक्सर लाभ का काम बहुत मुश्किल से प्रेरित उनकी स्पैमिंग छुपा रखने के लिए। उदाहरण के लिए, ट्विटर पर राजनीतिक गतिविधि कम से कम कुछ हद तक परिष्कृत स्पैम, जिससे कुछ राजनीतिक कारणों जानबूझकर अधिक लोकप्रिय तुलना में वे वास्तविक हैं देखने के लिए बना रहे हैं को शामिल करने के लिए लगता है (Ratkiewicz et al. 2011) । डेटा के साथ काम कर रहे शोधकर्ताओं कि जानबूझकर स्पैम हो सकता है अपने दर्शकों है कि वे पता लगाया और प्रासंगिक स्पैम को हटा दिया है समझाने की चुनौती का सामना करना पड़ता है।

अंत में, क्या माना जाता है गंदा डेटा अपने अनुसंधान के सवालों पर सूक्ष्म तरीके में निर्भर कर सकते हैं। उदाहरण के लिए, विकिपीडिया के कई संपादन स्वचालित बॉट द्वारा बनाई गई हैं (Geiger 2014) । आप विकिपीडिया की पारिस्थितिकी में रुचि रखते हैं, तो इन बोट्स महत्वपूर्ण हैं। लेकिन, अगर आप में मनुष्य कैसे विकिपीडिया के योगदान रुचि रखते हैं, इन इन बॉट द्वारा बनाया संपादन बाहर रखा जाना चाहिए।

मूर्ख बनाया जा रहा से बचने के लिए सबसे अच्छे तरीके से गंदे डेटा को समझने के लिए कैसे अपने डेटा ऐसे सरल तितर बितर भूखंडों बनाने के रूप में सरल, खोजपूर्ण विश्लेषण प्रदर्शन करने के लिए बनाया गया है।