2.3.2.6 डर्टी

बिग डेटा स्रोत जंक आणि स्पॅम लोड केले जाऊ शकते.

काही संशोधक विश्वास मोठा डेटा स्रोत, विशेषत: त्या ऑनलाइन स्रोत पासून, ते आपोआप गोळा केली जाते कारण मूळचा आहेत. खरं तर, मोठे डेटा स्रोत काम केले आहे लोक वारंवार गलिच्छ आहेत हे मला माहीत आहे. आहे, ते वारंवार संशोधक व्याज व वास्तव क्रिया प्रतिबिंबित नाही डेटा समाविष्ट आहे. अनेक सामाजिक शास्त्रज्ञ आधीच दोन कारणांसाठी अधिक कठीण मोठ्या प्रमाणात सामाजिक सर्वेक्षण डेटा साफ, पण मोठा डेटा स्रोत स्वच्छता प्रक्रिया परिचित आहेत: 1) ते 2) संशोधक संशोधक यांच्यासाठी संशोधक आणि अस्तित्वात नव्हते साधारणपणे कसे कमी समज आहे ते तयार केले होते.

गलिच्छ डिजिटल ट्रेस डेटा धोके करून मागे आणि सहकारी 'विलयाप्रमाणे (2010) 2001 संशोधक विशेषत: महिने किंवा वर्षे गोळा पूर्वलक्ष्यी प्रभावाने डेटा वापरून शोकांतिकेचा घटना प्रतिसाद अभ्यास सप्टेंबर 11, हल्ला भावनिक प्रतिसाद अभ्यास. पण मागे व सहकारी 85,000 अमेरिकन पासून एक नेहमी डिजिटल मागोवा-timestamped स्त्रोत आपोआप रेकॉर्ड संदेश आढळले pagers आणि हे एक जास्त चांगल्या timescale वर भावनिक प्रतिसाद अभ्यास संशोधक सक्षम. परत आणि सहकारी (1) दु: ख संबंधित शब्द टक्केवारी पेजर संदेश भावनिक सामग्री कोडींग करून सप्टेंबर 11 व्या मिनिट-यांनी मिनिट भावनिक वेळेत तयार (उदा मोठ्याने ओरडून म्हणाल, दु: ख), (2) चिंता (उदा, भिती वाटत भयंकर), आणि (3) राग (उदा, द्वेष, गंभीर). ते आढळले दु: ख आणि चिंता मजबूत नमुना न दिवसभर चढउतार, पण दिवसभर संताप उल्लेखनीय वाढ झाली आहे. तो एक अनपेक्षित घटना तत्काळ प्रतिसाद अशा उच्च ठराव वेळेत अशक्य होईल मानक पद्धती वापरून: हे संशोधन नेहमी डेटा स्रोत शक्ती एक आश्चर्यकारक उदाहरण असल्याचे दिसते.

फक्त एक वर्ष नंतर, तथापि, सिंथिया Pury (2011) डेटा अधिक काळजीपूर्वक पाहिले. ती, supposedly राग संदेश मोठ्या प्रमाणात आणि एकाच पेजर व्युत्पन्न ते सर्व समान होते की शोधला. येथे त्या मानले राग संदेश काय म्हणाला आहे:

"एनटी रीबूट करा मशीन [स्थान] येथे कॅबिनेट [नाव] मध्ये [नाव]: गंभीर: [तारीख आणि वेळ]"

ते शब्द "गंभीर", साधारणपणे राग सूचित करू शकते पण या प्रकरणात नाही समाविष्ट कारण हे संदेश राग लेबल होते. या एकच स्वयंचलित पेजर व्युत्पन्न संदेश काढून पूर्णपणे दिवस (आकृती 2.2) अर्थातच संताप उघड वाढ काढून टाकते. दुसऱ्या शब्दांत, मुख्य परिणाम Back, Küfner, and Egloff (2010) एक पेजर एक मानवनिर्मित वस्तू होती. हे उदाहरण स्पष्ट म्हणून, तुलनेने क्लिष्ट आणि गुंतागुंतीचे आहे डेटा तुलनेने सोपे विश्लेषण गंभीरपणे चुकीच्या करण्याची क्षमता आहे.

आकृती 2.2 राग अंदाजे ट्रेंड सप्टेंबर 11, 2001 अर्थातच 85,000 अमेरिकन pagers आधारित प्रती (पाठ, Küfner आणि Egloff 2010 Pury 2011; पाठ, Küfner आणि Egloff 2011). मूलतः, पाठ, Küfner, आणि Egloff (2010) दिवसभर राग वाढत एक नमुना अहवाल. गंभीर: [तारीख आणि वेळ] [स्थान] येथे मंत्रिमंडळात एनटी रीबूट करा मशीन [नाव] [नाव]: तथापि, या उघड राग संदेश सर्वात वारंवार खालील संदेश पाठविले की एकाच पेजर व्युत्पन्न होते. हा संदेश काढून, राग उघड वाढ अदृश्य (Pury 2011; पाठ, Küfner आणि Egloff 2011). हा आकडा Pury (2011) मध्ये अंजीर बाईज 1 एक पुनरुत्पादन आहे.

आकृती 2.2 राग अंदाजे ट्रेंड सप्टेंबर 11, 2001 अर्थातच 85,000 अमेरिकन pagers आधारित प्रती (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) . मुळात, Back, Küfner, and Egloff (2010) दिवसभर राग वाढत एक नमुना अहवाल. "कॅबिनेट [नाव] मध्ये एनटी रीबूट करा मशीन [नाव] [स्थान] येथे: गंभीर: [तारीख आणि वेळ]" तथापि, या उघड राग संदेश सर्वात एकाच वारंवार खालील संदेश बाहेर पाठविले पेजर व्युत्पन्न होते. हा संदेश काढून, राग उघड वाढ अदृश्य (Pury 2011; Back, Küfner, and Egloff 2011) . ही आकृती मध्ये अंजीर बाईज 1 एक पुनरुत्पादन आहे Pury (2011) .

एक माफक काळजी संशोधक एक गोंगाट करणारा म्हणून अनावधानाने अशा तयार आहे गलिच्छ डेटा पेजर-शकता आढळले जाणार तर, जाणून स्पॅमर्सना आकर्षित काही ऑनलाइन प्रणाली देखील आहेत. या स्पॅमर्सना सक्रियपणे बनावट डेटा निर्माण, आणि अनेकदा त्यांच्या स्पॅम दृष्टीस ठेवणे नफा काम खूप कठीण करून प्रवृत्त केले. उदाहरणार्थ, Twitter वर राजकीय क्रियाकलाप काही राजकीय कारणे हेतुपुरस्सर ते प्रत्यक्ष अधिक लोकप्रिय दिसत केले जातात ज्यायोगे किमान काही माफक अत्याधुनिक स्पॅम समावेश दिसते (Ratkiewicz et al. 2011) . जाणून स्पॅम असू शकते डेटा काम संशोधक आढळले आणि संबंधित स्पॅम काढले आहेत त्यांचे प्रेक्षक समजावताना आव्हान.

शेवटी, काय मानले जाते गलिच्छ डेटा आपल्या संशोधन प्रश्न सूक्ष्म प्रकारे अवलंबून करू शकता. उदाहरणार्थ, विकिपीडिया अनेक संपादने स्वयंचलित सांगकामे निर्माण केले जातात (Geiger 2014) . आपण विकिपीडिया पर्यावरणाच्या स्वारस्य असल्यास, नंतर या सांगकामे महत्वाचे आहेत. पण, आपण मानवांना विकिपीडियावर आपले योगदान कसे रस असेल, तर या सांगकामे केलेल्या या संपादनांचे वगळले जाऊ नये.

फसवणुक जात टाळण्यासाठी सर्वोत्तम मार्ग गलिच्छ डेटा आपला डेटा अशा साध्या स्कॅटर भूखंड करतांना, साधी शोध विश्लेषण निर्माण केले गेले होते कसे समजून द्वारे.