2.3.2.6 फोहर

ठूलो डाटा स्रोतहरु जंक र स्पैम संग लोड गर्न सकिँदैन।

केही अनुसन्धानकर्ताहरूले ठूलो डाटा स्रोतहरु, अनलाइन स्रोतबाट विशेष गरी ती, तिनीहरूले स्वतः संकलित छन् किनभने प्राचीन हो भन्ने विश्वास गर्छन्। वास्तवमा, जसले ठूलो डाटा स्रोतहरु संग काम गरेको छ मानिसहरू प्रायः फोहोर छन् भनेर थाह छ। तिनीहरूले बारम्बार अनुसन्धानकर्ताहरूले गर्न चासो वास्तविक कार्यहरू प्रतिबिम्बित छैन भनेर डेटा समावेश, छ। सामान्यतया कसरी कम समझ छ 1) तिनीहरूले अनुसन्धानकर्ताहरूले लागि अनुसन्धानकर्ताहरूले र 2) अनुसन्धानकर्ताहरूले द्वारा सिर्जना थिएनन्: धेरै सामाजिक वैज्ञानिकहरूले ठूलो मात्रा सामाजिक सर्वेक्षण दुई कारण गाह्रो सफाई, तर ठूलो डाटा स्रोतहरु सफाई छ को प्रक्रिया परिचित पहिले नै ती सृष्टि थिए।

फोहोर डिजिटल ट्रेस डेटा को खतराबाट फिर्ता र सहयोगिहरु 'सचित्र छन् (2010) 2001. अनुसन्धानकर्ताहरूले सामान्यतया दुःखद घटनाहरू महिना वा वर्ष संकलित पूर्वव्यापी डाटा प्रयोग प्रतिक्रिया अध्ययन सेप्टेम्बर 11, को आक्रमण गर्न भावनात्मक प्रतिक्रिया को अध्ययन। तर, फिर्ता र सहयोगिहरु 85.000 अमेरिकी एक सधैं-डिजिटल निशान-को timestamped को स्रोत, स्वचालित रूपमा रेकर्ड सन्देशहरू फेला सेल-र यो एक धेरै बेहतर timescale मा भावनात्मक प्रतिक्रिया अध्ययन गर्न शोधकर्ताओं सक्षम। फिर्ता र सहयोगिहरु (1) दुःख सम्बन्धित शब्द प्रतिशत द्वारा पेजर सन्देशहरू को भावनात्मक सामग्री कोडिङ गरेर सेप्टेम्बर 11 औं को एक मिनेट-द्वारा-मिनेट भावनात्मक समय सिर्जना (जस्तै, रो, शोक), (2) चिन्ता (जस्तै, चिन्तित, डरलाग्दो), र (3) क्रोध (जस्तै, घृणा, महत्वपूर्ण)। तिनीहरूले दुःख र चिन्ता बलियो ढाँचा बिना दिन भर fluctuated भेट्टाए, तर त्यहाँ दिन भर रिसाएर एक हडताली वृद्धि भएको थियो। यो अनपेक्षित घटना गर्न तत्काल प्रतिक्रिया को यस्तो उच्च संकल्प समयरेखा गर्न असम्भव हुनेछ मानक विधिहरू प्रयोग: यो अनुसन्धान सधैं-डाटा स्रोतहरु को शक्ति को एक अद्भुत दृष्टान्त जस्तो देखिन्छ।

केवल एक वर्ष पछि, तथापि, Cynthia Pury (2011) डाटा थप ध्यान देख्यो। त्यो मानिन्छ क्रोधित सन्देशहरू को एक ठूलो संख्या एक पेजर द्वारा उत्पन्न र तिनीहरू सबै समान थिए थिए फेला पारेका। यहाँ ती मानिन्छ क्रोधित सन्देशहरू भने के:

"पुन: बुट NT मिसिन कैबिनेट [नाम] मा [नाम] मा [स्थान]: गंभीर [मिति र समय]"

तिनीहरूले सामान्यतया रिस संकेत तर यो मामला मा गर्दैन सक्छ जो शब्द "गंभीर", समावेश किनभने यी सन्देशहरू क्रोधित लेबल थिए। यो एकल स्वचालित पेजर द्वारा उत्पन्न सन्देशहरू हटाउँदै पूर्ण दिन (चित्रा 2.2) को पाठ्यक्रम भन्दा रिस मा स्पष्ट वृद्धि समाप्त। अर्को शब्दमा, मा मुख्य परिणाम Back, Küfner, and Egloff (2010) एक पेजर को एक शिल्पकृति थियो। यो उदाहरण देखाउँछ रूपमा, अपेक्षाकृत जटिल र गंदा डाटा को अपेक्षाकृत सरल विश्लेषण गम्भीर गलत जान सम्भावित छ।

आंकडा 2.2: 85,000 अमेरिकी सेल आधारित सेप्टेम्बर 11, 2001 को जीवनशैलीको रिसाएर अनुमानित रुझान (फिर्ता, Küfner, र Egloff 2010; Pury 2011; फिर्ता, Küfner, र Egloff 2011)। सुरुमा फिर्ता, Küfner, र Egloff (2010) को दिन भर रिस वृद्धि को ढाँचा रिपोर्ट। गंभीर: [मिति र समय] [स्थान] मा पुन: बुट NT मिसिन [नाम] [नाम] कैबिनेट: तर, यी स्पष्ट क्रोधित सन्देशहरू को सबै भन्दा बारम्बार बाहिर निम्न सन्देश पठाउनुभएको छ कि एकल पेजर द्वारा उत्पन्न भएको थियो। यो सन्देश हटाइएको, रिस मा स्पष्ट वृद्धि गायब (Pury 2011; फिर्ता, Küfner, र Egloff 2011)। यो आंकडा Pury (2011) मा नेभाराको 1B एक प्रजनन छ।

आंकडा 2.2: 85,000 अमेरिकी सेल आधारित सेप्टेम्बर 11, 2001 को जीवनशैलीको रिसाएर अनुमानित रुझान (Back, Küfner, and Egloff 2010; Pury 2011; Back, Küfner, and Egloff 2011) । सुरुमा Back, Küfner, and Egloff (2010) को दिन भर रिस वृद्धि को ढाँचा रिपोर्ट। "पुन: बुट NT मिसिन [नाम] [स्थान] मा कैबिनेट [नाम] मा: गंभीर [मिति र समय]" तर, यी स्पष्ट क्रोधित सन्देशहरू को सबै भन्दा बारम्बार निम्न सन्देश बाहिर पठाएको एकल पेजर द्वारा उत्पन्न भएको थियो। यो सन्देश हटाइएको, रिस मा स्पष्ट वृद्धि गायब (Pury 2011; Back, Küfner, and Egloff 2011) । यो संख्या मा नेभाराको 1B एक प्रजनन छ Pury (2011)

जब एउटा हल्ला देखि रूपमा थाहै नपाई-यस्तो सिर्जना गरिएको छ कि फोहोर डाटा पेजर-सक्छन् एक reasonably होसियार शोधकर्ता पत्ता हुन, त्यहाँ पनि जानिजानि स्पैमर्स आकर्षित केही अनलाइन सिस्टम हो। यी स्पैमर्स सक्रिय नक्कली डाटा उत्पन्न, र-अक्सर आफ्नो स्पैमिंग लुकाइन् राख्न लाभ-काम धेरै गाह्रो उत्प्रेरित। उदाहरणका लागि, ट्विटर मा राजनीतिक गतिविधि कम्तिमा केही reasonably परिष्कृत स्पाम, जसद्वारा केही राजनीतिक कारण जानीबुझी तिनीहरूले वास्तविक भन्दा बढी लोकप्रिय हेर्न गरिन्छ समावेश देखिन्छ (Ratkiewicz et al. 2011) । अनुसन्धानकर्ताहरूले डाटा संग काम जानिजानि स्पाम समावेश हुन सक्छ कि उनि पत्ता र सान्दर्भिक स्पाम हटाइएको छ कि आफ्नो दर्शक पत्यार पार्र्ने को चुनौती सामना।

अन्तमा, मानिन्छ के फोहोर डाटा आफ्नो अनुसन्धान प्रश्नहरू मा सूक्ष्म तरिकामा भर पर्न सक्छौं। उदाहरणका लागि, विकिपीडिया गर्न धेरै सम्पादन स्वचालित Bots द्वारा बनाईएको हो (Geiger 2014) । तपाईं विकिपीडिया को पारिस्थितिकी रुचि हो भने यी Bots महत्त्वपूर्ण छन्। तर, तपाईं मानिसहरूलाई विकिपीडिया योगदान कसरी रुचि हो भने, यी Bots गरेको यी सम्पादन बहिष्कृत गर्नुपर्छ।

द्वारा फोहोर डाटा आफ्नो डेटा सरल स्क्याटर जायदाद बनाउन रूपमा, सरल खोजपूर्ण विश्लेषण गर्न कसरी सिर्जना बुझ्न छन् झुक्काएका भइरहेको सबै भन्दा राम्रो जोगिन।