ठूलो डाटा स्रोतहरु जंक र स्पैम संग लोड गर्न सकिँदैन।
केही अनुसन्धानकर्ताहरूले ठूलो डाटा स्रोतहरु, अनलाइन स्रोतबाट विशेष गरी ती, तिनीहरूले स्वतः संकलित छन् किनभने प्राचीन हो भन्ने विश्वास गर्छन्। वास्तवमा, जसले ठूलो डाटा स्रोतहरु संग काम गरेको छ मानिसहरू प्रायः फोहोर छन् भनेर थाह छ। तिनीहरूले बारम्बार अनुसन्धानकर्ताहरूले गर्न चासो वास्तविक कार्यहरू प्रतिबिम्बित छैन भनेर डेटा समावेश, छ। सामान्यतया कसरी कम समझ छ 1) तिनीहरूले अनुसन्धानकर्ताहरूले लागि अनुसन्धानकर्ताहरूले र 2) अनुसन्धानकर्ताहरूले द्वारा सिर्जना थिएनन्: धेरै सामाजिक वैज्ञानिकहरूले ठूलो मात्रा सामाजिक सर्वेक्षण दुई कारण गाह्रो सफाई, तर ठूलो डाटा स्रोतहरु सफाई छ को प्रक्रिया परिचित पहिले नै ती सृष्टि थिए।
फोहोर डिजिटल ट्रेस डेटा को खतराबाट फिर्ता र सहयोगिहरु 'सचित्र छन् (2010) 2001. अनुसन्धानकर्ताहरूले सामान्यतया दुःखद घटनाहरू महिना वा वर्ष संकलित पूर्वव्यापी डाटा प्रयोग प्रतिक्रिया अध्ययन सेप्टेम्बर 11, को आक्रमण गर्न भावनात्मक प्रतिक्रिया को अध्ययन। तर, फिर्ता र सहयोगिहरु 85.000 अमेरिकी एक सधैं-डिजिटल निशान-को timestamped को स्रोत, स्वचालित रूपमा रेकर्ड सन्देशहरू फेला सेल-र यो एक धेरै बेहतर timescale मा भावनात्मक प्रतिक्रिया अध्ययन गर्न शोधकर्ताओं सक्षम। फिर्ता र सहयोगिहरु (1) दुःख सम्बन्धित शब्द प्रतिशत द्वारा पेजर सन्देशहरू को भावनात्मक सामग्री कोडिङ गरेर सेप्टेम्बर 11 औं को एक मिनेट-द्वारा-मिनेट भावनात्मक समय सिर्जना (जस्तै, रो, शोक), (2) चिन्ता (जस्तै, चिन्तित, डरलाग्दो), र (3) क्रोध (जस्तै, घृणा, महत्वपूर्ण)। तिनीहरूले दुःख र चिन्ता बलियो ढाँचा बिना दिन भर fluctuated भेट्टाए, तर त्यहाँ दिन भर रिसाएर एक हडताली वृद्धि भएको थियो। यो अनपेक्षित घटना गर्न तत्काल प्रतिक्रिया को यस्तो उच्च संकल्प समयरेखा गर्न असम्भव हुनेछ मानक विधिहरू प्रयोग: यो अनुसन्धान सधैं-डाटा स्रोतहरु को शक्ति को एक अद्भुत दृष्टान्त जस्तो देखिन्छ।
केवल एक वर्ष पछि, तथापि, Cynthia Pury (2011) डाटा थप ध्यान देख्यो। त्यो मानिन्छ क्रोधित सन्देशहरू को एक ठूलो संख्या एक पेजर द्वारा उत्पन्न र तिनीहरू सबै समान थिए थिए फेला पारेका। यहाँ ती मानिन्छ क्रोधित सन्देशहरू भने के:
"पुन: बुट NT मिसिन कैबिनेट [नाम] मा [नाम] मा [स्थान]: गंभीर [मिति र समय]"
तिनीहरूले सामान्यतया रिस संकेत तर यो मामला मा गर्दैन सक्छ जो शब्द "गंभीर", समावेश किनभने यी सन्देशहरू क्रोधित लेबल थिए। यो एकल स्वचालित पेजर द्वारा उत्पन्न सन्देशहरू हटाउँदै पूर्ण दिन (चित्रा 2.2) को पाठ्यक्रम भन्दा रिस मा स्पष्ट वृद्धि समाप्त। अर्को शब्दमा, मा मुख्य परिणाम Back, Küfner, and Egloff (2010) एक पेजर को एक शिल्पकृति थियो। यो उदाहरण देखाउँछ रूपमा, अपेक्षाकृत जटिल र गंदा डाटा को अपेक्षाकृत सरल विश्लेषण गम्भीर गलत जान सम्भावित छ।
जब एउटा हल्ला देखि रूपमा थाहै नपाई-यस्तो सिर्जना गरिएको छ कि फोहोर डाटा पेजर-सक्छन् एक reasonably होसियार शोधकर्ता पत्ता हुन, त्यहाँ पनि जानिजानि स्पैमर्स आकर्षित केही अनलाइन सिस्टम हो। यी स्पैमर्स सक्रिय नक्कली डाटा उत्पन्न, र-अक्सर आफ्नो स्पैमिंग लुकाइन् राख्न लाभ-काम धेरै गाह्रो उत्प्रेरित। उदाहरणका लागि, ट्विटर मा राजनीतिक गतिविधि कम्तिमा केही reasonably परिष्कृत स्पाम, जसद्वारा केही राजनीतिक कारण जानीबुझी तिनीहरूले वास्तविक भन्दा बढी लोकप्रिय हेर्न गरिन्छ समावेश देखिन्छ (Ratkiewicz et al. 2011) । अनुसन्धानकर्ताहरूले डाटा संग काम जानिजानि स्पाम समावेश हुन सक्छ कि उनि पत्ता र सान्दर्भिक स्पाम हटाइएको छ कि आफ्नो दर्शक पत्यार पार्र्ने को चुनौती सामना।
अन्तमा, मानिन्छ के फोहोर डाटा आफ्नो अनुसन्धान प्रश्नहरू मा सूक्ष्म तरिकामा भर पर्न सक्छौं। उदाहरणका लागि, विकिपीडिया गर्न धेरै सम्पादन स्वचालित Bots द्वारा बनाईएको हो (Geiger 2014) । तपाईं विकिपीडिया को पारिस्थितिकी रुचि हो भने यी Bots महत्त्वपूर्ण छन्। तर, तपाईं मानिसहरूलाई विकिपीडिया योगदान कसरी रुचि हो भने, यी Bots गरेको यी सम्पादन बहिष्कृत गर्नुपर्छ।
द्वारा फोहोर डाटा आफ्नो डेटा सरल स्क्याटर जायदाद बनाउन रूपमा, सरल खोजपूर्ण विश्लेषण गर्न कसरी सिर्जना बुझ्न छन् झुक्काएका भइरहेको सबै भन्दा राम्रो जोगिन।