बड़े डेटासेट का अंत करने के लिए एक साधन हैं; वे अपने आप में एक अंत नहीं कर रहे हैं।
बड़े डेटा स्रोतों की सबसे व्यापक रूप से चर्चा की गई विशेषता यह है कि वे बड़े हैं। उदाहरण के लिए, कई कागजात चर्चा करते हैं- और कभी-कभी ब्रैगिंग-उनके द्वारा विश्लेषण किए गए डेटा के बारे में। उदाहरण के लिए, Google पुस्तकें कॉर्पस में शब्द-उपयोग के रुझानों का अध्ययन करने वाले विज्ञान में प्रकाशित एक पेपर में निम्नलिखित शामिल हैं (Michel et al. 2011) :
"[हमारे] कॉर्पस में 500 अरब से अधिक शब्द हैं, अंग्रेजी (361 अरब), फ्रेंच (45 अरब), स्पेनिश (45 अरब), जर्मन (37 अरब), चीनी (13 अरब), रूसी (35 अरब), और हिब्रू (2 अरब)। सबसे पुराने काम 1500 के दशक में प्रकाशित किए गए थे। शुरुआती दशकों का प्रतिनिधित्व प्रति वर्ष केवल कुछ किताबों द्वारा किया जाता है, जिसमें कई सौ शब्द शामिल होते हैं। 1800 तक, कॉर्पस प्रति वर्ष 98 मिलियन शब्द बढ़ता है; 1 9 00 तक 1.8 बिलियन; और 2000 तक, 11 अरब। कॉर्पस मानव द्वारा नहीं पढ़ा जा सकता है। यदि आपने अकेले वर्ष 2000 से केवल अंग्रेजी भाषा प्रविष्टियों को पढ़ने की कोशिश की, तो 200 शब्दों / मिनट की उचित गति से, भोजन या नींद के बावजूद, इसमें 80 साल लगेंगे। अक्षरों का अनुक्रम मानव जीनोम से 1000 गुना लंबा है: यदि आपने इसे सीधे सीधी रेखा में लिखा है, तो यह चंद्रमा तक पहुंच जाएगा और 10 गुना अधिक होगा। "
इस डेटा का स्तर निस्संदेह प्रभावशाली है, और हम सभी भाग्यशाली हैं कि Google पुस्तक टीम ने इन आंकड़ों को जनता को जारी कर दिया है (वास्तव में, इस अध्याय के अंत में कुछ गतिविधियां इस डेटा का उपयोग करती हैं)। लेकिन, जब भी आप ऐसा कुछ देखते हैं तो आपको पूछना चाहिए: क्या वह डेटा वास्तव में कुछ भी कर रहा है? क्या वे एक ही शोध कर सकते हैं यदि डेटा चंद्रमा तक पहुंच सकता है और केवल एक बार वापस आ सकता है? क्या होगा यदि डेटा केवल माउंट एवरेस्ट या एफिल टॉवर के शीर्ष तक पहुंच सके?
इस मामले में, वास्तव में, उनके शोध में कुछ निष्कर्ष होते हैं जिनके लिए लंबे समय तक शब्दों का एक बड़ा हिस्सा आवश्यक होता है। उदाहरण के लिए, एक चीज जिसे वे एक्सप्लोर करते हैं वह व्याकरण का विकास है, विशेष रूप से अनियमित क्रिया संयोग की दर में परिवर्तन करता है। चूंकि कुछ अनियमित क्रियाएं काफी दुर्लभ हैं, इसलिए समय के साथ परिवर्तनों का पता लगाने के लिए बड़ी मात्रा में डेटा की आवश्यकता होती है। हालांकि, अक्सर, शोधकर्ता बड़े डेटा स्रोत के आकार को अंत के रूप में देखते हैं- "देखो कि मैं कितना डेटा क्रंच कर सकता हूं" - कुछ और महत्वपूर्ण वैज्ञानिक उद्देश्यों के माध्यम से।
मेरे अनुभव में, दुर्लभ घटनाओं का अध्ययन तीन विशिष्ट वैज्ञानिक सिरों में से एक है जो बड़े डेटासेट सक्षम होते हैं। दूसरा विषमता का अध्ययन है, जैसा कि संयुक्त राज्य अमेरिका में सामाजिक गतिशीलता पर राज चेटी और सहयोगियों (2014) द्वारा किए गए एक अध्ययन द्वारा सचित्र किया जा सकता है। अतीत में, कई शोधकर्ताओं ने माता-पिता और बच्चों के जीवन परिणामों की तुलना करके सामाजिक गतिशीलता का अध्ययन किया है। इस साहित्य से एक निरंतर खोज यह है कि फायदेमंद माता-पिता के पास फायदेमंद बच्चे होते हैं, लेकिन इस संबंध की ताकत समय और पूरे देशों में भिन्न होती है (Hout and DiPrete 2006) । हाल ही में, हालांकि, चेटी और सहयोगी संयुक्त राज्य अमेरिका के क्षेत्रों में अंतरजन्य गतिशीलता में विषमता का अनुमान लगाने के लिए 40 मिलियन लोगों से कर रिकॉर्ड का उपयोग करने में सक्षम थे (आंकड़ा 2.1)। उदाहरण के लिए, उन्होंने पाया कि एक बच्चा नीचे की क्विंटाइल में परिवार से शुरू होने वाले राष्ट्रीय आय वितरण के शीर्ष क्विंटाइल तक पहुंचने की संभावना सैन जोस, कैलिफ़ोर्निया में लगभग 13% है, लेकिन उत्तरी कैरोलिना के शार्लोट में केवल 4% है। यदि आप एक पल के लिए आकृति 2.1 देखते हैं, तो आप आश्चर्यचकित हो सकते हैं कि दूसरों की तुलना में कुछ स्थानों पर अंतःक्रियाशील गतिशीलता क्यों अधिक है। चेटी और सहयोगियों के पास बिल्कुल वही सवाल था, और उन्होंने पाया कि उच्च गतिशीलता क्षेत्रों में कम आवासीय अलगाव, कम आय असमानता, बेहतर प्राथमिक विद्यालय, अधिक सामाजिक पूंजी, और अधिक पारिवारिक स्थिरता है। बेशक, ये सहसंबंध अकेले नहीं दिखाते हैं कि ये कारक उच्च गतिशीलता का कारण बनते हैं, लेकिन वे संभावित तंत्र का सुझाव देते हैं जिन्हें आगे के काम में खोजा जा सकता है, जो कि बाद में काम में चेटी और सहयोगियों ने किया है। ध्यान दें कि इस परियोजना में डेटा का आकार वास्तव में महत्वपूर्ण था। यदि चेटी और सहयोगियों ने 40 मिलियन लोगों के बजाय 40 हजार लोगों के कर रिकॉर्ड का उपयोग किया था, तो वे क्षेत्रीय विषमता का आकलन करने में सक्षम नहीं होते थे और वे इस बदलाव को बनाने वाले तंत्र की पहचान करने के लिए बाद के शोध करने में सक्षम नहीं होते।
अंत में, दुर्लभ घटनाओं का अध्ययन करने और विषमता का अध्ययन करने के अलावा, बड़े डेटासेट भी शोधकर्ताओं को छोटे मतभेदों का पता लगाने में सक्षम बनाता है। वास्तव में, उद्योग में बड़े डेटा पर अधिक ध्यान इन छोटे अंतरों के बारे में है: एक विज्ञापन पर 1% और 1.1% क्लिक-थ्रू दर के बीच अंतर का पता लगाने से अतिरिक्त राजस्व में लाखों डॉलर में अनुवाद किया जा सकता है। हालांकि, कुछ वैज्ञानिक सेटिंग्स में, ऐसे छोटे मतभेद विशेष रूप से महत्वपूर्ण नहीं हो सकते हैं, भले ही वे सांख्यिकीय रूप से महत्वपूर्ण हैं (Prentice and Miller 1992) । लेकिन, कुछ नीति सेटिंग्स में, कुल मिलाकर देखा जाने पर वे महत्वपूर्ण हो सकते हैं। उदाहरण के लिए, यदि दो सार्वजनिक स्वास्थ्य हस्तक्षेप हैं और एक दूसरे की तुलना में थोड़ा अधिक प्रभावी है, तो अधिक प्रभावी हस्तक्षेप चुनने से हजारों अतिरिक्त जीवन बचाए जा सकते हैं।
यद्यपि सही ढंग से उपयोग किए जाने पर बिगनेस आमतौर पर एक अच्छी संपत्ति होती है, मैंने देखा है कि यह कभी-कभी एक वैचारिक त्रुटि का कारण बन सकता है। किसी कारण से, bigness शोधकर्ताओं को यह अनदेखा करने के लिए नेतृत्व करता है कि उनके डेटा कैसे उत्पन्न हुआ था। जबकि बिगनेस यादृच्छिक त्रुटि के बारे में चिंता करने की आवश्यकता को कम करता है, यह वास्तव में व्यवस्थित त्रुटियों के बारे में चिंता करने की आवश्यकता को बढ़ाता है, जो त्रुटियों के प्रकार हैं जो मैं बताऊंगा कि आंकड़ों के निर्माण में पक्षपात से उत्पन्न होता है। उदाहरण के लिए, एक परियोजना में मैं बाद में इस अध्याय में वर्णन करूंगा, शोधकर्ताओं ने 11 सितंबर 2001 को आतंकवादी हमले (Back, Küfner, and Egloff 2010) की प्रतिक्रिया के उच्च-रिज़ॉल्यूशन भावनात्मक समयरेखा का उत्पादन करने के लिए उत्पन्न संदेशों का उपयोग किया था। चूंकि शोधकर्ताओं के पास बड़ी संख्या में संदेश थे, इसलिए उन्हें वास्तव में चिंता करने की ज़रूरत नहीं थी कि वे किस पैटर्न को देखते हैं-दिन के दौरान क्रोध बढ़ाना-यादृच्छिक भिन्नता से समझाया जा सकता है। इतना डेटा था और पैटर्न इतना स्पष्ट था कि सभी सांख्यिकीय सांख्यिकीय परीक्षणों ने सुझाव दिया कि यह एक असली पैटर्न था। लेकिन, ये सांख्यिकीय परीक्षण अज्ञात थे कि डेटा कैसे बनाया गया था। वास्तव में, यह पता चला कि कई पैटर्न एक बॉट के लिए जिम्मेदार थे जो पूरे दिन अधिक से अधिक अर्थहीन संदेश उत्पन्न करता था। इस बॉट को हटाने से कागज में कुछ प्रमुख निष्कर्षों को पूरी तरह नष्ट कर दिया गया है (Pury 2011; Back, Küfner, and Egloff 2011) । काफी सरलता से, शोधकर्ता जो व्यवस्थित त्रुटि के बारे में नहीं सोचते हैं, वे एक महत्वपूर्ण मात्रा का सटीक अनुमान प्राप्त करने के लिए अपने बड़े डेटासेट का उपयोग करने का जोखिम उठाते हैं, जैसे स्वचालित बॉट द्वारा उत्पादित अर्थहीन संदेशों की भावनात्मक सामग्री।
अंत में, बड़े डेटासेट स्वयं में समाप्त नहीं होते हैं, लेकिन वे दुर्लभ घटनाओं, विषमता का अनुमान, और छोटे अंतरों का पता लगाने सहित कुछ प्रकार के शोध को सक्षम कर सकते हैं। बड़े डेटासेट्स कुछ शोधकर्ताओं को यह भी अनदेखा करते हैं कि उनका डेटा कैसे बनाया गया था, जिससे उन्हें एक महत्वपूर्ण मात्रा का सटीक अनुमान प्राप्त हो सकता है।