2.3.1.1 ठूलो

ठूलो डेटासेट अन्त एक माध्यम हो; तिनीहरू अन्त छैन।

ठूलो डाटा तीन राम्रो रूपको पहिलो सबैभन्दा छलफल छ: यी ठूलो डाटा छन्। धेरै मान्छे, प्रति व्यक्ति जानकारी को धेरै छ, वा समय धेरै अवलोकन: यी डाटा स्रोतहरु तीन विभिन्न तरिकामा ठूलो हुन सक्छ। ठूलो डेटासेटको भएको दुर्लभ घटनाहरू अध्ययन सानो मतभेद पत्ता, र अवलोकनीय डाटा देखि causal अनुमान बनाउन, अनुसन्धान-नाप्ने heterogeneity केही विशेष प्रकारका सक्षम बनाउँछ। यो पनि क्रमहीनता को एक विशेष प्रकारको नेतृत्व देखिन्छ।

आकार विशेष उपयोगी छ जसको लागि पहिलो कुरा विशिष्ट उपसमूहहरु लागि अनुमान गर्न औसत परे सार्दा छ। उदाहरणका लागि, गैरी राजा, जेनिफर पान, र मली रॉबर्ट्स (2013) चीन मा सामाजिक मिडिया पोस्ट सरकार द्वारा सेन्सर हुनेछ भनेर सम्भावनालाई मापन। आफैमा मेटाउने यो औसत सम्भावना छैन समझ सरकार किन केही पोस्ट तर अरूलाई censors लागि धेरै उपयोगी छ। तर, आफ्नो डेटासेटको 11 लाख पोस्ट समावेश किनभने, राजा र सहयोगिहरु पनि 85 अलग विभाग (जस्तै, अश्लील, तिब्बत, र बेइजिङ ट्राफिक) मा पोस्ट को लागि जाच्ने र काटछाट गर्ने को सम्भावना लागि अनुमान उत्पादन। विभिन्न विभाग मा पोस्ट को लागि जाच्ने र काटछाट गर्ने को सम्भावना तुलना गरेर, तिनीहरूले सरकार पोस्ट प्रकारको कसरी र किन censors बारेमा थप बुझ्न सके। 11 हजार पोस्ट (11 लाख भन्दा पोष्टहरू) तिनीहरूले यी वर्ग-विशेष अनुमान उत्पादन गर्न सकेको थियो।

दोस्रो, आकार दुर्लभ घटनाहरूको अध्ययन छ लागि विशेष उपयोगी छ। उदाहरणका लागि, Goel र सहयोगिहरु (2015) भन्ने ट्विट भाइरल जान सक्नुहुन्छ विभिन्न तरिकामा अध्ययन गर्न चाहन्थे। पुन ट्वीट को ठूलो Cascades एक मा अत्यन्तै दुर्लभ-बारे एक हो किनभने 3,000-आफ्नो विश्लेषण लागि पर्याप्त ठूलो Cascades पत्ता लगाएर एक भन्दा बढी अर्ब ट्वीट अध्ययन गर्न आवश्यक थियो।

तेस्रो, ठूलो डेटासेट अनुसन्धानकर्ताहरूले सानो मतभेद पत्ता लगाउन सक्षम। मजबूती एक विज्ञापन बीच 1% र 1.1% क्लिक माध्यम दर फरक पत्ता अतिरिक्त राजस्व करोडौं डलर अनुवाद गर्न सक्नुहुन्छ: वास्तवमा, उद्योग मा ठूलो डाटा मा ध्यान धेरै यी साना मतभेद बारेमा छ। केही वैज्ञानिक सेटिङमा, यस्तो सानो मतभेद विशेष महत्त्वपूर्ण हुन सक्छ (तिनीहरूले सांख्यिकीय महत्वपूर्ण छन् भने पनि)। तर, केही नीति मा, यस्तो सानो मतभेद महत्त्वपूर्ण गर्दा समग्र हेरिएको बन्न सक्छ। उदाहरणका लागि, यदि त्यहाँ दुई सार्वजनिक स्वास्थ्य उपायहरु र एक छ, त्यसपछि अझ प्रभावकारी हस्तक्षेप अतिरिक्त जीवन हजारौं बचत अन्त सक्छ स्विच छन् अन्य भन्दा अलिकति बढी प्रभावकारी।

अन्तमा, ठूलो डाटा सेट निकै अवलोकनीय डाटा देखि causal अनुमान गर्ने हाम्रो क्षमतामा वृद्धि। हुनत ठूलो डेटासेट मौलिक, अवलोकनीय डाटा देखि causal inference बनाउन मिल्ने र प्राकृतिक प्रयोगहरू-दुई प्रविधी अनुसन्धानकर्ताहरूले अवलोकनीय देखि causal दावी बनाउन लागि विकास गरेको डाटा-दुवै निकै ठूलो डेटासेट लाभ उठाउन संग समस्या परिवर्तन छैन। म व्याख्या र जब म अनुसन्धान रणनीति वर्णन यस अध्यायमा पछि ठूलो विवरण यो दावी चित्रण छौँ।

bigness साधारण गर्दा सही प्रयोग राम्रो सम्पत्ति छ तापनि, म bigness सामान्यतः एक वैचारिक त्रुटि निम्त्याउँछ याद गर्नुभएको छ। केही कारणले, bigness आफ्नो डाटा उत्पन्न भएको थियो कसरी बेवास्ता गर्न अनुसन्धानकर्ताहरूले नेतृत्व देखिन्छ। Bigness अनियमित त्रुटि चिन्ता आवश्यकता कम गर्छ, यो, म त्यो तल थप मा वर्णन छौँ कि त्रुटिहरू को प्रकार पक्षपात कसरी डाटा सिर्जना र संकलित छन् मा खडा वास्तवमा व्यवस्थित त्रुटिहरू चिन्ता आवश्यकता बढ्छ। एउटा सानो डेटासेटमा अनियमित त्रुटि र व्यवस्थित त्रुटि दुवै, महत्वपूर्ण हुन सक्छ, तर एक ठूलो डेटासेटको अनियमित त्रुटि टाढा औसत सक्छ हुन र व्यवस्थित त्रुटि हावी छ। व्यवस्थित त्रुटि गलत कुरा यथार्थ अनुमान प्राप्त गर्न आफ्नो ठूलो डेटासेट प्रयोग अन्त हुनेछ सोच्न नगर्ने अनुसन्धानकर्ताहरूले; तिनीहरूले ठीक गलत हुनेछ (McFarland and McFarland 2015)