2.3.1.1 बिग

मोठ्या डेटाबेस शेवट साधन आहे; ते स्वत: च शेवट नाही.

मोठे डेटा तीन चांगला वैशिष्ट्ये पहिल्या सर्वात जास्त चर्चिलेले आहे: या मोठ्या माहिती. अनेक लोक, प्रति व्यक्ती माहिती बरेच, किंवा वेळ अनेक निरीक्षणे: या डेटा स्रोत तीन वेगवेगळ्या प्रकारे मोठा असू शकते. एक मोठा डेटासेटच्या येत संशोधन-मोजण्यासाठी धक्का बसला असून रहिवासातील काही विशिष्ट प्रकारच्या सक्षम करते, दुर्मिळ, घटना अभ्यास लहान फरक शोधण्यासाठी आणि आकलनशक्तीच्या डेटा कार्यकारण भाव अंदाज बनवण्यासाठी. तो देखील sloppiness विशिष्ट प्रकारची होऊ दिसते.

आकार उपयोगी आहे जे पहिली गोष्ट विशिष्ट subgroups अंदाजपत्रकास करण्यासाठी सरासरी पलीकडे हलवून आहे. उदाहरणार्थ, गॅरी राजा, जेनिफर पॅन आणि असतंच रॉबर्ट्स (2013) संभाव्यता मोजली चीन मध्ये सामाजिक मीडिया पोस्ट सरकारने होउन होईल. स्वत: हून डिलिट हे सरासरी शक्यता सरकारने काही पोस्ट पण इतरांना सेन्सॉरने का समजून अतिशय उपयुक्त नाही. पण, त्यांच्या डेटासेटमध्ये 11 दशलक्ष पोस्ट समाविष्ट कारण, राजा आणि सहकारी 85 वेगळा गट (उदा, अश्लीलता, तिबेट, आणि बीजिंग मध्ये वाहतूक) वर पोस्ट सेन्सॉरशिप संभाव्यता अंदाजपत्रकास निर्मिती केली. वेगवेगळ्या गटांमध्ये पोस्ट सेन्सॉरशिप संभाव्यता तुलना करून, त्यांनी सरकारी पोस्ट काही विशिष्ट प्रकारचे सेन्सॉरने कसे आणि का अधिक समजून सक्षम होते. 11 हजार पोस्ट (ऐवजी 11 दशलक्ष पोस्ट), ते या वर्गात-विशिष्ट अंदाज निर्माण करण्यास सक्षम केली नसती.

दुसरी गोष्ट म्हणजे, आकार दुर्मिळ घटना शिकत आहे साठी उपयोगी आहे. उदाहरणार्थ, गोयल आणि सहकारी (2015) ट्वीट व्हायरल जाऊ शकता की विविध प्रकारे अभ्यास होते. पुन्हा ट्वीट मोठ्या ओतत रहातात अत्यंत दुर्मिळ बद्दल एक आहे कारण 3000-ते त्यांच्या विश्लेषण पुरेसे मोठे ओतत रहातात शोधण्यासाठी पेक्षा जास्त अब्ज ट्वीट अभ्यास करणे आवश्यक आहे.

तिसरा, मोठ्या डेटाबेस लहान फरक शोधण्यात संशोधक सक्षम करा. खरं तर, उद्योग मोठा डेटा लक्ष केंद्रीत हे असं लहान फरक आहे: विश्वसनीयरित्या जाहिरात दरम्यान 1% आणि 1.1% क्लिक द्वारे दर फरक शोधण्यासाठी अतिरिक्त महसूल लाखो डॉलर मध्ये अनुवादित करू शकता. काही वैज्ञानिक सेटिंग्ज मध्ये, अशा लहान फरक महत्वाचे विशिष्ट होऊ शकते (ते आकडेवारीच्या दृष्टीने महत्त्वाच्या जरी). पण काही धोरण सेटिंग्ज, अशा लहान फरक महत्वाचे एकत्रित पाहिले तेव्हा होऊ शकतात. उदाहरणार्थ, दोन सार्वजनिक आरोग्य हस्तक्षेप आणि एक आहे किंचित इतर पेक्षा अधिक प्रभावी, नंतर अधिक प्रभावी हस्तक्षेप अतिरिक्त जीवन हजारो बचत जाऊ स्विच आहेत.

शेवटी, मोठ्या डेटा संचावर मोठ्या मानाने आकलनशक्तीच्या डेटा कार्यकारण भाव अंदाज करण्यासाठी आमच्या क्षमता वाढते. मोठ्या डेटाबेस असूनही आकलनशक्तीच्या डेटा कार्यकारण भाव तर्क करत जुळणारे आणि नैसर्गिक प्रयोग-दोन तंत्रांचा संशोधक आकलनशक्तीच्या पासून कार्यकारण भाव दावा करत आहेत साठी विकसित केली आहे की डेटा दोन्ही मोठ्या मानाने मोठ्या डेटाबेस फायदा समस्या बदलू नाही तरी. मी स्पष्ट आणि मी संशोधन धोरण वर्णन तेव्हा या अध्यायात नंतर सखोलतेने हा हक्क स्पष्ट करू.

bigness साधारणपणे योग्य वापरले तेव्हा एक चांगला मालमत्ता आहे, तरी, मी त्या bigness सामान्यतः संकल्पनात्मक त्रुटी ठरतो लक्षात आले आहे. काही कारणास्तव, bigness त्यांच्या डेटा निर्माण होते कसे दुर्लक्ष संशोधक होऊ दिसते. Bigness यादृच्छिक त्रुटी काळजी करण्याची गरज कमी नाही तर, तो प्रत्यक्षात, मी खाली अधिक वर्णन करू त्रुटी प्रकारच्या मध्ये डेटा तयार केला आणि गोळा केली जाते कसे चुका ऊठ पद्धतशीर त्रुटी काळजी करण्याची गरज वाढते. एक लहान डेटासेटमध्ये, यादृच्छिक त्रुटी आणि पद्धतशीर त्रुटी दोन्ही महत्वाचे असू शकते, पण मोठ्या डेटासेटमध्ये यादृच्छिक त्रुटी दूर सरासरी केले जाऊ शकते आणि पद्धतशीर त्रुटी प आहे. संशोधक कोण पद्धतशीर त्रुटी चुकीचे गोष्ट एक तंतोतंत अंदाज करणे त्यांना मोठ्या डेटाबेस वापरून अप समाप्त होईल विचार करू नका; ते होईल तंतोतंत चुकीचा (McFarland and McFarland 2015) .