गैर-प्रर्दशनकारी डेटा बाहिर-से-नमूना सामान्यताहरूका लागि खराब छन्, तर भित्र-नमूना तुलनाहरूको लागि निकै उपयोगी हुन सक्छ।
केही सामाजिक वैज्ञानिकहरू डाटासँग काम गर्ने आदी हो जुन एक निश्चित देशको सबै वयस्कोंले एक राम्रो परिभाषित आबादीबाट सम्भावनात्मक अनियमित नमूनाबाट आउँछ। यो प्रकारको डाटा प्रतिनिधि डेटा भनिन्छ किनभने नमूना "प्रतिनिधित्व गर्दछ" ठूलो जनसंख्या। धेरै शोधकर्ताहरु पुरस्कार प्रतिनिधि डेटा, र केहि गर्न को लागी, प्रतिनिधि डेटा कठोर विज्ञान संग पर्याय छ, जबकि गैरप्रदेशात्मक डेटा ढोका संग पर्याय छ। सबैभन्दा चरम, केही शंकास्पदहरूले विश्वास गर्न लगाउँछन् कि कुनै अपरिवर्तनीय डेटाबाट सिक्न सकिँदैन। यदि सही छ भने, यो ठूलो डाटा स्रोतबाट के सिक्न सकिन्छ कि गम्भीर सीमा लगाउँदछ किनभने तिनीहरूमध्ये धेरै अप्रासंगिक छैनन्। सौभाग्य देखि, यी शंकास्पदहरू केवल आंशिक रूपमा सही छन्। त्यहाँ केहि अनुसन्धान लक्ष्यहरू छन् जसको लागि गैर-सम्पादकीय डेटा स्पष्ट रूपमा उपयुक्त छैन, तर अन्यहरू छन् जसको लागि यो वास्तवमा धेरै उपयोगी हुन सक्छ।
यो भिन्नता बुझ्न, लन्डनमा 1853-54 कोरोरा प्रकोपको जॉन स्नोको एक वैज्ञानिक क्लासिकमा विचार गरौं। त्यतिबेला, धेरै डाक्टरहरूले विश्वास गरे कि कोला "खराब हावा" हो, तर हिमपातले भने कि यो एक संक्रामक रोग थियो, शायद सावधानीपूर्वक पिउने पानीले फैलियो। यस विचारको परीक्षण गर्न, हिमपातले हामीले अहिले नै प्राकृतिक प्रयोगमा कल गर्न सक्ने फाइदा लिनुभयो। उनले दुई विभिन्न जल कम्पनीहरु द्वारा सेवा कोरोरा दरहरु को तुलना गरे: Lambeth र Southwark र Vauxhall। यी कम्पनीले समान परिवारको सेवा गरे, तर उनीहरूले एक महत्त्वपूर्ण तरिकामा भिन्न गरे: 18 9 4 9 मा महामारीले केही वर्ष अघि सुरु गरे- लेम्थले लन्डनको मुख्य सीवेज डिभर्जनबाट यसको सेन्ट विन्डो स्ट्रिगमा राखे, जबकि दक्षिणवार्क र वैक्सहलले आफ्नो सेवनको पाइप तल सीवेज निर्वहन। जब हिमपातले दुई कम्पनीले गरेको सेवामा कोलरबाट मृत्यु दरको तुलनामा उनीहरूले फेला पारेका थिए कि दक्षिणवार्क र वक्सहोल कम्पनीले ग्राहकलाई सिलाज-दागिएको पानी-प्रदान गर्ने ग्राहक-कोलाबाट 10 पटक बढी मृत्यु हुने सम्भावना थियो। यो परिणामले कोलोराको कारणको बारेमा हिमपातको तर्कको लागि बलियो वैज्ञानिक प्रमाण प्रदान गर्दछ, भले यो लन्डनका प्रतिनिधि नमूनामा आधारित छैन।
तथापि, यी दुई कम्पनीहरूको तथापि, फरक प्रश्नको जवाफ दिनको लागि आदर्श हुनेछैन: प्रकोपको समयमा लन्डनमा क्यालराको प्रचलन कस्तो थियो? दोस्रो दोस्रो प्रश्नको लागि, जुन महत्त्वपूर्ण छ, यो लन्डनको मानिसहरूको नमूना नमूना राख्न अझ राम्रो हुनेछ।
जस्तै बर्फको कामले बताउँछ, त्यहाँ केहि वैज्ञानिक प्रश्नहरू छन् जसको लागि गैर-सादास्पद डेटा निकै प्रभावकारी हुन सक्छ र अन्यहरू छन् जसको लागि यो राम्रो उपयुक्त छैन। यी दुई प्रकारका प्रश्नहरू भेद गर्न एक कच्चा तरिका यो हो कि केही प्रश्नहरू भित्र-नमूना तुलनाहरू छन् र केहि बाहिर-से-नमूना सामान्यताहरूका बारे हो। यो भेद महामारी विज्ञान मा अर्को क्लासिक अध्ययन को लागी अगाडी बढाया जा सकता छ: ब्रिटिश डाक्टर अध्ययन, जो धूम्रपान मा कैंसर को कारण बनने मा एक महत्वपूर्ण भूमिका निभाईयो। यस अध्ययनमा, रिचर्ड गुड़िया र ए ब्रैडफोर्ड हिलले धेरै वर्षको लागि लगभग 25,000 पुरुष डाक्टरहरू पछ्याए र उनीहरूको मृत्युको आधारमा अध्ययन सुरु हुँदा उनीहरूको मृत्यु दरको तुलनामा। गुडिया र हिल (1954) एक बलियो जोखिम प्रतिक्रिया सम्बन्धी सम्बन्ध फेला पर्यो: अधिक भारी मानिसहरू स्मोक्लियो, सम्भवतः तिनीहरूले फेफड़ोंको क्यान्सरबाट मर्नु पर्ने थियो। बेशक, यो पुरुष चिकित्सकहरु को यस समूह मा आधारित सबै ब्रिटिश मान्छे मा फेफड़ों को क्यान्सर को प्रसार को अनुमान छ, तर भित्र नमूना तुलना अझै पनि प्रमाण प्रदान गर्दछ कि धूम्रपान फेफड़ों को क्यान्सर को कारण बनता छ।
अब कि मैले भित्र-नमूना तुलना र बाहिरको-नमूना सामान्यताहरू बीचको भिन्नता बुझाउँछु, दुई caveats क्रममा छन्। पहिलो, वहाँ पुरुषहरु ब्रिटिश डाक्टरहरु को एक नमूना भित्र रहन को सम्बन्ध मा स्वाभाविक रूप देखि प्रश्नहरु मा महिला, ब्रिटिश डाक्टरहरु या पुरुष ब्रिटिश कारखाना श्रमिकों या महिला जर्मन कारखाना श्रमिकों या धेरै अन्य समूह को एक नमूना को भित्र पनि आयोजित हुन्छन्। यी प्रश्नहरु रमाइलो र महत्त्वपूर्ण छन्, तर तिनीहरू जनसंख्यामा नमूना बाट सामान्य गर्न सक्दछन् भन्ने बारे प्रश्नहरू फरक हुन्छन्। उदाहरणको लागि, उदाहरणका लागि, तपाईंलाई सम्भव छ कि धूम्रपान र क्यान्सर बीचको सम्बन्ध पुरुष ब्रिटिश डाक्टरहरूमा भेट्टाउन सम्भवतः यी अन्य समूहहरूमा समान हुनेछ। यो एक्सप्लोरेशन गर्ने तपाईंको क्षमताले यो तथ्यबाट आउँदैन कि पुरुष ब्रिटिश चिकित्सकहरू कुनै आबादीबाट सम्भावनात्मक अनियमित नमूना हुन्; बरु, यो मन्त्रमण्डल को बारे मा बुझिन्छ जुन धूम्रपान र क्यान्सर को लिंक गर्दछ। यसरी, कोरिएको जो देखि जनसंख्या एक नमूना बाट सामान्यकरण एक हदसम्म एक तथ्याङ्क मुद्दा छ, तर अर्को समूह एक समूह फेला ढाँचा को transportability बारेमा प्रश्नहरू धेरै हदसम्म एक nonstatistical मुद्दा (Pearl and Bareinboim 2014; Pearl 2015) ।
यस बिन्दुमा, एक शंकास्पद हुन सक्छ कि प्रायः सामाजिक ढाँचाहरू धूम्रपान र क्यान्सरको बीचको सम्बन्ध भन्दा कम पारदर्शी हुन्छन्। र म सहमत छु। जसमा हामीले पैटर्नहरू ट्राफिक योग्य हुने आशा गर्नुपर्दछ अंततः एक वैज्ञानिक प्रश्न हो जुन सिद्धान्त र प्रमाणमा आधारित निर्णय हुनुपर्छ। यो स्वचालित रूपमा मान्न सकिँदैन कि ढाँचाहरू ट्राफिक योग्य हुनेछ, तर न त त्यसलाई मान्न सकिन्छ कि तिनीहरू ट्राफिक योग्य हुनेछैनन्। यदि तपाईले स्नातक विद्यार्थीहरू (Sears 1986, [@henrich_most_2010] ) अध्ययन गरेर मानव व्यवहारको बारेमा कस्ता शोधकर्ताहरूले सिक्न सक्छन् भनेर बहसहरूको पालना गर्नुभएको छ भने ट्राफिकिबिलिटीको बारेमा यी केही हद सम्म सारिएका प्रश्नहरू तपाईँलाई परिचित हुनेछ। यी बहसहरूको बावजूद, यो भन्नको लागि अपरिहार्य हुनेछ कि शोधकर्ताहरू स्नातक विद्यार्थीहरू अध्ययन गर्नबाट केही सिक्न सक्दैनन्।
दोस्रो सेभेट हो कि अधिकांश गैर शोधकर्ता डेटा संग शोधकर्ताओं को रूप मा सावधान छैन हिम या गुड़िया र हिल को रूप मा। त्यसैले, शोधकर्ताहरूले गैर-प्रर्दशनशील डेटाबाट आउट-अफ-नमूना सामान्यीकरण गर्न प्रयास गर्दा गलत हुन सक्छ भन्ने कुरा बुझ्न, म तपाईंलाई सन् 200 9 सम्म जर्मनीको संसदीय निर्वाचनको अध्ययनको बारेमा अनिन्दिक तुस्साजन र सहकर्मी (2010) पढ्न चाहन्छु। 100,000 देखि अधिक ट्वीटहरु को विश्लेषण गरेर, उनि पाया कि एक पार्टी पार्टी को टिप्पणिहरु को अनुपात जो पार्टी संसदीय चुनाव मा प्राप्त भएको अनुपात को अनुपात संग मेल खाने को अनुपात (2.3 अंक)। अन्य शब्दहरुमा, यो देखा पर्यो कि ट्विटर डेटा, जो कि अनिवार्य रूपमा नि: शुल्क थियो, पारंपरिक सार्वजनिक राय सर्वेक्षण को प्रतिस्थापित गर्न सक्छ, जो महंगा डेटा को प्रतिनिधि डेटा मा जोर दिए।
तपाईले पहिले नै चहचहानाको बारेमा के थाहा पाउनुभएको छ, तपाईलाई तुरुन्तै यस परिणामको शंकास्पद हुनुपर्छ। सन् 200 9 मा चहचहानामा जर्मन जर्मन मतदाताहरूको सम्भावनात्मक अनियमित नमूना थिएन, र केही पक्षका समर्थकले राजनीतिको बारेमा अधिकतर पक्षका अन्य पक्षका समर्थकहरूलाई ट्वीटर गर्न सक्दछन्। यसैले, यो आश्चर्यजनक लाग््छ कि सबै सम्भावित पूर्वाधारहरु जुन तपाईं कल्पना गर्न सक्नुहुनेछ कसैले केहि रद्द गर्न सक्दछ ताकि यो डेटा सीधा जर्मन मतदाताहरूको प्रतिबिंबित हुनेछ। वास्तवमा, Tumasjan et al. (2010) को नतिजाहरु Tumasjan et al. (2010) बाहिर सार्न राम्रो राम्रो हुन। एन्ड्रेंस जुनघेर, पास्कल जर्गेन्स र हरिल्ड श्नीन (2012) द्वारा अनुवर्ती पेपरले बताए कि मूल विश्लेषणले राजनीतिक दललाई बहिष्कार गरेको थियो जुन वास्तवमा चहचहानामा सर्वाधिक उल्लेख भएको थियो: समुद्री डाकू पार्टी, एक सानो पार्टी जसले सरकार नियमन इन्टरनेटको। जब समुद्री डाकू पार्टी को विश्लेषण मा शामिल भएको थियो, चहचहाना उल्लेख चुनाव परिणाम को एक भयानक भविष्यसूचक बनयो (2.3 अंक)। यस उदाहरणको रूपमा प्रस्तुत गर्दछ, अपरिवर्तनीय ठूला डेटा स्रोतहरू प्रयोग गर्न बाहिरको नमूना सामान्यकरण गर्न धेरै गलत हुन सक्छ। साथै, तपाईलाई ध्यान दिनुहोस् कि 100,000 ट्वीट्सहरू मूलतः अप्रासंगिक थियो: धेरै अनियमित डेटा अझै पनि गैर-प्रतिनिधि हो, एउटा विषय कि म सर्वेक्षणमा छलफल गर्दा अध्याय 3 मा फर्कनेछु।
अन्त्य गर्न, धेरै ठूला डेटा स्रोतहरू केही राम्रो परिभाषित जनसंख्याबाट प्रतिनिधि नमूनाहरू छैनन्। प्रश्नहरूको लागि जुन जनसंख्यामा नमूनाको नतीजा सामान्यतया गर्नु पर्ने हो भने यो एक गम्भीर समस्या हो। तर भित्र-नमूना तुलनाहरूको बारेमा प्रश्नहरूको लागि, अप्रत्याशित डेटा शक्तिशाली हुन सक्छ, यसैले लामो समयसम्म शोधकर्ताहरूले आफ्नो नमूनाका विशेषताहरू र सैद्धान्तिक वा अनुभविक प्रमाणको साथ ट्राफिकेसिटीको बारेमा समर्थन दावीको बारेमा स्पष्ट हुन सक्छ। वास्तव मा, मेरो आशा छ कि ठूलो डाटा स्रोत शोधकर्ताओं को धेरै गैर-नमूनात्मक समूहहरुमा अधिक भित्र नमूना तुलना गर्न सक्षम हुनेछ, र मेरो अनुमान छ कि धेरै अलग समूहहरु को अनुमान एक सामाजिक अनुमान अग्रिम देखि एक अनुमान को तुलना मा एक अधिक स्थिर संभावना देखि अधिक हुनेछ नमूना।