गैर-प्रतिनिधि डेटा आउट-ऑफ-नमूना सामान्यीकरण के लिए खराब हैं, लेकिन भीतर-नमूना तुलना के लिए काफी उपयोगी हो सकते हैं।
कुछ सामाजिक वैज्ञानिक डेटा के साथ काम करने के आदी हैं जो किसी विशेष देश के सभी वयस्कों जैसे एक अच्छी तरह से परिभाषित आबादी से संभाव्य यादृच्छिक नमूने से आते हैं। इस तरह के डेटा को प्रतिनिधि डेटा कहा जाता है क्योंकि नमूना बड़ी आबादी का प्रतिनिधित्व करता है। कई शोधकर्ता प्रतिनिधि प्रतिनिधि डेटा का पुरस्कार देते हैं, और कुछ के लिए, प्रतिनिधि डेटा कठोर विज्ञान का पर्याय बनता है जबकि गैर-प्रतिनिधि डेटा ढीलापन का पर्याय बनता है। सबसे चरम पर, कुछ संशयवादी मानते हैं कि गैर-प्रतिनिधि डेटा से कुछ भी नहीं सीखा जा सकता है। यदि सही है, तो यह बड़े डेटा स्रोतों से सीखा जा सकता है कि गंभीर रूप से सीमित है क्योंकि उनमें से कई गैर-प्रतिनिधि हैं। सौभाग्य से, ये संदेह केवल आंशिक रूप से सही हैं। कुछ शोध लक्ष्य हैं जिनके लिए गैर-प्रतिनिधि डेटा स्पष्ट रूप से उपयुक्त नहीं है, लेकिन ऐसे कुछ भी हैं जिनके लिए यह वास्तव में उपयोगी हो सकता है।
इस भेद को समझने के लिए, चलिए एक वैज्ञानिक क्लासिक पर विचार करें: लंदन में 1853-54 कोलेरा प्रकोप के जॉन स्नो का अध्ययन। उस समय, कई डॉक्टरों का मानना था कि कोलेरा "खराब हवा" के कारण हुआ था, लेकिन बर्फ का मानना था कि यह एक संक्रामक बीमारी थी, शायद सीवेज से पीड़ित पेयजल से फैल गई थी। इस विचार का परीक्षण करने के लिए, स्नो ने इसका लाभ उठाया जिसे हम अब प्राकृतिक प्रयोग कहते हैं। उन्होंने दो अलग-अलग जल कंपनियों द्वारा प्रदान किए जाने वाले घरों की कोलेरा दरों की तुलना की: लेम्बेथ और साउथवार्क और वॉक्सहॉल। इन कंपनियों ने समान घरों की सेवा की, लेकिन वे एक महत्वपूर्ण तरीके से मतभेद थे: 1849 में महामारी शुरू होने से कुछ साल पहले-लैम्बथ ने लंदन में मुख्य सीवेज डिस्चार्ज से अपना सेवन बिंदु ऊपर की ओर ले जाया था, जबकि साउथवार्क और वॉक्सहॉल ने अपनी सेवन पाइप को डाउनस्ट्रीम से छोड़ा सीवेज निर्वहन जब बर्फ ने दो कंपनियों द्वारा की जाने वाली घरों में कोलेरा से मृत्यु दर की तुलना की, तो उन्होंने पाया कि साउथवार्क और वॉक्सहॉल के ग्राहक- जो कंपनी सीवेज-दांत वाले पानी प्रदान कर रही थी- कोलेरा से मरने की संभावना 10 गुना अधिक थी। यह परिणाम कोलेरा के कारण के बारे में हिम के तर्क के लिए मजबूत वैज्ञानिक सबूत प्रदान करता है, भले ही यह लंदन के लोगों के प्रतिनिधि नमूने पर आधारित न हो।
हालांकि, इन दोनों कंपनियों का डेटा एक अलग प्रश्न का उत्तर देने के लिए आदर्श नहीं होगा: प्रकोप के दौरान लंदन में कोलेरा का प्रसार क्या था? उस दूसरे प्रश्न के लिए, जो भी महत्वपूर्ण है, लंदन से लोगों का प्रतिनिधि नमूना रखना बेहतर होगा।
जैसा कि हिम के काम से पता चलता है, ऐसे कुछ वैज्ञानिक प्रश्न हैं जिनके लिए गैर-प्रतिनिधि डेटा काफी प्रभावी हो सकता है और ऐसे कुछ भी हैं जिनके लिए यह उपयुक्त नहीं है। इन दो प्रकार के प्रश्नों को अलग करने का एक कच्चा तरीका यह है कि कुछ प्रश्न भीतर-नमूना तुलना के बारे में हैं और कुछ नमूना सामान्यीकरण के बारे में हैं। इस भेद को महामारी विज्ञान में एक और क्लासिक अध्ययन द्वारा आगे दिखाया जा सकता है: ब्रिटिश डॉक्टर स्टडी, जिसने यह प्रदर्शित करने में एक महत्वपूर्ण भूमिका निभाई कि धूम्रपान कैंसर का कारण बनता है। इस अध्ययन में, रिचर्ड गुड़िया और ए ब्रैडफोर्ड हिल ने कई वर्षों तक लगभग 25,000 पुरुष डॉक्टरों का पालन किया और अध्ययन शुरू होने पर धूम्रपान की मात्रा के आधार पर उनकी मृत्यु दर की तुलना की। गुड़िया और पहाड़ी (1954) ने एक मजबूत जोखिम-प्रतिक्रिया संबंध पाया: अधिक भारी लोग धूम्रपान करते थे, अधिकतर वे फेफड़ों के कैंसर से मरने की संभावना रखते थे। बेशक, पुरुष डॉक्टरों के इस समूह के आधार पर सभी ब्रिटिश लोगों के बीच फेफड़ों के कैंसर के प्रसार का अनुमान लगाने के लिए मूर्ख नहीं होगा, लेकिन भीतर-नमूना तुलना अभी भी साक्ष्य प्रदान करती है कि धूम्रपान फेफड़ों के कैंसर का कारण बनता है।
अब जब मैंने भीतर-नमूना तुलना और आउट-ऑफ-नमूना सामान्यीकरण के बीच अंतर को चित्रित किया है, तो दो चेतावनियां क्रमशः हैं। सबसे पहले, इस बात के बारे में स्वाभाविक रूप से सवाल हैं कि पुरुष ब्रिटिश डॉक्टरों के नमूने के भीतर जो संबंध है, वह महिला, ब्रिटिश डॉक्टर या पुरुष ब्रिटिश फैक्ट्री श्रमिकों या महिला जर्मन फैक्ट्री श्रमिकों या कई अन्य समूहों के नमूने के भीतर भी होगा। ये प्रश्न दिलचस्प और महत्वपूर्ण हैं, लेकिन वे इस सीमा से अलग हैं कि हम नमूना से जनसंख्या में सामान्यीकृत कर सकते हैं। नोटिस, उदाहरण के लिए, आपको शायद संदेह है कि पुरुष ब्रिटिश डॉक्टरों में पाया गया धूम्रपान और कैंसर के बीच संबंध शायद इन अन्य समूहों में समान होगा। इस extrapolation करने की आपकी क्षमता इस तथ्य से नहीं आती है कि पुरुष ब्रिटिश डॉक्टर किसी भी आबादी से एक संभाव्य यादृच्छिक नमूना हैं; बल्कि, यह उस तंत्र की समझ से आता है जो धूम्रपान और कैंसर को जोड़ता है। इस प्रकार, नमूने से जनसंख्या को सामान्य रूप से एक सांख्यिकीय मुद्दा है, लेकिन एक समूह में दूसरे समूह में पाए गए पैटर्न की परिवहन (Pearl and Bareinboim 2014; Pearl 2015) के बारे में सवाल काफी हद तक एक (Pearl and Bareinboim 2014; Pearl 2015) मुद्दा है (Pearl and Bareinboim 2014; Pearl 2015) ।
इस बिंदु पर, एक संदिग्ध व्यक्ति यह इंगित कर सकता है कि अधिकांश सामाजिक पैटर्न शायद धूम्रपान और कैंसर के बीच संबंधों की तुलना में समूहों में कम परिवहन योग्य हैं। और मैं सहमत हूं। जिस सीमा तक हमें पैटर्न को परिवहन योग्य होने की उम्मीद करनी चाहिए वह आखिरकार एक वैज्ञानिक प्रश्न है जिसे सिद्धांत और सबूत के आधार पर तय किया जाना है। यह स्वचालित रूप से नहीं माना जाना चाहिए कि पैटर्न परिवहन योग्य होंगे, लेकिन न ही यह माना जाना चाहिए कि वे परिवहन योग्य नहीं होंगे। परिवहन योग्यता के बारे में ये कुछ हद तक अमूर्त प्रश्न आपको परिचित होंगे यदि आपने स्नातक छात्रों (Sears 1986, [@henrich_most_2010] ) अध्ययन करके मानव व्यवहार के बारे में कितना शोधकर्ता सीख सकते हैं, इस बारे में बहस का पालन किया है। हालांकि, इन बहसों के बावजूद, यह कहना उचित नहीं होगा कि शोधकर्ता स्नातक छात्रों का अध्ययन करने से कुछ भी नहीं सीख सकते हैं।
दूसरी चेतावनी यह है कि गैर-प्रतिनिधि डेटा वाले अधिकांश शोधकर्ता हिम या गुड़िया और पहाड़ी के रूप में सावधान नहीं हैं। इसलिए, यह समझाने के लिए कि क्या गलत हो सकता है जब शोधकर्ता गैर-प्रतिनिधि डेटा से आउट-ऑफ-नमूना सामान्यीकरण करने का प्रयास करते हैं, मैं आपको एंड्रिक तुमासन और सहयोगियों (2010) द्वारा 200 9 के जर्मन संसदीय चुनाव के अध्ययन के बारे में बताना चाहता हूं। 100,000 से अधिक ट्वीट्स का विश्लेषण करके, उन्होंने पाया कि राजनीतिक दल का उल्लेख करने वाली ट्वीट्स के अनुपात ने संसदीय चुनाव (चित्र 2.3) में प्राप्त वोटों के अनुपात से मेल खाया। दूसरे शब्दों में, ऐसा प्रतीत होता है कि ट्विटर डेटा, जो अनिवार्य रूप से मुफ़्त था, पारंपरिक सार्वजनिक राय सर्वेक्षणों को प्रतिस्थापित कर सकता है, जो प्रतिनिधि डेटा पर उनके जोर के कारण महंगा हैं।
यह देखते हुए कि आप ट्विटर के बारे में पहले से ही क्या जानते हैं, आपको तुरंत इस परिणाम पर संदेह होना चाहिए। 200 9 में ट्विटर पर जर्मन जर्मन मतदाताओं का एक संभावित यादृच्छिक नमूना नहीं थे, और कुछ पार्टियों के समर्थक अन्य पार्टियों के समर्थकों की तुलना में राजनीति के बारे में अक्सर ट्वीट कर सकते हैं। इस प्रकार, यह आश्चर्य की बात है कि आप जिन संभावित पूर्वाग्रहों की कल्पना कर सकते हैं, वे किसी भी तरह से रद्द हो जाएंगे ताकि यह डेटा जर्मन मतदाताओं के सीधे प्रतिबिंबित होगा। वास्तव में, Tumasjan et al. (2010) में परिणाम Tumasjan et al. (2010) सच होने के लिए बहुत अच्छा साबित हुआ। एंड्रियास जुंगर, पास्कल जुर्गेन्स और हेराल्ड शॉन (2012) द्वारा एक फॉलो-अप पेपर ने बताया कि मूल विश्लेषण ने राजनीतिक पार्टी को छोड़ दिया था जिसे वास्तव में ट्विटर पर सबसे अधिक उल्लेख प्राप्त हुए थे: समुद्री डाकू पार्टी, एक छोटी पार्टी जो सरकारी विनियमन से लड़ती है इंटरनेट का। जब समुद्री डाकू पार्टी को विश्लेषण में शामिल किया गया था, तो ट्विटर का उल्लेख चुनाव परिणामों (आंकड़ा 2.3) का एक भयानक भविष्यवाणी बन गया। जैसा कि इस उदाहरण से पता चलता है, नमूना सामान्यीकरण करने के लिए गैर-प्रतिनिधि बड़े डेटा स्रोतों का उपयोग करना बहुत गलत हो सकता है। साथ ही, आपको यह नोटिस करना चाहिए कि 100,000 ट्वीट्स मूल रूप से अप्रासंगिक थीं: बहुत से गैर-प्रतिनिधि डेटा अभी भी गैर-प्रतिनिधि नहीं हैं, एक विषय है कि जब मैं सर्वेक्षणों पर चर्चा करता हूं तो मैं अध्याय 3 में वापस आऊंगा।
निष्कर्ष निकालने के लिए, कई बड़े डेटा स्रोत कुछ अच्छी तरह से परिभाषित आबादी के प्रतिनिधि नमूने नहीं हैं। उन प्रश्नों के लिए जिन्हें नमूना से आबादी के परिणामों को सामान्यीकृत करने की आवश्यकता होती है, जहां से इसे खींचा गया था, यह एक गंभीर समस्या है। लेकिन भीतर-नमूना तुलना के बारे में प्रश्नों के लिए, गैर-प्रतिनिधि डेटा शक्तिशाली हो सकता है, जब तक कि शोधकर्ता अपने नमूने की विशेषताओं के बारे में स्पष्ट हों और सैद्धांतिक या अनुभवजन्य साक्ष्य के साथ परिवहन योग्यता के दावों का समर्थन करें। वास्तव में, मेरी आशा यह है कि बड़े डेटा स्रोत शोधकर्ताओं को कई गैर-प्रतिनिधि समूहों में अधिक नमूना तुलना करने में सक्षम बनाएंगे, और मेरा अनुमान है कि कई अलग-अलग समूहों के अनुमान संभावित रूप से यादृच्छिक यादृच्छिक से एक अनुमान से सामाजिक अनुसंधान को आगे बढ़ाने के लिए और अधिक करेंगे नमूना।