डिजिटल युग अभ्यास में संभाव्यता नमूनाकरण कर रही है और गैर-संभाव्यता नमूनाकरण के लिए नए अवसर पैदा कर रही है।
नमूनाकरण के इतिहास में, दो प्रतिस्पर्धी दृष्टिकोण रहे हैं: संभावना नमूनाकरण विधियों और गैर-संभाव्यता नमूनाकरण विधियां। हालांकि नमूनाकरण के शुरुआती दिनों में दोनों दृष्टिकोणों का उपयोग किया गया था, लेकिन संभावित नमूनाकरण पर हावी हो गई है, और कई सामाजिक शोधकर्ताओं को महान संदेह के साथ गैर-संभाव्यता नमूना देखने को सिखाया जाता है। हालांकि, जैसा कि मैं नीचे वर्णित करता हूं, डिजिटल युग द्वारा बनाए गए परिवर्तनों का मतलब है कि शोधकर्ताओं के लिए गैर-संभाव्यता नमूनाकरण पर पुनर्विचार करने का समय है। विशेष रूप से, अभ्यास नमूनाकरण अभ्यास में करना मुश्किल हो रहा है, और गैर-संभाव्यता नमूना तेजी से, सस्ता और बेहतर हो रहा है। तेज़ और सस्ता सर्वेक्षण सिर्फ अपने आप में समाप्त नहीं होते हैं: वे नए अवसरों को सक्षम करते हैं जैसे अधिक सर्वेक्षण और बड़े नमूना आकार। उदाहरण के लिए, गैर-संभाव्यता विधियों का उपयोग करके सहकारी समिति चुनाव अध्ययन (सीसीईएस) संभावित नमूनाकरण का उपयोग करते हुए पहले के अध्ययनों की तुलना में लगभग 10 गुना अधिक प्रतिभागियों के पास सक्षम है। यह बहुत बड़ा नमूना राजनीतिक शोधकर्ताओं को उपसमूहों और सामाजिक संदर्भों में दृष्टिकोण और व्यवहार में विविधता का अध्ययन करने में सक्षम बनाता है। इसके अलावा, इस सभी जोड़ा पैमाने अनुमानों की गुणवत्ता (Ansolabehere and Rivers 2013) में कमी के बिना आया था।
वर्तमान में, सामाजिक शोध के लिए नमूनाकरण का प्रमुख दृष्टिकोण संभाव्यता नमूना है । संभाव्यता नमूनाकरण में, लक्षित आबादी के सभी सदस्यों को नमूना होने की ज्ञात, गैर-शून्य संभावना है, और नमूने वाले सभी लोग सर्वेक्षण का जवाब देते हैं। जब इन शर्तों को पूरा किया जाता है, तो सुरुचिपूर्ण गणितीय परिणाम लक्षित आबादी के बारे में संदर्भ बनाने के लिए नमूने का उपयोग करने के लिए शोधकर्ता की क्षमता के बारे में सिद्ध गारंटी प्रदान करते हैं।
वास्तविक दुनिया में, हालांकि, इन गणितीय परिणामों के अंतर्गत स्थितियों को शायद ही कभी पूरा किया जाता है। उदाहरण के लिए, अक्सर कवरेज त्रुटियां और गैर-प्रतिक्रिया होती है। इन समस्याओं के कारण, शोधकर्ताओं को अक्सर अपने नमूना से उनकी लक्षित आबादी में अनुमान लगाने के लिए विभिन्न सांख्यिकीय समायोजनों को नियोजित करना पड़ता है। इस प्रकार, सिद्धांत में संभाव्यता नमूनाकरण के बीच अंतर करना महत्वपूर्ण है, जिसमें मजबूत सैद्धांतिक गारंटी है, और अभ्यास में संभाव्यता नमूनाकरण , जो ऐसी कोई गारंटी प्रदान नहीं करता है और विभिन्न सांख्यिकीय समायोजनों पर निर्भर करता है।
समय के साथ, अभ्यास में संभाव्यता नमूनाकरण और अभ्यास में संभाव्यता नमूनाकरण के बीच अंतर बढ़ रहे हैं। उदाहरण के लिए, उच्च गुणवत्ता वाले, महंगी सर्वेक्षण (आंकड़ा 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) में भी, गैर-प्रतिक्रिया दर लगातार बढ़ रही है। वाणिज्यिक टेलीफोन सर्वेक्षणों में गैर-प्रतिक्रिया दर बहुत अधिक होती है-कभी-कभी 90% (Kohut et al. 2012) जितनी अधिक होती है। गैर-प्रतिक्रियाओं में ये वृद्धि अनुमानों की गुणवत्ता को धमकी देती है क्योंकि अनुमान उन सांख्यिकीय मॉडलों पर निर्भर करते हैं जो शोधकर्ता गैर-प्रतिक्रिया के लिए समायोजित करने के लिए उपयोग करते हैं। इसके अलावा, सर्वे शोधकर्ताओं द्वारा उच्च प्रतिक्रिया दरों को बनाए रखने के लिए तेजी से महंगा प्रयासों के बावजूद गुणवत्ता में ये कमी आई है। कुछ लोग डरते हैं कि गुणवत्ता घटने और बढ़ती लागत के इन जुड़वां रुझान सर्वेक्षण अनुसंधान (National Research Council 2013) की नींव को धमकाते हैं।
साथ ही संभावना नमूना पद्धतियों के लिए बढ़ती कठिनाइयों में भी वृद्धि हुई है, गैर-संभाव्यता नमूना पद्धतियों में भी रोमांचक विकास हुआ है। गैर-संभाव्यता नमूनाकरण विधियों की विभिन्न शैलियों हैं, लेकिन एक चीज जो उनके समान है वह यह है कि वे संभावना नमूनाकरण (Baker et al. 2013) के गणितीय ढांचे में आसानी से फिट नहीं हो सकते हैं। दूसरे शब्दों में, गैर-संभाव्यता नमूनाकरण विधियों में सभी को शामिल करने की ज्ञात और nonzero संभावना नहीं है। गैर-संभाव्यता नमूनाकरण विधियों में सामाजिक शोधकर्ताओं के बीच एक भयानक प्रतिष्ठा है और वे सर्वेक्षण शोधकर्ताओं की कुछ नाटकीय विफलताओं से जुड़े हुए हैं, जैसे साहित्यिक डाइजेस्ट फियास्को (पहले चर्चा की गई) और "डेवी डेफेट्स ट्रूमैन", अमेरिका के बारे में गलत भविष्यवाणी 1 9 48 के राष्ट्रपति चुनाव (आंकड़ा 3.6)।
गैर-संभाव्यता नमूनाकरण का एक रूप जो कि डिजिटल युग के लिए विशेष रूप से अनुकूल है, ऑनलाइन पैनलों का उपयोग है। ऑनलाइन पैनलों का उपयोग करने वाले शोधकर्ता कुछ पैनल प्रदाता-आम तौर पर एक कंपनी, सरकार या विश्वविद्यालय पर निर्भर करते हैं- सर्वेक्षण के लिए उत्तरदाताओं के रूप में सेवा करने के लिए सहमत लोगों के एक बड़े, विविध समूह का निर्माण करने के लिए। इन पैनल प्रतिभागियों को अक्सर ऑनलाइन बैनर विज्ञापनों जैसे विभिन्न प्रकार के विज्ञापन विधियों का उपयोग करके भर्ती किया जाता है। फिर, एक शोधकर्ता वांछित विशेषताओं (उदाहरण के लिए, वयस्कों के राष्ट्रीय प्रतिनिधि) के साथ उत्तरदाताओं के नमूने तक पहुंच के लिए पैनल प्रदाता का भुगतान कर सकता है। ये ऑनलाइन पैनल गैर-संभाव्यता विधियां हैं क्योंकि सभी को शामिल करने की ज्ञात, nonzero संभावना नहीं है। यद्यपि गैर-संभाव्यता ऑनलाइन पैनलों का उपयोग पहले से ही सामाजिक शोधकर्ताओं (उदाहरण के लिए, सीसीईएस) द्वारा किया जा रहा है, फिर भी उनसे अनुमानों की गुणवत्ता के बारे में कुछ बहस है (Callegaro et al. 2014) ।
इन बहसों के बावजूद, मुझे लगता है कि सोशल शोधकर्ताओं के लिए गैर-संभाव्यता नमूनाकरण पर पुनर्विचार करने का समय दो कारण हैं। सबसे पहले, डिजिटल युग में, गैर-संभाव्यता नमूने के संग्रह और विश्लेषण में कई विकास हुए हैं। ये नई विधियां उन तरीकों से काफी भिन्न हैं जो अतीत में समस्याएं उत्पन्न करती हैं, जो मुझे लगता है कि उन्हें "गैर-संभाव्यता नमूनाकरण 2.0" के रूप में सोचने का अर्थ होता है। दूसरा कारण शोधकर्ताओं को गैर-संभाव्यता नमूनाकरण पर पुनर्विचार करना चाहिए क्योंकि संभावना में नमूनाकरण अभ्यास तेजी से मुश्किल हो रहे हैं। जब गैर-प्रतिक्रिया की उच्च दर होती है- क्योंकि वास्तविक सर्वेक्षण में अब-उत्तरदाताओं के लिए शामिल करने की वास्तविक संभावनाएं ज्ञात नहीं हैं, और इस प्रकार, संभावित नमूने और गैर-संभाव्यता नमूने उतने अलग नहीं हैं जितने कई शोधकर्ता मानते हैं।
जैसा कि मैंने पहले कहा था, सर्वेक्षण के शुरुआती दिनों में कुछ सबसे शर्मनाक असफलताओं में उनकी भूमिका के कारण, कई सामाजिक शोधकर्ताओं द्वारा गैर-संभाव्यता नमूने को बड़ी संदेह के साथ देखा जाता है। गैर-संभाव्यता नमूने के साथ हम कितने दूर आए हैं इसका एक स्पष्ट उदाहरण है वेई वांग, डेविड रोथस्चिल्ड, शरद गोयल और एंड्रयू गेलमैन (2015) द्वारा शोध, जो 2012 के अमेरिकी चुनाव के परिणाम को सही ढंग से पुनर्प्राप्त कर रहा है, अमेरिकी एक्सबॉक्स उपयोगकर्ता - अमेरिकियों का एक निश्चित रूप से गैर-यादृच्छिक नमूना। शोधकर्ताओं ने एक्सबॉक्स गेमिंग सिस्टम से उत्तरदाताओं की भर्ती की, और जैसा कि आप उम्मीद कर सकते हैं, एक्सबॉक्स नमूना ने पुरुष को कम किया और युवाओं को तिरछा कर दिया: 18- से 2 9 वर्षीय मतदाताओं का 1 9% बनाते हैं लेकिन 65% Xbox नमूना बनाते हैं, और पुरुष मतदाताओं का 47% बनाओ लेकिन एक्सबॉक्स नमूना का 93% (आंकड़ा 3.7)। इन मजबूत जनसांख्यिकीय पूर्वाग्रहों के कारण, कच्चे Xbox डेटा चुनाव रिटर्न का एक गरीब संकेतक था। इसने बराक ओबामा पर मिट रोमनी के लिए एक मजबूत जीत की भविष्यवाणी की। फिर, यह कच्चे, असंगत गैर-संभाव्यता के नमूने के खतरों का एक और उदाहरण है और साहित्यिक डाइजेस्ट फियास्को की याद दिलाता है।
हालांकि, वांग और सहयोगियों को इन समस्याओं के बारे में पता था और अनुमान बनाते समय उनकी गैर-यादृच्छिक नमूना प्रक्रिया के लिए समायोजित करने का प्रयास किया गया था। विशेष रूप से, उन्होंने पोस्ट-स्तरीकरण का उपयोग किया, एक ऐसी तकनीक जिसे संभावित रूप से कवरेज त्रुटियों और गैर-प्रतिक्रिया वाले संभावित नमूने को समायोजित करने के लिए भी उपयोग किया जाता है।
पोस्ट-स्तरीकरण का मुख्य विचार लक्ष्य जनसंख्या के बारे में सहायक जानकारी का उपयोग करना है ताकि नमूना से आने वाले अनुमान को बेहतर बनाने में मदद मिल सके। अपने गैर-संभाव्यता नमूने से अनुमान बनाने के लिए पोस्ट-स्तरीकरण का उपयोग करते समय, वांग और सहयोगी ने आबादी को विभिन्न समूहों में कटाई, अनुमान लगाया कि प्रत्येक समूह में ओबामा के लिए समर्थन का अनुमान लगाया गया था, और फिर कुल अनुमान लगाने के लिए समूह अनुमानों का भारित औसत लिया। उदाहरण के लिए, वे आबादी को दो समूहों (पुरुषों और महिलाओं) में विभाजित कर सकते थे, पुरुषों और महिलाओं के बीच ओबामा के समर्थन का अनुमान लगाया था, और फिर महिलाओं को बनाने के तथ्य के लिए भारित औसत लेकर ओबामा के लिए समग्र समर्थन का अनुमान लगाया गया था 53% मतदाताओं और पुरुषों 47% ऊपर। असल में, पोस्ट-स्तरीकरण समूहों के आकारों के बारे में सहायक जानकारी लेकर असंतुलित नमूने के लिए सही मदद करता है।
पोस्ट-स्तरीकरण के लिए कुंजी सही समूह बनाने के लिए है। यदि आप आबादी को समरूप समूहों में काट सकते हैं जैसे प्रतिक्रिया समूह प्रत्येक समूह में सभी के लिए समान हैं, तो पोस्ट-स्तरीकरण निष्पक्ष अनुमान उत्पन्न करेगा। दूसरे शब्दों में, लिंग द्वारा पोस्ट-स्तरीकरण करने से निष्पक्ष अनुमान उत्पन्न होंगे यदि सभी पुरुषों में प्रतिक्रिया प्रवृत्ति है और सभी महिलाओं के पास समान प्रतिक्रिया प्रवृत्ति है। इस धारणा को समरूप-प्रतिक्रिया-प्रवृत्तियों के भीतर-समूह- धारणा माना जाता है, और मैं इस अध्याय के अंत में गणितीय नोट्स में थोड़ा और वर्णन करता हूं।
बेशक, ऐसा लगता है कि सभी लोगों और सभी महिलाओं के लिए प्रतिक्रिया प्रवृत्ति समान होगी। हालांकि, समरूप प्रतिक्रिया-अनुपात-भीतर-समूह धारणा समूह के बढ़ने की संख्या के रूप में अधिक व्यावहारिक हो जाती है। असल में, अगर आप अधिक समूह बनाते हैं तो आबादी को समरूप समूहों में काटना आसान हो जाता है। उदाहरण के लिए, यह असंभव प्रतीत हो सकता है कि सभी महिलाओं के पास समान प्रतिक्रिया प्रवृत्ति है, लेकिन यह अधिक प्रतीत हो सकता है कि 18-29 वर्ष की आयु की सभी महिलाओं के लिए समान प्रतिक्रिया प्रवृत्ति है, जो कॉलेज से स्नातक हैं, और कैलिफोर्निया में रहने वाले सभी । इस प्रकार, चूंकि पोस्ट-स्तरीकरण में उपयोग किए जाने वाले समूहों की संख्या बड़ी हो जाती है, इसलिए विधि का समर्थन करने के लिए आवश्यक धारणाएं अधिक उचित हो जाती हैं। इस तथ्य को देखते हुए, शोधकर्ता अक्सर पोस्ट-स्तरीकरण के लिए बड़ी संख्या में समूह बनाना चाहते हैं। हालांकि, चूंकि समूहों की संख्या बढ़ जाती है, शोधकर्ता एक अलग समस्या में भाग लेते हैं: डेटा स्पष्टीकरण। यदि प्रत्येक समूह में केवल कुछ ही लोग हैं, तो अनुमान अधिक अनिश्चित होंगे, और चरम मामले में जहां एक समूह है जिसमें कोई उत्तरदायी नहीं है, तो पोस्ट-स्तरीकरण पूरी तरह से टूट जाता है।
समरूप प्रतिक्रिया-प्रवृत्ति-भीतर-समूहों की धारणा और प्रत्येक समूह में उचित नमूना आकार की मांग की व्यवहार्यता के बीच इस अंतर्निहित तनाव से दो तरीके हैं। सबसे पहले, शोधकर्ता एक बड़ा, अधिक विविध नमूना एकत्र कर सकते हैं, जो प्रत्येक समूह में उचित नमूना आकार सुनिश्चित करने में मदद करता है। दूसरा, वे समूह के भीतर अनुमान बनाने के लिए एक अधिक परिष्कृत सांख्यिकीय मॉडल का उपयोग कर सकते हैं। और, वास्तव में, कभी-कभी शोधकर्ता दोनों करते हैं, क्योंकि वांग और सहयोगियों ने Xbox के उत्तरदाताओं का उपयोग करके चुनाव के अपने अध्ययन के साथ किया था।
चूंकि वे कंप्यूटर-प्रशासित साक्षात्कार के साथ एक गैर-संभाव्यता नमूना पद्धति का उपयोग कर रहे थे (मैं धारा 3.5 में कंप्यूटर-प्रशासित साक्षात्कार के बारे में और बात करूंगा), वांग और सहयोगियों के पास बहुत सस्ती डेटा संग्रह था, जिसने उन्हें 345,858 अद्वितीय प्रतिभागियों से जानकारी एकत्र करने में सक्षम बनाया , चुनाव मतदान के मानकों द्वारा एक बड़ी संख्या। इस बड़े पैमाने पर नमूना आकार ने उन्हें पोस्ट-स्तरीकरण समूहों की एक बड़ी संख्या बनाने में सक्षम बनाया। जबकि पोस्ट-स्तरीकरण में आम तौर पर आबादी को सैकड़ों समूहों में शामिल करना शामिल है, वांग और सहयोगियों ने आबादी को लिंग (2 श्रेणियों), दौड़ (4 श्रेणियां), आयु (4 श्रेणियां), शिक्षा (4 श्रेणियां), राज्य द्वारा परिभाषित 176,256 समूहों में विभाजित किया है। (51 श्रेणियां), पार्टी आईडी (3 श्रेणियां), विचारधारा (3 श्रेणियां), और 2008 वोट (3 श्रेणियां)। दूसरे शब्दों में, उनके विशाल नमूना आकार, जिसे कम लागत वाले डेटा संग्रह द्वारा सक्षम किया गया था, ने उन्हें अपनी अनुमान प्रक्रिया में एक और अधिक व्यावहारिक धारणा बनाने में सक्षम बनाया।
यहां तक कि 345,858 अद्वितीय प्रतिभागियों के साथ भी, अभी भी कई सारे समूह थे जिनके लिए वांग और सहयोगियों के पास लगभग कोई उत्तरदायी नहीं था। इसलिए, उन्होंने प्रत्येक समूह में समर्थन का अनुमान लगाने के लिए बहुस्तरीय प्रतिगमन नामक एक तकनीक का उपयोग किया। अनिवार्य रूप से, किसी विशिष्ट समूह के भीतर ओबामा के समर्थन का अनुमान लगाने के लिए, बहुस्तरीय प्रतिगमन ने कई करीबी संबंधित समूहों से जानकारी एकत्र की। उदाहरण के लिए, 18 से 2 9 साल के बीच महिला Hispanics के बीच ओबामा के समर्थन का अनुमान लगाने की कोशिश कर रहे हैं, जो कॉलेज के स्नातक हैं, जो पंजीकृत डेमोक्रेट हैं, जो मध्यम के रूप में आत्म-पहचान करते हैं, और 2008 में ओबामा के लिए मतदान करते थे। यह एक बहुत है , बहुत विशिष्ट समूह, और यह संभव है कि इन विशेषताओं के साथ नमूने में कोई भी नहीं है। इसलिए, इस समूह के बारे में अनुमान लगाने के लिए, बहुस्तरीय प्रतिगमन एक समान मॉडल में लोगों के अनुमानों को एक साथ पूल करने के लिए एक सांख्यिकीय मॉडल का उपयोग करता है।
इस प्रकार, वांग और सहयोगियों ने एक दृष्टिकोण का उपयोग किया जो बहुस्तरीय प्रतिगमन और पोस्ट-स्तरीकरण को जोड़ता था, इसलिए उन्होंने अपनी रणनीति बहुस्तरीय प्रतिगमन को पोस्ट-स्तरीकरण या अधिक स्नेही के साथ बुलाया, "श्रीमान। पी। "जब वांग और सहयोगियों ने एक्स पीक्स का उपयोग एक्सबॉक्स गैर-संभाव्यता नमूने से अनुमान लगाने के लिए किया था, तो उन्होंने ओबामा को 2012 के चुनाव (आंकड़ा 3.8) में प्राप्त समग्र समर्थन के बहुत करीब अनुमान लगाए। वास्तव में उनके अनुमान पारंपरिक सार्वजनिक राय चुनावों की तुलना में अधिक सटीक थे। इस प्रकार, इस मामले में, सांख्यिकीय समायोजन - विशेष रूप से श्री पी। गैर-संभावना डेटा में पक्षपात को सही करने के लिए एक अच्छा काम करने लगते हैं; जब आप असंगत Xbox डेटा से अनुमानों को देखते हैं तो पूर्वाग्रह स्पष्ट रूप से दिखाई देते थे।
वांग और सहयोगियों के अध्ययन से दो मुख्य सबक हैं। सबसे पहले, असंगत गैर-संभाव्यता के नमूने खराब अनुमानों का कारण बन सकते हैं; यह एक सबक है कि कई शोधकर्ताओं ने पहले सुना है। दूसरा पाठ, हालांकि, गैर-संभाव्यता नमूने, जब सही ढंग से विश्लेषण किया जाता है, वास्तव में अच्छे अनुमान उत्पन्न कर सकते हैं; गैर-संभावना वाले नमूने को स्वचालित रूप से साहित्यिक डाइजेस्ट फियास्को की तरह कुछ नहीं लेना चाहिए।
आगे बढ़ते हुए, यदि आप संभाव्यता नमूना दृष्टिकोण और गैर-संभाव्यता नमूना दृष्टिकोण का उपयोग करने के बीच निर्णय लेने का प्रयास कर रहे हैं तो आपको एक कठिन विकल्प का सामना करना पड़ता है। कभी-कभी शोधकर्ता एक त्वरित और कठोर नियम चाहते हैं (उदाहरण के लिए, हमेशा संभावना नमूनाकरण विधियों का उपयोग करें), लेकिन इस तरह के नियम की पेशकश करना मुश्किल हो रहा है। शोधकर्ताओं को अभ्यास में संभाव्यता नमूना पद्धतियों के बीच एक कठिन विकल्प का सामना करना पड़ता है- जो तेजी से महंगा और सैद्धांतिक परिणामों से बहुत दूर हैं जो उनके उपयोग को औचित्य देते हैं- और गैर-संभाव्यता नमूनाकरण विधियां-जो सस्ता और तेज़ हैं, लेकिन कम परिचित और अधिक विविध हैं। हालांकि, एक बात स्पष्ट है कि यदि आपको गैर-संभाव्यता नमूने या गैर-प्रतिनिधि बड़े डेटा स्रोतों (अध्याय 2 पर वापस सोचें) के साथ काम करने के लिए मजबूर होना पड़ता है, तो विश्वास करने का एक मजबूत कारण है कि पोस्ट-स्तरीकरण का उपयोग करके किए गए अनुमान और संबंधित तकनीक असंगत, कच्चे अनुमानों से बेहतर होगी।