डिजिटल युग सराव मध्ये सराव संभाव्यता करत आहे आणि गैर संभाव्यता नमूना साठी नवीन संधी निर्माण करत आहे.
सॅम्पलिंगच्या इतिहासामध्ये, दोन प्रतिस्पर्धी पध्दती आहेत: संभाव्यता नमूना पद्धती आणि गैर-संभाव्यता नमूना पद्धती. दोन्ही पद्धतींचा वापर सॅम्पलिंगच्या सुरुवातीच्या दिवसांमध्ये केला जात असला तरीही संभाव्यता नमूनांवर वर्चस्व प्रस्थापित झाले आहे आणि अनेक सामाजिक संशोधकांना गैरसोय नमुने मोठ्या नकारार्थीतेने पाहणे शक्य झाले आहे. तथापि, मी खाली वर्णन केल्याप्रमाणे, डिजिटल युगाद्वारे तयार केलेले बदल म्हणजे याचा अर्थ असा आहे की संशोधकांनी गैर-संभाव्यता नमूनांवर फेरविचार करण्याची वेळ आहे. विशेषतः, संभाव्यता नमूना सराव मध्ये कठिण मिळत आहे, आणि गैर-संभाव्यता नमूना जलद, स्वस्त आणि चांगले मिळत गेले आहे वेगवान आणि स्वस्त सर्वेक्षण फक्त स्वत: मध्ये संपत नाहीत: ते नवीन संधी जसे की अधिक वारंवार सर्वेक्षण आणि मोठ्या नमुना आकारांना सक्षम करतात. उदाहरणार्थ, गैर-संभाव्यता पद्धती वापरून सहकारी काँग्रेस निवडणूक निवडणूक (सीसीईएस) संभाव्यता नमूना वापरून पूर्वीच्या अभ्यासापेक्षा जवळजवळ 10 पट जास्त सहभागी होऊ शकतात. हे मोठे नमूने राजकीय संशोधकांना उपसमूह आणि सामाजिक संदर्भांमध्ये वृत्ती आणि वर्तणुकीतील फरक अभ्यास करण्यास सक्षम करते. पुढे, अंदाजे दर्जा (Ansolabehere and Rivers 2013) कमी झाल्याशिवाय या सर्व वाढीव प्रमाणात आले नाहीत.
सध्या, सामाजिक संशोधनासाठी नमूना करण्याची प्रमुख पध्दत संभाव्यता नमूना आहे . संभाव्यता नमूनामध्ये, लक्ष्य लोकसंख्येतील सर्व सदस्यांना एक ज्ञात, नमुने तपासण्याची संभाव्यता आहे आणि सॅम्पल केलेले सर्व लोक सर्वेक्षणांवर प्रतिसाद देतात. जेव्हा ही परिस्थिती पूर्ण होते, तेव्हा गणितातील गणित परिणाम लक्ष्यित लोकसंख्येबद्दल संदर्भ तयार करण्यासाठी नमुना वापरण्याची संशोधकांच्या क्षमतेविषयी सिद्ध हमी देतात.
वास्तविक जगात, तथापि, या गणिती निष्कर्षांचे पालन करणारा अटी क्वचितच भेटले आहेत. उदाहरणार्थ, बर्याचदा आगीच्या चुका आणि गैर-प्रतिक्रिया असतात. या समस्यांमुळे, संशोधकांना त्यांच्या नमुनातून त्यांच्या लक्ष्यित लोकसंख्येमध्ये अनुमान काढण्यासाठी अनेक सांख्यिकीय ऍडजस्टमेंट्सवर काम करावे लागते. त्यामुळे सिध्दांतामधील संभाव्यता नमूनामध्ये महत्त्व देणे महत्वाचे आहे, ज्यामध्ये सशर्त सैद्धांतिक हमी आणि सरावाने संभाव्यता नमूना आहे , जी अशा प्रकारच्या हमीची ऑफर करत नाही आणि विविध सांख्यिक समायोजनांवर अवलंबून आहे.
कालांतराने, सिद्धांत आणि संभाव्यता सॅम्पलिंग प्रक्रियेत संभाव्यता सॅम्पलिंगमधील मतभेद वाढत आहेत. उदाहरणार्थ, उच्च दर्जाच्या, महाग सर्वेक्षणे (आकृती 3.5) (National Research Council 2013; BD Meyer, Mok, and Sullivan 2015) मध्येही नॉनप्रॉस्पेश रेट सातत्याने वाढत आहेत. व्यावसायिक टेलिफोन सर्वेक्षणात गैर-प्रतिसाद दर खूपच जास्त आहेत-कधीकधी 9 0% (Kohut et al. 2012) पेक्षाही जास्त. गैरप्रकारांमुळे हे वाढीमुळे अनुमानांची गुणवत्ता धोक्यात येते कारण अंदाज हे वाढत्या प्रमाणातील मॉडेलवर अवलंबून असतात जे संशोधक गैर-प्रतिक्रियांसाठी समायोजित करण्यासाठी वापरतात. शिवाय, संशोधकांनी उच्च प्रतिसाद दर राखण्याचा प्रयत्न करून वाढत्या महाग प्रयत्नांशिवाय गुणवत्तेत हे घटले आहे. काही लोकांना अशी भीती वाटते की कमी गुणवत्तेची आणि वाढत असलेल्या खर्चामुळे सर्वेक्षणाचा शोध (National Research Council 2013) च्या पायाला धोका आहे.
त्याचवेळी संभाव्यता नमूना पद्धतींच्या वाढत्या अडचणी येत आहेत, तसेच गैर-संभाव्यता नमूना पद्धतीमध्येही रोमांचक विकास झाले आहेत. गैर-संभाव्यता नमूना पद्धतींच्या विविध शैली आहेत, परंतु एक गोष्ट जी त्यांच्यात सामाईक आहे कारण ते संभाव्यता नमूना (Baker et al. 2013) च्या गणिताच्या आराखड्यात सहजपणे फिट होत नाहीत. दुसऱ्या शब्दांत, गैर-संभाव्यता नमूना पद्धतींमध्ये प्रत्येकास ज्ञात आणि नॉनझेरो संभाव्यता समाविष्ट नसते. गैर-संभाव्यता नमूना पद्धती सामाजिक संशोधकांदरम्यान भयानक प्रतिष्ठा आहेत आणि ते सर्वेक्षण संशोधकांच्या काही नाटकीय अपयशाशी संबंधित आहेत, जसे की साहित्यिक डाइजेस्ट फज्जा (आधी चर्चा केल्याप्रमाणे) आणि "डेव्ही डेफेट्स ट्रूमन", अमेरिकेबद्दल चुकीची अंदाज 1 9 48 च्या राष्ट्रपती निवडणुकीत (आकृती 3.6).
डिजिटल-वयोगटातील विशिष्ट संभाव्य गैर-संभाव्यता नमूना म्हणजे एक ऑनलाइन पॅनल्सचा वापर आहे. ऑनलाइन पॅनेलचा वापर करणारे संशोधक काही पॅनेल प्रदाता-सामान्यतः एक कंपनी, सरकार किंवा विद्यापीठ -वर अवलंबून असतात-सर्वेक्षण करणार्यांसाठी उत्तरप्रेमी म्हणून काम करण्यास सहमत झालेल्या लोकांचा एक मोठा, विविध गट तयार करणे. या पॅनेलमधील सहभागींना बर्याचशा तदर्थ पद्धतींचा वापर करून भरती केली जाते जसे की ऑनलाइन बॅनर जाहिराती. नंतर, संशोधक इच्छित असलेल्या वैशिष्ट्यांसह (उदाहरणार्थ, प्रौढांच्या राष्ट्रीय स्तरावर प्रतिनिधी) असलेल्या सर्वेक्षणाचे नमुना प्रवेशासाठी पॅनेल प्रदात्यास पैसे देऊ शकतात. हे ऑनलाइन पॅनेल गैर-संभाव्यता पद्धती आहेत कारण प्रत्येकजण ज्ञात नाही आहे, नझरहित संभाव्यतेचा समावेश आहे. जरी गैर-संभाव्यता ऑनलाइन पॅनल्स आधीपासूनच सामाजिक संशोधकांद्वारे (सीसीईएस) वापरल्या जात आहेत, तरीही त्यांच्याकडून आलेल्या अंदाजांबद्दलच्या गुणवत्तेबद्दल काही चर्चा आहे (Callegaro et al. 2014) .
या वादविवाद असूनही, मला वाटते की सामाजिक संशोधकांना गैर-संभाव्यता नमूनांवर पुनर्विचार करण्यासाठी योग्य वेळ का आहे हे दोन कारणे आहेत. प्रथम, डिजिटल युगात, गैर-संभाव्यता नमुन्यांच्या संकलनात आणि विश्लेषणात अनेक विकास झाले आहेत. या नव्या पद्धती वेगवेगळ्या पद्धतींनी पुरविलेल्या आहेत ज्यामुळे मला वाटते की त्यांना "गैर-संभाव्यता नमूनाकरण 2.0" म्हणून समजेल. त्यामुळे संशोधकांनी गैर-संभाव्यता नमूनांवर पुनर्विचार करावे याचे दुसरे कारण म्हणजे संभाव्यता नमूनाकरण सराव वाढत्या अवघड होतात. जेव्हा प्रतिसाद नसलेल्या उच्च दर आहेत- वास्तविक सर्वेक्षणांमध्ये आता-आता आहे- सर्वेक्षणात सामील होण्याची वास्तविक संभाव्यता ज्ञात नाही, आणि अशा प्रकारे, संभाव्यता नमुने आणि गैर-संभाव्यतेचे नमूने हे तितके वेगळे नाहीत जितके संशोधकांचे मत आहे.
मी आधी म्हटल्याप्रमाणे, अनेक सामाजिक संशोधकांनी गैर-संभाव्यतेचे नमुने मोठ्या संशयितपणे पाहिले आहेत कारण सर्वेक्षण संशोधनाच्या सुरुवातीच्या दिवसांमध्ये काही असंतुष्ट अपयशांपैकी त्यांची भूमिका काही भागांत आहे. गैर-संभाव्यतेच्या नमुन्यांसह आम्ही किती दूर आलो याचे एक स्पष्ट उदाहरण म्हणजे वेई वांग, डेव्हिड रोथ्सिलिल्ड, शरद गोएल आणि अँड्र्यू जेलमन (2015) यांनी संशोधन केले ज्याने 2012 च्या अमेरिकेच्या निवडणुकीचा निकाल गैर-संभाव्यतेचा नमुना वापरून पुनर्प्राप्त केला. अमेरिकेच्या अमेरिकन प्रयोक्त्यांपैकी एक संशोधकांनी XBox गेमिंग सिस्टीममधील उत्तरप्रेमींची भरती केली आहे आणि आपण अपेक्षा करू शकता की Xbox चे नमुना पुरुष आणि तिरस्करणीय तरुणांकडे वळवेल: 18- ते 2 9-वयोगटातील 1 9% लोकसंख्या मतदारांची संख्या परंतु 65% एक्सबॉक्स नमुना, आणि पुरुष 47% मतदान झाले असले तरी 93% एक्सबॉक्सच्या नमुन्यात (आकृती 3.7). या तीव्र लोकसंख्याशास्त्रीय पूर्वाग्रहांमुळे, कच्चे Xbox डेटा निवडणूक परताव्याचा कमी सूचक होता. बराक ओबामा यांच्यावर मिट रोमनीची मजबूत विजयाची शक्यता आहे. पुन्हा एकदा, हे कच्चे, अनअॅल्ड न केलेले संभाव्यता नमुन्यांच्या धोक्याचे आणखी एक उदाहरण आहे आणि लिटरेरी डाइजेस्ट फियामका ची आठवण करून देते.
तथापि, वांग आणि त्याच्या सहकाऱ्यांनी या समस्यांविषयी जागरुक होते आणि अंदाज तयार करताना त्यांची यादृच्छिक चाचणीसाठी समायोजित करण्याचा प्रयत्न केला. विशेषतः, त्यांनी पोस्ट-स्लेटेटिफिकेशनचा उपयोग केला , एक तंत्रज्ञानाचा वापर जो संभाव्यतेच्या नमुने समायोजित करण्यासाठी देखील वापरला जातो ज्यामध्ये कव्हरेज त्रुटी आणि नॉन-प्रतिसाद असतात.
स्प्लिटिफिकेशन पोस्ट-स्ट्रेटीफिकेशनची मुख्य कल्पना म्हणजे लक्ष्यित लोकसंख्येबद्दल सहायक माहिती वापरणे म्हणजे नमुन्याद्वारे प्राप्त अंदाज तयार करणे. त्यांच्या गैर-संभाव्यतेच्या नमुनावरून अनुमान काढण्यासाठी पोस्ट-स्तरीकरण वापरताना, वॅंग आणि सहकर्मींनी वेगवेगळ्या गटांमध्ये लोकसंख्येत चिरून काढले, प्रत्येक गटात ओबामांना पाठिंबा दर्शविणारा अंदाज, आणि नंतर एक संपूर्ण अंदाज तयार करण्यासाठी समूह अंदाजपत्रकाचे सरासरी प्रमाण घेतले. उदाहरणार्थ, ते लोकसंख्या दोन गटांमध्ये (पुरुष आणि स्त्रिया) विभाजित करू शकले, त्यांनी ओबामांना पुरुष आणि स्त्रिया यांच्यातील पाठिंब्याचा अंदाज लावला आणि नंतर ओबामांना संपूर्ण भारतीयांना सरासरी भार घेऊन सरासरी स्त्रियांना पाठिंबा देण्याबद्दल अंदाज लावला 53 टक्के मतदार आणि 47 टक्के पुरुष. गटांच्या आकारांबद्दल पूरक माहिती आणून साधारणतः पोस्ट-स्तरीकरण असंतुलित नमुन्यासाठी योग्य ठरते.
योग्य गट स्थापन करणे हीच श्रेय पोस्ट करण्याची की आहे आपण समूहाची एकसंध गटात विभागणी करू शकलात तर प्रत्येक गटातील प्रत्येकासाठी प्रतिसाद समानता समान असेल, तर पोस्ट-स्टेराफिकेशन निःपक्षपाती अंदाज तयार करेल. दुस-या शब्दात सांगायचे असेल तर लिंगाने दर्जा वाढवून निष्पक्ष आकलन होईल जर सगळ्यांना प्रतिसाद प्रजनन असेल आणि सर्व स्त्रियांना समान प्रतिसाद वृत्ती असेल. या धारणास एकसंध-प्रतिसाद-गुणविशेष-गट- गृहीत धरले जाते, आणि मी या प्रकरणाच्या शेवटी गवणती नोट्समध्ये थोडी अधिक वर्णन करतो.
अर्थात, असं दिसून येतं की सर्व पुरुष आणि सर्व महिलांसाठी प्रतिक्रिया तीव्रता समान असेल. तथापि, एकसंध प्रतिसाद-गुणविशेष-गट-गटातील धारणा अधिक प्रशंसनीय बनते कारण गटांची संख्या वाढते. साधारणतः, आपण अधिक गट तयार केल्यास समूहातील लोकसंख्येला चिरून घेणे सोपे होते. उदाहरणार्थ, कदाचित सर्व महिलांना समान प्रतिसाद प्रचल असावा असा अजिबात वाटत नाही, परंतु 18-29 वयोगटातील सर्व स्त्रियांना समान प्रतिसाद प्रजनन आहे जे महाविद्यालयीन शिक्षण घेतलेले आणि कॅलिफोर्नियात राहणारे आहेत. . म्हणूनच, पोस्ट-स्तरीकरणमध्ये वापरलेल्या गटाची संख्या अधिक वाढते, ही पद्धत अधिक वाजवी मानली जावी यासाठी आवश्यक असलेल्या गृहितकांची आवश्यकता आहे. या वस्तुस्थितीमुळे, संशोधक बहुतेक वेळा पोस्ट-स्तरीकरणसाठी मोठ्या संख्येने गट तयार करु इच्छितात. तथापि, गटांची संख्या वाढते म्हणून, संशोधक भिन्न समस्येत कार्यरत असतात: डेटा स्पार्सिटी. प्रत्येक समूहात काही लोक फक्त असतील तर अंदाज अंदाजे अनिश्चित असतील, आणि अत्यंत प्रकरणांमध्ये जिथे कोणास प्रतिसाद देणारे गट नसतो, नंतर पोस्ट-स्लेटिफिकेशन पूर्णपणे विघटित होते.
एकसंध-प्रतिसाद-प्रवृत्ती-गट-गटांमध्ये गृहित धरण्याच्या आणि प्रत्येक गटातील वाजवी नमुना आकारांची मागणी यातील मूळ मानसिक तणावातून दोन मार्ग आहेत. प्रथम, संशोधक एक मोठा, अधिक वैविध्यपूर्ण नमुना एकत्रित करू शकतात, जे प्रत्येक समूहात योग्य नमूना आकार निश्चित करण्यात मदत करते. दुसरे, ते गटांमध्ये अंदाज लावण्यासाठी अधिक अत्याधुनिक सांख्यिकी मॉडेल वापरू शकतात. आणि खरं तर, काहीवेळा संशोधक दोन्ही करतात, वॅंग आणि सहकाऱ्यांनी एक्सबॉक्सच्या उत्तरपदाचा उमेदवारांचा वापर करून निवडणुकीचा अभ्यास केला होता.
कारण ते संगणक-प्रशासित मुलाखतींसह गैर-संभाव्यता नमूना पद्धत वापरत होते (मी विभाग 3.5 मध्ये संगणक-प्रशासित मुलाखतींबद्दल अधिक बोलू शकेन), वांग आणि त्यांच्या सहकाऱ्यांमध्ये अतिशय स्वस्त डेटा संकलन होते, ज्यायोगे त्यांना 345,858 अनन्य भागीदारांकडून माहिती एकत्रित करता आली , निवडणुकीसाठी मतदान मानदंड एक प्रचंड संख्या. या प्रचंड नमुना आकाराने त्यांना मोठ्या संख्येने पोस्ट स्तरीकरण गट तयार करण्यास सक्षम केले. पोस्ट-स्तरीकरण विशेषकरून शेकडो लोकसंख्येला कापण्यासाठी करतात, तर वॅंग आणि त्यांच्या सहकार्यांनी लोकसंख्येत लिंग (2 श्रेण्या), वंश (4 श्रेण्या), वय (4 विभाग), शिक्षण (4 गट), राज्य (4 वर्ग), परिभाषित केलेल्या 176,256 गटांना विभागले आहे. (51 गट), पक्ष आयडी (3 गट), विचारधारा (3 गट) आणि 2008 मत (3 गट). दुसर्या शब्दात सांगायचे तर, त्यांच्या प्रचंड नमुना आकाराने, कमी किमतीच्या डेटा संकलनाद्वारे सक्षम केले होते, त्यांना त्यांच्या अंदाज प्रक्रियेत अधिक प्रशंसनीय धारणा करण्यास सक्षम केले.
जरी 345,858 अनन्य सहभाग्यांसह, तरीही, अजूनही बरेच, अनेक गट होते ज्यासाठी वांग आणि त्यांचे सहकाऱ्यांनी जवळजवळ कोणतीही प्रतिक्रिया व्यक्त केली नव्हती. म्हणूनच, त्यांनी प्रत्येक गटात पाठिंबा मिळवण्यासाठी बहुस्तरीय प्रतिगमन नावाची एक तंत्रे वापरली. विशेषत: एक विशिष्ट गटात ओबामांना पाठिंबा मिळवण्यासाठी अंदाज लावणे, अनेक निकट संबंधित गटांकडून बहुस्तरीय प्रतिगमन एकत्रित माहिती. उदाहरणार्थ, 18 ते 2 9 वर्षे वयोगटातील महिला Hispanics मध्ये ओबामा यांना पाठिंबा देण्याचा प्रयत्न करण्याचा विचार करा, ज्यांना महाविद्यालयीन पदवीधर आहेत, जे डेमोक्रॅट नोंदणीकृत आहेत, ज्यांना स्वत: च्या नावाने ओळखले जाते आणि 2008 मध्ये ओबामा यांना मत दिलेले होते. , अतिशय विशिष्ट समूह, आणि हे शक्य आहे की या वैशिष्ट्यांसह नमुनामध्ये कोणीही नाही म्हणून, या गटाबद्दल अंदाज लावण्यासाठी, बहुस्तरीय प्रतिगमन अशाच समूहातील लोकांचा एकत्रित अंदाज गोळा करण्यासाठी एक सांख्यिकीय मॉडेल वापरते.
याप्रमाणे, वॅंग आणि त्यांच्या सहकाऱ्यांनी एक दृष्टिकोन वापरला ज्याने बहुस्तर प्रतिगमन आणि पोस्ट-स्तरीकरण एकत्र केले, म्हणून त्यांनी त्यांच्या धोरणानुसार बहुस्तरीय प्रतिगमन पोस्ट-स्तरीकरण किंवा अधिक प्रेमाने केले. पी. "वांग आणि त्यांचे सहकाऱ्यांनी श्री. पी. यांनी एक्सबॉक्स अ-संभाव्यतेच्या नमुन्यातून अंदाज लावला तेव्हा त्यांनी 2012 च्या निवडणुकीत (आकृती 3.8) ओबामा यांना मिळालेल्या संपूर्ण समर्थनाबद्दल अंदाज बांधला. खरं तर त्यांच्या अंदाजांनुसार पारंपारिक जनमत सर्वेक्षणांपेक्षा एकापेक्षा अधिक अचूक होते. अशाप्रकारे, या प्रकरणात, सांख्यिकीय ऍडजस्टमेंट-विशेषत: श्री. पी.-गैर संभाव्यता डेटामधील पूर्वाग्रह सुधारताना चांगली कार्य करीत आहे; अपवाद न केलेले Xbox डेटा पासून अंदाज पाहण्यासारखे स्पष्टपणे दिसणारे बायपास
वांग आणि त्यांच्या सहकाऱ्यांच्या अभ्यासातून दोन मुख्य धडे आहेत. प्रथम, अनझॉल्ड नॉन-प्रॉझिबिलिटी नमुने वाईट अंदाज लावू शकतात; हा एक धडा आहे जो अनेक संशोधकांनी आधी ऐकले आहे. दुसरा धडा, मात्र, गैर-संभाव्यतेचे नमुने योग्यरित्या विश्लेषित केल्यावर प्रत्यक्षात चांगले अंदाज सादर करू शकतात; गैर-संभाव्यतेच्या नमुन्यांना स्वत: ला लिटरेरी डाइजेस्ट फियास्को सारखे काहीतरी करण्याची आवश्यकता नाही.
पुढे जाणे, आपण संभाव्यता नमूना पद्धत आणि गैर-संभाव्यता नमूना पध्दती वापरण्यामध्ये निर्णय घेण्याचा प्रयत्न करीत असाल तर आपल्याला एक कठीण निवडीचा सामना करावा लागतो. काहीवेळा संशोधकांना एक जलद आणि कठोर नियम हवे आहेत (उदा. नेहमी संभाव्यता नमूना पद्धती वापरा), परंतु असे नियम प्रदान करणे कठीण होत आहे. संशोधकांना सराव पद्धतींमध्ये संभाव्यता सॅम्पलिंग पद्धतींमधल्या कठीण निवडीचा सामना करावा लागतो- जे सैद्धांतिक परिणामांपासून वाढत आहेत आणि त्यांच्या वापर-आणि गैर-संभाव्यता नमूना पद्धतींचे समर्थन करतात- जे स्वस्त आणि जलद आहेत परंतु कमी परिचित आणि अधिक भिन्न आहेत. एक गोष्ट स्पष्ट आहे, तथापि, जर आपल्याला गैर-संभाव्यतेचे नमुने किंवा गैर-प्रतिनिधींच्या मोठया डेटा स्त्रोतांसह कार्य करण्यास भाग पाडले गेले असेल (अध्याय 2 कडे परत पहा), तर असे मानले जाण्याची एक मजबूत कारण आहे की अंदाजपत्रकास पोस्ट-स्तरीकरण वापरून आणि संबंधित तंत्रे अनझॉल्टेडपेक्षा चांगले असतील, कच्चे अंदाज