অ সম্ভাব্যতা নমুনার সঙ্গে, ওজন ধারণ স্যাম্পলিং প্রক্রিয়া দ্বারা সৃষ্ট বিকৃতি পূর্বাবস্থা করতে পারেন.
একই ভাবে যে গবেষকরা সম্ভাব্যতা নমুনা থেকে প্রতিক্রিয়া ওজন, তারাও অ সম্ভাব্যতা নমুনা থেকে প্রতিক্রিয়া ওজন পারেন. উদাহরণস্বরূপ, সিপিএস এর বিকল্প হিসেবে কল্পনা করুন যে, আপনি ওয়েবসাইটের সহস্র ব্যানার বিজ্ঞাপন স্থাপন বেকারত্বের হার অনুমান করার জন্য একটি জরিপ অংশগ্রহণকারীদের নিয়োগস্থল. স্বাভাবিকভাবেই, আপনি সন্দিহান যে আপনার নমুনার সহজ গড় বেকারত্বের হার একটি ভাল অনুমান করা যাবে. আপনার সংশয়বাদ কারণ সম্ভবত আপনি মনে করেন যে, কিছু মানুষ আরো অন্যদের চেয়ে আপনার জরিপ সম্পন্ন করার সম্ভাবনা বেশি হয়. উদাহরণস্বরূপ, যারা ওয়েবে অনেক সময় ব্যয় না কম আপনার জরিপ সম্পন্ন করার সম্ভাবনা বেশি.
আমরা শেষ অধ্যায় যেমন দেখেছি যে, তবে, যদি আমরা জানি কিভাবে নমুনা নির্বাচিত হিসাবে ছিল আমরা সম্ভাব্যতা না নমুনা-তারপর আমরা স্যাম্পলিং প্রক্রিয়া দ্বারা সৃষ্ট বিকৃতি পূর্বাবস্থা করতে পারেন. দুর্ভাগ্যবশত, যখন অ সম্ভাব্যতা নমুনার সঙ্গে কাজ, তা আমরা জানি না কিভাবে নমুনা নির্বাচন করা হয়েছিল. কিন্তু, আমরা স্যাম্পলিং প্রক্রিয়া সম্পর্কে অনুমানের করতে পারেন এবং তারপর একই ভাবে তৌল প্রযোজ্য. এই অনুমানের সঠিক হয়, তাহলে তৌল স্যাম্পলিং প্রক্রিয়া দ্বারা সৃষ্ট বিকৃতি দূর করতে.
উদাহরণস্বরূপ, কল্পনা করুন যে আপনার ব্যানার বিজ্ঞাপন প্রতিক্রিয়ায়, আপনি 100,000 উত্তরদাতা নিয়োগ. যাইহোক, যদি আপনি বিশ্বাস করে না যে এই 100,000 উত্তরদাতা আমেরিকান প্রাপ্তবয়স্কদের একটি সহজ র্যান্ডম নমুনা হয়. আসলে, যখন আপনি মার্কিন জনসংখ্যার আপনার উত্তরদাতা তুলনা, আপনি এটি যে কয়েকটি রাজ্যে (যেমন, নিউ ইয়র্ক) থেকে মানুষ কিছু রাজ্যে (যেমন, আলাস্কা) থেকে ওভার প্রতিনিধিত্ব এবং যে মানুষ হয় অনূর্ধ্ব প্রতিনিধিত্ব হয়. সুতরাং, আপনার নমুনা যুক্তরাষ্ট্রে বেকারত্বের হার লক্ষ্য জনসংখ্যা বেকারত্বের হার একটি খারাপ অনুমান হতে পারে.
ওয়ান ওয়ে বিকৃতি যে স্যাম্পলিং প্রক্রিয়ায় ঘটেছে পূর্বাবস্থায় ফিরিয়ে আনতে প্রতিটি ব্যক্তির ওজন দায়িত্ব অর্পণ করা হয়; যুক্তরাষ্ট্র থেকে মানুষ কম ওজন যে রাজ্যে যে নমুনা (যেমন, আলাস্কা) অনূর্ধ্ব প্রতিনিধিত্ব করা হয় থেকে নমুনা (যেমন, নিউ ইয়র্ক) এবং উচ্চতর ওজন লোকদের কাছে ওভার প্রতিনিধিত্ব করা হয়. আরো নির্দিষ্টভাবে, প্রতিটি উত্তরদাতা জন্য ওজন মার্কিন জনসংখ্যায় তাদের প্রাদুর্ভাব আপনার নমুনা আপেক্ষিক তাদের প্রাদুর্ভাব সঙ্গে সম্পর্কযুক্ত. এই তৌল পদ্ধতি পোস্ট স্তরবিন্যাস বলা হয়, এবং ঝাঁকনি ধারণা অনুচ্ছেদ 3.4.1 উদাহরণস্বরূপ আপনাকে স্মরণ করিয়ে দেবে যেখানে রোড আইল্যান্ড থেকে উত্তরদাতা কালিফোর্নিয়ার উত্তরদাতা কম ওজন দেওয়া হয়. পোস্ট-স্তরবিন্যাস প্রয়োজন আপনি দলের মধ্যে আপনার বিবাদীদের করা এবং প্রতিটি দলের লক্ষ্য জনসংখ্যার অনুপাতে জানা যথেষ্ট জানেন.
যদিও সম্ভাবনা নমুনা এবং অ সম্ভাব্যতা নমুনা তৌল একই গাণিতিকভাবে (কারিগরি পরিশিষ্ট দেখুন) হয়, তারা বিভিন্ন পরিস্থিতিতে ভাল কাজ. গবেষক একটি নিখুঁত সম্ভাব্যতা নমুনা (অর্থাত, কোন কভারেজ ত্রুটি এবং কোন অ প্রতিক্রিয়া) থাকে, তাহলে তৌল সব ক্ষেত্রেই সব বৈশিষ্ট্যের পক্ষপাতিত্বহীন অনুমান উত্পাদন করা হবে. এই শক্তিশালী তত্ত্বীয় গ্যারান্টি কেন সম্ভাব্যতা স্যাম্পেলের সমর্থনকারীরা তাদের এত আকর্ষণীয় খুঁজে. অপরপক্ষে, তৌল অ সম্ভাব্যতা নমুনা শুধুমাত্র যদি প্রতিক্রিয়া propensities প্রতি গ্রুপে সবার জন্য সমান হয় সব বৈশিষ্ট্যের পক্ষপাতিত্বহীন অনুমান উত্পাদন করা হবে. অন্য কথায়, পোস্ট স্তরবিন্যাস ব্যবহার করে নিউ ইয়র্কে সবাই অংশগ্রহণ এবং আলাস্কা সবাই অংশগ্রহণ এবং তাই একই সম্ভাবনা আছে একই সম্ভাবনা আছে পক্ষপাতিত্বহীন অনুমান উত্পাদন হবে আমাদের উদাহরণে ফিরে চিন্তা. এই ধৃষ্টতা সজাতি-প্রতিক্রিয়া-propensities-মধ্যে-গ্রুপ ধৃষ্টতা বলা হয়, এবং এটা বুদ্ধিমান একটি গুরুত্বপূর্ণ ভূমিকা পালন করে যদি পোস্ট স্তরবিন্যাস অ সম্ভাব্যতা নমুনার সাথে ভাল কাজ করবে.
দুর্ভাগ্যবশত, আমাদের উদাহরণে, সজাতি-প্রতিক্রিয়া-propensities-মধ্যে-গ্রুপ ধৃষ্টতা সত্য হতে সম্ভবনা. অর্থাৎ এটা সম্ভবনা আলাস্কা মধ্যে সবাই আপনার জরিপ হচ্ছে একই সম্ভাবনা আছে. কিন্তু, সেখানে তিনটি গুরুত্বপূর্ণ পয়েন্ট পোস্ট স্তরবিন্যাস সম্পর্কে মনে রাখা, যা সব এটি আরো সম্ভাবনাময় মনে করা হয়.
প্রথমত, সজাতি-প্রতিক্রিয়া-propensities-মধ্যে-গ্রুপ ধৃষ্টতা গ্রুপ বৃদ্ধি সংখ্যা হিসাবে আরো বিশ্বাসযোগ্য হয়ে ওঠে. আর, গবেষক মাত্র একটি একক ভৌগলিক মাত্রা ভিত্তিক দলের মধ্যেই সীমাবদ্ধ নয়. উদাহরণস্বরূপ, আমরা রাষ্ট্র, বয়স, লিঙ্গ, এবং শিক্ষা স্তরের উপর ভিত্তি করে গ্রুপ তৈরি করতে পারে. এটা আরো যুক্তিসঙ্গত যে সেখানে 18-29 গোষ্ঠীর মধ্যে সজাতি প্রতিক্রিয়া propensities মনে হয়, আলাস্কা বসবাসরত সব গোষ্ঠীর লোকেদের মধ্যে আর আলাস্কা বসবাসকারী মহিলা, কলেজ স্নাতকদের. এভাবে পোস্ট স্তরবিন্যাস বৃদ্ধির জন্য ব্যবহার করা দলের সংখ্যা হিসেবে, অনুমিতি এটা অধিক যুক্তিসঙ্গত হয়ে সমর্থন প্রয়োজন. এই সত্য দেওয়া, এটা একটি গবেষক পোস্ট স্তরবিন্যাস জন্য দলের বিপুল সংখ্যা তৈরি করতে চাই মত মনে হয়. তথ্য sparsity: কিন্তু, গ্রুপ বৃদ্ধি নম্বর, গবেষকরা বিভিন্ন সমস্যা পাতিত. যদি শুধুমাত্র প্রতিটি গ্রুপের মানুষের একটি ছোট সংখ্যা হয়, তবে অত হিসেব আরও অনিশ্চিত হবে, এবং চরম ক্ষেত্রে একটি গ্রুপ কোন উত্তরদাতা হয়েছে যে আছে যেখানে, তারপর post-স্তরবিন্যাস সম্পূর্ণরূপে ভেঙ্গে নিচে. সেখানে homogeneous- প্রতিক্রিয়া-প্রবৃত্তি-মধ্যে-গ্রুপ ধৃষ্টতা সম্ভরপরতা এবং প্রতিটি দলের যুক্তিসংগত নমুনা মাপ জন্য চাহিদার মধ্যে এই সহজাত টান আউট দুটি উপায় আছে. এক পদ্ধতির ওজন হিসাবী জন্য একটি আরো পরিশীলিত পরিসংখ্যানিক মডেল অগ্রসর হয় এবং অন্য একটি বড়, আরো বিচিত্র নমুনা, যা প্রতিটি গ্রুপের যুক্তিসংগত নমুনা মাপ নিশ্চিত করতে সহায়তা করে সংগ্রহ করা হয়. আর মাঝে মাঝে গবেষকরা উভয় না, যেমন আমি নিচে আরো বিস্তারিত বর্ণনা পাবেন.
দ্বিতীয় বিবেচনা যখন অ সম্ভাব্যতা নমুনা থেকে পোস্ট-স্তরবিন্যাস সঙ্গে কাজ করে সজাতি-প্রতিক্রিয়া-প্রবৃত্তি-মধ্যে-গ্রুপ ধৃষ্টতা ইতিমধ্যে ঘন ঘন যখন সম্ভাব্যতা নমুনা বিশ্লেষণ করা হয়. কারণ এই ধৃষ্টতা অভ্যাস সম্ভাব্যতা নমুনার জন্য প্রয়োজন হয় যে সম্ভাব্যতা নমুনা অ প্রতিক্রিয়া আছে, এবং অ প্রতিক্রিয়া জন্য সামঞ্জস্য জন্য সবচেয়ে প্রচলিত পদ্ধতি পোস্ট স্তরবিন্যাস হিসাবে উপরে বর্ণিত. অবশ্যই, শুধু কারণ অনেক গবেষক একটি নির্দিষ্ট ভাবনাটি তার মানে এই নয় যে আপনি এটা খুব উচিত. কিন্তু, এটা মানে যখন বাস্তবে সম্ভাব্যতা নমুনা অ সম্ভাব্যতা নমুনার তুলনা, আমরা মন যে উভয় অর্ডার অনুমান উত্পাদন করার জন্য ধারণাসমূহ এবং অক্জিলিয়ারী তথ্যের উপর নির্ভর করে রাখতে হবে. সবচেয়ে বাস্তবসম্মত সেটিংস ইন, কেবল কোন ধৃষ্টতা মুক্ত পদ্ধতির অনুমান হয়.
অবশেষে, আপনি প্রায় এক অনুমান গ্রাহ্য যদি আমাদের উদাহরণে বেকারত্ব বিশেষ-হার-তারপর আপনি একটি শর্ত সজাতি-প্রতিক্রিয়া-প্রবৃত্তি-মধ্যে-গ্রুপ ধৃষ্টতা চেয়ে দুর্বল প্রয়োজন. বিশেষভাবে, আপনি যে সবাই একই প্রতিক্রিয়া প্রবৃত্তি রয়েছে অনুমান করা, আপনি শুধুমাত্র অনুমান করা প্রতিটি দলের মধ্যে প্রতিক্রিয়া প্রবৃত্তি এবং বেকারত্বের হার মধ্যে কোনো সংগতি নেই যে প্রয়োজন প্রয়োজন হবে না. অবশ্যই, এমনকি এই দুর্বল অবস্থার কিছু পরিস্থিতিতে রাখা হবে না. উদাহরণস্বরূপ, আমেরিকানরা যে স্বেচ্ছাসেবক কাজ কি অনুপাতে প্রাক্কলনে কল্পনা. মানুষ যারা স্বেচ্ছাসেবক কাজ করতে আরও একটি জরিপ হতে রাজি হওয়ার সম্ভাবনা থাকে, তাহলে গবেষকরা হবে ধারাক্রমে ওভার অনুমান স্বেচ্ছাসেবক পরিমাণ, এমনকি যদি তারা পোস্ট স্তরবিন্যাস সমন্বয় ফলে যে প্রায়োগিক প্রদর্শিত হয়েছে না, Abraham, Helms, and Presser (2009) .
আগেই বলেছি, অ সম্ভাব্যতা নমুনার মহান সংশয়বাদ সঙ্গে সমাজবিজ্ঞানীরা, জরিপ গবেষণার প্রথম দিন সবচেয়ে লজ্জাজনক ব্যর্থতা কিছু তাদের ভূমিকা কারণ দেখা হয় অংশে. কতদূর আমরা অ সম্ভাব্যতা নমুনা নিয়ে এসেছি একটি স্পষ্ট উদাহরণ যে সঠিকভাবে আমেরিকান এক্সবক্স ব্যবহারকারীরা একটি অ সম্ভাব্যতা নমুনা ব্যবহার 2012 মার্কিন নির্বাচনের ফলাফল উদ্ধার ওয়েই ওয়াং, ডেভিড রথসচাইল্ড, শারদ গোয়েল, এবং অ্যান্ড্রু Gelman এর গবেষণা -a আমেরিকানদের সন্দেহাতীতভাবে অ র্যান্ডম নমুনা (Wang et al. 2015) . গবেষকরা এক্সবক্স গেমিং সিস্টেম থেকে উত্তরদাতা নিয়োগ, এবং হিসাবে আপনি আশা করতে পারে, এক্সবক্স নমুনা পুরুষ skewed এবং তরুণ skewed: 18 - 29 বছর বয়সীদের নির্বাচকমণ্ডলী 19% কিন্তু এক্সবক্স নমুনা 65% পর্যন্ত এবং পুরুষদের 47% পর্যন্ত নির্বাচকমণ্ডলী এবং এক্সবক্স নমুনা (চিত্র 3.4) এর 93% এর. কারণ এইসব শক্তিশালী ডেমোগ্রাফিক গোঁড়ামির এর, কাঁচা এক্সবক্স ডেটা নির্বাচনে একটি দরিদ্র সূচক ছিল. এটা বারাক ওবামার চেয়ে রমনির জন্য একটি শক্তিশালী বিজয় পূর্বাভাস. আবার, এই কাঁচা, অনিয়ন্ত্রিত অ সম্ভাব্যতা নমুনা বিপদ আরেকটি উদাহরণ এবং লিটারারি ডাইজেস্ট ভরাডুবি কথা স্মরণ করিয়ে দেয়.
যাইহোক, ওয়াং এবং সহকর্মীদের এই সমস্যা সম্পর্কে ওয়াকিবহাল ছিলেন এবং স্যাম্পলিং প্রক্রিয়া সংশোধন উত্তরদাতা ওজন করার চেষ্টা. বিশেষ করে, তারা পোস্ট স্তরবিন্যাস সম্পর্কে বলেছি একটি আরো পরিশীলিত রূপ ব্যবহার করেছিলেন. কারণ এটা পোস্ট স্তরবিন্যাস সম্পর্কে স্বজ্ঞা তৈরী তাদের পদ্ধতির সম্পর্কে একটি বিট আরো শেখার মূল্য, এবং বিশেষ সংস্করণ ওয়াং এবং সহকর্মীদের ব্যবহার তৌল অ সম্ভাব্যতা নমুনা সবচেয়ে উত্তেজনাপূর্ণ পন্থা এক.
অনুচ্ছেদ 3.4.1 বেকারত্বের প্রাক্কলনে সম্পর্কে আমাদের সহজ উদাহরণে, আমরা বসবাসের রাষ্ট্র ভিত্তিক দলের মধ্যে জনসংখ্যা বিভক্ত. বিপরীতভাবে, ওয়াং এবং সহকর্মীদের দ্বারা সংজ্ঞায়িত 176.256 দলে মধ্যে জনসংখ্যা বিভক্ত: লিঙ্গ (2 বিভাগ), জাতি (4 বিভাগ), বয়স (4 বিভাগ), শিক্ষা (4 বিভাগ), রাষ্ট্র (51 বিভাগ), পার্টি আইডি (3 বিভাগ), মতাদর্শ (3 বিভাগ) এবং 2008 ভোট (3 বিভাগ). আরো গ্রুপ সঙ্গে গবেষকরা আশা প্রকাশ করেন যে ক্রমবর্ধমান সম্ভবত প্রতিটি দলের মধ্যে, প্রতিক্রিয়া প্রবৃত্তি ওবামার জন্য সমর্থন সঙ্গে সম্পর্কহীন ছিল হবে. এর পরে, বরং পৃথক স্তরের ওজন নির্মানের যেমন আমরা আমাদের উদাহরণে তার চেয়েও ওয়াং এবং সহকর্মীদের একটি জটিল মডেল প্রতিটি গ্রুপ যে ওবামার জন্য ভোট দেবে মানুষের অনুপাত অনুমান করার জন্য ব্যবহৃত. অবশেষে, তারা প্রতিটি গোষ্ঠীর পরিচিত আকার সঙ্গে সহায়তার এই গ্রুপ অনুমান মিলিত সমর্থন একটি আনুমানিক সামগ্রিক স্তরের উত্পাদন. অন্য কথায়, তারা বিভিন্ন দলে বিভক্ত জনসংখ্যা আপ কাটা, ওবামার জন্য সমর্থন আনুমানিক প্রতি গ্রুপে, এবং তারপর একটি সামগ্রিক হিসাব উত্পাদন গ্রুপ অনুমান একটি ভরযুক্ত গড় নেন.
সুতরাং, তাদের পদ্ধতির মধ্যে সবচেয়ে বড় চ্যালেঞ্জ এই 176.256 দলের প্রত্যেকটিতে ওবামার সমর্থন অনুমান হয়. যদিও তাদের প্যানেল 345.858 অনন্য অংশগ্রহণকারীদের নির্বাচন পোলিং মান দ্বারা একটি বিশাল সংখ্যা অন্তর্ভুক্ত, অনেক, অনেক গ্রুপ যার জন্য ওয়াং ও সহকর্মীরা প্রায় কোন উত্তরদাতা ছিল. অতএব, প্রতিটি গ্রুপ তারা একটি কৌশল ব্যবহার করা পোস্ট স্তরবিন্যাস সঙ্গে বহুস্তরীয় নির্ভরণ ডেকে যা গবেষকরা আদর মূলত জনাব পি কল, একটি নির্দিষ্ট দলের মধ্যে ওবামার সমর্থন অনুমান করার জন্য, জনাব পি পুল অনেক থেকে তথ্য সমর্থন অনুমান করার জন্য ঘনিষ্ঠভাবে সম্পর্কিত গ্রুপ. উদাহরণস্বরূপ, 18-29 বছর বয়সী, মহিলা হিস্পানিকদের মধ্যে ওবামার সমর্থন প্রাক্কলনে চ্যালেঞ্জ বিবেচনা যারা কলেজ স্নাতকদের, যারা নিবন্ধিত হয় ডেমোক্র্যাটদের উদারপন্থী হিসেবে যারা স্ব-চিহ্নিত হয়, এবং এই 2008 সালে ওবামার জন্য যারা ভোট দিয়েছেন একটি খুব, খুব নির্দিষ্ট গ্রুপ, এবং এটি এই বৈশিষ্ট্য সঙ্গে নমুনা কেউ নেই সম্ভব. অতএব, এই গ্রুপ সম্পর্কে অনুমান করতে, জনাব পি পুল একসঙ্গে খুব অনুরূপ গোষ্ঠীসমূহতে থেকে হিসাব করে থাকে.
এই বিশ্লেষণ কৌশল ব্যবহার করে, ওয়াং এবং সহকর্মীদের এক্সবক্স অ সম্ভাব্যতা নমুনা ব্যবহার করা খুবই ঘনিষ্ঠভাবে সামগ্রিক সমর্থন ওবামার 2012 নির্বাচনে গৃহীত অনুমান করতে পেরেছি (চিত্র 3.5). বস্তুত তাদের অনুমান জরিপে জনমতের একটি সমষ্টিগত চেয়ে আরও নির্ভুল ছিল. সুতরাং, এই ক্ষেত্রে, তৌল-বিশেষভাবে জনাব একটি ভাল অ সম্ভাব্যতা ডাটা গোঁড়ামির সংশোধন চাকরি জাতীয়করণ করতে পি-মনে হয়; গোঁড়ামির যে তাদের এক্সেস আছে যখন আপনি অনিয়ন্ত্রিত এক্সবক্স তথ্য থেকে অনুমান তাকান.
সেখানে ওয়াং এবং সহকর্মীদের গবেষণায় থেকে দুই প্রধান পাঠ হয়. প্রথমত, অনিয়ন্ত্রিত অ সম্ভাব্যতা নমুনা খারাপ অনুমান হতে পারে; এই একটি পাঠ যে অনেক গবেষক আগে শুনেছি. তবে দ্বিতীয় পাঠ যে অ সম্ভাব্যতা নমুনা, যখন সঠিকভাবে পরিমেয়, আসলে বেশ ভাল অনুমান উৎপাদন করতে পারে. বস্তুত, তাদের অনুমান pollster.com, অধিক প্রথাগত নির্বাচনে ভোট একত্রিত থেকে অনুমান চেয়ে আরও নির্ভুল ছিল.
অবশেষে, আমরা কি এই এক নির্দিষ্ট গবেষণা থেকে জানতে পারবেন গুরুত্বপূর্ণ সীমাবদ্ধতা আছে. কারণ শুধু পোস্ট-স্তরবিন্যাস এই বিশেষ ক্ষেত্রে ভাল কাজ, কোন গ্যারান্টি নেই যে এটা অন্যান্য ক্ষেত্রে ভাল কাজ করবে. বস্তুত, নির্বাচনে কারণ pollsters প্রায় 100 বছর ধরে নির্বাচনের অধ্যয়নরত হয়েছে সম্ভবত সবচেয়ে সহজ পদ্ধিতি হল সেটিংস এক, সেখানে নিয়মিত প্রতিক্রিয়া (আমরা যারা দেখতে পারেন নির্বাচনে জয়ী), এবং পার্টি সনাক্তকরণ এবং ডেমোগ্রাফিক বৈশিষ্ট্য ভোটের অপেক্ষাকৃত ভবিষ্যদ্বাণীপূর্ণ হয়. এই মুহুর্তে, আমরা কঠিন তত্ত্ব এবং যখন জানতে অ সম্ভাব্যতা নমুনা তৌল সমন্বয় পর্যাপ্ত সঠিক অনুমান উত্পাদন হবে গবেষণামূলক অভিজ্ঞতা অভাব. এক জিনিস যে স্পষ্ট, তবে যদি আপনি অ সম্ভাব্যতা নমুনার সঙ্গে কাজ করতে বাধ্য করা হয়, তারপর সেখানে যে বিশ্বাস করতে সমন্বয়কৃত হিসাব অ সমন্বয়কৃত হিসাব চেয়ে ভাল হবে শক্তিশালী কারণ নেই.