গাণিতিক নোট

এই অনুবাদ একটি কম্পিউটার দ্বারা তৈরি করা হয়েছে. ×

গাণিতিক নোট

এই পরিশিষ্টে, আমি একটি সামান্য আরো গাণিতিক ফর্ম অধ্যায়ে থেকে ধারণা কিছু বর্ণনা করা হবে। এখানে লক্ষ্য আপনাকে জরিপ গবেষকদের দ্বারা ব্যবহৃত সংখ্যাবিজ্ঞান এবং গাণিতিক কাঠামোর সঙ্গে আরামদায়ক পেতে সহায়তা করার জন্য যাতে আপনি এই বিষয়ের উপর লেখা আরো কিছু প্রযুক্তিগত সামগ্রী পরিবর্তন করতে পারেন। আমি সম্ভাব্যতা নমুনা প্রবর্তন দ্বারা শুরু করা হবে, তারপর nonresponse সঙ্গে সম্ভাব্য নমুনা, এবং অবশেষে, অ প্রবণতা স্যাম্পলিং সরানো।

সম্ভাব্য নমুনা

একটি চলমান উদাহরণ হিসাবে, মার্কিন যুক্তরাষ্ট্র বেকারত্বের হার অনুমানের লক্ষ্য বিবেচনা করা যাক। $y_k$ $U = \{1, \ldots, k, \ldots, N\}$ হতে পারে লক্ষ্য জনসংখ্যা এবং ব্যক্তির জন্য ফলাফল ভেরিয়েবলের মান দ্বারা $y_k$ যাক $k$ । এই উদাহরণে $y_k$ হল যে ব্যক্তি $k$ বেকার হয়। অবশেষে, আসুন $F = \{1, \ldots, k, \ldots, N\}$ ফ্রেম জনসংখ্যা হ'ল, যা সরলীকরণের জন্য লক্ষ্য জনসংখ্যার মতই মনে করা হয়।

একটি মৌলিক স্যাম্পলিং ডিজাইন প্রতিস্থাপন ছাড়া সহজ র্যান্ডম স্যাম্পলিং। এই ক্ষেত্রে, প্রতিটি ব্যক্তি নমুনা অন্তর্ভুক্ত করা সমানভাবে সম্ভাবনা $s = \{1, \ldots, i, \ldots, n\}$ । যখন এই স্যাম্পলিং ডিজাইনে তথ্য সংগ্রহ করা হয়, তখন গবেষকরা জনসংখ্যার বেকারত্বের হারের নমুনা হিসাবে অনুমান করতে পারেন:

$\hat{\bar{y}} = \frac{\sum_{i \in s} y_i}{n} \qquad(3.1)$

যেখানে $\bar{y}$ জনসংখ্যার বেকারত্বের হার এবং $\hat{\bar{y}}$ হল বেকারত্বের হার ( $\hat{ }$ একটি estimator ইঙ্গিত ব্যবহৃত)।

বাস্তবিকই, গবেষকরা প্রতিস্থাপনের ছাড়াই খুব সহজেই সহজ র্যান্ডম স্যাম্পলিং ব্যবহার করেন। বিভিন্ন কারণের জন্য (যা এক মুহূর্তে আমি বর্ণনা করব), গবেষকরা প্রায়ই অন্তর্ভুক্তির অসম সম্ভাবনাগুলির সাথে নমুনা তৈরি করেন। উদাহরণস্বরূপ, গবেষকরা ফ্লোরিডার লোকজনকে ক্যালিফোর্নিয়ার জনগণের তুলনায় অন্তর্ভুক্তির উচ্চতর সম্ভাবনা নির্বাচন করতে পারে এই ক্ষেত্রে, নমুনা অর্থ (eq। 3.1) একটি ভাল অনুমানকারী নাও হতে পারে। পরিবর্তে, যখন অন্তর্ভুক্তির অসম সম্ভাব্যতা আছে, তখন গবেষকরা ব্যবহার করেন

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} \frac{y_i}{\pi_i} \qquad(3.2)$

যেখানে $\hat{\bar{y}}$ হল বেকারত্বের হারের অনুমান এবং $\pi_i$ হল ব্যক্তি $i$ অন্তর্ভুক্তির সম্ভাব্যতা স্ট্যান্ডার্ড অনুশীলন অনুসরণ করে, আমি eq এ estimator কল করব 3.2 হরভিত্জ-থম্পসন অনুমানকারী Horvitz-Thompson estimator অত্যন্ত দরকারী কারণ এটি কোন সম্ভাব্যতা স্যাম্পলিং ডিজাইন (Horvitz and Thompson 1952) জন্য নিরপেক্ষ অনুমানের দিকে পরিচালিত করে। কারণ হরভিত্জ-থম্পসন অবহিতকারী এত ঘন ঘন হয়ে আসে, এটি লক্ষ্য করা সহায়ক যে এটি পুনরায় লিখিত হতে পারে

$\hat{\bar{y}} = \frac{1}{N} \sum_{i \in s} w_i y_i \qquad(3.3)$

যেখানে $w_i = 1 / \pi_i$ । হিসাবে eq 3.3 প্রকাশ করে, হরভিত্জ-থম্পসন অনুমানকারী একটি ওজনযুক্ত নমুনা মানে যেখানে ওজনগুলি নির্বাচনের সম্ভাব্যতার সাথে বিপরীতভাবে সম্পর্কিত। অন্য কথায়, নমুনাতে একজন ব্যক্তিকে অন্তর্ভুক্ত করা কম হওয়া উচিত, সেই ব্যক্তির আরো বেশি ওজন যা অনুমানের মধ্যে পাওয়া উচিত।

আগে বর্ণিত হিসাবে, গবেষকরা প্রায়ই অন্তর্ভুক্তি অসম সম্ভাব্যতা সঙ্গে মানুষ নমুনা। একটি নকশা যা উদাহরণস্বরূপ অসীম সম্ভাব্যতা হতে পারে স্তরের স্তরগত নমুনা হতে পারে , যা বোঝা গুরুত্বপূর্ণ কারণ এটি ঘন ঘন প্রাক স্তরিত নামক পদ্ধতি সাথে সম্পর্কিত। স্তরযুক্ত স্যাম্পলিংয়ের মধ্যে, একটি গবেষক লক্ষ্যবস্তু জনসংখ্যাকে $H$ স্বতন্ত্র $H$ একচেটিয়া ও সামগ্রিক গোষ্ঠীগুলিতে বিভক্ত করে। এই দলগুলো স্তরে বলা হয় এবং নির্দেশিত হয় $U_1, \ldots, U_h, \ldots, U_H$ । এই উদাহরণে, স্ট্রাট্রা স্টেটস হয়। গোষ্ঠীর আকারগুলি $N_1, \ldots, N_h, \ldots, N_H$ হিসাবে নির্দেশিত হয়। একজন গবেষক স্নাতককৃত স্যাম্পলিং ব্যবহার করতে চাইলে নিশ্চিত হতে পারেন যে, তার প্রতিটি পর্যায়ে পর্যাপ্ত সংখ্যক লোক রয়েছে যাতে বেকারত্বের রাষ্ট্রীয় স্তরের পরিসংখ্যান তৈরি করা যায়।

একবার জনসংখ্যার স্তরে বিভক্ত হয়ে গেলে, অনুমান করা যায় যে গবেষক সহজেই একটি স্বতন্ত্র র্যান্ডম নমুনা নির্বাচন করে আকারের পরিবর্তে $n_h$ , প্রতিটি স্তর থেকে স্বাধীনভাবে। উপরন্তু, অনুমান করা যে নমুনা নির্বাচিত প্রত্যেকটি একজন প্রতিক্রিয়াশীল (আমি পরের অংশে অ প্রতিক্রিয়া পরিচালনা করব) হয়ে যায়। এই ক্ষেত্রে, অন্তর্ভুক্তির সম্ভাবনা হল

$\pi_i = \frac{n_h}{N_h} \mbox{ for all } i \in h \qquad(3.4)$

যেহেতু এই সম্ভাব্যতা ব্যক্তি থেকে পৃথক হতে পারে, এই নমুনা নকশা থেকে একটি অনুমান তৈরি করার সময়, গবেষকরা হরভিতস-থমসন আভ্যন্তর (ইকু। 3.2) ব্যবহার করে তাদের অন্তর্ভুক্তির সম্ভাবনার বিপরীত প্রতি প্রতিক্রিয়াশীলকে ওজন করতে হবে।

যদিও হরভিত্জ-থম্পসন অনুমাননির্ধারণ নিরপেক্ষ হয়, গবেষকরা আরও সঠিক (অর্থাত্, নিম্নতর বৈকল্পিক) উপসংহার করতে পারেন যাতে নমুনা অক্জিলিয়ারী তথ্য সহ মিশ্রিত করে। কিছু মানুষ এটা বিস্ময়কর মনে করে যে এটি সত্য এমনকি যখন পুরোপুরি সঞ্চালিত সম্ভাবনা নমুনা আছে। অক্জিলিয়ারী তথ্য ব্যবহার করে এই কৌশলগুলি বিশেষভাবে গুরুত্বপূর্ণ কারণ, যেহেতু আমি পরে দেখব, অযৌক্তিক তথ্যগুলি অসম্পূর্ণ এবং অ-সম্ভাব্যতার নমুনার সাথে সম্ভাব্যতার নমুনার থেকে অনুমান করার জন্য গুরুত্বপূর্ণ।

অক্জিলিয়ারী তথ্য ব্যবহার করার জন্য একটি সাধারণ কৌশল হল পোস্ট-স্তরবিন্যাস । উদাহরণস্বরূপ, কল্পনা করুন যে একজন গবেষক 50 টির মধ্যে প্রতিটি ক্ষেত্রে পুরুষ ও নারীর সংখ্যা জানেন; আমরা এই গ্রুপ আকারগুলি $N_1, N_2, \ldots, N_{100}$ হিসাবে চিহ্নিত করতে পারি। নমুনা দিয়ে এই সহায়িকার তথ্য সংমিশ্রণ করার জন্য গবেষক নমুনাকে $H$ গ্রুপ (এই ক্ষেত্রে 100) এ বিভক্ত করতে পারেন, প্রতিটি গ্রুপের জন্য একটি আনুমানিক হিসাব করুন, এবং তারপর এই গ্রুপের একটি গড়িত গড় তৈরি করুন:

$\hat{\bar{y}}_{post} = \sum_{h \in H} \frac{N_h}{N} \hat{\bar{y}}_h \qquad(3.5)$

মোটামুটিভাবে, eq এর অনুমানকারী 3.5 এর চেয়ে বেশি সঠিক হতে পারে কারণ এটি পরিচিত জনসংখ্যা তথ্য ব্যবহার করে- $N_h$ - সঠিক অনুমানের জন্য যদি একটি অসমতল নমুনা নির্বাচন করা হয় এটি সম্পর্কে চিন্তা করার একটি উপায় হল যে পোস্ট-স্ট্র্যাটিফিকেশন ইতিমধ্যে সংগৃহীত হওয়ার পরেই স্তরবিন্যাসের আনুমানিক হয়।

উপসংহারে, এই বিভাগে কয়েকটি স্যাম্পলিং ডিজাইন বর্ণনা করেছেন: প্রতিস্থাপন ছাড়া সহজে নকল স্যাম্পলিং, অসম সম্ভাব্যতার সাথে নমুনা এবং স্তরযুক্ত স্যাম্পলিং। এটি হিসেব-থম্পসন অমান্যকারী এবং পোস্ট-সারণিটি সম্পর্কে অনুমানের দুটি প্রধান ধারনাও বর্ণনা করেছে। সম্ভাব্যতা স্যাম্পলিং ডিজাইনের একটি আরো আনুষ্ঠানিক সংজ্ঞা জন্য, Särndal, Swensson, and Wretman (2003) এর অধ্যায়ের ২ দেখুন। স্তরযুক্ত স্যাম্পলিংয়ের একটি আরো আনুষ্ঠানিক এবং সম্পূর্ণ চিকিত্সার জন্য, Särndal, Swensson, and Wretman (2003) এর বিভাগ 3.7 দেখুন। হরভিত্জ-থম্পসন অনুমানকারীর বৈশিষ্ট্যের একটি প্রযুক্তিগত বর্ণনা জন্য, Horvitz and Thompson (1952) , Overton and Stehman (1995) , অথবা @ সারদাল_মডেল_2003 এর বিভাগ ২8 দেখুন। পোস্ট-স্ট্র্যাটিফিকেশনের আরও আনুষ্ঠানিক চিকিত্সার জন্য, Holt and Smith (1979) , Smith (1991) , Little (1993) , Särndal, Swensson, and Wretman (2003) এর বিভাগ 7.6 দেখুন।

অবাধ্য প্রতিক্রিয়া সঙ্গে সম্ভাব্য নমুনা

প্রায় সব বাস্তব জরিপের প্রতিক্রিয়া নেই; যে, নমুনা জনসংখ্যার সবাই না প্রত্যেক প্রশ্নের উত্তর। দুটি প্রধান ধরনের nonresponse: আইটেম nonresponse এবং ইউনিট অresponse । আইটেম nonresponse তে, কিছু উত্তরদাতা কিছু আইটেমের উত্তর দেয় না (উদাহরণস্বরূপ, উত্তরদাতারা উত্তর দিতে চায় না যে তারা সংবেদনশীল বিবেচনা করে)। ইউনিট অresponse, নমুনা জনসংখ্যার জন্য নির্বাচিত কিছু লোক জরিপ সাড়া না সব সময়ে। ইউনিট অ প্রতিক্রিয়া জন্য দুটি সবচেয়ে সাধারণ কারণ হল যে নমুনা ব্যক্তি যোগাযোগ করা যাবে না এবং নমুনা ব্যক্তি যোগাযোগ করা হয় কিন্তু অংশগ্রহণ করতে অস্বীকার করে। এই বিভাগে, আমি ইউনিট অresponse উপর ফোকাস হবে; আইটেম nonresponse আগ্রহী পাঠকদের লিটল এবং রুবিন (2002) দেখতে হবে।

গবেষকরা প্রায়শই মনে করেন ইউনিফ্ট অ-প্রতিক্রিয়া সঙ্গে একটি দুই পর্যায়ে স্যাম্পলিং প্রক্রিয়া হিসাবে সার্ভে। প্রথম পর্যায়ে, গবেষক একটি নমুনা $s$ যেমন প্রতিটি ব্যক্তির অন্তর্ভুক্তি $\pi_i$ (যেখানে $0 < \pi_i \leq 1$ ) এর সম্ভাবনা রয়েছে। তারপর, দ্বিতীয় পর্যায়ে, নমুনাতে নির্বাচিত ব্যক্তিরা সম্ভাব্যতা $\phi_i$ (যেখানে $0 < \phi_i \leq 1$ ) সঙ্গে প্রতিক্রিয়া $\phi_i$ । এই দুই-স্তরীয় প্রক্রিয়া ফলাফলের উত্তরদাতাদের চূড়ান্ত সেট $r$ । এই দুটি পর্যায়ে একটি গুরুত্বপূর্ণ পার্থক্য হল যে গবেষকরা নমুনা নির্বাচন প্রক্রিয়াটি নিয়ন্ত্রণ করে, কিন্তু তারা সেই নমুনা মানুষের মধ্যে উত্তরদাতাদের মধ্যে কোনটি নিয়ন্ত্রণ করে তা নিয়ন্ত্রণ করে না। একসঙ্গে এই দুই প্রক্রিয়াগুলি স্থাপন, যে কেউ একজন প্রতিক্রিয়াশীল হতে পারে সম্ভাবনা

$pr(i \in r) = \pi_i \phi_i \qquad(3.6)$

সরলতা জন্য অনুরোধ, আমি মূল নমুনা নকশা প্রতিস্থাপন ছাড়া সহজ র্যান্ডম স্যাম্পলিং যেখানে ক্ষেত্রে বিবেচনা করব। যদি কোন গবেষক আকার $n_s$ উৎপন্ন করে এমন একটি নমুনা নির্বাচন করে $n_s$ $n_r$ উত্তরদাতারা উত্পন্ন করে, এবং যদি গবেষক অ-প্রতিক্রিয়া উপেক্ষা করে এবং উত্তরদাতাদের গড় ব্যবহার করে, তাহলে অনুমানের পক্ষপাত হবে:

$\mbox{bias of sample mean} = \frac{cor(\phi, y) S(y) S(\phi)}{\bar{\phi}} \qquad(3.7)$

যেখানে $cor(\phi, y)$ হল প্রতিক্রিয়া প্রবণতা এবং ফলাফল (যেমন, বেকারত্বের অবস্থা) মধ্যে জনসংখ্যার সম্পর্ক, $S(y)$ জনসংখ্যার মানগত বিচ্যুতি (যেমন, বেকারত্ব অবস্থা), $S(\phi)$ প্রতিক্রিয়া প্রবণতা জনসংখ্যা মান বিচ্যুতি, এবং $\bar{\phi}$ হল জনসংখ্যা প্রতিক্রিয়া প্রবণতা (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) ।

EQ। 3.7 দেখায় যে নিম্নোক্ত শর্তগুলির মধ্যে কোনটি পূরণ করা হয় তাহলে অনুযোগটি পক্ষপাতের সূচনা করবে না:

বেকারত্বের অবস্থাতে কোন বৈচিত্রতা নেই $(S(y) = 0)$ ।
প্রতিক্রিয়া প্রপঞ্চে কোন পরিবর্তন নেই $(S(\phi) = 0)$ ।
প্রতিক্রিয়া প্রবণতা এবং বেকারত্বের অবস্থা মধ্যে কোন পারস্পরিক সম্পর্ক নেই $(cor(\phi, y) = 0)$ ।

দুর্ভাগ্যবশত, এই অবস্থার কেউ সম্ভবত মনে হয়। এটা অসম্ভব বলে মনে হয় যে কর্মসংস্থানের অবস্থাতে কোন বৈচিত্র্য থাকবে না বা প্রতিক্রিয়া প্রপঞ্চগুলিতে কোনও বৈচিত্র্য থাকবে না। সুতরাং, eq মধ্যে মূল শব্দ 3.7 সম্পর্ক: $cor(\phi, y)$ । উদাহরণস্বরূপ, যদি লোকেরা বেকার হয় যারা সাড়া দেবে, তাহলে আনুমানিক কর্মসংস্থানের হার পক্ষপাতমূলক হবে।

অযৌক্তিকতা না থাকলে অনুমান করার কৌশলটি সহায়ক তথ্য ব্যবহার করা। উদাহরণস্বরূপ, একটি উপায়ে আপনি অক্জিলিয়ারী তথ্য ব্যবহার করতে পারেন পোস্ট স্ট্র্যাটিফিকেশন (উপরে থেকে প্রত্যাহার 3.5।) এটি দেখায় যে পোস্ট স্তরান্তকরণের অনুমানের পক্ষপাত হল:

$bias(\hat{\bar{y}}_{post}) = \frac{1}{N} \sum_{h=1}^H \frac{N_h cor(\phi, y)^{(h)} S(y)^{(h)} S(\phi)^{(h)}}{\bar{\phi}^{(h)}} \qquad(3.8)$

যেখানে $cor(\phi, y)^{(h)}$ , $S(y)^{(h)}$ , $S(\phi)^{(h)}$ , এবং $\bar{\phi}^{(h)}$ উপরোক্ত হিসাবে সংজ্ঞায়িত করা হয় কিন্তু গ্রুপ $h$ (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) মানুষের কাছে সীমাবদ্ধ। সুতরাং, প্রতিটি পোস্ট স্তরবিন্যাস গোষ্ঠী মধ্যে পক্ষপাত ছোট হয়, যদি সামগ্রিক পক্ষপাত ছোট হতে হবে। প্রতিটি পোস্ট স্তরবিন্যাস গোষ্ঠী মধ্যে পক্ষপাত ছোট করা সম্পর্কে আমি মনে করতে চান দুটি উপায় আছে। প্রথমত, আপনি সমজাতীয় গ্রুপ গঠন করার চেষ্টা করতে চান যেখানে প্রতিক্রিয়া প্রবণতা ( $S(\phi)^{(h)} \approx 0$ ) এবং ফলাফল ( $S(y)^{(h)} \approx 0$ )। দ্বিতীয়ত, আপনি এমন গ্রুপ গঠন করতে চান যেখানে আপনি দেখতে পান এমন লোকের মত যা আপনি দেখতে পান না ( $cor(\phi, y)^{(h)} \approx 0$ )। ইক এর তুলনা 3.7 এবং eq। 3.8 পোস্ট-স্তরবিন্যাস nonresponse দ্বারা সৃষ্ট পক্ষপাতিত্ব কমাতে পারে যখন স্পষ্টতা সাহায্য করে।

উপসংহারে, এই বিভাগটি অ-প্রতিক্রিয়া সহ সম্ভাব্যতা নমুনা জন্য একটি মডেল প্রদান করেছে এবং পক্ষপাত দেখায় যে nonresponse উভয় ছাড়া এবং পোস্ট স্তরবিন্যাস সমন্বয় সঙ্গে পরিচয় করিয়ে দিতে পারে Bethlehem (1988) আরও সাধারণ স্যাম্পলিং ডিজাইনের জন্য কোনও প্রতিক্রিয়া দ্বারা সৃষ্ট পক্ষপাতের একটি রূপ ধারন করে। অ-প্রতিক্রিয়া জন্য সামঞ্জস্যের পোস্ট স্তরান্তকরণ ব্যবহার আরো জন্য, দেখুন Smith (1991) এবং Gelman and Carlin (2002) । পোস্ট-স্ট্র্যাটিফিকেশন একটি ক্রমবর্ধমান Särndal and Lundström (2005) নামক পদ্ধতির সাধারণ পরিবারের অংশ, একটি নিবন্ধ-দৈর্ঘ্যের চিকিত্সা এবং একটি বই-দৈর্ঘ্যের চিকিত্সার জন্য Särndal and Lundström (2005) জন্য ঝ্যাং (2000) দেখুন। অ Kalton and Flores-Cervantes (2003) প্রতিক্রিয়া জন্য সামঞ্জস্য অন্যান্য অন্যান্য ওজন পদ্ধতির জন্য, Kalton and Flores-Cervantes (2003) , Brick (2013) , এবং Särndal and Lundström (2005) ।

অ প্রবণতা স্যাম্পলিং

অ প্রবণতা নমুনা মধ্যে নকশা বিশাল বৈচিত্র (Baker et al. 2013) । ওয়াং এবং সহকর্মীদের (W. Wang et al. 2015) দ্বারা এক্সবক্সের ব্যবহারকারীদের নমুনাতে বিশেষভাবে ফোকাস করা, আপনি সেই ধরণের নমুনাটি একের মত মনে করতে পারেন যেখানে স্যাম্পলিং ডিজাইনের মূল অংশ $\pi_i$ ( গবেষক-চালিত সম্ভাব্যতার অন্তর্ভুক্তি) কিন্তু $\phi_i$ (প্রতিক্রিয়াশীল-চালিত প্রতিক্রিয়ার প্রতিক্রিয়া)। স্বাভাবিকভাবেই, এটি আদর্শ নয় কারণ $\phi_i$ অজানা। তবে, ওয়াং এবং সহকর্মীরা দেখিয়েছেন, এই ধরনের অপশনের নমুনা-এমনকি বিস্তৃত পরিস্রমে ত্রুটি সহ একটি স্যাম্পলিং ফ্রেম থেকেও- এই সমস্যাগুলির জন্য অনুসন্ধানকারীর সহায়ক অক্জিলিয়ারী তথ্য এবং একটি ভাল পরিসংখ্যানগত মডেল থাকলে বিপর্যয়কর নয়।

Bethlehem (2010) উভয় nonresponse এবং কভারেজ ত্রুটিগুলি অন্তর্ভুক্ত করার জন্য পোস্ট স্তরবিন্যাস সম্পর্কে উপরোক্ত উপায়ে অনেক প্রসারিত পোস্ট-স্ট্র্যাটিফিকেশন ছাড়াও, অ-সম্ভাব্যতা নমুনার সঙ্গে কাজ করার জন্য এবং কভারেজ ত্রুটিগুলি এবং অ-প্রতিক্রিয়া সহ সম্ভাব্যতার (Ansolabehere and Rivers 2013; ??? ) নমুনা মেলা (Ansolabehere and Rivers 2013; ??? ) , (Ansolabehere and Rivers 2013; ??? ) স্কোর ওয়েটিং (Lee 2006; Schonlau et al. 2009) , এবং ক্রমাঙ্কন (Lee and Valliant 2009) । এই কৌশল মধ্যে একটি সাধারণ থিম অক্জিলিয়ারী তথ্য ব্যবহার হয়।