এই পরিশিষ্টে, আমি একটি সামান্য আরো গাণিতিক ফর্ম অধ্যায়ে থেকে ধারণা কিছু বর্ণনা করা হবে। এখানে লক্ষ্য আপনাকে জরিপ গবেষকদের দ্বারা ব্যবহৃত সংখ্যাবিজ্ঞান এবং গাণিতিক কাঠামোর সঙ্গে আরামদায়ক পেতে সহায়তা করার জন্য যাতে আপনি এই বিষয়ের উপর লেখা আরো কিছু প্রযুক্তিগত সামগ্রী পরিবর্তন করতে পারেন। আমি সম্ভাব্যতা নমুনা প্রবর্তন দ্বারা শুরু করা হবে, তারপর nonresponse সঙ্গে সম্ভাব্য নমুনা, এবং অবশেষে, অ প্রবণতা স্যাম্পলিং সরানো।
সম্ভাব্য নমুনা
একটি চলমান উদাহরণ হিসাবে, মার্কিন যুক্তরাষ্ট্র বেকারত্বের হার অনুমানের লক্ষ্য বিবেচনা করা যাক। ykyk U={1,…,k,…,N}U={1,…,k,…,N} হতে পারে লক্ষ্য জনসংখ্যা এবং ব্যক্তির জন্য ফলাফল ভেরিয়েবলের মান দ্বারা ykyk যাক kk । এই উদাহরণে ykyk হল যে ব্যক্তি kk বেকার হয়। অবশেষে, আসুন F={1,…,k,…,N}F={1,…,k,…,N} ফ্রেম জনসংখ্যা হ'ল, যা সরলীকরণের জন্য লক্ষ্য জনসংখ্যার মতই মনে করা হয়।
একটি মৌলিক স্যাম্পলিং ডিজাইন প্রতিস্থাপন ছাড়া সহজ র্যান্ডম স্যাম্পলিং। এই ক্ষেত্রে, প্রতিটি ব্যক্তি নমুনা অন্তর্ভুক্ত করা সমানভাবে সম্ভাবনা s={1,…,i,…,n}s={1,…,i,…,n} । যখন এই স্যাম্পলিং ডিজাইনে তথ্য সংগ্রহ করা হয়, তখন গবেষকরা জনসংখ্যার বেকারত্বের হারের নমুনা হিসাবে অনুমান করতে পারেন:
ˆˉy=∑i∈syin(3.1)^¯y=∑i∈syin(3.1)
যেখানে ˉy¯y জনসংখ্যার বেকারত্বের হার এবং ˆˉy^¯y হল বেকারত্বের হার ( ^^ একটি estimator ইঙ্গিত ব্যবহৃত)।
বাস্তবিকই, গবেষকরা প্রতিস্থাপনের ছাড়াই খুব সহজেই সহজ র্যান্ডম স্যাম্পলিং ব্যবহার করেন। বিভিন্ন কারণের জন্য (যা এক মুহূর্তে আমি বর্ণনা করব), গবেষকরা প্রায়ই অন্তর্ভুক্তির অসম সম্ভাবনাগুলির সাথে নমুনা তৈরি করেন। উদাহরণস্বরূপ, গবেষকরা ফ্লোরিডার লোকজনকে ক্যালিফোর্নিয়ার জনগণের তুলনায় অন্তর্ভুক্তির উচ্চতর সম্ভাবনা নির্বাচন করতে পারে এই ক্ষেত্রে, নমুনা অর্থ (eq। 3.1) একটি ভাল অনুমানকারী নাও হতে পারে। পরিবর্তে, যখন অন্তর্ভুক্তির অসম সম্ভাব্যতা আছে, তখন গবেষকরা ব্যবহার করেন
ˆˉy=1N∑i∈syiπi(3.2)^¯y=1N∑i∈syiπi(3.2)
যেখানে ˆˉy^¯y হল বেকারত্বের হারের অনুমান এবং πiπi হল ব্যক্তি ii অন্তর্ভুক্তির সম্ভাব্যতা স্ট্যান্ডার্ড অনুশীলন অনুসরণ করে, আমি eq এ estimator কল করব 3.2 হরভিত্জ-থম্পসন অনুমানকারী Horvitz-Thompson estimator অত্যন্ত দরকারী কারণ এটি কোন সম্ভাব্যতা স্যাম্পলিং ডিজাইন (Horvitz and Thompson 1952) জন্য নিরপেক্ষ অনুমানের দিকে পরিচালিত করে। কারণ হরভিত্জ-থম্পসন অবহিতকারী এত ঘন ঘন হয়ে আসে, এটি লক্ষ্য করা সহায়ক যে এটি পুনরায় লিখিত হতে পারে
ˆˉy=1N∑i∈swiyi(3.3)^¯y=1N∑i∈swiyi(3.3)
যেখানে wi=1/πiwi=1/πi । হিসাবে eq 3.3 প্রকাশ করে, হরভিত্জ-থম্পসন অনুমানকারী একটি ওজনযুক্ত নমুনা মানে যেখানে ওজনগুলি নির্বাচনের সম্ভাব্যতার সাথে বিপরীতভাবে সম্পর্কিত। অন্য কথায়, নমুনাতে একজন ব্যক্তিকে অন্তর্ভুক্ত করা কম হওয়া উচিত, সেই ব্যক্তির আরো বেশি ওজন যা অনুমানের মধ্যে পাওয়া উচিত।
আগে বর্ণিত হিসাবে, গবেষকরা প্রায়ই অন্তর্ভুক্তি অসম সম্ভাব্যতা সঙ্গে মানুষ নমুনা। একটি নকশা যা উদাহরণস্বরূপ অসীম সম্ভাব্যতা হতে পারে স্তরের স্তরগত নমুনা হতে পারে , যা বোঝা গুরুত্বপূর্ণ কারণ এটি ঘন ঘন প্রাক স্তরিত নামক পদ্ধতি সাথে সম্পর্কিত। স্তরযুক্ত স্যাম্পলিংয়ের মধ্যে, একটি গবেষক লক্ষ্যবস্তু জনসংখ্যাকে HH স্বতন্ত্র HH একচেটিয়া ও সামগ্রিক গোষ্ঠীগুলিতে বিভক্ত করে। এই দলগুলো স্তরে বলা হয় এবং নির্দেশিত হয় U1,…,Uh,…,UHU1,…,Uh,…,UH । এই উদাহরণে, স্ট্রাট্রা স্টেটস হয়। গোষ্ঠীর আকারগুলি N1,…,Nh,…,NHN1,…,Nh,…,NH হিসাবে নির্দেশিত হয়। একজন গবেষক স্নাতককৃত স্যাম্পলিং ব্যবহার করতে চাইলে নিশ্চিত হতে পারেন যে, তার প্রতিটি পর্যায়ে পর্যাপ্ত সংখ্যক লোক রয়েছে যাতে বেকারত্বের রাষ্ট্রীয় স্তরের পরিসংখ্যান তৈরি করা যায়।
একবার জনসংখ্যার স্তরে বিভক্ত হয়ে গেলে, অনুমান করা যায় যে গবেষক সহজেই একটি স্বতন্ত্র র্যান্ডম নমুনা নির্বাচন করে আকারের পরিবর্তে nhnh , প্রতিটি স্তর থেকে স্বাধীনভাবে। উপরন্তু, অনুমান করা যে নমুনা নির্বাচিত প্রত্যেকটি একজন প্রতিক্রিয়াশীল (আমি পরের অংশে অ প্রতিক্রিয়া পরিচালনা করব) হয়ে যায়। এই ক্ষেত্রে, অন্তর্ভুক্তির সম্ভাবনা হল
πi=nhNh for all i∈h(3.4)πi=nhNh for all i∈h(3.4)
যেহেতু এই সম্ভাব্যতা ব্যক্তি থেকে পৃথক হতে পারে, এই নমুনা নকশা থেকে একটি অনুমান তৈরি করার সময়, গবেষকরা হরভিতস-থমসন আভ্যন্তর (ইকু। 3.2) ব্যবহার করে তাদের অন্তর্ভুক্তির সম্ভাবনার বিপরীত প্রতি প্রতিক্রিয়াশীলকে ওজন করতে হবে।
যদিও হরভিত্জ-থম্পসন অনুমাননির্ধারণ নিরপেক্ষ হয়, গবেষকরা আরও সঠিক (অর্থাত্, নিম্নতর বৈকল্পিক) উপসংহার করতে পারেন যাতে নমুনা অক্জিলিয়ারী তথ্য সহ মিশ্রিত করে। কিছু মানুষ এটা বিস্ময়কর মনে করে যে এটি সত্য এমনকি যখন পুরোপুরি সঞ্চালিত সম্ভাবনা নমুনা আছে। অক্জিলিয়ারী তথ্য ব্যবহার করে এই কৌশলগুলি বিশেষভাবে গুরুত্বপূর্ণ কারণ, যেহেতু আমি পরে দেখব, অযৌক্তিক তথ্যগুলি অসম্পূর্ণ এবং অ-সম্ভাব্যতার নমুনার সাথে সম্ভাব্যতার নমুনার থেকে অনুমান করার জন্য গুরুত্বপূর্ণ।
অক্জিলিয়ারী তথ্য ব্যবহার করার জন্য একটি সাধারণ কৌশল হল পোস্ট-স্তরবিন্যাস । উদাহরণস্বরূপ, কল্পনা করুন যে একজন গবেষক 50 টির মধ্যে প্রতিটি ক্ষেত্রে পুরুষ ও নারীর সংখ্যা জানেন; আমরা এই গ্রুপ আকারগুলি N1,N2,…,N100N1,N2,…,N100 হিসাবে চিহ্নিত করতে পারি। নমুনা দিয়ে এই সহায়িকার তথ্য সংমিশ্রণ করার জন্য গবেষক নমুনাকে HH গ্রুপ (এই ক্ষেত্রে 100) এ বিভক্ত করতে পারেন, প্রতিটি গ্রুপের জন্য একটি আনুমানিক হিসাব করুন, এবং তারপর এই গ্রুপের একটি গড়িত গড় তৈরি করুন:
ˆˉypost=∑h∈HNhNˆˉyh(3.5)^¯ypost=∑h∈HNhN^¯yh(3.5)
মোটামুটিভাবে, eq এর অনুমানকারী 3.5 এর চেয়ে বেশি সঠিক হতে পারে কারণ এটি পরিচিত জনসংখ্যা তথ্য ব্যবহার করে- NhNh - সঠিক অনুমানের জন্য যদি একটি অসমতল নমুনা নির্বাচন করা হয় এটি সম্পর্কে চিন্তা করার একটি উপায় হল যে পোস্ট-স্ট্র্যাটিফিকেশন ইতিমধ্যে সংগৃহীত হওয়ার পরেই স্তরবিন্যাসের আনুমানিক হয়।
উপসংহারে, এই বিভাগে কয়েকটি স্যাম্পলিং ডিজাইন বর্ণনা করেছেন: প্রতিস্থাপন ছাড়া সহজে নকল স্যাম্পলিং, অসম সম্ভাব্যতার সাথে নমুনা এবং স্তরযুক্ত স্যাম্পলিং। এটি হিসেব-থম্পসন অমান্যকারী এবং পোস্ট-সারণিটি সম্পর্কে অনুমানের দুটি প্রধান ধারনাও বর্ণনা করেছে। সম্ভাব্যতা স্যাম্পলিং ডিজাইনের একটি আরো আনুষ্ঠানিক সংজ্ঞা জন্য, Särndal, Swensson, and Wretman (2003) এর অধ্যায়ের ২ দেখুন। স্তরযুক্ত স্যাম্পলিংয়ের একটি আরো আনুষ্ঠানিক এবং সম্পূর্ণ চিকিত্সার জন্য, Särndal, Swensson, and Wretman (2003) এর বিভাগ 3.7 দেখুন। হরভিত্জ-থম্পসন অনুমানকারীর বৈশিষ্ট্যের একটি প্রযুক্তিগত বর্ণনা জন্য, Horvitz and Thompson (1952) , Overton and Stehman (1995) , অথবা @ সারদাল_মডেল_2003 এর বিভাগ ২8 দেখুন। পোস্ট-স্ট্র্যাটিফিকেশনের আরও আনুষ্ঠানিক চিকিত্সার জন্য, Holt and Smith (1979) , Smith (1991) , Little (1993) , Särndal, Swensson, and Wretman (2003) এর বিভাগ 7.6 দেখুন।
অবাধ্য প্রতিক্রিয়া সঙ্গে সম্ভাব্য নমুনা
প্রায় সব বাস্তব জরিপের প্রতিক্রিয়া নেই; যে, নমুনা জনসংখ্যার সবাই না প্রত্যেক প্রশ্নের উত্তর। দুটি প্রধান ধরনের nonresponse: আইটেম nonresponse এবং ইউনিট অresponse । আইটেম nonresponse তে, কিছু উত্তরদাতা কিছু আইটেমের উত্তর দেয় না (উদাহরণস্বরূপ, উত্তরদাতারা উত্তর দিতে চায় না যে তারা সংবেদনশীল বিবেচনা করে)। ইউনিট অresponse, নমুনা জনসংখ্যার জন্য নির্বাচিত কিছু লোক জরিপ সাড়া না সব সময়ে। ইউনিট অ প্রতিক্রিয়া জন্য দুটি সবচেয়ে সাধারণ কারণ হল যে নমুনা ব্যক্তি যোগাযোগ করা যাবে না এবং নমুনা ব্যক্তি যোগাযোগ করা হয় কিন্তু অংশগ্রহণ করতে অস্বীকার করে। এই বিভাগে, আমি ইউনিট অresponse উপর ফোকাস হবে; আইটেম nonresponse আগ্রহী পাঠকদের লিটল এবং রুবিন (2002) দেখতে হবে।
গবেষকরা প্রায়শই মনে করেন ইউনিফ্ট অ-প্রতিক্রিয়া সঙ্গে একটি দুই পর্যায়ে স্যাম্পলিং প্রক্রিয়া হিসাবে সার্ভে। প্রথম পর্যায়ে, গবেষক একটি নমুনা ss যেমন প্রতিটি ব্যক্তির অন্তর্ভুক্তি πiπi (যেখানে 0<πi≤10<πi≤1 ) এর সম্ভাবনা রয়েছে। তারপর, দ্বিতীয় পর্যায়ে, নমুনাতে নির্বাচিত ব্যক্তিরা সম্ভাব্যতা ϕiϕi (যেখানে 0<ϕi≤10<ϕi≤1 ) সঙ্গে প্রতিক্রিয়া ϕiϕi । এই দুই-স্তরীয় প্রক্রিয়া ফলাফলের উত্তরদাতাদের চূড়ান্ত সেট rr । এই দুটি পর্যায়ে একটি গুরুত্বপূর্ণ পার্থক্য হল যে গবেষকরা নমুনা নির্বাচন প্রক্রিয়াটি নিয়ন্ত্রণ করে, কিন্তু তারা সেই নমুনা মানুষের মধ্যে উত্তরদাতাদের মধ্যে কোনটি নিয়ন্ত্রণ করে তা নিয়ন্ত্রণ করে না। একসঙ্গে এই দুই প্রক্রিয়াগুলি স্থাপন, যে কেউ একজন প্রতিক্রিয়াশীল হতে পারে সম্ভাবনা
pr(i∈r)=πiϕi(3.6)pr(i∈r)=πiϕi(3.6)
সরলতা জন্য অনুরোধ, আমি মূল নমুনা নকশা প্রতিস্থাপন ছাড়া সহজ র্যান্ডম স্যাম্পলিং যেখানে ক্ষেত্রে বিবেচনা করব। যদি কোন গবেষক আকার nsns উৎপন্ন করে এমন একটি নমুনা নির্বাচন করে nsns nrnr উত্তরদাতারা উত্পন্ন করে, এবং যদি গবেষক অ-প্রতিক্রিয়া উপেক্ষা করে এবং উত্তরদাতাদের গড় ব্যবহার করে, তাহলে অনুমানের পক্ষপাত হবে:
bias of sample mean=cor(ϕ,y)S(y)S(ϕ)ˉϕ(3.7)bias of sample mean=cor(ϕ,y)S(y)S(ϕ)¯ϕ(3.7)
যেখানে cor(ϕ,y)cor(ϕ,y) হল প্রতিক্রিয়া প্রবণতা এবং ফলাফল (যেমন, বেকারত্বের অবস্থা) মধ্যে জনসংখ্যার সম্পর্ক, S(y)S(y) জনসংখ্যার মানগত বিচ্যুতি (যেমন, বেকারত্ব অবস্থা), S(ϕ)S(ϕ) প্রতিক্রিয়া প্রবণতা জনসংখ্যা মান বিচ্যুতি, এবং ˉϕ¯ϕ হল জনসংখ্যা প্রতিক্রিয়া প্রবণতা (Bethlehem, Cobben, and Schouten 2011, sec. 2.2.4) ।
EQ। 3.7 দেখায় যে নিম্নোক্ত শর্তগুলির মধ্যে কোনটি পূরণ করা হয় তাহলে অনুযোগটি পক্ষপাতের সূচনা করবে না:
দুর্ভাগ্যবশত, এই অবস্থার কেউ সম্ভবত মনে হয়। এটা অসম্ভব বলে মনে হয় যে কর্মসংস্থানের অবস্থাতে কোন বৈচিত্র্য থাকবে না বা প্রতিক্রিয়া প্রপঞ্চগুলিতে কোনও বৈচিত্র্য থাকবে না। সুতরাং, eq মধ্যে মূল শব্দ 3.7 সম্পর্ক: cor(ϕ,y)cor(ϕ,y) । উদাহরণস্বরূপ, যদি লোকেরা বেকার হয় যারা সাড়া দেবে, তাহলে আনুমানিক কর্মসংস্থানের হার পক্ষপাতমূলক হবে।
অযৌক্তিকতা না থাকলে অনুমান করার কৌশলটি সহায়ক তথ্য ব্যবহার করা। উদাহরণস্বরূপ, একটি উপায়ে আপনি অক্জিলিয়ারী তথ্য ব্যবহার করতে পারেন পোস্ট স্ট্র্যাটিফিকেশন (উপরে থেকে প্রত্যাহার 3.5।) এটি দেখায় যে পোস্ট স্তরান্তকরণের অনুমানের পক্ষপাত হল:
bias(ˆˉypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)ˉϕ(h)(3.8)bias(^¯ypost)=1NH∑h=1Nhcor(ϕ,y)(h)S(y)(h)S(ϕ)(h)¯ϕ(h)(3.8)
যেখানে cor(ϕ,y)(h)cor(ϕ,y)(h) , S(y)(h)S(y)(h) , S(ϕ)(h)S(ϕ)(h) , এবং ˉϕ(h) উপরোক্ত হিসাবে সংজ্ঞায়িত করা হয় কিন্তু গ্রুপ h (Bethlehem, Cobben, and Schouten 2011, sec. 8.2.1) মানুষের কাছে সীমাবদ্ধ। সুতরাং, প্রতিটি পোস্ট স্তরবিন্যাস গোষ্ঠী মধ্যে পক্ষপাত ছোট হয়, যদি সামগ্রিক পক্ষপাত ছোট হতে হবে। প্রতিটি পোস্ট স্তরবিন্যাস গোষ্ঠী মধ্যে পক্ষপাত ছোট করা সম্পর্কে আমি মনে করতে চান দুটি উপায় আছে। প্রথমত, আপনি সমজাতীয় গ্রুপ গঠন করার চেষ্টা করতে চান যেখানে প্রতিক্রিয়া প্রবণতা ( S(ϕ)(h)≈0 ) এবং ফলাফল ( S(y)(h)≈0 )। দ্বিতীয়ত, আপনি এমন গ্রুপ গঠন করতে চান যেখানে আপনি দেখতে পান এমন লোকের মত যা আপনি দেখতে পান না ( cor(ϕ,y)(h)≈0 )। ইক এর তুলনা 3.7 এবং eq। 3.8 পোস্ট-স্তরবিন্যাস nonresponse দ্বারা সৃষ্ট পক্ষপাতিত্ব কমাতে পারে যখন স্পষ্টতা সাহায্য করে।
উপসংহারে, এই বিভাগটি অ-প্রতিক্রিয়া সহ সম্ভাব্যতা নমুনা জন্য একটি মডেল প্রদান করেছে এবং পক্ষপাত দেখায় যে nonresponse উভয় ছাড়া এবং পোস্ট স্তরবিন্যাস সমন্বয় সঙ্গে পরিচয় করিয়ে দিতে পারে Bethlehem (1988) আরও সাধারণ স্যাম্পলিং ডিজাইনের জন্য কোনও প্রতিক্রিয়া দ্বারা সৃষ্ট পক্ষপাতের একটি রূপ ধারন করে। অ-প্রতিক্রিয়া জন্য সামঞ্জস্যের পোস্ট স্তরান্তকরণ ব্যবহার আরো জন্য, দেখুন Smith (1991) এবং Gelman and Carlin (2002) । পোস্ট-স্ট্র্যাটিফিকেশন একটি ক্রমবর্ধমান Särndal and Lundström (2005) নামক পদ্ধতির সাধারণ পরিবারের অংশ, একটি নিবন্ধ-দৈর্ঘ্যের চিকিত্সা এবং একটি বই-দৈর্ঘ্যের চিকিত্সার জন্য Särndal and Lundström (2005) জন্য ঝ্যাং (2000) দেখুন। অ Kalton and Flores-Cervantes (2003) প্রতিক্রিয়া জন্য সামঞ্জস্য অন্যান্য অন্যান্য ওজন পদ্ধতির জন্য, Kalton and Flores-Cervantes (2003) , Brick (2013) , এবং Särndal and Lundström (2005) ।
অ প্রবণতা স্যাম্পলিং
অ প্রবণতা নমুনা মধ্যে নকশা বিশাল বৈচিত্র (Baker et al. 2013) । ওয়াং এবং সহকর্মীদের (W. Wang et al. 2015) দ্বারা এক্সবক্সের ব্যবহারকারীদের নমুনাতে বিশেষভাবে ফোকাস করা, আপনি সেই ধরণের নমুনাটি একের মত মনে করতে পারেন যেখানে স্যাম্পলিং ডিজাইনের মূল অংশ πi ( গবেষক-চালিত সম্ভাব্যতার অন্তর্ভুক্তি) কিন্তু ϕi (প্রতিক্রিয়াশীল-চালিত প্রতিক্রিয়ার প্রতিক্রিয়া)। স্বাভাবিকভাবেই, এটি আদর্শ নয় কারণ ϕi অজানা। তবে, ওয়াং এবং সহকর্মীরা দেখিয়েছেন, এই ধরনের অপশনের নমুনা-এমনকি বিস্তৃত পরিস্রমে ত্রুটি সহ একটি স্যাম্পলিং ফ্রেম থেকেও- এই সমস্যাগুলির জন্য অনুসন্ধানকারীর সহায়ক অক্জিলিয়ারী তথ্য এবং একটি ভাল পরিসংখ্যানগত মডেল থাকলে বিপর্যয়কর নয়।
Bethlehem (2010) উভয় nonresponse এবং কভারেজ ত্রুটিগুলি অন্তর্ভুক্ত করার জন্য পোস্ট স্তরবিন্যাস সম্পর্কে উপরোক্ত উপায়ে অনেক প্রসারিত পোস্ট-স্ট্র্যাটিফিকেশন ছাড়াও, অ-সম্ভাব্যতা নমুনার সঙ্গে কাজ করার জন্য এবং কভারেজ ত্রুটিগুলি এবং অ-প্রতিক্রিয়া সহ সম্ভাব্যতার (Ansolabehere and Rivers 2013; ??? ) নমুনা মেলা (Ansolabehere and Rivers 2013; ??? ) , (Ansolabehere and Rivers 2013; ??? ) স্কোর ওয়েটিং (Lee 2006; Schonlau et al. 2009) , এবং ক্রমাঙ্কন (Lee and Valliant 2009) । এই কৌশল মধ্যে একটি সাধারণ থিম অক্জিলিয়ারী তথ্য ব্যবহার হয়।