العينات الاحتمالية والعينات غير الاحتمالية هي لا تختلف كثيرا في الممارسة؛ في كلتا الحالتين، انها كل شيء عن الأوزان.
أخذ العينات الأساسية لمسح البحوث. الباحثون تقريبا أبدا طرح الأسئلة على الجميع في عدد السكان المستهدفة. في هذا الصدد، والدراسات الاستقصائية ليست فريدة من نوعها. معظم الأبحاث، بطريقة أو بأخرى، ويشمل أخذ العينات. في بعض الأحيان يتم ذلك أخذ العينات بشكل واضح من قبل الباحث. وفي أحيان أخرى يحدث ضمنا. على سبيل المثال، قد اتخذت الباحثة أن يدير تجربة معملية على طلاب المرحلة الجامعية في جامعتها أيضا عينة. وهكذا، وأخذ العينات هي المشكلة التي يأتي في هذا الكتاب. في الواقع، واحدة من أكثر المخاوف من أن أسمع عن مصادر العصر الرقمي للبيانات هو "أنها ليست تمثيلا." وكما سنرى في هذا القسم، فإن هذا القلق على حد سواء أقل خطورة وأكثر دقة من كثير من المشككين يدركون. في الواقع، وسوف يجادلون بأن كل مفهوم "التمثيل" ليست مفيدة للتفكير في العينات الاحتمالية وغير الاحتمالية. بدلا من ذلك، والمفتاح هو أن نفكر في كيفية جمع البيانات وكيف يمكن التراجع عن أي تحيز في عملية جمع البيانات عند اتخاذ التقديرات.
حاليا، فإن النهج النظري السائد في التمثيل هو أخذ العينات الاحتمالات. عندما يتم جمع البيانات مع طريقة أخذ العينات احتمال يكون قد نفذ تماما، والباحثين قادرون على الوزن بياناتهم بناء على الطريقة التي تم جمعها لجعل تقديرات غير متحيزة حول السكان المستهدفين. ومع ذلك، وأخذ العينات احتمال مثالية في الأساس لم يحدث في العالم الحقيقي. عادة ما تكون هناك مشكلتين رئيسيتين 1) الاختلافات بين السكان المستهدفين والسكان الإطار و2) عدم الاستجابة (هذه هي بالضبط المشاكل التي دمرت استطلاع الأدبية دايجست). وهكذا، بدلا من التفكير في أخذ العينات احتمال كنموذج واقعي لما يحدث فعلا في العالم، فمن الأفضل أن نفكر في أخذ العينات احتمال باعتبارها مفيدة، نموذج المجرد، يشبه إلى حد كبير طريقة الفيزيائيين يعتقدون حول الكرة الاحتكاك تنهمر على فترة طويلة بلا حدود المنحدر.
والبديل لأخذ العينات الاحتمال هو أخذ العينات غير الاحتمالية. والفرق الرئيسي بين احتمال وأخذ العينات غير الاحتمالية هو أنه مع احتمال أخذ العينات الجميع في عدد السكان لديها احتمال المعروف الإدماج. هناك، في الواقع، العديد من أصناف أخذ العينات غير الاحتمالية، وهذه الأساليب لجمع البيانات أصبحت شائعة على نحو متزايد في العصر الرقمي. ولكن، وأخذ العينات غير الاحتمالية لديها سمعة الرهيب بين علماء الاجتماع والإحصاء. في الواقع، يرتبط أخذ العينات غير الاحتمالية مع بعض الإخفاقات الأكثر دراماتيكية من الباحثين المسح، مثل الفشل الذريع الأدبية دايجست (ناقش في وقت سابق) والتنبؤ غير صحيحة حول الانتخابات الرئاسية الأمريكية لعام 1948 ( "ديوي هزائم ترومان") (Mosteller 1949; Bean 1950; Freedman, Pisani, and Purves 2007) .
ومع ذلك، فإن الوقت قد حان لإعادة النظر في أخذ العينات غير الاحتمالية لسببين. أولا، وكما العينات الاحتمالية أصبحت الصعب على نحو متزايد إلى القيام به في الممارسة العملية، والخط الفاصل بين العينات الاحتمالية والعينات غير الاحتمالية وضوح. عندما تكون هناك معدلات عالية من عدم الاستجابة (كما أن هناك في استطلاعات حقيقية الآن)، واحتمال الفعلي من شوائب للأفراد العينة ليست معروفة، وبالتالي، العينات الاحتمالية والعينات غير الاحتمالية ليست مختلفة كما يعتقد كثير من الباحثين. في الواقع، كما سنرى لاحقا، كلا النهجين يعتمد أساسا على نفس طريقة التقدير: بعد التقسيم الطبقي. ثانيا، كان هناك العديد من التطورات في مجال جمع وتحليل العينات غير الاحتمالية. هذه الأساليب المختلفة بما فيه الكفاية من الأساليب التي تسبب مشاكل في الماضي وأعتقد أنه من المنطقي أن نفكر بها "أخذ العينات غير الاحتمالية 2.0." يجب أن لا يكون هناك نفور غير عقلاني إلى أساليب غير الاحتمالية بسبب الأخطاء التي وقعت منذ زمن بعيد.
بعد ذلك، من أجل جعل هذه الحجة أكثر واقعية، وسوف تستعرض أخذ العينات احتمال القياسية والترجيح (القسم 3.4.1). الفكرة الأساسية هي أن الطريقة التي جمع البيانات الخاصة بك ينبغي أن تؤثر على الطريقة التي تقوم بها التقديرات. على وجه الخصوص، إذا لم يكن لدى الجميع نفس احتمال إدراج، ثم على الجميع أن لا يكون لها نفس الوزن. وبعبارة أخرى، إذا أخذ العينات ليست ديمقراطية، ثم التقديرات لا ينبغي أن يكون ديمقراطيا. بعد مراجعة الترجيح، أنا أصف نهجين لأخذ العينات غير الاحتمالية: واحد أن يركز على الترجيح للتعامل مع المشكلة من البيانات التي تم جمعها عشوائيا (القسم 3.4.2)، واحد الذي يحاول وضع المزيد من السيطرة على كيفية البيانات جمعت (القسم 3.4.3). وسيتم شرح الحجج في النص الرئيسي أدناه مع الكلمات والصور. يجب أن القراء الذين يرغبون في العلاج أكثر رياضية أيضا انظر الملحق التقني.