البيانات غير التمثيلية سيئة للتعممات خارج العينة ، ولكنها يمكن أن تكون مفيدة جدًا للمقارنات داخل العينة.
اعتاد بعض علماء الاجتماع على العمل مع البيانات التي تأتي من عينة عشوائية احتمالية من مجموعة محددة بدقة ، مثل جميع البالغين في بلد معين. ويطلق على هذا النوع من البيانات بيانات تمثيلية لأن العينة "تمثل" أكبر عدد من السكان. يقوم العديد من الباحثين بتجميع بيانات تمثيلية ، وبالنسبة للبعض ، تكون البيانات التمثيلية مرادفة للعلم الدقيق في حين أن البيانات غير التمثيلية هي مرادف للسلاسة. في أقصى الحالات ، يبدو أن بعض المتشككين يعتقدون أنه لا يمكن تعلم أي شيء من البيانات غير التمثيلية. إذا كان هذا صحيحًا ، فسيؤدي ذلك إلى الحد بشدة مما يمكن تعلمه من مصادر البيانات الكبيرة لأن العديد منها غير تمثيلي. لحسن الحظ ، فإن هؤلاء المتشككين على حق جزئيا فقط. هناك بعض الأهداف البحثية التي من الواضح أن البيانات غير التمثيلية ليست مناسبة بشكل جيد ، ولكن هناك غيرها من الأهداف التي قد تكون مفيدة للغاية في الواقع.
لفهم هذا التمييز ، دعنا نفكر في دراسة علمية كلاسيكية: دراسة جون سنو حول تفشي وباء الكوليرا في لندن في 1853 و 1954. في ذلك الوقت ، اعتقد العديد من الأطباء أن الكوليرا ناجمة عن "الهواء السيئ" ، إلا أن سنو كان يعتقد أنه مرض معدي ، ربما ينتشر عن طريق مياه شرب مجففة. لاختبار هذه الفكرة ، استفاد سنو مما يمكن أن نسميه الآن تجربة طبيعية. وقارن معدلات الكوليرا في الأسر التي تخدمها شركتا مياه مختلفتان هما لامبيث وساوث وارك وفوكسهول. خدمت هذه الشركات أسرًا متشابهة ، ولكنها اختلفت بطريقة واحدة مهمة: في عام 1849 - قبل بضع سنوات من بدء الوباء - نقل لامبث نقطة الاستيعاب إلى الأعلى من الصرف الرئيسي للصرف الصحي في لندن ، في حين ترك ساوث وارك وفوكسول أنبوب السحب الخاص بهما من مجرى النهر. تصريف مياه الصرف الصحي. عندما قارن سنو بين معدلات الوفاة من الكوليرا في المنازل التي تخدمها الشركتان ، وجد أن عملاء شركة ساوث وارك وفوكسهول - الشركة التي كانت تزود المستهلكين بالمياه الملوثة بالمجاري - كانوا أكثر عرضة للإصابة بمرض الكوليرا عشر مرات. توفر هذه النتيجة أدلة علمية قوية لحجة سنو حول سبب الكوليرا ، على الرغم من أنها لا تستند إلى عينة تمثيلية من الناس في لندن.
ومع ذلك ، فإن البيانات الواردة من هاتين الشركتين لن تكون مثالية للإجابة على سؤال مختلف: ما هو مدى انتشار الكوليرا في لندن خلال الفاشية؟ بالنسبة لهذا السؤال الثاني ، وهو أمر مهم أيضًا ، سيكون من الأفضل بكثير الحصول على عينة تمثيلية لأشخاص من لندن.
كما يوضح عمل سنو ، هناك بعض الأسئلة العلمية التي يمكن للبيانات غير التمثيلية أن تكون فعّالة للغاية ، وهناك غيرها من الأسئلة التي لا تناسبها بشكل جيد. إحدى الطرق الفريدة للتمييز بين هذين النوعين من الأسئلة هي أن بعض الأسئلة تدور حول مقارنات داخل العينة وبعضها حول التعميمات خارج العينة. يمكن توضيح هذا التمييز من خلال دراسة كلاسيكية أخرى في علم الأوبئة: دراسة الأطباء البريطانيين ، التي لعبت دورًا مهمًا في إثبات أن التدخين يسبب السرطان. في هذه الدراسة ، تبع ريتشارد دول و أ. برادفورد هيل ما يقرب من 25000 طبيب من الذكور لعدة سنوات وقارنوا معدلات موتهم على أساس الكمية التي كانوا يدخنونها عند بدء الدراسة. وجدت دول وهيل (1954) علاقة قوية بين التعرض والاستجابة: فكلما زاد دخان المدخن ، زادت احتمالية الوفاة بسبب سرطان الرئة. بالطبع ، سيكون من غير الحكمة تقدير انتشار سرطان الرئة بين جميع البريطانيين على أساس هذه المجموعة من الأطباء الذكور ، ولكن المقارنة داخل العينة لا تزال تقدم أدلة على أن التدخين يسبب سرطان الرئة.
والآن بعد أن أوضحت الفرق بين المقارنات داخل العينة والتعيينات خارج العينة ، هناك توصيتان مناسبتان. أولاً ، هناك تساؤلات بطبيعة الحال حول مدى وجود علاقة داخل عينة من الأطباء البريطانيين الذكور ضمن عينة من أطباء بريطانيين أو بريطانيين أو عمال مصانع بريطانيين أو عمال مصانع ألمانيين أو العديد من المجموعات الأخرى. هذه الأسئلة مثيرة للاهتمام ومهمة ، ولكنها تختلف عن أسئلة حول مدى إمكانية تعميمها من عينة إلى مجتمع. لاحظ ، على سبيل المثال ، أنك ربما تشك في أن العلاقة بين التدخين والسرطان التي وجدت في الأطباء البريطانيين الذكور ستكون على الأرجح مشابهة لتلك المجموعات الأخرى. إن قدرتك على القيام بهذا الاستقراء لا تأتي من حقيقة أن الأطباء البريطانيين الذكور هم عينة عشوائية عشوائية من أي شعب. بدلا من ذلك ، فإنه يأتي من فهم الآلية التي تربط بين التدخين والسرطان. وبالتالي ، فإن التعميم من عينة إلى السكان التي يتم رسمها هو قضية إحصائية إلى حد كبير ، ولكن أسئلة حول (Pearl and Bareinboim 2014; Pearl 2015) النقل للنمط الموجود في مجموعة واحدة إلى مجموعة أخرى هي إلى حد كبير قضية غير (Pearl and Bareinboim 2014; Pearl 2015) .
في هذه المرحلة ، قد يشير المشككون إلى أن معظم الأنماط الاجتماعية ربما تكون أقل قابلية للنقل عبر المجموعات من العلاقة بين التدخين والسرطان. وأنا أتفق. إن المدى الذي يجب أن نتوقع أن تكون الأنماط قابلة للنقل فيه هو سؤال علمي في نهاية المطاف يجب أن يعتمد على النظرية والأدلة. لا ينبغي افتراض أن الأنماط ستكون قابلة للنقل تلقائياً ، ولكن لا ينبغي افتراض أنها لن تكون قابلة للنقل. هذه الأسئلة المجردة إلى حد ما حول (Sears 1986, [@henrich_most_2010] ) النقل ستكون مألوفة لك إذا كنت قد تابعت المناقشات حول مدى قدرة الباحثين على التعرف على السلوك البشري من خلال دراسة طلاب المرحلة الجامعية (Sears 1986, [@henrich_most_2010] ) . وعلى الرغم من هذه المناقشات ، إلا أنه من غير المعقول القول إن الباحثين لا يستطيعون تعلم أي شيء من دراسة طلاب المرحلة الجامعية.
التوضيح الثاني هو أن معظم الباحثين الذين لا يمتلكون بيانات غير تمثيلية ليسوا حذرين مثل سنو أو دول وهيل. لذا ، لتوضيح ما يمكن أن يحدث بشكل خاطئ عندما يحاول الباحثون إجراء تعميم خارج العينة من بيانات غير تمثيلية ، أود أن أخبركم عن دراسة حول الانتخابات البرلمانية الألمانية لعام 2009 أجراها Andranik Tumasjan وزملاؤه (2010) . من خلال تحليل أكثر من 100000 تغريدة ، وجدوا أن نسبة التغريدات التي تشير إلى حزب سياسي تضاهي نسبة الأصوات التي حصل عليها الحزب في الانتخابات البرلمانية (الشكل 2.3). وبعبارة أخرى ، يبدو أن بيانات تويتر ، التي كانت مجانية بشكل أساسي ، يمكن أن تحل محل استطلاعات الرأي العام التقليدية ، وهي باهظة التكلفة بسبب تركيزها على البيانات التمثيلية.
وبالنظر إلى ما تعرفه على الأرجح عن Twitter ، يجب أن تشك في هذه النتيجة على الفور. الألمان على تويتر في عام 2009 لم يكونوا عينة عشوائية احتمالية من الناخبين الألمان ، وقد يغفل أنصار بعض الأحزاب عن السياسة أكثر بكثير من مؤيدي الأحزاب الأخرى. وهكذا ، يبدو من المدهش أن جميع التحيزات المحتملة التي يمكن تخيلها سوف تلغى بطريقة ما بحيث تكون هذه البيانات تعكس بشكل مباشر الناخبين الألمان. في الواقع ، فإن النتائج في Tumasjan et al. (2010) تبين أنه جيد جدًا لدرجة يصعب تصديقها. أشارت ورقة متابعة أعدها أندرياس جونجير ، وباسكال يورجينز ، وهارالد شوين (2012) إلى أن التحليل الأصلي قد استبعد الحزب السياسي الذي تلقى بالفعل أكبر عدد من الإشارات على تويتر: حزب القراصنة ، وهو حزب صغير يحارب التنظيم الحكومي من الانترنت. عندما تم تضمين "حزب القراصنة" في التحليل ، فإن "تويتر" يذكر بأنه سيصبح مؤشراً مروّعاً لنتائج الانتخابات (الشكل 2.3). كما يوضح هذا المثال ، فإن استخدام مصادر البيانات الكبيرة غير التمثيلية للقيام بالتعميمات خارج العينة يمكن أن يكون خطأً للغاية. أيضا ، يجب أن تلاحظ أن حقيقة وجود 100000 تغريدة كانت في الأساس غير ذات صلة: فالكثير من البيانات غير الممثلة لا تزال غير تمثيلية ، وهو موضوع سأعود إليه في الفصل الثالث عندما أناقش الاستطلاعات.
في الختام ، العديد من مصادر البيانات الكبيرة ليست عينات تمثيلية من بعض السكان محددة جيدا. بالنسبة للأسئلة التي تتطلب نتائج تعميم من العينة إلى السكان التي تم رسمها منها ، فهذه مشكلة خطيرة. ولكن بالنسبة للأسئلة حول المقارنات داخل العينة ، يمكن أن تكون البيانات غير التمثيلية قوية ، طالما أن الباحثين واضحين بشأن خصائص عيوبهم ويدعمون المطالبات بشأن قابلية النقل مع الأدلة النظرية أو التجريبية. في الواقع ، آمل أن تمكن مصادر البيانات الكبيرة الباحثين من إجراء المزيد من المقارنات داخل العينة في العديد من المجموعات غير الممثلة ، وتخميني هو أن التقديرات من العديد من المجموعات المختلفة سوف تعمل أكثر على تقدم البحث الاجتماعي من تقدير واحد من عشوائي عشوائي عينة.