في طرح التخصيب ، تبني بيانات المسح سياقًا حول مصدر بيانات كبير يحتوي على بعض القياسات المهمة ولكنه يفتقر إلى غيرها.
إحدى طرق الجمع بين بيانات الاستقصاء ومصادر البيانات الكبيرة هي عملية سوف أسميها التخصيب . في الطلب المخصب ، يحتوي مصدر البيانات الكبير على بعض القياسات المهمة ولكنه يفتقر إلى قياسات أخرى ، لذا يقوم الباحث بجمع هذه القياسات المفقودة في مسح ثم يربط بين مصدري البيانات معًا. أحد الأمثلة على التساؤل المثير هو الدراسة التي أجراها Burke and Kraut (2014) حول ما إذا كان التفاعل على فيسبوك يزيد من قوة الصداقة ، والتي وصفتها في القسم 3.2). في هذه الحالة ، جمع بيرك وكروت بيانات المسح مع بيانات سجل Facebook.
ومع ذلك ، فإن الإعداد الذي كان يعمل فيه بورك وكراوت ، يعني أنه لم يكن عليهما التعامل مع مشكلتين كبيرتين قام بهما الباحثون المخصبون الذين يطالبون عادة بالمواجهة. أولاً ، في الواقع الربط بين مجموعات البيانات على مستوى الفرد ، قد تكون عملية تسمى ربط السجلات صعبة إذا لم يكن هناك معرف فريد في كل من مصادر البيانات التي يمكن استخدامها لضمان مطابقة السجل الصحيح في مجموعة بيانات واحدة بالسجل الصحيح في مجموعة البيانات الأخرى. المشكلة الرئيسية الثانية مع التماس التخصيب هي أن جودة مصدر البيانات الضخمة سيكون من الصعب في كثير من الأحيان بالنسبة للباحثين تقييمها لأن العملية التي يتم من خلالها إنشاء البيانات قد تكون خاصة ويمكن أن تكون عرضة للعديد من المشاكل الموضحة في الفصل 2. وبعبارة أخرى ، فإن الطلب المخصب سيشمل في كثير من الأحيان ربط عرض الاستبيان بالخطأ إلى مصادر بيانات الصندوق الأسود ذات الجودة غير المعروفة. على الرغم من هذه المشاكل ، يمكن استخدام التخصيب المثير لإجراء أبحاث مهمة ، كما أظهر ستيفن أنسولاباييري وإيتان هيرش (2012) في بحثهم حول أنماط التصويت في الولايات المتحدة.
لقد كان إقبال الناخبين موضوعًا للبحث المكثف في العلوم السياسية ، وفي الماضي ، كان فهم الباحثين للأصوات ولماذا يستند عمومًا إلى تحليل بيانات المسح. ومع ذلك ، فإن التصويت في الولايات المتحدة هو سلوك غير عادي في أن تسجل الحكومة ما إذا كان كل مواطن قد صوت (طبعاً ، لا تسجل الحكومة من يصوت لكل مواطن). لسنوات عديدة ، كانت سجلات التصويت الحكومية هذه متاحة على أشكال ورقية ، مبعثرة في مختلف المكاتب الحكومية المحلية في جميع أنحاء البلاد. وهذا جعل من الصعب للغاية ، ولكن ليس من المستحيل ، أن يكون لدى علماء السياسة صورة كاملة عن الناخبين ومقارنة ما يقوله الناس في استطلاعات الرأي حول التصويت بسلوكهم الانتخابي الفعلي (Ansolabehere and Hersh 2012) .
إلا أن سجلات التصويت هذه قد تم ترقيمها الآن ، وقام عدد من الشركات الخاصة بجمعها ودمجها بشكل منهجي لإنتاج ملفات تصويت شاملة شاملة تحتوي على سلوك التصويت لكل الأمريكيين. شراكة Ansolabehere و Hersh مع إحدى هذه الشركات - Catalist LCC - من أجل استخدام ملف التصويت الرئيسي للمساعدة في تطوير صورة أفضل للناخبين. وعلاوة على ذلك ، لأن دراستهم اعتمدت على السجلات الرقمية التي تم جمعها وتنظيمها من قبل شركة استثمرت موارد كبيرة في جمع البيانات ومواءمتها ، فقد قدمت عددًا من المزايا مقارنة بالجهود السابقة التي بذلت دون مساعدة الشركات وباستخدام السجلات التناظرية.
مثل العديد من مصادر البيانات الكبيرة في الفصل 2 ، لم يتضمن الملف الرئيسي Catalist الكثير من المعلومات السكانية ، والمواقف ، والسلوكية التي يحتاجها Ansolabehere و Hersh. في الواقع ، كانوا مهتمين بشكل خاص بمقارنة سلوك التصويت المُعلن في استطلاعات الرأي بسلوك التصويت المصادق عليه (أي المعلومات في قاعدة بيانات Catalist). لذا قام Ansolabehere و Hersh بجمع البيانات التي أرادوها كمسح اجتماعي كبير ، CCES ، المذكور سابقاً في هذا الفصل. ثم قدموا بياناتهم إلى Catalist ، وأعطاهم Catalist ملف بيانات مدمج يتضمن سلوكًا مصادقًا عليه (من Catalist) ، وسلوك التصويت الذي تم الإبلاغ عنه ذاتيًا (من CCES) والتركيبة السكانية واتجاهات المستجيبين (من CCES) (الشكل 3.13). بعبارة أخرى ، دمج كل من Ansolabehere و Hersh بيانات سجلات التصويت مع بيانات المسح من أجل إجراء بحث لم يكن ممكنًا مع مصدر البيانات بشكل فردي.
مع ملف البيانات المشترك ، جاء Ansolabehere و Hersh إلى ثلاثة استنتاجات مهمة. أولاً ، الإفراط في الإبلاغ عن التصويت متفشٍ: أفاد نصف غير الناخبين بأنهم صوّتوا ، وإذا أبلغ أحدهم عن التصويت ، فإن هناك فرصة بنسبة 80٪ فقط للتصويت. ثانياً ، الإفراط في الإبلاغ ليس عشوائياً: الإفراط في الإبلاغ أكثر شيوعاً بين الأشخاص ذوي الدخل المرتفع ، والحاصلين على تعليم جيد ، والذين يشاركون في الشؤون العامة. وبعبارة أخرى ، فإن الأشخاص الذين يرجح أن يصوتوا هم أكثر عرضة للكذب حول التصويت. ثالثًا ، والأهم من ذلك ، بسبب الطبيعة المنهجية للإفراط في تقديم التقارير ، فإن الاختلافات الفعلية بين الناخبين وغير الناطقين تكون أصغر مما تبدو من الدراسات الاستقصائية فقط. على سبيل المثال ، أولئك الذين يحملون درجة البكالوريوس هم أكثر احتمالية للإبلاغ عن 22 نقطة مئوية ، ولكنهم فقط 10 نقاط مئوية أكثر احتمالاً للتصويت فعلياً. وقد اتضح ، ربما ليس من المستغرب ، أن نظريات التصويت القائمة القائمة على الموارد تكون أفضل بكثير في التنبؤ بمن سوف يقوم بالإبلاغ عن التصويت (وهي البيانات التي استخدمها الباحثون في الماضي) أكثر مما هي في التنبؤ بمن يصوت فعليًا. وهكذا ، فإن الاستنتاج التجريبي لـ Ansolabehere and Hersh (2012) يستدعي نظريات جديدة لفهم والتنبؤ بالتصويت.
ولكن كم يجب أن نثق في هذه النتائج؟ تذكر أن هذه النتائج تعتمد على الارتباط المعرض للخطأ مع بيانات الصندوق الأسود بكميات غير معروفة من الأخطاء. وبشكل أكثر تحديدًا ، تتوقف النتائج على خطوتين رئيسيتين: (1) قدرة Catalist على الجمع بين العديد من مصادر البيانات المختلفة لإنتاج ملف بيانات رئيسي دقيق و (2) قدرة Catalist على ربط بيانات المسح بملف البيانات الرئيسي. كل خطوة من هذه الخطوات صعبة ، والأخطاء في أي من الخطوتين قد تقود الباحثين إلى استنتاجات خاطئة. ومع ذلك ، فإن كل من معالجة البيانات وربطها أمران مهمان لاستمرار وجود Catalist كشركة ، لذا يمكن أن تستثمر الموارد في حل هذه المشكلات ، في كثير من الأحيان على نطاق لا يمكن أن يتطابقه أي باحث أكاديمي. في صحيفتيهما ، يمر كل من Ansolabehere و Hersh بعدد من الخطوات للتحقق من نتائج هاتين الخطوتين - على الرغم من أن بعضها مملوكًا - وقد تكون هذه الشيكات مفيدة للباحثين الآخرين الراغبين في ربط بيانات المسح بالبيانات الكبيرة في الصندوق الأسود مصادر.
ما هي الدروس العامة التي يمكن للباحثين استخلاصها من هذه الدراسة؟ أولا ، هناك قيمة هائلة سواء من إثراء مصادر البيانات الكبيرة مع بيانات المسح ومن إثراء بيانات المسح مع مصادر البيانات الكبيرة (يمكنك رؤية هذه الدراسة في كلتا الحالتين). من خلال الجمع بين هذين المصدرين للبيانات ، تمكن الباحثون من القيام بشيء مستحيل سواء بشكل فردي. الدرس العام الثاني هو أنه على الرغم من أن مصادر البيانات التجارية المجمعة ، مثل البيانات من Catalist ، لا يجب اعتبارها "حقيقة حقيقة" ، في بعض الحالات ، يمكن أن تكون مفيدة. في بعض الأحيان ، يقوم المشككون بمقارنة مصدر البيانات التجميعية والتجارية هذه مع الحقيقة المطلقة ويشيرون إلى أن مصادر البيانات هذه لا تقصر. ومع ذلك ، في هذه الحالة ، يقوم المشككون بإجراء مقارنة خاطئة: جميع البيانات التي يستخدمها الباحثون تقصر عن الحقيقة المطلقة. بدلاً من ذلك ، من الأفضل مقارنة مصادر البيانات التجارية المجمعة مع مصادر البيانات الأخرى المتاحة (مثل سلوك التصويت المبلغ عنه ذاتيًا) ، والتي لها أخطاء أيضًا. وأخيرا ، فإن الدرس العام الثالث لدراسة Ansolabehere و Hersh هو أنه في بعض الحالات ، يمكن للباحثين الاستفادة من الاستثمارات الضخمة التي تبذلها العديد من الشركات الخاصة في جمع ومواءمة مجموعات البيانات الاجتماعية المعقدة.