على الرغم من أنه يمكن أن يكون فوضوي، يمكن أن يسأل المخصب تكون قوية.
وهناك نهج مختلف في التعامل مع عدم اكتمال بيانات التتبع الرقمي هو إثراء مباشرة مع بيانات المسح، وهي العملية التي سأتصل المطلوب المخصب. وأحد الأمثلة على الطلب المخصب هو دراسة Burke and Kraut (2014) ، التي وصفت في وقت سابق من الفصل (القسم 3.2)، حول ما إذا كان التفاعل في الفيسبوك يزيد من قوة الصداقة. في هذه الحالة، وبورك كراوت الجمع بين بيانات المسح مع بيانات السجل الفيسبوك.
الإعداد الذي يقمع وكراوت كانوا يعملون في، ومع ذلك، يعني أنها لم يكن لديك للتعامل مع اثنين من المشاكل الكبيرة التي الباحثين يقومون المخصب الوجه المطلوب. أولا، ربط الواقع معا مجموعات، بيانات عملية تسمى الربط القياسي، ومطابقة لسجل في مجموعة بيانات واحدة مع السجل المناسب في آخر بيانات يمكن أن يكون من الصعب وعرضة للخطأ (سنرى مثال على هذه المشكلة أدناه ). المشكلة الرئيسية الثانية من الطلب المخصب هي أن نوعية من آثار الرقمية سوف تكون في كثير من الأحيان من الصعب للباحثين لتقييم. على سبيل المثال، في بعض الأحيان العملية التي من خلالها يتم جمعها هي الملكية ويمكن أن تكون عرضة لكثير من المشاكل المذكورة في الفصل 2. وبعبارة أخرى، سوف يسأل أثرى كثيرا ما تنطوي على ربط عرضة للخطأ من الدراسات الاستقصائية إلى مصادر بيانات الصندوق الأسود من المجهول جودة. وعلى الرغم من المخاوف من أن إدخال هاتين المشكلتين، فمن الممكن لإجراء البحوث الهامة مع هذه الاستراتيجية كما يتضح من ستيفن Ansolabehere وايتان هيرش (2012) في أبحاثهم على أنماط التصويت في الولايات المتحدة. ومن الجدير بالذكر أن يذهب أكثر من هذه الدراسة بشيء من التفصيل لأن العديد من الاستراتيجيات التي Ansolabehere وهيرش وضعت ستكون مفيدة في التطبيقات الأخرى من الطلب المخصب.
وكان الاقبال على التصويت موضوع بحث مستفيض في العلوم السياسية، وفي الماضي، فهم الباحثين من الذي يصوت ولماذا عموما تم بناء على تحليل بيانات المسح. التصويت في الولايات المتحدة، ومع ذلك، هو سلوك غير عادي في ذلك سجلات الحكومة ما إذا كان كل مواطن قد صوت (وبطبيعة الحال، فإن الحكومة لا يسجل من كل الأصوات مواطن ل). لسنوات عديدة، وكانت هذه سجلات التصويت الحكومية المتاحة على النماذج الورقية، المنتشرة في مختلف المكاتب الحكومية المحلية في جميع أنحاء البلاد. وهذا جعل من الصعب، ولكن لم يكن من المستحيل، لعلماء السياسة أن يكون صورة كاملة عن الناخبين ومقارنة ما يقوله الناس في استطلاعات الرأي حول التصويت على سلوكهم التصويت الفعلي (Ansolabehere and Hersh 2012) .
ولكن، الآن تم رقمنة هذه السجلات التصويت، وعدد من شركات القطاع الخاص والتي تم جمعها بشكل منهجي ودمج هذه السجلات التصويت لإنتاج ملفات شاملة التصويت الماجستير التي تسجل سلوك التصويت لجميع الأميركيين. Ansolabehere وهيرش في شراكة مع واحدة من هذه الشركات Catalist LCC من أجل استخدام ملف التصويت سيدهم للمساعدة في وضع صورة أفضل من الناخبين. وعلاوة على ذلك، لأنها تعتمد على السجلات الرقمية التي تم جمعها وبرعاية شركة، وعرضت عددا من المزايا على الجهود السابقة من قبل الباحثين الذي تم إنجازه بدون مساعدة الشركات واستخدام السجلات التناظرية.
مثل العديد من مصادر أثر الرقمية في الفصل 2، فإن الملف الرئيسي Catalist لا يتضمن الكثير من المعلومات الديموغرافية والسلوكية، والسلوكية التي تحتاج Ansolabehere وهيرش. وبالإضافة إلى هذه المعلومات، كانت Ansolabehere وهيرش اهتماما خاصا في المقارنة بين السلوك الانتخابي إبلاغ السلوك الانتخابي التحقق من صحتها (أي معلومات في قاعدة البيانات Catalist). لذلك، جمع الباحثون البيانات التي أرادوا كجزء من دراسة التعاونية الكونغرس الانتخابات (CCES)، المسح الاجتماعي الكبير. بعد ذلك، قدم الباحثون هذه البيانات لCatalist، وأعطى Catalist الباحثون نسخ ملف المدمجة البيانات التي شملت التحقق من صحة السلوك الانتخابي (من Catalist)، السلوك الانتخابي المبلغ عنها ذاتيا (من CCES) والتركيبة السكانية واتجاهات المشاركين (من CCES ). وبعبارة أخرى، Ansolabehere وهيرش المخصب البيانات التصويت مع بيانات المسح، وملف المدمجة الناتجة تمكنهم من القيام بشيء ما لا ملف تمكين بشكل فردي.
من خلال إثراء ملف البيانات الرئيسية Catalist مع بيانات المسح، جاء Ansolabehere وهيرش إلى ثلاثة استنتاجات مهمة. أولا، والإفراط في الإبلاغ عن التصويت متفشية: ذكرت ما يقرب من نصف غير الناخبين التصويت. أو طريقة أخرى للنظر في ذلك هو إذا ذكر شخص التصويت، ليس هناك سوى فرصة 80٪ أن صوتوا فعلا. الثانية، والإفراط في تقديم التقارير ليست عشوائية. الإفراط في التقارير هو أكثر شيوعا بين ذوي الدخل المرتفع، تعليما جيدا، أنصار الذين يشاركون في الشؤون العامة. وبعبارة أخرى، فإن الناس الذين هم على الأرجح إلى التصويت أيضا على الأرجح إلى الكذب بشأن التصويت. ثالثا، والأهم من ذلك، بسبب الطبيعة المنهجية الإفراط في تقديم التقارير، فإن الاختلافات الفعلية بين الناخبين وغير الناخبين هي أصغر مما تبدو عليه فقط من الدراسات الاستقصائية. على سبيل المثال، تلك التي لديها شهادة البكالوريوس حوالي 22 نقطة مئوية من المرجح أن يقدم تقريرا التصويت، ولكن هي فقط 10 نقطة مئوية من المرجح أن التصويت الفعلي. وعلاوة على ذلك، النظريات القائمة التصويت القائم على الموارد هي أفضل بكثير في التنبؤ الذي سيقدم تقريرا التصويت من الذين فعلا الأصوات، وهو النتائج العملية التي تدعو إلى نظريات جديدة لفهم والتنبؤ التصويت.
ولكن، كم يجب أن نثق هذه النتائج؟ تذكر تعتمد هذه النتائج على ربط عرضة للخطأ في بيانات الصندوق الأسود مع كميات غير معروفة من الخطأ. وبشكل أكثر تحديدا، فإن النتائج تتوقف على اثنين من الخطوات الرئيسية: 1) قدرة Catalist إلى الجمع بين العديد من مصادر البيانات المختلفة لإنتاج datafile Cesar: سيزار سيد دقيقة و 2) قدرة Catalist لربط بيانات المسح إلى datafile Cesar: سيزار سيدها. كل هذه الخطوات من الصعب جدا والأخطاء في أي خطوة يمكن أن تؤدي الباحثون إلى استنتاجات خاطئة. ومع ذلك، على حد سواء معالجة البيانات ومطابقة أمرا حاسما لاستمرار وجود Catalist كشركة بحيث يمكن استثمار الموارد في حل هذه المشاكل، وغالبا في نطاق وأنه لا يوجد الباحث الأكاديمي فرد أو مجموعة من الباحثين يمكن أن المباراة. في قراءة أخرى في نهاية الفصل، ووصف هذه المشاكل في مزيد من التفاصيل وكيف Ansolabehere وهيرش بناء الثقة في نتائجها. على الرغم من أن هذه التفاصيل هي محددة لهذه الدراسة، فإن قضايا مشابهة لهذه تنشأ عن غيرهم من الباحثين الذين يرغبون في الارتباط الصندوق الأسود مصادر بيانات التتبع الرقمي.
ما هي الدروس العامة يمكن للباحثين الاستفادة من هذه الدراسة؟ أولا، هناك قيمة كبيرة من تخصيب آثار الرقمية مع بيانات المسح. ثانيا، على الرغم من أن هذه تجميعها، ومصادر البيانات التجارية لا ينبغي أن تعتبر "الحقيقة على الارض"، في بعض الحالات يمكن أن تكون مفيدة. في الواقع، فمن الأفضل لمقارنة هذه المصادر البيانات لا الحقيقة المطلقة (من التي سوف تقع دائما قصيرة). بدلا من ذلك، فمن الأفضل لمقارنتها مع مصادر البيانات المتاحة الأخرى، التي لديها أخطاء دائما كذلك.