يمكن ربط مسح لآثار الرقمية يكون كمن يسأل الجميع الأسئلة الخاصة بك في جميع الأوقات.
المطلوب يأتي عادة في فئتين رئيسيتين: مسوحات العينة والتعدادات. مسوحات العينة، حيث يمكنك الوصول إلى عدد قليل من الناس، يمكن أن تكون مرنة، في الوقت المناسب، ورخيصة نسبيا. ومع ذلك، والدراسات الاستقصائية عينة، لأنها تستند إلى عينة، غالبا ما تكون محدودة في حلها. مع مسح العينة، غالبا ما يكون من الصعب وضع تقديرات حول مناطق جغرافية محددة أو لمجموعات سكانية محددة. التعدادات، من جهة أخرى، محاولة لمقابلة الجميع في عدد السكان. لديهم قرار كبير، ولكنها غالية الثمن عموما، ضيق في التركيز (وهي تشمل سوى عدد قليل من الأسئلة)، وليس في الوقت المناسب (حدوثها على جدول زمني محدد، مثل كل 10 سنوات) (Kish 1979) . الآن تخيل لو الباحثون أن الجمع بين أفضل خصائص مسوحات العينة والتعدادات. تخيل لو الباحثون أن يسأل كل سؤال للجميع كل يوم.
ومن الواضح أن هذا مستمر، في كل مكان، دائما على المسح هو نوع من الخيال العلوم الاجتماعية. ولكن، يبدو أن علينا أن نبدأ في تقريب هذا من خلال الجمع بين أسئلة الاستطلاع من عدد قليل من الناس مع آثار الرقمية من كثير من الناس. وأنا أسمي هذا النوع من الجمع تضخيم يسأل. إذا أحسنت، يمكن أن تساعدنا يوفر التقدير التي هي أكثر محلية (للمناطق الجغرافية الصغيرة)، أكثر الحبيبية (لمجموعات سكانية محددة)، وأكثر من ذلك في الوقت المناسب.
وأحد الأمثلة على الطلب تضخيم يأتي من العمل يشوع Blumenstock، الذين يريدون لجمع البيانات التي من شأنها أن تساعد على تطوير دليل في البلدان الفقيرة. وبشكل أكثر تحديدا، يريد Blumenstock لإنشاء نظام لقياس الثروة والرفاه التي تجمع بين اكتمال التعداد مع المرونة وتردد مسح (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . في الواقع، لقد سبق وصفها عمل Blumenstock لفترة وجيزة في الفصل 1.
للبدء، في شراكة مع Blumenstock أكبر موزع للهواتف المتحركة في رواندا. قدمت الشركة له سجلات المعاملات مجهولة المصدر من حوالي 1.5 مليون مشترك تغطي السلوك من عامي 2005 و 2009. سجلات تحتوي على معلومات حول كل رسالة دعوة والنص مثل وقت البدء والمدة والموقع الجغرافي التقريبي للالمتصل والمتلقي. قبل أن نبدأ الحديث عن القضايا الإحصائية، تجدر الإشارة إلى أن هذه الخطوة الأولى قد تكون واحدة من أصعب. كما هو موضح في الفصل 2، فإن معظم بيانات التتبع الرقمي غير قابلة للوصول للباحثين. و، العديد من الشركات مترددة مبرر لتبادل البيانات الخاصة بهم لأنه خاص. هذا هو عملائهم ربما لم يكن يتوقع أن سجلاتها سوف تكون مشتركة في الجزء الأكبر مع الباحثين. في هذه الحالة، أخذ الباحثون خطوات حذرة لتجهيل البيانات وتشرف عملهم من قبل طرف ثالث (أي IRB الخاصة بهم). ولكن على الرغم من هذه الجهود، وهذه البيانات هي ربما لا تزال قابلة للتحديد والتي من المرجح تحتوي على معلومات حساسة (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . سوف أعود إلى هذه مسألة أخلاقية في الفصل 6.
يذكر أن Blumenstock كان مهتما في قياس الثروة والرفاه. ولكن، هذه الصفات ليست مباشرة في سجلات المكالمات. وبعبارة أخرى، فإن هذه سجلات المكالمات غير مكتملة لهذا البحث، وهي سمة مشتركة من آثار الرقمية التي نوقشت بالتفصيل في الفصل 2. ولكن، يبدو من المرجح أن سجلات المكالمات ربما يكون بعض المعلومات عن الثروة والرفاه. لذلك، طريقة واحدة ليسأل السؤال Blumenstock يمكن أن يكون: هل من الممكن أن يتنبأ كيف شخص سوف تستجيب لدراسة بناء على بيانات التتبع الرقمية؟ إذا كان الأمر كذلك، ثم عن طريق طرح عدد قليل من الناس لا يمكننا تخمين الإجابات من الجميع.
لتقييم هذا تجريبيا، ودعا Blumenstock والبحوث المساعدين من معهد كيغالي للعلوم والتكنولوجيا عينة من حوالي ألف عملاء الهاتف المحمول. وأوضح الباحثون أن أهداف المشروع للمشاركين، سأل عن موافقتها على ربط الاستجابات مسح لسجلات المكالمات، ثم طلب منهم مجموعة من الأسئلة لقياس الثروة والرفاه، مثل "هل تملك الراديو؟ "و" هل تملك دراجة؟ "(انظر الشكل 3.11 للحصول على قائمة جزئية). تم تعويض جميع المشاركين في الاستطلاع ماليا.
التالي، وتستخدم Blumenstock إجراء من خطوتين المشترك في العلوم البيانات: الهندسة ميزة تليها التعليم تحت اشراف. أولا، في خطوة الهندسة الميزة، على الجميع أن تم استجوابه، وتحويلها Blumenstock على سجلات المكالمات إلى مجموعة من الخصائص عن كل شخص. العلماء بيانات قد يطلق هذه الخصائص "ملامح"، وسوف علماء الاجتماع نسميها "المتغيرات". على سبيل المثال، لكل شخص، Blumenstock حساب عدد الأيام مع النشاط، وعدد من الناس متميزة كان الشخص في اتصال مع وكمية من الأموال التي تنفق على البث، وهلم جرا. الأهم من ذلك، الهندسة ميزة جيدة يتطلب معرفة من إعداد البحوث. على سبيل المثال، إذا كان من المهم أن نميز بين المكالمات المحلية والدولية (أننا قد نتوقع من الناس الذين يدعون دوليا ليكون الأكثر ثراء)، ثم يجب أن يتم ذلك في خطوة الهندسة الميزة. قد لا تشمل باحث مع القليل من الفهم رواندا هذه الميزة، ومن ثم أداء التنبؤية للنموذج سيعاني.
المقبل، في خطوة التعلم تحت إشراف، الذي بني Blumenstock نموذج إحصائي للتنبؤ استجابة استطلاع لكل شخص بناء على خصائصها. في هذه الحالة، وتستخدم Blumenstock الانحدار اللوجستي مع 10 أضعاف عبر التحقق من صحة، لكنه يمكن أن تستخدم مجموعة متنوعة من الأساليب الإحصائية أو آلة التعلم الأخرى.
فكيف كذلك لم يعمل؟ كان Blumenstock قادرة على التنبؤ إجابات لمسح أسئلة مثل "هل تملك الراديو؟" و "هل تملك دراجة هوائية؟" باستخدام خصائص مستمدة من سجلات المكالمات؟ النوع. كانت دقة تنبؤات عالية لبعض الصفات (الشكل 3.11). ولكن، من المهم دائما لمقارنة طريقة التنبؤ معقدة ضد بديلا بسيطا. في هذه الحالة، بديل بسيط هو التنبؤ بأن الجميع سوف تعطي الجواب الأكثر شيوعا. على سبيل المثال، أفادت 97.3٪ امتلاك الراديو حتى إذا كان قد تنبأ Blumenstock أن الجميع سيقدم تقريرا امتلاك الراديو انه كان لها دقة 97.3٪، وهو ما يماثل المدهش أن أداء له إجراء أكثر تعقيدا (97.6٪ دقة). وبعبارة أخرى، ارتفعت جميع البيانات الهوى والنمذجة دقة التنبؤ من 97.3٪ إلى 97.6٪. ومع ذلك، لأسئلة أخرى، مثل "هل تملك دراجة هوائية"، تحسنت التوقعات من 54.4٪ إلى 67.6٪. أكثر عموما، ويبين الشكل 3.12 لبعض الصفات Blumenstock لم تتحسن كثيرا أبعد من مجرد جعل التنبؤ الأساسي بسيط، ولكن هذا لصفات أخرى كان هناك بعض التحسن.
عند هذه النقطة يمكن التفكير بأن هذه النتائج مخيبة للآمال بعض الشيء، ولكن بعد عام واحد فقط، Blumenstock واثنين من زملائه، غابرييل Cadamuro وروبرت من داخل نشرت ورقة في العلوم مع نتائج أفضل بكثير (Blumenstock, Cadamuro, and On 2015) . هناك سببان الفنية الرئيسية لتحسين: 1) أنها تستخدم أساليب أكثر تطورا (أي نهج جديد لميزة الهندسة وآلة نموذج التعلم أكثر تطورا) و 2) بدلا من محاولة للاستدلال الردود على أسئلة الاستطلاع الفردية (على سبيل المثال، "هل تملك الراديو؟")، كانوا يحاولون الاستدلال على مؤشر الثروة مركب.
أظهرت Blumenstock وزملاؤه أداء نهجها بطريقتين. لأول مرة، وجدوا أن للشعب في العينة، فإنها يمكن القيام بعمل جيد جدا التنبؤ ثرواتهم من سجلات المكالمات (الشكل 3.14). ثانيا، والأهم من أي وقت مضى، وأظهر Blumenstock وزملاؤه أن ذلك الإجراء يمكن أن تنتج تقديرات عالية الجودة للتوزيع الجغرافي للثروة في رواندا. وبشكل أكثر تحديدا، استخدموا نموذج التعلم الآلي، والتي تم تدريبه على عينة من حوالي 1000 شخص، إلى التنبؤ ثروة كل 1.5 مليون شخص في سجلات المكالمات. وعلاوة على ذلك، مع البيانات الجغرافية المكانية جزءا لا يتجزأ من سجلات المكالمات (أذكر أن سجلات المكالمات يتضمن موقع أقرب برج خلية لكل المكالمة)، تمكن الباحثون من تقدير تقريبي مكان إقامة كل شخص. وضع هذه التقديرات اثنين معا، أنتجت الأبحاث تقديرا للتوزيع الجغرافي للثروة المشترك في تحبب المكاني غرامة للغاية. على سبيل المثال، فإنها يمكن أن تقدير متوسط الثروة في كل من 2148 الخلايا رواندا (أصغر وحدة إدارية في البلاد). كانت هذه القيم الثروة توقع الحبيبية بحيث كان من الصعب الاختيار. لذلك، تجميع الباحثون نتائجهم لإنتاج تقديرات متوسط ثروة من 30 منطقة في رواندا. والتقديرات على مستوى المقاطعات هذه ارتباطا وثيقا التقديرات من المسح التقليدي معيار الذهب، والمسح الديموغرافي والصحة الرواندية (الشكل 3.14). على الرغم من أن التقديرات من مصادر البلدين متشابهة، وكانت التقديرات من Blumenstock وزملاؤه حوالي 50 مرات أرخص وأسرع 10 مرات (عندما تكلفة في قياس من حيث التكاليف المتغيرة). هذا الانخفاض الكبير في تكلفة يعني أنه بدلا من أن تعمل كل بضع سنوات، كما هو المعيار لالاستقصاءات الديمغرافية والصحية، والهجين من مسح صغير جنبا إلى جنب مع بيانات التتبع الرقمية الكبيرة يمكن تشغيل كل شهر.
في الختام، Blumenstock في تضخيم يسأل نهج موحد بيانات المسح مع بيانات التتبع الرقمية لإنتاج تقديرات قابلة للمقارنة مع تقديرات مسح معيار الذهب. هذا المثال بالذات يوضح أيضا بعض المقايضات بين الطلب تضخيمها وطرق المسح التقليدية. أولا، كانت التقديرات يسأل تضخيمها أكثر في الوقت المناسب، وأرخص إلى حد كبير، وأكثر دقة. ولكن، من ناحية أخرى، في هذا الوقت، لم يكن هناك أساس نظري قوي لهذا النوع من الطلب تضخيمها. وهذا هو، لا تظهر هذا مثال واحد عندما أنها ستعمل وعندما لن. وعلاوة على ذلك، فإن النهج المطلوب تضخيم لم يقم حتى الآن وسيلة جيدة لقياس عدم اليقين حول تقديراته. ومع ذلك، يسأل تضخيم له صلات عميقة إلى ثلاث مناطق واسعة في ما بعد التقسيم الطبقي على أساس إحصاءات طراز (Little 1993) ، الإسناد (Rubin 2004) ، وتقدير المناطق الصغيرة (Rao and Molina 2015) -و ذلك أتوقع من شأنها أن تقدم يكون سريعا.
المطلوب تضخيم يتبع الوصفة الأساسية التي يمكن أن تكون مصممة لموقفك. هناك نوعان من المكونات وخطوتين. المكونات هما 1) مجموعة بيانات التتبع الرقمية التي هي واسعة ولكن رقيقة (وهذا يعني أنه يوجد كثير من الناس ولكن ليس على المعلومات التي تحتاجها عن كل شخص) و 2) الدراسة أن ضيق ولكن سميكة (أي، فقد فقط عدد قليل من الناس، ولكن لديها المعلومات التي تحتاجها عن هؤلاء الناس). ثم، هناك نوعان من الخطوات. أولا، بالنسبة للشعب في كل من مصادر البيانات، وبناء نموذج تعلم الآلة التي تستخدم بيانات التتبع الرقمية للتنبؤ إجابات المسح. ثانيا، استخدم هذا النموذج تعلم آلة لإلصاق الأجوبة مسح الجميع في بيانات التتبع الرقمية. وهكذا، إذا كان هناك بعض السؤال الذي أريد أن أسأل لكثير من الناس، والبحث عن بيانات التتبع الرقمية من هؤلاء الناس التي يمكن استخدامها للتنبؤ جوابهم.
وبمقارنة محاولة Blumenstock الأولى والثانية في مشكلة يوضح أيضا درسا مهما حول الانتقال من الحقبة الثانية لنهج عصر الثالثة لمسح البحوث: بداية لا نهاية. وهذا هو، مرات عديدة، النهج الأول لن يكون أفضل، ولكن إذا الباحثين تواصل العمل، يمكن أن تتحسن الامور. أكثر عموما، عند تقييم مناهج جديدة للبحوث الاجتماعية في العصر الرقمي، فمن المهم لجعل تقييمين مختلفين: 1) هل يمكن أن يؤدي هذا العمل الآن و2) كيف جيدا هل تعتقد أن هذا قد عمل في المستقبل المشهد البيانات تغييرات وكباحثين تكرس المزيد من الاهتمام لهذه المشكلة. وعلى الرغم من ذلك، يتم تدريب الباحثين على تقديم هذا النوع الأول من التقييم (كيف جيدة هو هذا قطعة معينة من البحث)، والثاني هو في كثير من الأحيان أكثر أهمية.