عد بسيط يمكن أن تكون مثيرة للاهتمام إذا قمت بضم سؤال جيد مع بيانات جيدة.
على الرغم من أنها مكتوبة بلغة متطورة ، إلا أن الكثير من الأبحاث الاجتماعية لا تعدو أن يكون مجرد عد الأشياء. في عصر البيانات الضخمة ، يمكن للباحثين الاعتماد أكثر من أي وقت مضى ، ولكن هذا لا يعني أنه ينبغي عليهم فقط البدء في العد عشوائياً. بدلاً من ذلك ، يجب أن يسأل الباحثون: ما هي الأشياء التي تستحق العد؟ قد يبدو هذا وكأنه مسألة ذاتية تمامًا ، ولكن هناك بعض الأنماط العامة.
يحفز الطلاب في كثير من الأحيان أبحاثهم بالقول: سأحسب شيئًا لم يحسبه أحد من قبل. على سبيل المثال ، قد يقول الطالب أن الكثير من الناس قد درسوا المهاجرين وكثير من الناس درسوا التوائم ، ولكن لم يدرس أي شخص توأم التوائم. من واقع تجربتي ، فإن هذه الاستراتيجية ، التي أسميها الدافع من الغياب ، لا تؤدي عادة إلى البحث الجيد. الدافع من الغياب هو نوع من القول مثل وجود ثقب هناك ، وسأعمل بجد لملئه. لكن ليس كل ثقب يحتاج إلى شغل.
بدلا من تحفيز من الغياب، وأعتقد أن أفضل استراتيجية هي للبحث عن أسئلة البحث التي تعتبر مهمة أو مثيرة للاهتمام (أو مثاليا على حد سواء). يصعب تحديد هذين المصطلحين ، ولكن إحدى الطرق للتفكير في الأبحاث الهامة هي أن لها بعض التأثير القابل للقياس أو أنها تتغذى على قرار هام من جانب صناع السياسات. على سبيل المثال ، يعد قياس معدل البطالة أمرًا مهمًا لأنه مؤشر على الاقتصاد الذي يقود القرارات السياسية. بشكل عام ، أعتقد أن الباحثين لديهم شعور جيد بما هو مهم. لذا ، في بقية هذا القسم ، سأقدم مثالين حيث أعتقد أن العد مثير للاهتمام. في كل حالة ، لم يكن الباحثون يعدون عشوائيا. بدلاً من ذلك ، فقد تم احتسابها في أوضاع محددة جدًا كشفت عن أفكار مهمة حول أفكار أكثر عمومية حول كيفية عمل الأنظمة الاجتماعية. وبعبارة أخرى ، فإن الكثير مما يجعل عمليات الفرز هذه مثيرة للاهتمام ليست البيانات نفسها ، فهي تأتي من هذه الأفكار الأكثر عمومية.
أحد الأمثلة على قوة الحساب البسيطة يأتي من دراسة هنري فاربر (2015) عن سلوك سائقي سيارات الأجرة في مدينة نيويورك. على الرغم من أن هذه المجموعة قد لا تبدو مثيرة للاهتمام ، إلا أنها موقع بحث استراتيجي لاختبار نظريتين متنافستين في اقتصاديات العمل. لأغراض بحث Farber ، هناك ميزتان مهمتان عن بيئة عمل سائقي سيارات الأجرة: (1) يتذبذب أجرهم كل ساعة من يوم إلى يوم ، ويعتمد ذلك جزئياً على عوامل مثل الطقس ، و (2) عدد الساعات العمل يمكن أن تتقلب كل يوم على أساس قراراتهم. هذه الميزات تؤدي إلى سؤال مثير للاهتمام حول العلاقة بين الأجور بالساعة وساعات العمل. تتنبأ النماذج الكلاسيكية الجديدة في علم الاقتصاد بأن سائقي سيارات الأجرة سيعملون أكثر في الأيام التي يكون فيها أجورهم أعلى في الساعة. بدلاً من ذلك ، تتنبأ نماذج من علم الاقتصاد السلوكي بالعكس تماماً. إذا حدد السائقون هدفًا معينًا للدخل - على سبيل المثال 100 دولارًا في اليوم - واستمر العمل حتى يتم تحقيق هذا الهدف ، فسينتهي السائقون بالعمل لساعات أقل في الأيام التي يكسبون فيها أكثر. على سبيل المثال ، إذا كنت أحد العملاء المستهدفين ، فقد ينتهي بك الحال إلى العمل لمدة أربع ساعات في يوم جيد (25 دولارًا في الساعة) وخمس ساعات في يوم سيئ (20 دولارًا في الساعة). إذاً ، هل يعمل السائقون ساعات أطول في أيام ذات أجور أعلى بالساعة (كما هو متوقع في النماذج الكلاسيكية الجديدة) أو ساعات أكثر في أيام مع انخفاض الأجور بالساعة (كما هو متوقع من النماذج الاقتصادية السلوكية)؟
للإجابة على هذا السؤال ، حصلت فاربر على بيانات عن كل رحلة سيارة أجرة نقلتها سيارات الأجرة في مدينة نيويورك من عام 2009 إلى عام 2013 ، وهي بيانات متاحة الآن للجمهور. تتضمن هذه البيانات - التي تم جمعها عن طريق العدادات الإلكترونية التي تتطلبها المدينة لاستخدام سيارات الأجرة - معلومات حول كل رحلة: وقت البدء ، موقع البدء ، وقت الانتهاء ، موقع النهاية ، سعر التذكرة ، وطرف (إذا تم دفع الرصيد بواسطة بطاقة ائتمان) . باستخدام بيانات عداد سيارة الأجرة هذه ، وجد فاربر أن معظم السائقين يعملون أكثر في الأيام التي تكون فيها الأجور أعلى ، بما يتفق مع النظرية الكلاسيكية الجديدة.
بالإضافة إلى هذه النتيجة الرئيسية ، تمكنت Farber من استخدام حجم البيانات لفهم أفضل للتجانس وديناميكيات. وجد أنه مع مرور الوقت ، يتعلم السائقون الجدد تدريجياً العمل لساعات أطول في أيام الأجور العالية (على سبيل المثال ، يتعلمون التصرف كما يتنبأ النموذج الكلاسيكي الجديد). ومن المرجح أن يتوقف السائقون الجدد الذين يتصرفون أكثر كأنهم مستهدفون ، عن كونهم سائقين لسيارات الأجرة. كل هذه النتائج الأكثر دقة ، والتي تساعد على تفسير السلوك المرصود للسائقين الحاليين ، كانت ممكنة فقط بسبب حجم مجموعة البيانات. كان من المستحيل الكشف في الدراسات السابقة التي استخدمت أوراق رحلة ورقية من عدد قليل من سائقي سيارات الأجرة خلال فترة قصيرة من الزمن (Camerer et al. 1997) .
كانت دراسة فاربر قريبة من أفضل السيناريوهات لإجراء بحث باستخدام مصدر بيانات كبير لأن البيانات التي جمعتها المدينة كانت قريبة إلى حد كبير من البيانات التي كان قد جمعها فاربر (أحد الاختلافات هو أن فاربر كان يريد الحصول على بيانات حول الإجمالي الأجور - الأسعار بالإضافة إلى النصائح - ولكن بيانات المدينة شملت فقط نصائح دفعت بواسطة بطاقة الائتمان). ومع ذلك ، فإن البيانات وحدها لم تكن كافية. كان مفتاح بحث فاربر هو طرح سؤال مثير للاهتمام على البيانات ، وهو سؤال له آثار أكبر يتجاوز مجرد هذا الإعداد المحدد.
المثال الثاني على حساب الأشياء يأتي من الأبحاث التي قام بها غاري كينغ وجنيفر بان ومولي روبرتس (2013) حول الرقابة على الإنترنت من قبل الحكومة الصينية. في هذه الحالة ، ومع ذلك ، كان على الباحثين جمع البيانات الكبيرة الخاصة بهم وكان عليهم التعامل مع حقيقة أن بياناتهم كانت غير مكتملة.
كان الدافع وراء الملك وزملائه هو أن وسائل الإعلام الاجتماعية في الصين تخضع للرقابة من قبل جهاز حكومي ضخم يعتقد أنه يضم عشرات الآلاف من الأشخاص. بيد أن الباحثين والمواطنين ليس لديهم أدنى فكرة عن الكيفية التي يقرر بها هؤلاء الرقباء المحتوى الذي ينبغي حذفه. لدى علماء الصين بالفعل توقعات متضاربة حول أنواع الوظائف التي من المرجح أن يتم حذفها. يعتقد البعض أن الرقابة تركز على الوظائف التي تنتقد الدولة ، بينما يعتقد البعض الآخر أنها تركز على المشاركات التي تشجع السلوك الجماعي ، مثل الاحتجاجات. إن تحديد أي من هذه التوقعات صحيحة له آثار على كيفية فهم الباحثين للصين والحكومات الاستبدادية الأخرى التي تنخرط في الرقابة. لذلك ، أراد كنغ وزملاؤه مقارنة الوظائف المنشورة والتي تم حذفها لاحقًا مع المشاركات التي تم نشرها ولم يتم حذفها أبدًا.
جمع هذه الوظائف تشارك عملا هندسيا رائعا من الزحف أكثر من 1000 صيني المواقع-كل وسائل الاعلام الاجتماعية مع العثور على تخطيطات الصفحات المختلفة الوظائف ذات الصلة، وبعد ذلك بإعادة النظر في هذه الوظائف لمعرفة أي تم حذفها في وقت لاحق. وبالإضافة إلى المشاكل الهندسية العادية المرتبطة على نطاق واسع على شبكة الإنترنت الزحف، وكان هذا المشروع تحديا إضافيا أنها بحاجة إلى أن تكون سريعة للغاية لاتخاذ العديد من المشاركات للرقابة في أقل من 24 ساعة. وبعبارة أخرى، فإن الزاحف بطيئة يغيب عن الكثير من الوظائف التي خضعت للرقابة. وعلاوة على ذلك، كان الزواحف أن تفعل كل هذا جمع البيانات مع التهرب من الكشف خشية أن مواقع التواصل الاجتماعي لمنع الوصول أو تغيير سياساتها ردا على الدراسة.
بحلول الوقت الذي تم فيه إنجاز هذه المهمة الهندسية الضخمة ، حصل الملك وزملاؤه على حوالي 11 مليون مشاركة في 85 موضوعًا مختلفًا محددًا ، كل منها بمستوى مفترض من الحساسية. على سبيل المثال ، موضوع الحساسية العالية هو Ai Weiwei ، الفنان المنشق ؛ موضوع الحساسية الوسطى هو تقدير وقيمة العملة الصينية ، وموضوع الحساسية المنخفضة هو كأس العالم. ومن بين هذه الوظائف البالغ عددها 11 مليون ، خضع حوالي مليوني وظيفة للرقابة. ومما يثير الدهشة إلى حد ما ، أن كينغ وزملائه وجدوا أن المشاركات في مواضيع شديدة الحساسية كانت تخضع للرقابة أكثر قليلاً من الوظائف ذات الموضوعات الحساسة والمتدنية. بعبارة أخرى ، من المرجح أن يراقب الرقباء الصينيون منصباً يذكر Ai Weiwei كموقع يشير إلى كأس العالم. هذه النتائج لا تدعم فكرة أن الحكومة تفرض رقابة على جميع المشاركات في المواضيع الحساسة.
هذا الحساب البسيط لمعدل الرقابة حسب الموضوع قد يكون مضللاً. على سبيل المثال ، قد تفرض الحكومة رقابة على المشاركات الداعمة لـ Ai Weiwei ، ولكنها تترك الوظائف التي تنتقده. من أجل التمييز بين الوظائف بعناية أكبر ، احتاج الباحثون لقياس مشاعر كل وظيفة. لسوء الحظ ، على الرغم من الكثير من العمل ، لا تزال الطرق المؤتمتة بالكامل لكشف المشاعر باستخدام القواميس الموجودة مسبقًا غير جيدة جدًا في العديد من المواقف (يرجى الرجوع إلى المشكلات التي تخلق إطارًا زمنيًا عاطفيًا في 11 سبتمبر 2001 موضح في القسم 2.3.9). لذلك ، احتاج كنغ وزملاؤه إلى وسيلة لتسمية 11 مليون من مواقع وسائل الإعلام الاجتماعية حول ما إذا كانوا (1) ينتقدون الدولة ، (2) يدعمون الدولة ، أو (3) تقارير غير ذات صلة أو وقائعية عن الأحداث. يبدو هذا عملاً هائلاً ، لكنهم حله باستخدام خدعة قوية شائعة في علم البيانات ولكنها نادرة نسبياً في العلوم الاجتماعية: التعلم تحت الإشراف ؛ انظر الشكل 2.5.
أولاً ، في خطوة تسمى عادةً المعالجة المسبقة ، قام الباحثون بتحويل مشاركات وسائل الإعلام الاجتماعية إلى مصفوفة وثيقة ، حيث كان هناك صف واحد لكل وثيقة وعمود واحد يسجل ما إذا كانت الوظيفة تحتوي على كلمة معينة (مثل الاحتجاج أو المرور) . بعد ذلك ، قامت مجموعة من مساعدي الأبحاث بتسمية شعور عينة من المشاركات. بعد ذلك ، استخدموا هذه البيانات المخصّصة يدويًا لإنشاء نموذج تعلّم آلي يمكن أن يستنتج مشاعر الوظيفة بناءً على خصائصها. وأخيرا ، استخدموا هذا النموذج لتقدير مشاعر جميع 11 مليون وظيفة.
وهكذا ، وبدلاً من القراءة والتمييز اليدوي لعدد 11 مليون وظيفة - وهو ما قد يكون مستحيلاً من الناحية اللوجستية - وصف الملك وزملاؤه يدوياً عددًا صغيرًا من الوظائف ثم استخدموا التعلم تحت الإشراف لتقدير مشاعر جميع المشاركات. بعد الانتهاء من هذا التحليل ، تمكنوا من استنتاج أنه ، من المستغرب إلى حد ما ، أن احتمال حذف الوظيفة لا علاقة له بما إذا كان ينتقد الدولة أو يدعم الدولة.
في النهاية ، اكتشف كنغ وزملاؤه أن ثلاثة أنواع فقط من الوظائف تخضع للرقابة بانتظام: المواد الإباحية ، وانتقادات الرقابة ، وتلك التي لديها إمكانات عمل جماعي (أي إمكانية الوصول إلى احتجاجات واسعة النطاق). من خلال ملاحظة عدد كبير من المشاركات التي تم حذفها والمشاركات التي لم يتم حذفها ، كان كنغ وزملاؤه قادرين على تعلم كيفية عمل الرقابة فقط من خلال المشاهدة والعد. علاوة على ذلك ، ينذر بموضوع سيحدث في جميع أنحاء هذا الكتاب ، حيث يتبين أن منهج التعلم الخاضع للإشراف الذي استخدموه - وضع العلامات اليدوية لبعض النتائج ثم بناء نموذج التعلم الآلي لتسمية البقية - شائع جدًا في البحث الاجتماعي في العصر الرقمي. . سترى صوراً مشابهة جداً للرقم 2.5 في الفصول 3 (طرح الأسئلة) و 5 (إنشاء التعاون الجماعي) ؛ هذا هو واحد من الأفكار القليلة التي تظهر في فصول متعددة.
توضح هذه الأمثلة - السلوك العملي لسائقي سيارات الأجرة في نيويورك وسلوك الرقابة الاجتماعية في الحكومة الصينية - أن الفرز البسيط نسبياً لمصادر البيانات الضخمة قد يؤدي ، في بعض الحالات ، إلى بحث مهم ومهم. لكن في كلتا الحالتين ، اضطر الباحثون إلى طرح أسئلة مثيرة للاهتمام على مصدر البيانات الكبير ؛ البيانات في حد ذاتها ليست كافية.