كشط الباحثين مواقع وسائل الاعلام الاجتماعية الصينية لدراسة الرقابة. تعاملوا مع عدم اكتمال مع الاستدلال الكامنة-الصفة.
وبالإضافة إلى البيانات الكبيرة المستخدمة في اثنين من الأمثلة السابقة، يمكن للباحثين أيضا جمع بيانات الرصد الخاصة بها، كما يتضح بشكل رائع من قبل غاري الملك، جنيفر عموم، و "مولي روبرتس (2013) بحث حول الرقابة من قبل الحكومة الصينية.
تخضع للرقابة المشاركات وسائل الاعلام الاجتماعية في الصين من قبل أجهزة الدولة الهائل الذي يعتقد أن من بينهم عشرات الآلاف من الناس. الباحثين والمواطنين، ومع ذلك، فقد القليل من الحس كيف تقرر هذه الرقابة ما ينبغي حذف المحتوى من وسائل الاعلام الاجتماعية. علماء الصين فعلا توقعات متضاربة حول أي نوع من الوظائف هي الأكثر احتمالا للحصول على حذفها. يظن البعض أن الرقابة تركز على الوظائف التي تعتبر بالغة الأهمية للدولة في حين يرى آخرون أنها تركز على المشاركات التي تشجع على السلوك الجماعي، مثل الاحتجاجات. معرفة أي من هذه التوقعات غير صحيحة له آثار على كيفية فهم الباحثين الصين والحكومات الاستبدادية الأخرى التي تعمل في الرقابة. ولذلك، أراد الملك وزملاؤه مقارنة المشاركات التي تم نشرها وحذف في الوظائف التي تم نشرها وحذف أبدا في وقت لاحق.
جمع هذه الوظائف تشارك عملا هندسيا رائعا من الزحف أكثر من 1000 صيني المواقع-كل وسائل الاعلام الاجتماعية مع العثور على تخطيطات الصفحات المختلفة الوظائف ذات الصلة، وبعد ذلك بإعادة النظر في هذه الوظائف لمعرفة أي تم حذفها في وقت لاحق. وبالإضافة إلى المشاكل الهندسية العادية المرتبطة على نطاق واسع على شبكة الإنترنت الزحف، وكان هذا المشروع تحديا إضافيا أنها بحاجة إلى أن تكون سريعة للغاية لاتخاذ العديد من المشاركات للرقابة في أقل من 24 ساعة. وبعبارة أخرى، فإن الزاحف بطيئة يغيب عن الكثير من الوظائف التي خضعت للرقابة. وعلاوة على ذلك، كان الزواحف أن تفعل كل هذا جمع البيانات مع التهرب من الكشف خشية أن مواقع التواصل الاجتماعي لمنع الوصول أو تغيير سياساتها ردا على الدراسة.
وبمجرد الانتهاء من هذا العمل الهندسي واسعة النطاق، وكان الملك والزملاء التي تم الحصول عليها عن 11 مليون وظيفة على 85 الموضوعات المختلفة التي كانت تقوم على المستوى المتوقع من الحساسية المحدد مسبقا. على سبيل المثال، وهو موضوع من حساسية عالية هو آي ويوي، الفنان المنشق. موضوع الحساسية المتوسطة هو التقدير وانخفاض قيمة العملة الصينية، وموضوع من حساسية منخفضة هو كأس العالم. من هذه الوظائف 11 مليون 2 مليون قد تخضع للرقابة، ولكن خضعت للرقابة المشاركات حول مواضيع حساسة للغاية فقط قليلا أكثر في كثير من الأحيان من المشاركات على المواضيع حساسية المتوسطة والمنخفضة. وبعبارة أخرى، هي حول احتمال لفرض رقابة على وظيفة أن يذكر آي ويوي كموقع أن يذكر كأس العالم الرقابة الصينية. فإن هذه النتائج لا تتطابق مع فكرة تبسيطية أن الحكومة رقابة مشددة جميع المشاركات في المواضيع الحساسة.
هذا حسابية بسيطة من معدل الرقابة من قبل الموضوع يمكن أن يكون مضللا، ولكن. على سبيل المثال، فإن الحكومة قد فرض رقابة المشاركات التي تؤازر آي ويوي، ولكن ترك المشاركات التي تنتقد له. من أجل التمييز بين الوظائف بعناية أكبر، يحتاج الباحثون لقياس مشاعر كل وظيفة. وهكذا، طريقة واحدة للتفكير في الامر هو أن شعور كل وظيفة في سمة كامنة مهمة كل وظيفة. للأسف، على الرغم من الكثير من العمل، وأساليب مؤتمتة بالكامل للكشف عن المشاعر باستخدام القواميس الموجودة مسبقا لا تزال غير جيدة للغاية في كثير من الحالات (بذاكرتي لمشاكل تهيئة جدول زمني العاطفي من 11 سبتمبر 2001 من القسم 2.3.2.6). ولذلك، يحتاج الملك وزملاؤه طريقة لتصنيف من 11 مليون المشاركات وسائل الاعلام الاجتماعية حول ما إذا كانوا 1) حاسم للدولة، 2) داعمة للدولة، أو 3) تقارير غير ذات صلة أو واقعية عن الأحداث. هذا يبدو وكأنه مهمة ضخمة، لكنها حلها باستخدام خدعة قوية. واحد الذي هو شائع في العلوم البيانات ولكن في الوقت الراهن نادرة نسبيا في العلوم الاجتماعية.
أولا، في خطوة عادة ما يسمى بمرحلة ما قبل المعالجة، والباحثين تحويل وظائف وسائل الاعلام الاجتماعية في مصفوفة وثيقة الأجل، حيث كان هناك صف واحد عن كل وثيقة وعمود واحد التي سجلت ما إذا كانت مشاركة تحتوي على كلمة معينة (على سبيل المثال، الاحتجاج، حركة المرور، وما إلى ذلك). المقبل، مجموعة من الباحثين المساعدين اليد صفت المشاعر لعينة من آخر. ثم استخدم الملك وزملاؤه هذه البيانات المسمى اليد لتقدير نموذج تعلم الآلة التي يمكن أن نستنتج المشاعر وظيفة على أساس خصائصها. وأخيرا، فإنها تستخدم هذا النموذج تعلم آلة لتقدير مشاعر عن المشاركات 11 مليون. وهكذا، بدلا من قراءة ووضع العلامات 11 مليون المشاركات (التي سيكون من المستحيل لوجستيا) يدويا، فإنها وصفت يدويا عدد قليل من الوظائف وتستخدم بعد ذلك ما هي البيانات العلماء سيدعو التعليم تحت اشراف لتقدير فئات من جميع الوظائف. بعد الانتهاء من هذا التحليل، كان الملك وزملاؤه قادرة على استنتاج أن ما يدعو للاستغراب، واحتمال وظيفة يتم حذف كان لا علاقة لها سواء كان من الأهمية بمكان للدولة أو داعما للدولة.
في النهاية، اكتشف الملك وزملاؤه أن ثلاثة أنواع فقط من المشاركات ورقابة بانتظام: مواد إباحية أو انتقادات من الرقابة، وتلك التي لديها إمكانات العمل الجماعي (أي إمكانية مما أدى إلى احتجاجات واسعة النطاق). من خلال مراقبة عدد كبير من المشاركات التي تم حذفها والوظائف التي لم يتم حذف، كان الملك وزملاؤه قادرة على تعلم كيفية عمل الرقابة فقط من خلال مشاهدة والفرز. في بحث لاحق، فإنها في الواقع تدخل مباشرة في النظام البيئي وسائل الإعلام الاجتماعي الصيني من خلال خلق المشاركات مع محتوى مختلف بشكل منهجي والقياس التي تحصل للرقابة (King, Pan, and Roberts 2014) . سوف نتعلم المزيد عن النهج التجريبية في الفصل 4. وعلاوة على ذلك، ينذر الموضوع الذي سوف يحدث في جميع أنحاء الكتاب، هذه السمة الكامنة الاستدلال المشاكل التي يمكن في بعض الأحيان أن تحل فيما أشرفت التعلم تتحول إلى أن تكون شائعة جدا في البحوث الاجتماعية في العمر الرقمي. سترى الصور تشبه الى حد بعيد الشكل 2.3 في الفصلين 3 (طرح الأسئلة) و 5 (خلق تعاون الشامل)؛ وهي واحدة من عدد قليل من الأفكار التي تظهر في فصول متعددة.
كل ثلاثة من هذه الأمثلة في سلوك العمل من سائقي سيارات الأجرة في نيويورك، تشكيل الصداقة من قبل الطلاب، وسائل الاعلام الاجتماعية السلوك الرقابة الصينية تظهر الحكومة أن العد بسيط نسبيا من البيانات الرصدية أن تمكن الباحثون لاختبار التنبؤات النظرية. في بعض الحالات، يمكن البيانات الكبيرة لك أن تفعل هذا الفرز مباشرة نسبيا (كما في حالة نيويورك سيارات الأجرة). في حالات أخرى، سوف يحتاج الباحثون إلى جمع بيانات الرصد الخاصة بها (كما في حالة الرقابة الصينية)؛ التعامل مع النقص عن طريق دمج البيانات معا (كما في حالة تطور الشبكة)؛ أو أداء بعض شكل من أشكال الاستدلال الكامنة-سمة (كما في حالة الرقابة الصينية). كما آمل تظهر هذه الأمثلة، للباحثين قادرين على طرح الأسئلة المثيرة للاهتمام، كبيرة تبشر بالخير العميم.