محققان خراشیده سایت های رسانه های اجتماعی چینی به مطالعه سانسور. آنها با ناتمامیت با استنتاج نهفته صفت پرداخته است.
علاوه بر داده های بزرگ مورد استفاده در دو نمونه قبلی، محققان همچنین می توانید داده های مشاهده ای خود را جمع آوری، به عنوان زیبا و گری کینگ، جنیفر پان، و مالی رابرتز نشان داده شد (2013) پژوهش در سانسور از سوی دولت چین است.
پست های رسانه های اجتماعی در چین توسط یک دستگاه دولتی عظیم است که تصور می شامل ده ها هزار نفر از مردم را سانسور کرد. محققان و شهروندان، با این حال، حس کمی از این که چگونه این سانسور تصمیم بگیرید که چه محتوای باید از رسانه های اجتماعی حذف شده است. دانشمندان چین در واقع انتظارات و نقیضی در مورد که انواع پست به احتمال زیاد به حذف کنید. برخی فکر می کنم که سانسور در پست که از دولت انتقاد می کنند در حالی که دیگران فکر می کنم آنها در پست های که تشویق رفتار جمعی، مانند تظاهرات تمرکز تمرکز می کنند. بدانند که از این انتظارات درست است دارد برای اینکه چطور محققان درک چین و دیگر دولت های خودکامه که در سانسور کنند. بنابراین، پادشاه و همکارانش می خواستم برای مقایسه پست که منتشر شد و پس از آن پاک به پست های که منتشر شد و هرگز حذف شده است.
جمع آوری این پست درگیر شاهکار مهندسی شگفت انگیز از خزنده بیش از 1000 وب سایت های هر رسانه های اجتماعی چینی با صفحه های مختلف طرح بندی یاب پست مربوطه، و پس از آن دوباره این پست را به دیدن که پس از آن حذف شده است. علاوه بر مشکلات مهندسی عادی مرتبط با مقیاس بزرگ وب خزنده، این پروژه چالش های اضافه شده که در آن مورد نیاز می شود بسیار سریع به دلیل بسیاری از پست سانسور در کمتر از 24 ساعت گرفته شده بود. به عبارت دیگر، یک خزنده آرام را بسیاری از پست ها که سانسور شد را از دست ندهید. علاوه بر این، خزنده حال برای انجام تمام این جمع آوری داده ها در حالی که فرار تشخیص مبادا وب سایت های رسانه های اجتماعی جلوگیری از دسترسی و یا در غیر این صورت تغییر سیاست های خود در پاسخ به مطالعه است.
هنگامی که این کار مهندسی عظیم به پایان رسید، پادشاه و همکارانش حدود 11 میلیون پست در 85 موضوع مختلف که از پیش تعیین شده بر اساس سطح انتظار خود را از حساسیت بودند به دست آمده بود. به عنوان مثال، یک موضوع از حساسیت بالا آی ویوی، هنرمند ناراضی است. یک موضوع از حساسیت متوسط قدردانی و کاهش ارزش پول چینی است، و به یک موضوع از حساسیت کم در جام جهانی است. از این 11 میلیون پست حدود 2 میلیون سانسور شده بود، اما پست در مورد موضوعات بسیار حساس تنها کمی بیشتر از پست در مورد موضوعات حساسیت متوسط و پایین سانسور شده است. به عبارت دیگر، سانسور چینی ها در مورد به احتمال زیاد به سانسور یک پست که اشاره آی ویوی به عنوان یک پست که اشاره به جام جهانی است. این یافته ها این ایده را ساده که دولت سانسور همه پست موضوعات حساس مطابقت ندارد.
این محاسبه ساده از نرخ سانسور موضوع می تواند گمراه کننده، با این حال. به عنوان مثال، دولت ممکن است پست که حامی آی ویوی، اما پست که از او انتقاد می کنند ترک را سانسور کنند. به منظور تمایز بین پست با دقت بیشتری، محققان نیاز به اندازه گیری احساسات هر پست. بنابراین، یک راه در مورد آن فکر می کنم این است که احساسات هر پست در یک ویژگی مهم نهفته هر پست. متاسفانه، با وجود کارهای زیادی، روش به طور کامل خودکار تشخیص احساسات با استفاده از لغت نامه موجود از قبل هنوز هم در بسیاری از موارد خیلی خوب نیست (فکر می کنم به مشکلات ایجاد یک جدول زمانی عاطفی 11 سپتامبر سال 2001 از بخش 2.3.2.6). بنابراین، شاه و همکاران نیاز به یک راه به برچسب 11 میلیون پست رسانه های اجتماعی خود به اینکه آیا آنها 1 از دولت انتقاد کردند)، 2) حمایت از دولت، و یا 3) گزارش بی ربط و یا واقعی در مورد حوادث. این صداها مثل یک کار بزرگ است، اما آنها آن را حل با استفاده از یک ترفند قدرتمند. یکی این است که در علم داده های مشترک اما در حال حاضر نسبتا در علوم اجتماعی نادر است.
اول، در یک گام معمولا به نام قبل از پردازش، محققان پست رسانه های اجتماعی را به یک ماتریس سند مدت، که در آن یک ردیف برای هر سند و یک ستون که با هرچه که پست شامل یک کلمه خاص وجود دارد تبدیل (به عنوان مثال، اعتراض، ترافیک، و غیره). بعد، یک گروه از دستیاران پژوهشی دست برچسب احساسات یک نمونه از پست. سپس، شاه و همکارانش با استفاده از این داده ها دست نشاندار شده با برآورد یک مدل یادگیری ماشین است که می تواند احساس یک پست بر اساس ویژگی های آن پی ببرند. در نهایت، آنها این مدل یادگیری ماشین برای تخمین احساسات همه پست 11 میلیون. بنابراین، به جای دستی خواندن و برچسب زدن 11 میلیون ارسال ها (که می تواند لجستیکی غیر ممکن است)، آنها را به صورت دستی با برچسب تعداد کمی از پست و سپس مورد استفاده چه داده دانشمندان یادگیری نظارت پاسخ به برآورد دسته از تمام پست. پس از تکمیل این تجزیه و تحلیل، پادشاه و همکارانش قادر به نتیجه گیری کرد که بود، تا حدودی شگفت آور، احتمال یک پست حذف شدن ربطی به آن است که آیا از وضعیت وخیم و یا حمایت از دولت بود.
در پایان، پادشاه و همکارانش کشف کردند که تنها سه نوع پست به طور منظم سانسور شدند: پورنوگرافی، انتقاد از سانسور، و کسانی که تا به حال پتانسیل عمل جمعی (به عنوان مثال، امکان منجر به تظاهرات گسترده). با مشاهده تعداد زیادی از پست ها که حذف شده و پست شد که حذف نمی شد، پادشاه و همکارانش توانستند یاد بگیرند که چگونه سانسور فقط با تماشای و شمارش کار بودند. در تحقیقات بعدی، آنها در واقع به طور مستقیم به اکوسیستم های اجتماعی چین با ایجاد پست با محتوا و اندازه گیری سیستماتیک مختلف که سانسور مداخله (King, Pan, and Roberts 2014) . ما بیشتر در مورد روش های تجربی در فصل 4. بیشتر یاد بگیرند، پیش، خبر از یک موضوع است که در سراسر کتاب رخ می دهد، این مشکلات که استنتاج نهفته ویژگی می تواند گاهی اوقات با حل شود تحت نظارت یادگیری تبدیل به در تحقیقات اجتماعی در بسیار رایج عصر دیجیتال. شما خواهید دید تصاویر بسیار شبیه به شکل 2.3 در فصل 3 (پرسش سوالات) و 5 (ایجاد همکاری جمعی). آن را یکی از چند ایده که در فصل های متعدد به نظر می رسد است.
هر سه این نمونه-رفتار کار از رانندگان تاکسی در نیویورک، تشکیل دوستی توسط دانش آموزان، و رسانه های اجتماعی رفتار سانسور دولت چین نشان می دهد که شمارش نسبتا ساده از داده های مشاهده ای می توانید محققان را قادر به تست پیش بینی های نظری. در برخی از موارد، داده های بزرگ را قادر به انجام این شمارش نسبتا به طور مستقیم (به عنوان در مورد نیویورک تاکسی). در موارد دیگر، محققان نیاز به جمع آوری داده های مشاهده ای خود را (به عنوان در مورد سانسور اینترنت در چین). مقابله با ناتمامیت با ادغام داده ها با هم (همانطور که در مورد تکامل شبکه). و یا انجام نوعی از استنتاج نهفته صفت (به عنوان در مورد سانسور اینترنت در چین). به عنوان من امیدوارم که این مثال نشان می دهد، برای محققان که قادر به سؤال جالب بپرسید، بزرگ نوید.