רעסעאַרטשערס סקרייפּט כינעזיש געזעלשאַפטלעך מידיאַ זייטלעך צו לערנען צענזור. זיי דעלט מיט ינקאָמפּלעטענעסס מיט לייטאַנט-טרייט ינפערענסע.
אין דערצו צו די גרויס דאַטן געניצט אין דעם צוויי פרייַערדיק יגזאַמפּאַלז, ריסערטשערז קענען אויך קלייַבן זייער אייגן אָבסערוואַטיאָנאַל דאַטע, ווי איז געווען וואָנדערפוללי ילאַסטרייטיד דורך גערי מלך, Jennifer פּאַן, און מאַלי ראָבערץ ' (2013) פאָרשונג אויף צענזור דורך די כינעזיש רעגירונג.
סאציאל מידיאַ הודעות אין טשיינאַ זענען סענסערד דורך אַ ריזיק שטאַט אַפּאַראַט אַז איז געדאַנק צו אַרייַננעמען טענס פון טויזנטער פון מענטשן. רעסעאַרטשערס און בירגערס, אָבער, האָבן ביסל זינען פון ווי די צענזארן באַשליסן וואָס צופרידן זאָל זיין אויסגעמעקט פון דעם געזעלשאַפטלעך מידיאַ. געלערנטע פון טשיינאַ אַקטשאַוואַלי האָבן קאָנפליקטינג עקספּעקטיישאַנז וועגן וואָס מינים פון הודעות זענען רובֿ מסתּמא צו באַקומען אויסגעמעקט. עטלעכע טראַכטן אַז צענזארן פאָקוס אויף הודעות וואס זענען קריטיש פון די שטאַט בשעת אנדערע טראַכטן זיי פאָקוס אויף הודעות אַז מוטיקן קאָלעקטיוו אָפּפירונג, אַזאַ ווי פּראַטעס. אויסרעכענען אויס וואָס פון די עקספּעקטיישאַנז איז ריכטיק האט ימפּלאַקיישאַנז פֿאַר ווי ריסערטשערז פֿאַרשטיין טשיינאַ און אנדערע אַטאָראַטעריאַן גאַווערמאַנץ אַז דינגען אין צענזור. דעריבער, מלך און חברים געוואלט צו פאַרגלייַכן הודעות וואָס זענען ארויס און דערנאָך אויסגעמעקט צו הודעות וואָס זענען ארויס און קיינמאָל אויסגעמעקט.
זאַמלען די הודעות ינוואַלווד די אַמייזינג ינזשעניעריע feat פון קראָלינג מער ווי 1,000 כינעזיש געזעלשאַפטלעך מידיאַ וועבסיטעס-יעדער מיט פאַרשידענע בלאַט לייאַוץ-דערגייונג באַטייַטיק הודעות, און דעמאָלט רעוויסיטינג די הודעות צו זען וואָס זענען דערנאָך אויסגעמעקט. אין דערצו צו דער נאָרמאַל ינזשעניעריע פּראָבלעמס פֿאַרבונדן מיט גרויס וואָג וועב-קראָלינג, דעם פּרויעקט האט די צוגעגעבן אַרויסרופן אַז עס דארף צו זיין גאָר שנעל ווייַל פילע סענסערד הודעות זענען גענומען אַראָפּ אין ווייניקער ווי 24 שעה. אין אנדערע ווערטער, אַ פּאַמעלעך קריכער וואָלט פאַרפירן גורל פון הודעות וואָס זענען סענסערד. ווייטער, די קראַוולערס האט צו טאָן אַלע דעם דאַטן זאַמלונג בשעת יוויידינג דיטעקשאַן כדי די געזעלשאַפטלעך מידיאַ וועבסיטעס בלאָק צוטריט אָדער אַנדערש טוישן זייער פּאַלאַסיז אין ענטפער צו דעם לערנען.
אַמאָל דעם מאַסיוו ינזשעניעריע אַרבעט איז געווען געענדיקט, מלך און חברים האט באקומען וועגן 11 מיליאָן הודעות אויף 85 פאַרשידענע טעמעס וואָס זענען PRE-ספּעסיפיעד באזירט אויף זייער געריכט מדרגה פון סענסיטיוויטי. לעמאָשל, אַ טעמע פון הויך סענסיטיוויטי איז אַי וועיוועי, די דיססידענט קינסטלער; אַ טעמע פון מיטל סענסיטיוויטי איז אַפּרישייישאַן און דיוואַליויישאַן פון די כינעזישע קראַנטקייַט, און אַ טעמע פון נידעריק סענסיטיוויטי איז די וועלט קאַפּ. פון די 11 מיליאָן הודעות וועגן 2,000,000 האט שוין סענסערד, אָבער הודעות אויף העכסט שפּירעוודיק סוגיות זענען סענסערד בלויז אַ ביסל מער אָפֿט ווי הודעות אויף מיטל און נידעריק סענסיטיוויטי טעמעס. אין אנדערע ווערטער, כינעזיש צענזארן זענען וועגן ווי מסתּמא צו צענזאר אַ פּאָסטן אַז דערמאנט אַי וועיוועי ווי אַ פּאָסטן אַז דערמאנט די וועלט קאַפּ. די פינדינגס האט נישט גלייַכן די סימפּליסטיק געדאַנק אַז די רעגירונג צענזארן אַלע הודעות אויף שפּירעוודיק סוגיות.
דעם פּשוט כעזשבן פון צענזור קורס דורך טעמע קען זיין מיסלידינג, אָבער. לעמאָשל, די רעגירונג זאל צענזאר הודעות וואָס זענען סאַפּאָרטיוו פון אַי וועיוועי, אָבער לאָזן הודעות וואָס זענען קריטיש פון אים. אין סדר צו ויסטיילן צווישן הודעות מער Carefully, די ריסערטשערז דאַרפֿן צו מעסטן די סענטימענט פון יעדער פּאָסטן. אזוי, איין וועג צו טראַכטן וועגן עס איז אַז די סענטימענט פון יעדער פּאָסטן אין אַ וויכטיק לייטאַנט שטריך פון יעדער פּאָסטן. צום באַדויערן, טראָץ פיל אַרבעט, גאָר אָטאַמייטיד מעטהאָדס פון סענטימענט דיטעקשאַן ניצן PRE-יגזיסטינג דיקשאַנעריז זענען נאָך נישט זייער גוט אין פילע סיטואַטיאָנס (טראַכטן צוריק צו די פּראָבלעמס קריייטינג אַן עמאָציאָנעל טיימליין פון סעפטעמבער 11, 2001 פון סעקשאַן 2.3.2.6). דעריבער, מלך און חברים דארף אַ וועג צו פירמע זייער 11 מיליאָן געזעלשאַפטלעך מידיאַ הודעות ווי צו צי זיי זענען 1) קריטיש פון די שטאַט, 2) סאַפּאָרטיוו פון די שטאַט, אָדער 3) ירעלאַוואַנט אָדער פאַקטואַל מעלדעט וועגן די געשעענישן. דעם סאָונדס ווי אַ מאַסיוו אַרבעט, אָבער זיי סאַלווד עס ניצן אַ שטאַרק קונץ; איינער וואָס איז פּראָסט אין דאַטן וויסנשאַפֿט אָבער איצט לעפיערעך זעלטן אין געזעלשאַפטלעך וויסנשאַפֿט.
ערשטער, אין אַ שריט טיפּיקלי גערופֿן פֿאַר פּראַסעסינג, די ריסערטשערז קאָנווערטעד די געזעלשאַפטלעך מידיאַ הודעות זיך אַ דאָקומענט-טערמין מאַטריץ, ווו עס איז געווען איין רודערן פֿאַר יעדער דאָקומענט און איין זייַל אַז רעקאָרדעד צי די פּאָסטן קאַנטיינד אַ ספּעציפיש וואָרט (למשל, פּראָטעסט, פאַרקער, אאז"וו). ווייַטער, אַ גרופּע פון פאָרשונג אַסיסטאַנץ האַנט-לייבאַלד די סענטימענט פון אַ מוסטער פון פּאָסטן. דעמאָלט, מלך און חברים געניצט דעם האַנט-לייבאַלד דאַטן צו אָפּשאַצן אַ מאַשין וויסן מאָדעל וואָס קען אָפּלערנען די סענטימענט פון אַ פּאָסטן באזירט אויף זייַן טשאַראַקטעריסטיקס. צום סוף, זיי געניצט דעם מאַשין וויסן מאָדעל צו אָפּשאַצן די סענטימענט פון אַלע 11 מיליאָן הודעות. אזוי, אלא ווי מאַניואַלי לייענען און לייבלינג 11 מיליאָן הודעות (וואָס וואָלט זייַן לאָגיסטיקאַללי אוממעגלעך), זיי מאַניואַלי לייבאַלד אַ קליין נומער פון הודעות און דעמאָלט געניצט וואָס דאַטן סייאַנטיס וואָלט רופן סופּערווייזד וויסן צו אָפּשאַצן די קאַטעגאָריעס פון אַלע די הודעות. נאָך קאַמפּליטינג דעם אַנאַליסיס, מלך און חברים זענען ביכולת צו פאַרענדיקן אַז, עפּעס סאַפּרייזינגלי, די מאַשמאָעס פון אַ פּאָסטן ווייל אויסגעמעקט איז געווען אַנרילייטיד צו צי עס איז געווען קריטיש פון די שטאַט אָדער סאַפּאָרטיוו פון דער שטאַט.
אין די סוף, מלך און חברים דיסקאַווערד אַז בלויז דרייַ טייפּס פון הודעות זענען קעסיידער סענסערד: פּאָרנאָגראַפי, קריטיק פון צענזארן, און יענע וואס האט קאָלעקטיוו קאַמף פּאָטענציעל (ד"ה, די מעגלעכקייט פון לידינג צו גרויס-וואָג פּראַטעס). דורך אַבזערווינג אַ ריזיק נומער פון הודעות וואָס זענען אויסגעמעקט און הודעות וואס זענען ניט אויסגעמעקט, מלך און חברים זענען ביכולת צו לערנען ווי די צענזארן אַרבעט נאָר דורך וואַטשינג און קאַונטינג. אין סאַבסאַקוואַנט פאָרשונג, זיי אַקטשאַוואַלי גלייַך ינערווינד אין די כינעזיש געזעלשאַפטלעך מידיאַ יקאָוסיסטאַם דורך קריייטינג הודעות מיט סיסטאַמאַטיקלי פאַרשידענע צופרידן און מעסטן וואָס באַקומען סענסערד (King, Pan, and Roberts 2014) . מיר וועלן לערנען מער וועגן יקספּערמענאַל אַפּראָוטשיז אין פּרק 4. ווייטער, פאָרעשאַדאָווינג אַ טעמע וואָס וועט פּאַסירן איבער די בוך, די לייטאַנט-אַטריביוט ינפערענסע פּראָבלעמס-וואָס קענען מאל זייַן סאַלווד מיט סופּערווייזד וויסן-קער אויס צו זיין זייער פּראָסט אין געזעלשאַפטלעך פאָרשונג אין די דיגיטאַל עלטער. איר וועט זען בילדער זייער ענלעך צו רעכענען 2.3 אין טשאַפּטערס 3 (אַסקינג שאלות) און 5 (קרעאַטינג מאַסע מיטאַרבעט); עס איז איינער פון די ביסל געדאנקען אַז אויס אין קייפל טשאַפּטערז.
כל דרייַ פון די יגזאַמפּאַלז-די אַרבעט אָפּפירונג פון טאַקסי דריווערס אין ניו יארק, פרייַנדשאַפט פאָרמירונג דורך סטודענטן, און געזעלשאַפטלעך מידיאַ צענזור אָפּפירונג פון די כינעזיש רעגירונג-ווייַזן אַז לעפיערעך פּשוט קאַונטינג פון אָבסערוואַטיאָנאַל דאַטע קענען געבן ריסערטשערז צו פּרובירן טעאָרעטיש פֿאָרויסזאָגן. אין עטלעכע קאַסעס, גרויס דאַטן ענייבאַלז איר צו טאָן דעם קאַונטינג לעפיערעך גלייַך (ווי אין דעם פאַל פון ניו יארק טאַקסיס). אין אנדערע קאַסעס, ריסערטשערז וועט דאַרפֿן צו זאַמלען זייער אייגן אָבסערוואַטיאָנאַל דאַטע (ווי אין דעם פאַל פון כינעזיש צענזור); האַנדלען מיט ינקאָמפּלעטענעסס דורך מערדזשינג דאַטן צוזאַמען (ווי אין דעם פאַל פון נעץ עוואָלוציע); אָדער Performing עטלעכע פאָרעם פון לייטאַנט-טרייט ינפערענסע (ווי אין דעם פאַל פון כינעזיש צענזור). ווי איך האָפֿן די יגזאַמפּאַלז ווייַזן, פֿאַר ריסערטשערז וואס זענען ביכולת צו פרעגן טשיקאַווע שאלות, גרויס האלט גרויס צוזאָג.