2.4.1.3 צנזורה של מדיה חברתית על ידי הממשלה הסינית

חוקרים מגורדים אתרי מדיה חברתית סיניים ללמוד צנזורה. הם עסקו חוסר שלמות בהיקש סמוי תכונה.

בנוסף לנתונים גדול להשתמש בשתי הדוגמאות הקודמות, החוקרים יכולים גם לאסוף נתונים תצפיתיים משלהם, כפי שהומחש בצורה נפלאה על ידי גארי קינג, ג'ניפר פאן, ומולי רוברטס ' (2013) מחקר על צנזורה על ידי הממשלה הסינית.

הודעות מדיה חברתיות בסין מצונזרות על ידי מנגנון מדינה עצום כי הוא חשב לכלול עשרות אלף אנשים. חוקרים ואזרחים, לעומת זאת, יש מעט תחושה של איך צנזורה אלה להחליט איזה תוכן צריך להימחק מן המדיה החברתית. חוקרי סין למעשה יש ציפיות סותרות לגבי אילו סוגים של הודעות הם הסיכוי הטוב ביותר לקבל נמחק. יש הסבורים כי הצנזורה להתמקד הודעות שאינן קריטיות של המדינה, בעוד שאחרים חושבים שהם מתמקדים הודעות המעודדים התנהגות קולקטיבית, כמו מחאות. להבין אילו ציפיות אלה נכונות יש השלכות לגבי אופן שבו חוקרים מבינים סין וממשלות סמכותיות אחרות המפעילות צנזורה. לכן, המלך ועמיתיו רצו להשוות הודעות שפורסמו, ולאחר מכן נמחקו להודעות שפורסמו ולעולם נמחקו.

איסוף הודעות אלה מעורבים במבצע ההנדסי המדהים של זחילה יותר מ -1,000 אתרים-כל מדיה החברתית סיניים עם דף אחרים פריסות-מציאת הודעות רלוונטיות, ולאחר מכן בחינה מחדש הודעות אלה כדי לראות אילו מכן נמחקו. בנוסף לבעיות הנדסיות הנורמליות הקשורים-זחילת אינטרנט בקנה מידה גדולה, הפרויקט הזה היה האתגר הוסיף כי זה היה צריך להיות מהר מאוד כי הודעות צנזורה רבות נלקחות למטה בתוך פחות מ -24 שעות. במילים אחרות, הסורק איטי יחמיץ המון הודעות כי צונזרו. יתר על כן, הסורקים נאלצו לעשות את כל אוסף נתונים אלה תוך התחמקות זיהוי פן אתרי מדיה החברתית לחסום את הגישה או אחר לשנות את מדיניותן בתגובת המחקר.

לאחר המשימה ההנדסי האדיר הזה הושלם, המלך ועמיתיו השיג כ -11 מיליון הודעות על 85 נושאים שונים שהיו שהוגדרו מראש על בסיס רמת הרגישות הצפויה שלהם. לדוגמה, נושא של רגישות גבוהה הוא איי וייוויי, האמן הפורשים; נושא הרגישות באמצע הוא הערכת פיחות של המטבע הסיני, ונושא הרגישות נמוכה הוא המונדיאל. מכלל הודעות 11 מיליון אלה כ -2 מיליון צונזרו, אבל הודעות על נושאים רגישים מאוד צונזרו רק מעט בתדירות גבוהה יותר מאשר הודעות בנושאים רגישות בינוניים ונמוכים. במילים אחרות, הצנזורים הסינים עומדים כפי הנראה לצנזר פוסט זה מזכיר איי וייוויי כפוסט זה מזכיר את המונדיאל. ממצאים אלה לא תאמו את הרעיון הפשטני שהממשלה מצנזרת את כל ההודעות שנכתבה על נושאים רגישים.

חישוב פשוט זה של שיעור צנזורה לפי נושאים יכול להיות מטעה, עם זאת. לדוגמה, הממשלה עשויה לצנזר הודעות התומכות איי וייוויי, אך להשאיר הודעות שאינן קריטיות ממנו. על מנת להבחין בין הודעות יותר בזהירות, החוקרים צריכים למדוד את הסנטימנט של כל הודעה. לכן, דרך אחת לחשוב על זה היא כי הסנטימנט של כל רשומת תכונה סמויה חשובה של כל הודעה. למרבה הצער, למרות עבודה הרבה, שיטות אוטומטיות לחלוטין של זיהוי הרגש באמצעות מילונים קיימים עדיין לא טובות מאוד במצבים רבים (להיזכר בעיות יצירת ציר זמן רגשי של ה -11 בספטמבר, 2001 הסעיף 2.3.2.6). לכן, המלך ועמיתיו צורך דרך לתייג 11 מ'הודעות מדיה החברתיות שלהם, האם הם היו 1) מתח ביקורת על המדינה, 2) תומכים של המדינה, או 3) דוחות רלוונטיים או עובדתי על האירועים. זה נשמע כמו עבודה מסיבית, אבל הם פתרו את זה באמצעות טריק חזק; אחד כי הוא נפוץ המדע נתונים אך כיום נדיר יחסית במדעי החברה.

ראשית, צעד נקרא בדרך כלל עיבוד מראש, החוקרים להמיר את הודעות מדיה החברתית לתוך מטריצה ​​לטווח מסמך, שם הייתה שורה אחת עבור כל מסמך ועמודה אחת לזאת שנרשמה אם הפוסט הכיל מילה מסוימת (למשל, מחאה, תנועה, וכו '). לאחר מכן, קבוצה של עוזרי מחקר יד שכותרתו הסנטימנט של מדגם של פוסט. לאחר מכן, המלך ועמיתיו השתמשו בנתונים אלה שכותרתו יד להעריך מודל למידה מכונה יכל לנחש את הסנטימנט של פוסט המבוסס על מאפייניה. לבסוף, הם השתמשו במודל למידת מכונה זה להעריך את הסנטימנט של כל 11 מיליון הודעות. כך, במקום לקרוא באופן ידני וסימון 11 מיליון הודעות (אשר יהיה בלתי אפשרי מבחינה לוגיסטית), הם שכותרתו ידני מספר קטן של הודעות ולאחר מכן השתמשו אילו נתונים מדענים יקרא למידה בפיקוח להעריך את הקטגוריות של כל ההודעות. לאחר השלמת הניתוח הזה, המלך ועמיתיו הצליחו להגיע למסקנה כי, באופן מפתיע משהו, ההסתברות של פוסט שנמחק היה שאינם נוגעים לשאלה אם זה היה קריטי של המדינה או תומכת של המדינה.

איור 2.3: סכמטית פשוטה עבור ההליך משמש המלך, פאן, ורוברטס (2013) כדי לאמוד את הסנטימנט של 11 מיליון הודעות מדיה חברתית סינית. ראשית, צעד נקרא בדרך כלל עיבוד מראש, החוקרים להמיר את הודעות מדיה החברתיות לתוך מטריצה ​​לטווח מסמך (ראה קודר וסטיוארט (2013) לקבלת מידע נוסף). שנית, החוקרים בכף היד בקידוד הסנטימנט של מדגם קטן של הודעות. שלישית, החוקרים אימנו מודל למידה בפיקוח לסווג את הסנטימנט של הודעות. רביעית, החוקרים השתמשו במודל למידה בפיקוח לאמוד את הסנטימנט של כל ההודעות. ראה מלך, פאן, ורוברטס (2013), נספח ב 'תיאור מפורט יותר.

איור 2.3: סכמטית פשוטה עבור ההליך משמש King, Pan, and Roberts (2013) כדי לאמוד את הסנטימנט של 11 מיליון הודעות מדיה חברתית סינית. ראשית, צעד נקרא בדרך כלל עיבוד מראש, החוקרים להמיר את הודעות מדיה החברתיות לתוך מטריצה ​​לטווח מסמך (ראה Grimmer and Stewart (2013) לקבלת מידע נוסף). שנית, החוקרים בכף היד בקידוד הסנטימנט של מדגם קטן של הודעות. שלישית, החוקרים אימנו מודל למידה בפיקוח לסווג את הסנטימנט של הודעות. רביעית, החוקרים השתמשו במודל למידה בפיקוח לאמוד את הסנטימנט של כל ההודעות. ראה King, Pan, and Roberts (2013) , נספח ב 'תיאור מפורט יותר.

בסופו של הדבר, המלך ועמיתיו גילו כי רק שלושה סוגים של הודעות צונזרו קבועים: פורנוגרפיה, ביקורת על צנזורה, ואלה היו פוטנציאל פעולה קולקטיבי (כלומר, את האפשרות של מוביל מחאות בקנה מידה גדולה). על ידי התבוננות מספר עצום של הודעות שנמחקו ופרסומים אשר לא נמחקו, המלך ועמיתיו הצליחו ללמוד כיצד עובדת הצנזורה רק על ידי צפייה ועוד היד נטויה. במחקר שלאחר מכן, הם בעצם התערבו ישירות לתוך המערכת האקולוגית מדיה החברתית הסינית על ידי יצירת הודעות עם תוכן שונה באופן שיטתי מדידה אשר מקבל מצונזר (King, Pan, and Roberts 2014) . נלמד עוד על גישות ניסיוניות בפרק .4 בהמשך, משלמים מקדמה על נושא שיתרחשו לאורך כל הספר, בעיות אשר היקש סמויה תכונה הללו אפשר לפתור לפעמים עם למידה-להפוך בפיקוח החוצה להיות מאוד נפוץ למחקר חברתי עידן דיגיטלי. תוכלו לראות תמונות מאוד דומה לאיור 2.3 בפרקים 3 (שאילת שאלות) ו -5 (יצירת שיתוף פעולה המוני); זה אחד הבודדים רעיונות המופיע בפרקים מרובים.

כל שלושת דוגמאות-the אלה התנהגות העבודה של נהגי המוניות בניו יורק, היווצרות ידידות על ידי סטודנטים, והתנהגות צנזורה מדיה חברתית של הממשלה להראות הסינית כי ספירה פשוטה יחסית של נתונים תצפיתיים יכול לאפשר לחוקרים לבדוק תחזיות תיאורטיות. במקרים מסוימים, נתונים גדולים מאפשרים לך לעשות ספירה זה יחסית ישירות (כמו במקרה של מוניות ניו יורק). במקרים אחרים, החוקרים יצטרכו לאסוף נתונים תצפיתיים משלהם (כמו במקרה של הצנזורה הסינית); להתמודד עם חוסר שלמות על זיווג של קובצי יחד (כמו במקרה של התפתחות רשת); או ביצוע צורה כלשהי של היקש סמויה תכונה (כמו במקרה של הצנזורה הסינית). כפי שאני מקווה דוגמאות אלה מראות, לחוקרים מסוגלים לשאול שאלות מעניינות, גדול טומנת בחובו הבטחה גדולה.