2.4.1.3 Цензура друштвених медија од стране кинеске владе

Истраживачи сцрапед кинеске сајтовима друштвених медија да студирају цензуру. Они се бавила непотпун са латентни-особина закључивања.

Поред великих података који се користе у претходна два примера, истраживачи могу да прикупи своје осматрачких података, као што је изванредно илуструје Гари Кинг, Џенифер Пан, и Молли Робертс ' (2013) на цензуре од стране кинеске владе.

Социал медиа порука у Кини су цензурисане од стране огромног државног апарата који се сматра да укључи десетине хиљада људи. Истраживачи и грађани, међутим, има мало смисла како ови цензори одлучити шта садржај треба избрисати из друштвених медија. Научници у Кини заправо имају супротстављене очекивања о томе који ће највероватније да се брише врсте порука. Неки мисле да цензори се фокусирају на мјеста која су критични од државе, док други мисле да се фокусирају на поруке које охрабрују колективно понашање, као што протеста. Схватите који од ових очекивања тачна има импликације на који начин научници разумеју Кину и друге ауторитарне владе да укључе у цензуре. Стога, Кинг и колеге желели да упореди поруке које су објављене и затим избрисане на поруке које су објављене и никада избрисани.

Прикупљање ове поруке укључене невероватну инжењеринг подвиг пузећи више од 1.000 кинеских друштвених медија веб-сваки са различитим изгледи страница за проналажење одговарајуће поруке, а затим осврт ове поруке да се види који су накнадно избрисани. Поред уобичајених проблема инжењеринга у вези са великих размера веб пописивање, овај пројекат је имао додатну изазов који јој је било потребно да будемо веома брзо јер многи цензурисане поруке су узета је у мање од 24 сата. Другим речима, спор финишер би пропустили много мјеста која су цензурисани. Даље, гусеничари морао све ово прикупљање података, док избегава детекцију да не сајтови друштвених медија блокирају приступ или на други начин мењају своју политику као одговор на студије.

Када се ово масовна инжењеринг задатак извршен, Кинг и колеге добила око 11 милиона поруке на укупно 85 различите теме које су претходно наведено на основу њиховог очекиваног нивоа осетљивости. На пример, тема велике осетљивости Аи Веивеи је дисидент уметник; тема средњег осетљивости је уважавање и девалвација кинеске валуте, а тема ниске осетљивости је Светско првенство. Од ових 11 милиона порука око 2 милиона су цензурисани, али порука на веома осетљивим темама били цензурисани само нешто чешће него порука о темама средњим и ниским осетљивости. Другим речима, кинески цензори су око веће шансе да цензуришу поруку која помиње Аи веивеи као пост који помиње Светски куп. Ови налази не одговара поједностављену идеју да влада цензурише све поруке на осјетљивим темама.

Ова једноставна рачуница цензуре стопе од тема могла ипак бити варљив,. На пример, влада може цензурисати коментаре који су подржава Ај Вејвеја, али остављају поруке које су кључне за њега. У циљу пажљиво да направимо разлику између коментара, истраживачи треба да се измери осећање сваког пост. Тако, један од начина да размишљам о томе да расположењу сваког поста у важном латентне карактеристика сваког пост. На жалост, и поред много рада, потпуно аутоматизована методе откривања расположења користе већ постојеће речнике још увек није добро у многим ситуацијама (помислим на проблеме стварају емоционалну рок од 11. септембра 2001. године из тачке 2.3.2.6). Стога, Кинг и колеге потребан начин да етикетирају своје 11 милиона друштвеним медијима поруке о томе да ли су 1) критични државе, 2) подршку државе, или 3) небитне или чињеничних извештаја о догађајима. Ово звучи као масовног посао, али они то решити помоћу моћног трик; онај који је уобичајен у науци података, али тренутно релативно ретка у друштвеним наукама.

Прво, у фази типично под називом пред-обрада, истраживачи су претворени друштвеним медијима поруке у документу рок матрице, где је био један ред за сваки документ и једна колона која је забиљежила да ли је порука садржи одређену реч (нпр протеста, саобраћај, итд). Даље, група стручних сарадника ручно означили расположење узорка пост. Затим, Кинг и колеге користили ову руку-обележени податке за процену модел учења машина која може да закључи осјећај за пост на основу својих карактеристика. На крају, они су користили ову машину модел учења за процену осећања свих 11 милиона порука. Тако, уместо да ручно читање и обележавање 11 милиона порука (што би било логистички немогуће), они ручно означен мали број радних мјеста и онда користи које податке би научници зову надзором учење за процјену категорије свих постова. Након завршетка ове анализе, Кинг и колеге били у стању да закључи да, помало изненађујуће, вероватноћа пост буде избрисан није повезана да ли је то било критично од државе или подршку државе.

Слика 2.3: Поједностављено шема за поступак који се користи у Кинг, Пан, и Робертс (2013) за процену осећања од 11 милиона кинеских друштвених медија поруке. Прво, у фази типично под називом пред-обрада, истраживачи су претворени медијске поруке друштвене у документу рок матрице (видети Гриммер и Стеварт (2013) за више информација). Друго, истраживачи су ручно кодирани осјећај малом узорку мјеста. Треће, истраживачи су обучени под надзором модел учења да класификује расположење порука. Четврто, истраживачи су користили надгледане модел учења за процену осећања свих порука. Погледајте Кинг, Пан, и Робертс (2013), Додатак Б за детаљнији опис.

Слика 2.3: Поједностављено шема за поступак који се користи у King, Pan, and Roberts (2013) процену осећања од 11 милиона кинеских друштвених медија поруке. Прво, у фази типично под називом пред-обрада, истраживачи су претворени медијске поруке друштвене у документу рок матрице (видети Grimmer and Stewart (2013) више информација). Друго, истраживачи су ручно кодирани осјећај малом узорку мјеста. Треће, истраживачи су обучени под надзором модел учења да класификује расположење порука. Четврто, истраживачи су користили надгледане модел учења за процену осећања свих порука. Погледајте King, Pan, and Roberts (2013) , Додатак Б за детаљнији опис.

На крају, Кинг и колеге су открили да су само три врсте порука редовно цензурисана: порнографија, критике цензори, а они који су имали колективни акциони потенцијал (тј могућност да доведе до великих протеста). Посматрајући велики број порука које су избрисане и поруке које нису избрисане, Кинг и колеге били у могућности да науче како се цензори раде само гледајући и бројања. У каснијем истраживањима, они заправо директно интервенисали у кинеској друштвеној екосистема медија, стварајући поруке са систематски различитог садржаја и мерења који се цензурисана (King, Pan, and Roberts 2014) . Ми ћемо научити више о експерименталним приступима у поглављу 4. Даље, предвиђајући тему која ће се десити у књизи, ови латентни-атрибут закључак проблеми-који понекад може бити решени са надзором учења испостави да је веома уобичајена у друштвена истраживања у дигитално доба. Видећете слике врло сличан слици 2.3 у поглављима 3 (Постављање питања) и 5 ​​(Креирање масовно сарадњу); то је једна од ретких идеја да се појављује у више поглавља.

Сва три ова примера-радног понашања таксисте у Њујорку, формирање пријатељство од стране студената, и медијске цензуре понашања кинеске владе-показују да релативно једноставно бројање података добијених посматрањем може омогућити истраживачима да тестирају теоријска предвиђања социјалне заштите. У неким случајевима, велики подаци омогућава вам ово бројање релативно директно (као у случају Нев Иорк Такис). У другим случајевима, истраживачи ће морати да прикупе своје осматрачких података (као у случају кинеске цензуре); баве непотпун спајањем података заједно (као у случају мреже еволуције); или обавља неки облик латентне-особина закључка (као у случају кинеске цензуре). Надам се ови примери показују, за истраживаче који су могли да постављају интересантна питања, велика много обећава.