Даследчыкі Драпіны кітайскія сайты сацыяльных сродкаў масавай інфармацыі для вывучэння цэнзуры. Яны мелі справу з непаўнатой з высноў схаванага прыкметы.
У дадатак да вялікіх аб'ёмаў дадзеных , якія выкарыстоўваюцца ў двух папярэдніх прыкладах, даследчыкі могуць таксама збіраць свае ўласныя дадзеныя назіранняў, як гэта было выдатна ілюструецца Гэры Кінг, Джэніфер Пан, і Молі Робертс ' (2013) даследаванняў аб цэнзуры з боку кітайскага ўрада.
Сацыяльныя паведамленні СМІ ў Кітаі падвяргаліся цэнзуры з боку вялізнага дзяржаўнага апарату, які, як мяркуюць, ўключаюць у сябе дзесяткі тысяч людзей. Даследчыкі і грамадзяне, аднак, маюць мала сэнсу, як гэтыя цэнзары вырашыць, які кантэнт павінен быць выдалены з сацыяльных медыя. Навукоўцы Кітая на самай справе маюць супярэчлівыя чакання аб тым, якія віды пасад, найбольш верагодна, выдаляюцца. Некаторыя думаюць, што цэнзары засяродзіцца на пасады, якія маюць вырашальнае значэнне дзяржавы ў той час як іншыя думаюць, што яны сканцэнтраваны на пасадах, якія заахвочваюць калектыўныя паводзіны, напрыклад, пратэсты. Высветліць, якія з гэтых чаканняў правільна мае наступствы для таго, як даследчыкі разумеюць, Кітай і іншыя аўтарытарныя ўрады, якія ўдзельнічаюць у цэнзуры. Такім чынам, кароль і яго калегі хацелі параўнаць паведамленні, якія былі апублікаваныя і пасля выдаленыя на пасады, якія не былі апублікаваныя і не выдаляюцца.
Збор гэтых пастоў ўдзельнічае дзіўны інжынерны подзвіг паўзком больш за 1000 кітайскіх сацыяльных медыя сайтаў, кожны з рознымі Макеты старонак-пошуку рэлевантныя паведамленняў, а затым пераглядаюць гэтыя паведамленні, каб убачыць, якія пасля былі выдаленыя. У дадатак да звычайных інжынерных праблем, звязаных з буйнамаштабных вэб-поўзання, гэты праект меў дадатковую праблему, што гэта трэба было вельмі хутка, таму што многія цэнзураваць пасты знятыя менш чым за 24 гадзін. Іншымі словамі, павольны гусенічны прапусціць шмат пастоў, якія былі падвергнуты цэнзуры. Акрамя таго, пошукавыя робаты павінны былі зрабіць усё гэта збор дадзеных у час ўхілення ад выяўлення каб вэб-сайты сацыяльных медыя блакаваць доступ ці іншым чынам змяніць сваю палітыку ў адказ на даследаванні.
Пасля таго, як гэтая масіўная інжынерная задача была завершана, кароль і яго калегі атрымалі каля 11 мільёнаў паведамленняў на 85 розных тэм, якія былі папярэдне вызначаны на аснове іх чаканага ўзроўню адчувальнасці. Напрыклад, тэма высокай адчувальнасці Ай Вэйвэй, мастак-дысыдэнт; тэма сярэдняй адчувальнасці курсу і дэвальвацыя кітайскай валюты, а таксама тэма нізкай адчувальнасці чэмпіянату свету. З іх 11 мільёнаў паведамленняў каля 2 мільёнаў былі падвергнуты цэнзуры, але пасты на высокаадчувальных тэмы былі падвергнуты цэнзуры толькі крыху часцей, чым пасты па тэмах, сярэдняй і нізкай адчувальнасці. Іншымі словамі, кітайскія цэнзары пра тое, як, верагодна, цэнзураваць пост, які згадвае Ай Вэйвэй як пост, які згадвае чэмпіянат свету па футболе. Гэтыя высновы не адпавядалі спрошчана ідэю аб тым, што ўрад падвяргае цэнзуры ўсе паведамленні на адчувальныя тэмы.
Гэты просты разлік хуткасці цэнзуры тэме можа ўвесці ў зман, аднак. Напрыклад, урад мог бы падвяргаць цэнзуры паведамленні, якія падтрымліваюць Ай Вэйвэй, але пакінуць паведамленні, якія маюць вырашальнае значэнне яго. Для таго , каб адрозніваць паміж слупамі больш старанна, даследчыкі павінны вымераць пачуцці кожнага паста. Такім чынам, адзін са спосабаў думаць пра гэта з'яўляецца тое, што настроі кожнага паста ў важным латэнтнай функцыі кожнага паста. На жаль, нягледзячы на вялікі аб'ём працы, цалкам аўтаматызаваныя метады выяўлення настрояў з выкарыстаннем загадзя існуючых слоўнікаў да гэтага часу не вельмі добра ў многіх сітуацыях (успомніце праблемы, ствараючы эмацыйную шкалу ад 11 верасня 2001 году з раздзела 2.3.2.6). Такім чынам, кароль і яго калегі трэба было знайсці спосаб маркіраваць свае 11 мільёнаў паведамленняў у сацыяльных сетках, каб яны былі Ці 1) крытычна дзяржавы, 2) падтрымку дзяржавы, або 3) не адносяцца да справы або фактычных справаздач аб падзеях. Гэта гучыць як масіўная праца, але яны вырашылі яе з дапамогай магутнага трук; той, які часта сустракаецца ў навуцы дадзеных, але ў цяперашні час адносна рэдка ў сацыяльнай навуцы.
Ва- першых, на этапе звычайна называецца папярэдняй апрацоўкі, даследчыкі пераўтвараць паведамлення сацыяльных медыя ў дакумент перспектыве матрыцы, дзе была адна радок для кожнага дакумента і адзін слупок , які запісаны , ці ўтрымоўвае паведамленне канкрэтнае слова (напрыклад, пратэст, трафіку і г.д.). Далей, група навуковых супрацоўнікаў ўручную маркіравалі настрою ўзору пост. Тады кароль і яго калегі выкарысталі гэтую руку мечаных дадзеныя для ацэнкі мадэлі машыннага навучання, якія маглі б вывесці настрою пасады на аснове яго характарыстык. І, нарэшце, яны выкарысталі гэтую мадэль машыннага навучання, каб ацаніць настрою ўсіх 11 мільёнаў паведамленняў. Такім чынам, замест таго , каб ўручную чытання і маркіроўкі 11 мільёнаў паведамленняў (што было б тэхнічна немагчыма), яны ўручную пазначаныя невялікая колькасць паведамленняў , а затым выкарыстаў то , што дадзеныя навукоўцы назвалі б кантраляваную навучанне , каб ацаніць катэгорыі ўсіх пасадаў. Пасля завяршэння гэтага аналізу, кароль і яго калегі змаглі зрабіць выснову аб тым, што некалькі дзіўна, верагоднасць пост выдалення не быў звязаны з, ці было гэта крытычна дзяржавы або падтрымку дзяржавы.
У рэшце рэшт, кароль і яго калегі выявілі, што толькі тры тыпу паведамленняў рэгулярна цэнзуры: парнаграфія, крытыку цэнзараў, і тыя, якія мелі калектыўны патэнцыял дзеяння (гэта значыць магчымасць прывесці да буйнамаштабных пратэстаў). Назіраючы велізарная колькасць паведамленняў, якія былі выдалены і пасты, якія не былі выдаленыя, кароль і яго калегі змаглі даведацца, як цэнзары працаваць, проста назіраючы і падліку галасоў. У далейшых даследаваннях, яны на самай справе непасрэдна ўмешваліся ў кітайскую сацыяльную экасістэму сродкаў масавай iнфармацыi шляхам стварэння паведамленні з розным утрыманнем сістэматычна і вымярэння , якія атрымліваюць цэнзураваць (King, Pan, and Roberts 2014) . Мы даведаемся больш пра эксперыментальных падыходаў у главе 4. Акрамя таго, прадракаючы тэма, якая будзе адбывацца на працягу ўсёй кнігі, гэтыя лагічны выснову схаванага атрыбуту праблемы-якія часам могуць быць вырашаны з дапамогай навучання пад наглядам, аказваюцца вельмі распаўсюджаным з'явай у сацыяльных даследаваннях у лічбавы век. Вы ўбачыце фатаграфіі вельмі падобны на малюнак 2.3 ў раздзелах 3 (задаваць пытанні) і 5 (Стварэнне масавага супрацоўніцтва); гэта адна з нешматлікіх ідэяў, якая з'яўляецца ў некалькіх раздзелах.
Усе тры з гэтых прыкладаў-працоўнага паводзін кіроўцаў таксі ў Нью-Ёрку, фарміраванне дружбы студэнтамі, а таксама сацыяльных медыя цэнзуры паводзін кітайскага ўрада-шоу, што адносна просты падлік дадзеных назіранняў можа дазволіць навукоўцам праверыць тэарэтычныя прадказанні. У некаторых выпадках вялікія дадзеныя дазваляе зрабіць гэты падлік адносна непасрэдна (як у выпадку Нью-Ёрк Таксис). У іншых выпадках, даследчыкі павінны сабраць свае ўласныя дадзеныя назіранняў (як і ў выпадку кітайскай цэнзуры); мець справу з непаўнатой шляхам аб'яднання дадзеных разам (як і ў выпадку эвалюцыі сеткі); або выканання той ці іншай форме лагічнага вываду схаванага прыкметы (як і ў выпадку з кітайскай цэнзуры). Як я спадзяюся, што гэтыя прыклады паказваюць, для даследчыкаў, якія змаглі задаць пытанні, якія вас пытанні, вялікая мае вялікія перспектывы.