Истражувачите добиеше кинеските социјални сајтови на медиуми да учат цензура. Тие се занимаваа со непотполноста со латентна особина-инференција.
Во прилог на големи податоци користени во претходните два примери, истражувачите исто така може да се соберат своите податоци од набљудувањата, како што беше прекрасно илустрирано од страна на Гери Кинг, Џенифер Пан, и Моли Робертс (2013) истражување на цензура од страна на кинеската влада.
Социјалните медиуми мислења во Кина се цензурирани од страна на државниот апарат голема што се смета дека вклучуваат десетици илјади луѓе. Истражувачи и граѓани, сепак, имаат малку чувство за тоа како овие цензорите одлучи што содржината треба да биде избришан од социјалните медиуми. Научниците на Кина, всушност имаат спротивставени очекувања за кои видови на работни места, најверојатно, да се брише. Некои сметаат дека цензурата се фокусира на теми кои се од клучно значење за државата, додека други сметаат дека тие се фокусираат на теми кои го поттикнуваат колективно однесување, како што се протестите. Да пронајдат што на овие очекувања се точни има импликации за тоа како истражувачите се разбере Кина и другите авторитарни влади кои се ангажираат во цензура. Затоа, кралот и неговите колеги сакаше да се споредат мислења кои беа објавени и потоа избришана на постови кои беа објавени и никогаш не се брише.
Собирање на овие места се вклучени во неверојатна инженеринг подвиг на индексирање повеќе од 1.000 кинески социјалните медиуми веб-страниците-секој со различни страница распоред за наоѓање релевантни мислења, а потоа и посетување на овие места за да ја видите кои потоа беа избришани. Во прилог на нормална инженерски проблеми кои се поврзани со големи размери веб-индексирање, овој проект го додадена предизвик со кој што требаше да биде многу брзо, бидејќи многу цензурирани мислења се симнат за помалку од 24 часа. Со други зборови, бавно Роботот ќе го пропушти многу места кои беа цензурирани. Понатаму, роботите мораше да го направи сето ова за собирање на податоци, додека избегнување на откривање на веб-сајтови за да не на социјалните медиуми го блокира пристапот или на друг начин ги променат нивните политики како одговор на студијата.
Откако овој масовен инженеринг задача беше завршена, кралот и неговите колеги се стекнал со околу 11 милиони постови на 85 различни теми кои беа однапред утврден врз основа на очекуваните нивното ниво на чувствителност. На пример, тема на висока чувствителност е Аи Веивеи, дисидент уметникот; тема на средината чувствителност е благодарност и девалвација на кинеската валута, и на темата на ниска чувствителност е на Светското првенство. Од нив 11 милиони мислења околу 2 милиони биле цензурирани, но мислења на високо чувствителни теми беа цензурирани само малку повеќе отколку мислења на среден и низок теми чувствителност. Со други зборови, кинеската цензура се исто толку веројатно да се цензурира еден пост во кој се споменува Аи Веивеи како пост во кој се споменува на Светското првенство. Овие наоди не се поклопува со симплистички идејата дека владините цензори сите мислења на чувствителни теми.
Оваа едноставна пресметка на стапката на цензура од темата може да биде погрешно, сепак. На пример, владата може да го цензурира постови кои се поддршка на Аи Веивеи, но да се остават постови кои се од клучно значење за него. Со цел да се направи разлика меѓу мислења повнимателно, истражувачите треба да се измери чувството на секој пост. Така, еден начин да се размислува за тоа е дека чувството на секој пост во важен латентна функција на секој пост. За жал, и покрај многу работа, целосно автоматизирани методи за детекција расположение користејќи веќе постоечки речници се уште не се многу добри во многу ситуации (сетам на проблеми создавање емотивна временска рамка од 11 септември 2001 година од делот 2.3.2.6). Затоа, кралот и неговите колеги потребни начин да се обележат нивните 11 милиони социјалните медиуми мислења за тоа дали тие беа: 1) од клучно значење за државата, 2) поддршка на државата, или 3) ирелевантни или фактички извештаи за настани. Ова звучи како голем работа, но тие тоа се реши со помош на моќен трик; која е честа појава во податоците науката, но во моментов релативно ретки во општествените науки.
Прво, во чекор обично се нарекува претходна обработка, истражувачите конвертира социјалните медиуми мислења во некој документ рок матрица, каде што имаше еден ред за секој документ и една колона дека снимен дали мислење содржи специфичен збор (на пример, протест, сообраќај, итн.) Следно, група на стручни соработници рака-етикета на чувство на примерок од слики. Потоа, кралот и неговите колеги се користи оваа рака-ознака на податоци за да се процени модел на машина за учење кои би можеле да заклучиме расположение на еден пост врз основа на своите карактеристики. Конечно, тие се користи овој модел учење машина за да се процени како се чувствуваат сите 11 милиони работни места. Така, наместо рачно читање и етикетирање 11 милиони работни места (кој ќе биде логистички невозможно), ќе рачно означени мал број на работни места и потоа се користи за тоа кои податоци научниците би го нарекол надгледувано учење за да се процени на категориите на сите места. По завршувањето на оваа анализа, кралот и неговите колеги беа во можност да се заклучи дека, изненадувачки, веројатноста на еден пост да биде избришан не е поврзана со тоа дали тоа е од клучно значење за државата или поддршка на државата.
На крајот, кралот и неговите колеги откриле дека само три вида на мислења редовно беа цензурирани: порнографија, критика на цензурата, и оние кои имаат колективни акциски потенцијал (на пример, можноста да доведе до големи протести). Со набљудување на голем број на работни места, кои беа избришани и постови кои не се избришани, кралот и неговите колеги беа во можност да научат како цензура работат само со гледање и пребројување на гласовите. Во наредните истражувања, тие, всушност, директно интервенираше во кинески социјалните медиуми екосистем со создавање на мислења со систематски различни содржини и мерење кои се цензурирани (King, Pan, and Roberts 2014) . Ние ќе дознаете повеќе за експериментални пристапи во поглавјето 4. Понатаму, предзнак тема што ќе се случи во текот на книгата, овие латентни-атрибут инференција проблеми, кои понекогаш може да се реши со надгледувана учење испаднат да биде многу честа појава во социјални истражувања во дигиталната ера. Ќе видите слики многу сличен на Слика 2.3 во Поглавје 3 (Поставување прашања) и 5 (Создавање на маса соработка); тоа е една од неколку идеи, која се појавува во повеќе поглавја.
Сите три од овие примери, работните однесувањето на таксисти во Њујорк, формирање пријателство од страна на студентите, и медиумите цензура однесувањето на кинеската влада покажуваат дека релативно едноставно пребројување на набљудување на податоци може да им овозможи на истражувачите да се тестира теоретски предвидувања социјални. Во некои случаи, големи податоци ви овозможува да го направите тоа броење релативно директно (како во случајот на Њујорк Такси). Во други случаи, истражувачите ќе треба да се соберат своите набљудување на податоци (како што е во случајот на кинескиот цензура); се справи со непотполноста со спојување на податоци заедно (како во случајот на еволуцијата мрежа); или извршување на некоја форма на латентна особина-инференција (како во случајот на кинеската цензура). Како што се надевам дека овие примери покажуваат, за истражувачи, кои се во можност да поставуваат интересни прашања, големи ветува.