Изследователите остъргват китайски сайтове за социални медии, за да учат цензура. Те се справиха с непълноти с латентна-черта извод.
В допълнение към големите данните, използвани в предишните два примера, изследователи също могат да събират собствените си данни от наблюдения, както е чудесно илюстрирана с Гари Кинг, Дженифър Пан, и Моли Робъртс " (2013) проучване на цензура от страна на китайското правителство.
Социални медийни публикации в Китай са цензурирани от държавен апарат огромен, че се смята, че включва десетки хиляди хора. Изследователи и граждани, обаче, имат малко чувство за това как тези цензори решават какво съдържание трябва да бъде заличен от социалните медии. Учени от Китай действително имат противоречиви очаквания за това, кои видове съобщения са най-вероятно да се заличава. Някои мислят, че цензурата се фокусират върху публикациите, които са критични за държавата, докато други смятат, че те се фокусират върху публикациите, които насърчават колективното поведение, като например протести. Измислянето които на тези очаквания е вярна е от значение за това как учените разбират Китай и други авторитарни правителства, които се занимават с цензура. Ето защо, King и колеги искаха да сравнявате мнения, които бяха публикувани и в последствие изтривани да мнения, които бяха публикувани и никога изтрити.
Събирането на тези постове, участващи в невероятно инженерно постижение на пълзене повече от 1000 китайски сайтове на социални медии-всяка с различна страница оформления-намирането съответните постове, а след това равносметка тези постове, за да видите, които впоследствие са били изтрити. В допълнение към нормалните инженерни проблеми, свързани с голям мащаб уеб-пълзене, този проект имаше добавена предизвикателството, че е необходимо да бъде изключително бързо, защото много цензурирани мнения са взети за определяне на по-малко от 24 часа. С други думи, по-бавен робота ще пропусне много мнения, които бяха цензурирани. Освен това, роботите трябваше да направим всичко това събиране на данни, докато избягване на откриване да не би интернет сайта на социални медии блокират достъп или по друг начин да промени политиките си в отговор на проучването.
След тази масивна инженерна задача е завършена, King и колеги бяха получени около 11 милиона съобщения на 85 различни теми, които са били определени предварително въз основа на тяхното очаквано ниво на чувствителност. Например, една тема, на висока чувствителност е Ai Weiwei, дисидентското художника; тема на средна чувствителност е поскъпване и обезценяване на китайската валута, както и тема на ниска чувствителност е Световната купа. От тези 11 милиона мнения около 2 милиона са били цензурирани, но постове на високо чувствителни теми бяха цензурирани само малко по-често, отколкото постове на средно и ниско теми чувствителност. С други думи, китайските цензори са толкова склонни да цензурира един пост, че се споменава Ай Вейвей като след това се споменава за Световната купа. Тези констатации не съответстват на опростен идеята, че правителството цензурира всички мнения по чувствителни теми.
Това просто изчисление на скоростта на цензура от темата може да бъде подвеждаща, обаче. Например, правителството може да цензурира мнения, които са в подкрепа на Ai Weiwei, но оставят съобщения, които са от решаващо значение за него. С цел да се направи разграничение между пунктове по-внимателно, учените трябва да се измерва настроенията на всеки пост. По този начин, един от начините да се мисли за това е, че настроенията на всеки пост в един важен латентен черта на всеки пост. За съжаление, въпреки много работа, напълно автоматизирани методи за откриване настроения, използвайки вече съществуващи речници все още не са много добри в много ситуации (мисля, обратно към проблемите създават емоционална график на 11 септември 2001 от раздел 2.3.2.6). Ето защо, King и колеги, необходими начин да етикетират своите 11 милиона социални медийни публикации за това, дали те са били 1) критично състояние, 2) в подкрепа на държавата, или 3) неподходящи или фактически докладите за събитията. Това звучи като огромна работа, но те го решен с помощта на мощен трик; едно, че е обичайна практика в науката данни, но в момента сравнително рядко в социалните науки.
На първо място, в една стъпка обикновено се нарича предварителна обработка, изследователите превърнати в социални медии публикации в документ план матрица, където имаше един ред за всеки документ и една колона, която записва дали мястото, съдържаща се на конкретна дума (например, протест, трафик и т.н.). На следващо място, група от научни сътрудници ръка белязан настроенията на извадка от пост. След това, Кинг и колегите използват тази ръка белязан данни за оценяване на модел машина, обучение, което може да се направи извод за настроенията на един пост на базата на неговите характеристики. Накрая, те използват този модел за машинно обучение, за да се прецени настроенията на всички 11 милиона мнения. По този начин, а не ръчно четене и етикетиране 11 милиона мнения (което би било логистично невъзможно), те ръчно етикетирани малък брой постове и след това се използва какви данни учените наричат контролиран живот, за да се оцени категориите на всички постове. След завършване на този анализ, King и колеги са били в състояние да се заключи, че, донякъде изненадващо, вероятността за пост се заличават не зависи от това дали тя е от решаващо значение за състоянието или в подкрепа на държавата.
В края на краищата, King и колеги откриха, че само три вида длъжности бяха редовно цензурирани: порнография, критика на цензурата, и тези, които са имали колективен потенциал на действие (т.е., възможността за което води до мащабни протести). Чрез наблюдение на огромен брой съобщения, които са били изтрити и мнения, които не са били изтрити, King и колеги са били в състояние да научите как цензурата работят само с гледане и броене. В последващо изследвания, те всъщност директно се намеси в китайската социална медийна екосистема чрез създаване на пунктове с систематично различно съдържание и измерване, които се цензурира (King, Pan, and Roberts 2014) . Ние ще научите повече за експериментални подходи в глава 4. Освен това, предвестник на една тема, която ще се появи в цялата книга, тези латентни-атрибут извод проблеми-, които понякога могат да бъдат решени с контролиран учене да се окаже много често в социални изследвания в дигиталната епоха. Вие ще видите снимки много подобен на фигура 2.3 в глави 3 (Задаването на въпроси) и 5 (Създаване маса сътрудничество); тя е една от малкото идеи, който се появява в няколко глави.
Всички три от тези примери-работното поведение на таксиметровите шофьори в Ню Йорк, образуване на приятелство от студенти и медии цензура поведение на китайското правителство, показват, че относително просто преброяване на данни от наблюдения може да позволи на изследователите да тестват теоретични предсказания социална. В някои случаи, голяма данни ви позволява да направите това преброяване относително директно (както е в случая на Ню Йорк Таксита). В други случаи, изследователите ще трябва да съберат собствените си данни от наблюдения (както е в случая на китайската цензура); справят с непълноти чрез обединяване на данни заедно (както е в случая на еволюцията на мрежата); или извършване на някаква форма на латентно-черта извод (както е в случая на китайската цензура). Като се надявам тези примери показват, за изследователи, които са в състояние да задават интересни въпроси, голям притежава голямо обещание.