Raziskovalci postrga kitajske socialnih medijev območij za študij cenzure. Obravnavali so nepopolnosti z latentnim osebnostnih potez sklepanje.
Poleg velikih podatkov, uporabljenih v prejšnjih dveh primerih, lahko raziskovalci zbirajo tudi svoje opazovalne podatke, kot je bilo čudovito ponazarja Gary King, Jennifer Pan, in Molly Roberts " (2013) za raziskave o cenzuri kitajske vlade.
Socialnih medijev objav na Kitajskem so cenzurirani z ogromno državnega aparata, ki je mislil, da vključuje več deset tisoč ljudi. Raziskovalci in državljani pa imajo malo občutka, kako ti cenzorji odločijo, kakšno vsebino je treba črtati iz socialnih medijev. Znanstveniki na Kitajskem dejansko imajo nasprotujoče pričakovanja o tem, katere so vrste delovnih mest najbolj verjetno, da bodo izbrisani. Nekateri mislijo, da cenzorji osredotočajo na delovnih mestih, ki so kritični do države, medtem ko drugi menijo, da se osredotoči na delovna mesta, ki spodbujajo obnašanje, kot so protesti. Ugotoviti, katera od teh pričakovanj je pravilna ima posledice za kako raziskovalci razumeli, Kitajska in druge avtoritarne vlade, ki sodelujejo pri cenzuri. Zato, kralj in kolegi želeli primerjati prispevke, ki so bili objavljeni in nato izbrisanih na delovna mesta, ki so bili objavljeni in nikoli izbrisane.
Zbiranje teh objav je izbral neverjetno inženiring feat plazil več kot 1000 kitajskih socialnih medijev spletne strani-vsak z različnimi stran postavitve, iskanje ustreznih delovnih mest, nato pa ponovno pregledati te prispevke za prikaz, ki so bili pozneje izbrisani. Poleg običajnih inženirskih problemov, povezanih z obsežno spletno lezenjem, je imel ta projekt dodano izziv, ki bi ga bilo treba zelo hitro, ker je veliko cenzurirani objav zapisati v manj kot 24 urah. Z drugimi besedami, bi počasi pajek zamudili veliko delovnih mest, ki so bile okrnjene. Poleg tega so imeli pajki, da stori vse to zbirko podatkov, medtem ko izogibanje odkrivanje da ne spletne strani, social media blokira dostop ali kako drugače spreminjati svoje politike v odziv na študijo.
Ko je bil ta ogromen inženiring naloga končana, King s sodelavci je pridobila približno 11 milijonov delovnih mest v 85 različnih temah, ki so vnaprej določena na podlagi njihove pričakovane stopnjo občutljivosti. Na primer, tema visoko občutljivostjo je Ai Weiwei je disident umetnik; tema srednjega občutljivosti je spoštovanje in devalvacija kitajske valute, in tema nizke občutljivosti je svetovni pokal. Od teh 11 milijonov delovnih mest, je bilo približno 2 milijona cenzurirana, ampak objav na zelo občutljivih temah, so cenzurirani le nekoliko pogosteje kot delovnih mest na srednjih in nizkih teme občutljivosti. Z drugimi besedami, kitajski cenzorji so približno tako verjetno, da cenzurirajo delovno mesto, ki omenja Ai Weiwei kot mesto, ki omenja svetovno prvenstvo. Te ugotovitve se ne ujema s poenostavljeno idejo, da vlada cenzurira vse prispevke o občutljivih temah.
Ta preprost izračun stopnjo cenzure po temah lahko zavajajoče, vendar. Na primer, lahko vlada cenzurira sporočila, ki podpirajo Ai Weiwei, vendar pusti prispevke, ki so kritični do njega. Da bi bolj natančno razlikovati med delovnimi mesti, raziskovalci potrebujejo za merjenje čustvo vsako delovno mesto. Tako je eden od načinov, da razmišljajo o tem, da je razpoloženje za vsako delovno mesto v pomembnem latentno značilnost vsake objave. Na žalost, kljub veliko dela, popolnoma avtomatizirane metode za ugotavljanje klime z uporabo že obstoječih slovarjev še vedno niso zelo dobro v mnogih situacijah (spomnimo na težave, ki ustvarjajo čustveno časovni 11. septembra 2001 iz oddelka 2.3.2.6). Zato, kralj in kolegi potrebovali način označiti svoje 11 milijonov medijskih objav socialnih tem, ali so bili 1) kritični do države, 2) podpirajo države, ali 3) nepomembne ali dejanskih poročil o dogodkih. To zveni kot masivno delovno mesto, vendar pa ga rešiti z močno trik; tisti, ki je pogost v podatkovnem znanosti, vendar je trenutno razmeroma redke družbene vede.
Prvič, v koraku običajno imenujemo predobdelava, raziskovalci pretvori socialnih medijev prispevke za v dokumentu čas matrike, kjer je bila ena vrstica za vsak dokument in en stolpec, ki so zabeleženi ali je delovno mesto vsebuje določeno besedo (npr protest, prehodi, itd). Nato je skupina raziskovalnih pomočnikov ročno označili čustvo vzorca mesto. Nato kralj in sodelavci uporabljajo to ročno označeni podatkov za oceno učno model računalnika, ki bi lahko sklepamo, da čustvo delovno mesto, ki temelji na njegove značilnosti. Končno, se uporabljajo ta stroj učni model za oceno čustva vseh 11 milijonov delovnih mest. Torej, namesto da ročno branje in označevanja 11 milijonov delovnih mest (kar bi bilo logistično nemogoče), ko ročno označeni majhno število delovnih mest in nato uporabimo, katere podatke bi znanstveniki klic nadzorovanega učenja za oceno kategorije vseh delovnih mest. Po zaključku te analize so bili kralj in kolegi lahko sklepamo, da je nekoliko presenetljivo, pri čemer je verjetnost, da bo delovno mesto črta je bila povezana z ali je bil kritičen do države, ali podpirajo države.
Na koncu, King s sodelavci ugotovil, da so bile le tri vrste delovnih mest redno cenzurirali: pornografija, kritiko cenzorji, in tistimi, ki so imeli skupen akcijski potencial (tj možnost vodi do protestov velikih). Z opazovanjem veliko število delovnih mest, ki so bili izbrisani in delovnih mest, ki niso bili izbrisani, so kralj in njegovi sodelavci lahko izvedeli, kako so cenzorji delujejo samo z gledanjem in štetje. V poznejših raziskavah, ki jih dejansko neposredno posredovala v kitajski socialnih medijev ekosistem z ustvarjanjem delovnih mest s sistematično drugačno vsebino in merjenja, ki se cenzurirani (King, Pan, and Roberts 2014) . Bomo izvedeli več o eksperimentalnih pristopov v poglavju 4. Nadalje je naznanilo temo, ki se bo zgodilo v celotni knjigi, ti latentni-atribut sklepanja težave-, ki je včasih mogoče rešiti z nadzorovano učenje izkazalo, da je zelo pogosta v socialne raziskave v digitalni dobi. Boste videli slike zelo podoben sliki 2.3 v poglavjih 3 (postavljati vprašanja) in 5 (Ustvarjanje množično sodelovanje); je ena od redkih idej, ki se pojavi v več poglavij.
Vse tri od teh primerov-delovnega obnašanja taksisti v New Yorku, oblikovanje prijateljstvo študentov in socialnih medijev cenzuro obnašanja kitajske vlade-, kažejo, da lahko relativno enostavno štetje opazovalnih podatkov omogočila raziskovalcem, da test teoretične napovedi. V nekaterih primerih, velika podatkov omogoča, da narediš to štetje relativno neposredno (kot v primeru New York Taxis). V drugih primerih bo raziskovalci zbrati svoje opazovalne podatke (kot v primeru kitajskega cenzure); obravnavati nepopolnosti z združitvijo podatke skupaj (kot v primeru razvoja omrežja); ali opravlja kakšno obliko latentnim osebnostnih potez sklepanja (kot v primeru kitajske cenzure). Kot Upam, da ti primeri kažejo, za raziskovalce, ki so sposobni vprašati zanimivih vprašanj, veliko veliko obeta.