Istraživači struganje kineske socijalne medija sučelja za proučavanje cenzuru. Oni su se bavila nepotpunosti s latencije crte zaključivanja.
Osim velikih podataka korištenih u prethodna dva primjera, istraživači su također može prikupljati svoje podatke motrenja, kako je predivno ilustriran Gary King, Jennifer Pan i Molly Roberts ' (2013) istraživanja o cenzuri od strane kineske vlade.
Društvenih medija postove u Kini su cenzurirani od strane ogromnog državnog aparata koji je mislio da su deseci tisuća ljudi. Istraživači i građani, međutim, imaju malo smisla o tome kako ovi cenzori odlučiti što bi sadržaj trebao biti izbrisan iz društvenih medija. Znanstvenici u Kini zapravo proturječne očekivanja o tome što vrste radnih mjesta su najvjerojatnije biti izbrisani. Neki misle da su cenzori usredotočiti na postovima koji su kritični prema stanju dok drugi misle da se usredotočite na postove koje potiču kolektivno ponašanje, kao što su prosvjede. Figuring out koji od tih očekivanja je ispravan ima utjecaja na to kako znanstvenici razumiju Kinu i ostale autoritarne vlasti koje se bave cenzurom. Dakle, King i kolege željeli usporediti postove koji su objavljeni, a naknadno izbrisati na poruke koje su objavljene i nikada izbrisati.
Prikupljanje ove postove koji su uključeni u nevjerojatnom inženjering podvig puzeći više od 1.000 kineskih društvenih medija web stranice-svaka s različitim izgleda stranica za pronalaženje relevantne postove, a zatim ponovo posjetiti ove postove kako bi vidjeli koji su naknadno izbrisani. Osim uobičajenih tehničkih problema povezanih s velikih razmjera i indeksiranja weba, ovaj projekt je imao dodatnu izazov koji je potreban da bi se vrlo brzo, jer su mnogi cenzurirane postova skinuta u manje od 24 sata. Drugim riječima, spor pauk propustiti puno postova koji su bili cenzurirani. Nadalje, pretraživači morao učiniti sve ovo prikupljanje podataka dok izbjegavate otkrivanje da su društveni mediji web stranice blokiraju pristup ili na drugi način promijeniti svoju politiku kao odgovor na studij.
Nakon što se ova masivna inženjering zadatak je završen, kralj i njegovi kolege mogli ostvariti oko 11 milijuna postova na 85 različitih tema koje su prethodno navedeno na temelju njihove očekivanoj razini osjetljivosti. Na primjer, tema visoke osjetljivosti je Ai Weiwei je disident umjetnik; tema srednje osjetljivosti je uvažavanje i devalvacije kineske valute, a tema nisku osjetljivost je Svjetsko prvenstvo. Od tih 11 milijuna radnih mjesta oko 2 milijuna su bili cenzurirani, ali postovi na vrlo osjetljivim temama su cenzurirani tek nešto češće od postova na srednjim i niskim teme osjetljivosti. Drugim riječima, kineski cenzori su oko vjerojatnije da cenzurira post koji spominje Ai Weiwei kao post koji spominje Svjetsko prvenstvo. Ovi rezultati ne odgovaraju jednostavna ideja da vlada cenzura sve postove o osjetljivim temama.
Ovaj jednostavan izračun stope cenzure od strane tema mogu biti pogrešne, no. Na primjer, vlada može cenzurirati postove koje podržavaju Ai Weiwei, ali ostavljaju postove koji su kritični prema njemu. Kako bi se razlikovali postova pažljivije, istraživači trebaju izmjeriti osjećaje svakog posta. Dakle, jedan od načina da razmišljaju o tome je da je osjećaj svakog posta u važnom latentne značajka svakog posta. Nažalost, unatoč mnogo rada, potpuno automatizirane metode detekcije raspoloženja pomoću prethodno postojeće rječnike još uvijek nije vrlo dobar u mnogim situacijama (mislim natrag na probleme stvara emocionalni vremenski 11. rujna 2001. godine iz Odjeljka 2.3.2.6). Dakle, King i kolege potreban način da obilježi svoja 11 milijuna društvenih medija postove o tome da li su 1) kritični prema stanju, 2) podržavaju države, ili 3) nebitnih ili činjeničnih izvješća o događajima. Ovo zvuči kao masivan posao, ali oni to riješiti pomoću snažan trik; onaj koji je čest u znanosti podataka, ali trenutno relativno rijetke u društvene znanosti.
Prvo, u fazi obično zove pred-obradu, istraživači su pretvorena u društveni mediji postove u dokumentu rok matrice, gdje je bio jedan redak za svaki dokument i jedan stupac koji bilježi li je post sadržavao određenu riječ (npr prosvjed, promet, itd.) Dalje, skupina znanstvenih novaka ručno označene sentiment na uzorku post. Tada kralj i njegovi kolege koristili ovu ruku-označene podatke za procjenu modela strojnog učenja koji bi mogli zaključiti osjećaje post na temelju svojih svojstava. Na kraju, oni koriste taj model stroja za učenje procijeniti raspoloženje svih 11 milijuna radnih mjesta. Dakle, umjesto ručno čitanje i obilježavanje 11 milijuna postova (što bi bilo logistički nemoguće), oni ručno označene mali broj postova, a zatim koristi koje podatke znanstvenici će pozvati nadziranu učenje procijeniti kategorije svim postovima. Nakon završetka analize, kralj i njegovi kolege su mogli zaključiti da je, pomalo iznenađujuće, vjerojatnost post bude izbrisan je nevezano da li je to bio kritičan prema državi ili podržavaju države.
Na kraju, kralj i njegovi kolege otkrili su da samo tri vrste postovima redovito su cenzurirani: pornografija, kritiku cenzorima, a oni koji su imali kolektivni akcijski potencijal (tj mogućnost dovodi do prosvjeda velikih). Promatrajući veliki broj postova koji su izbrisani i postovi koji nisu izbrisane, kralj i njegovi kolege su mogli naučiti kako cenzori rade samo promatranje i brojanje. U kasnijim istraživanjima, oni su zapravo izravno intervenirao u kineskom društvenim medijima ekosustava stvaranjem postove s sustavno različitog sadržaja i mjerenja koja se cenzurirani (King, Pan, and Roberts 2014) . Mi ćemo saznati više o eksperimentalnim pristupima u poglavlju 4. Nadalje, nagovještaj temu koja će se dogoditi u cijeloj knjizi, te latencije atribut Izvedbeni problemi-koji ponekad mogu riješiti s nadzorom učenje-ispasti da se vrlo često u društvenim istraživanjima u digitalno doba. Vidjet ćete slike vrlo sličan onom na slici 2.3 u poglavlju 3 (Postavljanje pitanja) i 5 (Stvaranje masovne suradnju); to je jedna od rijetkih ideja koje se pojavljuje u više poglavlja.
Sva tri od ovih primjera-radnog ponašanja taksista u New Yorku, formiranja prijateljstvo od strane studenata, te društvenim medijima cenzuru ponašanje kineske vlade-show koji relativno jednostavno brojanje opservacijskih podataka može omogućiti istraživačima da testiraju teorijska predviđanja. U nekim slučajevima, veliki podataka omogućuje Vam da to učinite brojanje relativno izravno (kao u slučaju New York Taxis). U drugim slučajevima, istraživači će morati prikupiti svoje podatke motrenja (kao u slučaju kineske cenzure); baviti nepotpunosti spajanjem podatke zajedno (kao u slučaju evolucije mreže); ili obavljanje neki oblik latentne-crte zaključak (kao u slučaju kineske cenzure). Kao Nadam se da ovi primjeri pokazuju, za istraživače koji su u mogućnosti postavljati zanimljiva pitanja, velika je obećavajuća.