Výzkumníci poškrábaný čínských sociálních sítí ke studiu cenzuru. Oni se zabýval neúplnosti s latentního rysů závěru.
Kromě velkých údaje použité v předchozích dvou příkladech, výzkumníci mohou také vybírat své vlastní pozorovací data, jak bylo nádherně ilustrovaný Gary King, Jennifer Pan, a Molly Roberts ' (2013) výzkumu na cenzuře ze strany čínské vlády.
Sociální příspěvky médií v Číně jsou cenzurovány obrovského státního aparátu, který je myšlenka, aby zahrnoval desítky tisíc lidí. Výzkumní pracovníci a občané však mají jen malý smysl, jak tyto cenzoři rozhodnout, jaký obsah by měl být odstraněn ze sociálních médií. Učenci Číny ve skutečnosti mají konfliktní očekávání o tom, které druhy pracovních míst s největší pravděpodobností mazány. Někteří si myslí, že cenzoři se zaměřují na sloupech, které jsou kritické vůči státu, zatímco jiní si myslí, že se zaměřují na místa, které podporují kolektivní chování, jako je například protesty. Zjistit, které z těchto očekávání je správná má vliv na to, jak vědci pochopit Čínu a další autoritářské vlády, které se zapojily do cenzury. Proto se král a jeho kolegové chtěli porovnat příspěvky, které byly publikovány a následně odstraněny, aby příspěvky, které byly zveřejněny a nikdy odstraněny.
Shromažďování těchto příspěvků podílejí úžasný inženýrský čin plazit více než 1000 čínských sociálních médií webových stránek-každá s jinou stránkou rozložení zjištění relevantní příspěvky, a poté přehodnocení tato místa vidět, které byly následně odstraněny. Kromě běžných technických problémů spojených s velkém měřítku webové plazení, tento projekt měla větší problém, který je nutné ji velmi rychle, protože mnoho cenzorované sloupky jsou sundán v době kratší než 24 hodin. Jinými slovy, pomalu crawler by chybět spousta míst, která byly cenzurovány. Dále jsou roboti museli dělat všechny tyto data jsou shromažďována a zároveň se vyhnout detekci lest webové stránky sociálních médií blokovat přístup či jinak měnit svou politiku v reakci na studii.
Poté, co byl tento masivní inženýrský úkol dokončen, král a jeho kolegové získali asi 11 milionů pracovních míst na 85 různých témat, které byly předem definovány na základě jejich očekávanou úroveň citlivosti. Například téma vysokou citlivostí je Ai Weiwei, disident umělec; téma střední citlivost je zhodnocení a znehodnocení čínské měny, a tématem nízkou citlivostí je Světový pohár. Z těchto 11 milionů míst asi 2.000.000 bylo cenzurováno, ale příspěvky na vysoce citlivými tématy byly cenzurovány jen o něco častěji než příspěvky na středních a nízkých témat citlivosti. Jinými slovy, čínští cenzoři jsou asi tak pravděpodobné, že cenzurovat příspěvek, který zmiňuje Aj Wej-weje jako poleno, které zmiňuje Světový pohár. Tyto nálezy neodpovídal zjednodušující představu, že vláda cenzoři všechny příspěvky týkající se citlivých témat.
Tento jednoduchý výpočet cenzura sazby o tématu by mohlo být zavádějící, nicméně. Například by vláda mohla cenzurovat příspěvky, které podporují Ai Weiwei, ale ponechat příspěvky, které jsou kritické vůči němu. Aby bylo možné rozlišit mezi sloupky pečlivěji, výzkumníci potřebují měřit sentiment každé pracovní místo. Tak, jeden způsob, jak přemýšlet o tom, že sentiment každého příspěvku v důležitém latentního rysu každého příspěvku. Bohužel i přes hodně práce, plně automatizované metody detekce sentimentu s použitím již existujících slovníků jsou stále nejsou příliš dobré v mnoha situacích (myslím zpět k problémům vytváří emocionální časovou osu 11. září 2001 ze sekce 2.3.2.6). Proto se král a jeho kolegové potřebovali způsob, jak označovat své 11 milionů sociální příspěvky médií o tom, zda byli 1) kritický stav, 2) podporují státu nebo 3) irelevantní nebo věcných zpráv o událostech. Zní to jako obrovskou práci, ale oni to vyřešil pomocí výkonného trik; ten, který je běžný v datovém vědy, ale v současné době poměrně vzácný v sociálních vědách.
Za prvé, v kroku typicky volal předzpracování, výzkumníci převedeny příspěvky sociálních médií do dokumentu termín matrice, kde byl jeden řádek pro každý dokument a jeden sloupec, který zaznamenal zda post obsahoval určité slovo (např protest, doprava, atd.). Další skupina asistentů ručně označen cit vzorku poštou. Potom král a kolegové použili tuto hru značené údaje pro odhad studijní modelu stroj, který by mohl usoudit cit příspěvku na základě svých vlastností. Nakonec, oni používali tento model, učení stroje odhadnout nálady všech 11 milionů pracovních míst. Tak, spíše než manuální čtení a označování 11 milionů pracovních míst (což by bylo logisticky nemožné), co se ručně označen malý počet pracovních míst, a pak použít, jaká data vědci by vyžadovalo učení s odhadnout kategorie všech sloupků. Po dokončení této analýzy, král a jeho kolegové byli schopni dospět k závěru, že poněkud překvapivé, že pravděpodobnost, že příspěvek byl smazán byl nespojený k zda to byl kritický státu nebo podporují státu.
Na konci, král a jeho kolegové zjistili, že pouze tři typy pracovních míst byly pravidelně cenzurováno: pornografie, kritiku cenzory, a ty, které měl společný akční potenciál (tj možnost vést k rozsáhlých protestů). Pozorováním obrovské množství příspěvků, které byly odstraněny a příspěvky, které nebyly smazány, král a jeho kolegové byli schopni se naučit, jak cenzoři pracují právě tím, že sleduje a počítání. V následném výzkumu, ve skutečnosti přímo zasáhl do čínského sociálních médií ekosystému tím, že vytvoří příspěvky se systematicky odlišným obsahem a měření, které si cenzurované (King, Pan, and Roberts 2014) . Budeme se dozvědět více o experimentální přístupy v kapitole 4. Další, nastiňovat téma, které se vyskytují v celé knize, tyto latentní-attribute odvozovací problémy-, které lze někdy řešit s učení s učitelem, se ukáže být velmi časté u sociálního výzkumu v digitální věk. Uvidíte obrázky velmi podobně jako na obrázku 2.3 v kapitolách 3 (kladení otázek) a 5 (Tvorba masové spolupráce); je to jedna z mála nápadů, které se objeví v několika kapitolách.
Všechny tyto tři příklady-pracovní chování taxikářů v New Yorku, tvorba přátelství studenty a sociální cenzura sdělovacích prostředků chování čínské vlády-ukazují, že poměrně jednoduché počítání pozorovacích dat může umožnit vědcům testovat teoretické předpovědi. V některých případech, zpracování velkých objemů dat umožňuje provádět tuto počítání relativně přímo (jako je tomu v případě New York taxi). V ostatních případech, vědci budou muset vybírat své vlastní pozorovací data (jako v případě čínské cenzury); řešit neúplnosti sloučením údajů společně (jako je tomu v případě vývoje sítě); nebo provádění nějakou formu latentního rysů závěru (jako je tomu v případě čínského cenzury). Jako Doufám, že tyto příklady ukazují, pro výzkumné pracovníky, kteří jsou schopni klást zajímavé otázky, velký je velmi slibná.