Els investigadors van gratar els llocs de mitjans socials xinesos per estudiar la censura. Ells tracten incomplet amb la inferència latent-tret.
A més dels grans dades utilitzades en els dos exemples anteriors, els investigadors també poden recollir les seves pròpies dades d'observació, com va ser meravellosament il·lustrat per Gary King, Jennifer Pa, i 'Molly Roberts (2013) la investigació sobre la censura per part del govern xinès.
els missatges dels mitjans socials a la Xina són censurades per una enorme aparell estatal que es creu que inclou desenes de milers de persones. Els investigadors i els ciutadans, però, tenen poc sentit de com aquests censors decidir quin contingut ha de ser eliminat dels mitjans de comunicació social. Els estudiosos de la Xina en realitat tenen expectatives en conflicte sobre quins tipus de missatges tenen més probabilitats de quedar eliminat. Alguns pensen que els censors se centren en els missatges que són crítics de l'estat, mentre que altres creuen que se centren en els missatges que fomenten el comportament col·lectiu, com ara protestes. Esbrinar quina d'aquestes expectatives és correcte té implicacions sobre com els investigadors a entendre la Xina i altres governs autoritaris que es dediquen a la censura. Per tant, el rei i els seus col·legues volien comparar els missatges que van ser publicats i posteriorment s'eliminen als llocs que van ser publicats i mai eliminar.
La recol·lecció d'aquests missatges va implicar la increïble obra d'enginyeria de rastreig més de 1.000 llocs web -cada xinesos els mitjans de comunicació social amb diferents dissenys de pàgina de cerca de missatges rellevants, i després tornar a visitar aquests missatges per veure que s'elimina posteriorment. A més dels problemes d'enginyeria normals associats a gran escala web de rastreig, aquest projecte tenia el repte afegit de que havia de ser molt ràpid perquè molts missatges censurats es prenen en menys de 24 hores. En altres paraules, un rastrejador lenta es perdria una gran quantitat de missatges que van ser censurades. A més, els rastrejadors van haver de fer tot això mentre que la recol·lecció de dades evadir la detecció no sigui que els llocs web de mitjans socials bloquegen l'accés o d'una altra manera canviar les seves polítiques en resposta a l'estudi.
Una vegada que es va completar aquesta tasca massiva d'enginyeria, el rei i els seus col·legues havien obtingut uns 11 milions de missatges en 85 temes diferents que eren pre-especificada en funció del seu nivell esperat de sensibilitat. Per exemple, un tema d'alta sensibilitat és Ai Weiwei, l'artista dissident; un tema de sensibilitat mitjana és la revaloració i la devaluació de la moneda xinesa, i un tema de sensibilitat baixa és la Copa del Món. D'aquests 11 milions de llocs de voltant de 2 milions havien estat censurats, però els missatges sobre temes altament sensibles van ser censurats només una mica més sovint que els missatges sobre temes de sensibilitat mitjana i baixa. En altres paraules, els censors xinesos són tan propensos a censurar un post que esmenta Ai Weiwei com un lloc que esmenta la Copa del Món. Aquestes troballes no coincideixen amb la idea simplista que el govern censura tots els missatges sobre temes sensibles.
Aquest simple càlcul de la taxa de censura per tema podria ser enganyós, però. Per exemple, el govern pot censurar els missatges de suport que són d'Ai Weiwei, però que deixen missatges que són crítics d'ell. Per tal de distingir entre els missatges amb més cura, els investigadors necessiten mesurar el sentiment de cada lloc. Per tant, una manera de pensar en això és que el sentiment de cada missatge en una característica latent important de cada lloc. Malauradament, tot i molta feina, mètodes totalment automatitzats de detecció d'emocions utilitzant diccionaris pre-existents encara no són molt bons en moltes situacions (pensi de nou als problemes per crear una línia de temps emocional de l'11 de setembre de 2001 la Secció 2.3.2.6). Per tant, el rei i els seus col·legues necessitaven una forma d'etiquetar els seus 11 milions de missatges de mitjans socials pel que fa a si eren 1) crítica de l'estat, 2) de suport de l'estat, o 3) els informes irrellevants o de fet sobre els esdeveniments. Això sona com un treball enorme, però ho va resoldre mitjançant un potent truc; un que és comú en la ciència de dades però en l'actualitat relativament poc freqüent en les ciències socials.
En primer lloc, en una etapa típicament anomenada pre-processament, els investigadors converteixen els missatges dels mitjans socials en una matriu document termini, on hi havia una fila per a cada document i una columna que registra si el missatge conté una paraula específica (per exemple, la protesta, trànsit, etc.). A continuació, un grup d'assistents d'investigació mà marcada amb el sentiment d'una mostra de correus. Llavors, el rei i els seus col·legues van usar aquestes dades amb l'etiqueta a mà per estimar un model d'aprenentatge màquina que pogués inferir el sentiment d'un lloc a partir de les característiques. Finalment, es va utilitzar aquest model d'aprenentatge automàtic per estimar el sentiment dels 11 milions de missatges. Per tant, en lloc de llegir de forma manual i etiquetatge 11 milions de llocs (el que seria logísticament impossible), s'etiqueten manualment un petit nombre de llocs i després utilitzen les dades que els científics cridarien aprenentatge supervisat per estimar les categories de tots els missatges. Després de completar aquesta anàlisi, el rei i els seus col·legues van ser capaços de concloure que, sorprenentment, la probabilitat que un missatge sigui eliminat, no estava relacionada amb si era crític de l'estat o de suport de l'estat.
Al final, el rei i els seus col·legues van descobrir que només tres tipus de missatges van ser censurats regularment: la pornografia, la crítica dels censors, i els que tenien potencial d'acció col·lectiva (és a dir, la possibilitat de dur a protestes a gran escala). Mitjançant l'observació d'un gran nombre de llocs que s'han eliminat i missatges que no es van eliminar, el rei i els seus col·legues van ser capaços d'aprendre com funcionen els censors només per veure i explicar. En la investigació posterior, que en realitat van intervenir directament en l'ecosistema xinès mitjans de comunicació social mitjançant la creació de missatges amb diferents continguts de forma sistemàtica i de mesurament que aconseguir censurat (King, Pan, and Roberts 2014) . Anem a aprendre més sobre els enfocaments experimentals en el capítol 4. A més, presagiant un tema que ocorrerà al llarg del llibre, aquests problemes -que latent en atributs d'inferència de vegades es poden resoldre amb l'aprenentatge supervisat-arribar a ser molt comú en la investigació social en el era digital. Podràs veure imatges molt similar a la Figura 2.3 en els capítols 3 (Fer preguntes) i 5 (Creació de col·laboració en massa); és una de les poques idees que apareix en diversos capítols.
Els tres d'aquests exemples-el comportament de treball dels conductors de taxi a Nova York, la formació de l'amistat pels estudiants, i els mitjans de comunicació social, el comportament censura del govern xinès que presentes relativament simple recompte de les dades d'observació pot permetre als investigadors per posar a prova les prediccions teòriques. En alguns casos, les grans dades li permet fer aquest recompte relativament directa (com en el cas dels taxis de Nova York). En altres casos, els investigadors hauran de recollir les seves pròpies dades d'observació (com en el cas de la censura xinesa); tractar amb incomplet mitjançant la fusió de dades en conjunt (com en el cas de l'evolució de la xarxa); o realitzar algun tipus d'inferència latent-tret (com en el cas de la censura xinès). Com espero que aquests exemples mostren, per als investigadors que són capaços de fer preguntes interessants, gran és una gran promesa.