2.4.1.3 Sensuur van sosiale media deur die Chinese regering

Navorsers geskraap Chinese sosiale media webwerwe om sensuur te bestudeer. Hulle hanteer onvolledigheid met latente-eienskap afleiding.

Benewens die groot data wat in die vorige twee voorbeelde, kan navorsers ook versamel hul eie waarneming data, as wonderlik is geïllustreer deur Gary King, Jennifer Pan, en Molly Roberts se (2013) navorsing oor sensuur deur die Chinese regering.

Sosiale media poste in China is gesensor deur 'n enorme staat apparaat wat gedink tienduisende mense in te sluit. Navorsers en burgers het egter min sin van hoe hierdie sensors besluit watter inhoud moet verwyder word uit die sosiale media. Geleerdes van China het eintlik botsende verwagtings oor watter soort poste is die meeste geneig om te kry geskrap. Sommige dink dat sensors fokus op poste wat krities teenoor die staat is, terwyl ander dink hulle fokus op poste wat kollektiewe gedrag aan te moedig, soos protes. Uitzoeken watter een van hierdie verwagtinge is korrek het implikasies vir hoe navorsers verstaan ​​China en ander outoritêre regerings wat betrokke raak in sensuur. Daarom, koning en kollegas wou vergelyk poste wat gepubliseer en daarna geskrap om poste wat gepubliseer en nooit verwyder.

Invordering van hierdie poste betrokke die ongelooflike ingenieursprestasie van kruip meer as 1000 Chinese sosiale media webwerwe-elk met verskillende bladuitleg-vind relevante poste, en dan weer na hierdie poste te sien wat daarna geskrap. Benewens die normale ingenieursprobleme wat verband hou met 'n groot skaal web-kruip, hierdie projek het die bykomende uitdaging wat dit nodig is om baie vinnig te wees, want baie gesensor poste in minder as 24 uur geneem. Met ander woorde, sou 'n stadige kruiper baie poste wat gesensor mis. Verdere, die crawlers moes al hierdie data-insameling te doen terwyl ontduik opsporing sodat die media webwerwe sosiale toegang blok of andersins hul beleid te verander in reaksie op die studie.

Sodra hierdie massiewe ingenieurswese taak voltooi is, het King en kollegas oor 11 miljoen poste op 85 verskillende onderwerpe wat pre-gespesifiseerde grond van hul verwagte vlak van sensitiwiteit is verkry. Byvoorbeeld, 'n onderwerp van 'n hoë sensitiwiteit is Ai Weiwei, die dissidente kunstenaar; 'n onderwerp van die middel sensitiwiteit is waardering en verswakking van die Chinese geldeenheid, en 'n onderwerp van 'n lae sensitiwiteit is die Wêreldbeker-sokkertoernooi. Van hierdie 11 miljoen poste sowat 2 miljoen is gesensor, maar poste op uiters sensitiewe onderwerpe is net 'n bietjie meer dikwels gesensor as poste op middel- en lae sensitiwiteit onderwerpe. Met ander woorde, Chinese sensors is omtrent so geneig om 'n pos wat Ai Weiwei noem as 'n post wat die Wêreldbeker-toernooi noem sensor. Hierdie bevindinge het nie ooreen met die simplistiese idee dat die regering censoren alle plasings op sensitiewe onderwerpe.

Hierdie eenvoudige berekening van sensuur koers deur die onderwerp kan misleidend wees, egter. Byvoorbeeld, kan die regering sensor poste wat ondersteunend van Ai Weiwei is, maar laat poste wat krities teenoor hom is. Ten einde meer versigtig te onderskei tussen poste, moet die navorsers om die sentiment van elke pos te meet. So, een manier om daaroor te dink, is dat die sentiment van elke pos in 'n belangrike latente funksie van elke post. Ongelukkig, ten spyte van baie werk, ten volle outomatiese metodes van sentiment opsporing met behulp van pre-bestaande woordeboeke is nog nie baie goed in baie gevalle (dink terug aan die probleme skep 'n emosionele tydlyn van September 11, 2001 uit Afdeling 2.3.2.6). Daarom, koning en kollegas moes 'n manier om te etiketteer hul 11 ​​miljoen sosiale media poste om te bepaal of hulle 1) krities oor die toestand, 2) ondersteunend van die staat, of 3) irrelevant of feitelike verslae oor die gebeure. Dit klink soos 'n massiewe taak, maar hulle opgelos is dit met behulp van 'n kragtige truuk; een wat algemeen in data wetenskap, maar op die oomblik relatief skaars in die sosiale wetenskappe.

In die eerste plek in 'n stap tipies genoem pre-verwerking, die navorsers omskep die sosiale media poste in 'n dokument termyn matriks, waar daar 'n ry vir elke dokument en een kolom wat aangeteken of die post 'n spesifieke woord vervat (bv, protes, verkeer, ens). Volgende, 'n groep van navorsing assistente hand-benoemde die sentiment van 'n monster van die post. Toe het koning en kollegas gebruik hierdie hand gemerk data om 'n masjien leermodel wat die sentiment van 'n pos op grond van sy eienskappe kan aflei skat. Ten slotte, gebruik hulle hierdie masjienleer model om die sentiment van al 11 miljoen poste te skat. Dus, eerder as om met die hand te lees en etikettering 11 miljoen poste (wat logisties onmoontlik sou wees), het hulle met die hand gemerk 'n klein aantal poste en dan gebruik wat data wetenskaplikes onder toesig leer sou noem om die kategorieë van al die poste te skat. Na voltooiing van hierdie analise, Koning en kollegas in staat was om tot die gevolgtrekking dat, ietwat verrassend, die waarskynlikheid van 'n pos wat verwyder was nie verband hou met of dit was krities teenoor die staat of ondersteunend van die staat.

Figuur 2.3: Vereenvoudigde skematiese vir die prosedure wat gevolg word in King, Pan, en Roberts (2013) om te skat die sentiment van 11 miljoen Chinese sosiale media poste. In die eerste plek in 'n stap tipies genoem pre-verwerking, die navorsers omskep die sosiale media poste in 'n dokument termyn matriks (sien GRIMMER en Stewart (2013) vir meer inligting). Tweedens, het die navorsers die hand-gekodeerde die sentiment van 'n klein voorbeeld van poste. Derde, die navorsers opgelei n begeleide leermodel om die sentiment van poste te klassifiseer. Vierde, die navorsers gebruik die toesig leermodel om die sentiment van al die poste te skat. Sien King, Pan, en Roberts (2013), Bylae B vir 'n meer gedetailleerde beskrywing.

Figuur 2.3: Vereenvoudigde skematiese vir die prosedure wat gevolg word in King, Pan, and Roberts (2013) om te skat die sentiment van 11 miljoen Chinese sosiale media poste. In die eerste plek in 'n stap tipies genoem pre-verwerking, die navorsers omskep die sosiale media poste in 'n dokument termyn matriks (sien Grimmer and Stewart (2013) vir meer inligting). Tweedens, het die navorsers die hand-gekodeerde die sentiment van 'n klein voorbeeld van poste. Derde, die navorsers opgelei n begeleide leermodel om die sentiment van poste te klassifiseer. Vierde, die navorsers gebruik die toesig leermodel om die sentiment van al die poste te skat. Sien King, Pan, and Roberts (2013) , Bylae B vir 'n meer gedetailleerde beskrywing.

Op die ou end, Koning en kollegas ontdek dat slegs drie tipes poste gereeld gesensor: pornografie, kritiek van sensors, en diegene wat kollektiewe aksiepotensiaal het (dit wil sê, die moontlikheid van wat lei tot grootskaalse betogings). Deur die waarneming van 'n groot aantal poste wat geskrap en poste wat nie geskrap, Koning en kollegas in staat was om te leer hoe die sensors net werk deur te kyk en tel. In die daaropvolgende navorsing, hulle eintlik direk ingegryp in die Chinese sosiale media ekosisteem deur die skep van poste met stelselmatig verskillende inhoud en meet wat kry gesensor (King, Pan, and Roberts 2014) . Ons sal meer oor eksperimentele benaderings in Hoofstuk 4. Verdere leer, vooruitskouing 'n tema wat sal plaasvind regdeur die boek, hierdie latente-kenmerk afleiding probleme-wat soms opgelos kan word met toesig leer-uitdraai baie algemeen in sosiale navorsing in die te wees digitale ouderdom. Jy sal sien foto's baie soortgelyk aan figuur 2.3 in Hoofstuk 3 (Vrae te vra) en 5 (Skep massa samewerking); Dit is een van die min idees wat in verskeie hoofstukke verskyn.

Al drie hierdie voorbeelde-die werk gedrag van taxibestuurders in New York, vorming vriendskap deur studente en sosiale media sensuur gedrag van die Chinese regering-show wat relatief eenvoudige tel van waarneming data navorsers in staat kan stel om teoretiese voorspellings te toets. In sommige gevalle, 'n groot data in staat stel om hierdie tel relatief direk te doen (soos in die geval van New York Taxi's). In ander gevalle, sal navorsers moet hul eie waarneming data in te samel (soos in die geval van Chinese sensuur); hanteer onvolledigheid deur saam samesmelting data (soos in die geval van die netwerk evolusie); of die verrigting van een of ander vorm van latente-eienskap afleiding (soos in die geval van Chinese sensuur). Soos ek hoop dat hierdie voorbeelde wys, vir navorsers wat in staat is om interessante vrae te vra, 'n groot hou groot belofte.