2.4.1.3 Cenzūra sociālo mediju, ko Ķīnas valdība

Pētnieki izgrebj ķīniešu sociālo mediju vietnes, lai izpētītu cenzūru. Viņi nodarbojas ar nepilnībām ar latenti-iezīmju secinājumu.

Papildus lielajām izmantoto datu divos iepriekšējos piemēros, pētnieki var arī savākt savus novērojumu datiem, kā to lieliski ilustrē Gary King, Jennifer Pan, un Molly Roberts " (2013) pētījuma par cenzūru, ko Ķīnas valdība.

Sociālo mediju ziņojumi Ķīnā tiek cenzēta ar milzīgo valsts aparāta, kas, domājams, iekļaujot desmitiem tūkstošu cilvēku. Pētnieki un iedzīvotājiem, tomēr ir maz jēgas par to, kā šie cenzori izlemt, kādu saturu jāsvītro no sociālo mediju. Zinātnieki no Ķīnas faktiski ir pretrunīgas cerības par to, kura veida amatu, visticamāk, lai saņemtu dzēsts. Daži domā, ka cenzori koncentrēties uz amatiem, kas ir kritiski valsts, bet citi domā, ka viņi koncentrējas uz amatiem, kas veicina kolektīvo uzvedību, piemēram, protestiem. Norādītas, kura no šīm cerībām ir pareizs, ietekmē to, kā zinātnieki saprast Ķīnu un citām autoritāro valdību, kas iesaistās cenzūru. Tāpēc, King un kolēģi vēlējās salīdzināt amatus, kas tika publicēti un vēlāk svītrots amatos, kas tika publicēti un nekad svītrots.

Collecting šiem amatiem iesaistīti apbrīnojamo inženieru feat indeksēšanu vairāk nekā 1000 ķīniešu sociālo mediju mājas lapām-katrs ar dažādu lapu izkārtojumi noskaidrošanas atbilstošus amatus, un pēc tam pārskatīt šos amatus, lai redzētu, kas vēlāk tika dzēsti. Papildus parastajām inženierijas problēmām, kas saistītas ar liela mēroga tīmekļa indeksēšanu, šis projekts bija papildu izaicinājumu, ka tas nepieciešams, lai būt ļoti ātri, jo daudzi cenzētas amati tiek veikti noteikti mazāk nekā 24 stundas. Citiem vārdiem sakot, lēns kāpurķēžu garām daudz amatu, kas tika izslēgti. Tālāk, roboti bija darīt visu šo datu vākšanu, bet izvairīties atklāšanu lai sociālie mediju mājas lapām bloķēt piekļuvi vai kā citādi mainīt savu politiku, reaģējot uz pētījumā.

Kad šī milzīgā engineering uzdevums tika pabeigts, King un kolēģi bija ieguvis aptuveni 11000000 posts par 85 dažādām tēmām, kas bija iepriekš noteikta, pamatojoties uz to paredzamo jutīguma līmenim. Piemēram, jautājums par augstas jutības ir Ai Weiwei, disidentu mākslinieks; temats vidū jutība ir atzinību un devalvācija Ķīnas valūtu, un tēma zema jutība ir Pasaules kausa. No šiem 11 miljoniem amatiem aptuveni 2.000.000 bija cenzēta, bet posts par ļoti jutīgām tēmām tika izslēgti tikai nedaudz biežāk nekā amatiem vidēju un zemu jutīguma tēmām. Citiem vārdiem sakot, Ķīnas cenzori ir apmēram tikpat iespējams cenzēt amatu, kurā minēta Ai Weiwei kā amatu, kas minēta Pasaules kausa. Šie konstatējumi neatbilda vienkāršots domu, ka valdība cenzori visas ziņas par jutīgiem jautājumiem.

Šo vienkāršo aprēķinu cenzūras likmi par tēmu varētu būt maldinoša, tomēr. Piemēram, valdība varētu cenzēt ziņojumus, ar ko atbalsta Ai Weiwei, bet atstāj amatu, kas ir kritiski viņu. Lai atšķirtu amatu rūpīgāk, pētnieki ir nepieciešams, lai noteiktu noskaņojumu katram amatam. Tātad, viens veids, kā domāt par to, ka ar noskaņojumu katram amatam svarīgu latento iezīme katram amatam. Diemžēl, neskatoties uz daudz darba, pilnībā automatizētas metodes noskaņojuma atklāšanu, izmantojot Esoša vārdnīcas joprojām nav ļoti labi daudzās situācijās (domāju, ka atpakaļ uz problēmām radot emocionālu grafiku, 2001. gada 11. septembrī, no 2.3.2.6 iedaļu). Tāpēc, King un kolēģi nepieciešams veids marķēt savus 11 miljonus sociālo mediju ziņojumus par to, vai tie ir 1) kritiski valsts, 2) atbalsta valsts, vai 3) neatbilstošos vai faktisku pārskatu par notikumiem. Tas izklausās masveida darbu, bet tās atrisināt to, izmantojot spēcīgu triks; viens, kas ir kopīgs datu zinātnē, bet šobrīd salīdzinoši reti sociālo zinātņu.

Pirmkārt, soli parasti sauc pirmapstrāde, pētnieki pārveidots sociālo mediju ziņojumus par dokumentu termiņa matricas, kur bija viena rinda par katru dokumentu un viena kolonna, kas reģistrēta vai amatu ietverta īpaša vārdu (piemēram, protests, satiksmes, utt.) Tālāk, grupa pētniecības asistentiem roku marķētas noskaņojumu par paraugu amatu. Tad, King un kolēģi izmanto šo roku iezīmētas datus, lai aplēstu mašīna mācību modeli, kas varētu secināt noskaņojumu amata, pamatojoties uz tā īpašībām. Visbeidzot, viņi izmanto šo mašīnu mācību modeli, lai novērtētu noskaņojumu visu 11 miljonu amatiem. Tātad, nevis manuāli lasīšanas un marķēšanas 11 miljoni punkti (kas būtu loģistiski neiespējami), kad manuāli marķēti nelielu amata vietu skaitu un pēc tam izmanto, kādi dati zinātnieki varētu likt uzraudzītu mācīšanos novērtēt visu amatu kategorijām. Pabeidzot šo analīzi, King un kolēģi varēja secināt, ka, nedaudz pārsteidzoši, varbūtība amata tiek dzēsti bija saistīts ar to, vai tas bija kritiski valsts vai atbalsta valsts.

2.3 attēls: Vienkāršota shematisks procedūrai izmanto King, Pan, un Roberts (2013), lai novērtētu noskaņojumu 11 miljonu Ķīnas sociālo mediju amatu. Pirmkārt, soli parasti sauc pirmapstrāde, pētnieki pārvērš sociālo mediju ziņojumus par dokumentu termiņa matricu (skat grimmer un Stewart (2013), lai iegūtu vairāk informācijas). Otrkārt, pētnieki roku kodēta noskaņojumu nelielu paraugu amatu. Treškārt, pētnieki apmācīts uzraudzītu mācību modeli klasificēt noskaņojumu amatu. Ceturtkārt, pētnieki izmantoja uzraudzīto mācību modeli, lai novērtētu noskaņojumu visu amatu. Skatīt King, panna, un Roberts (2013), B papildinājumu sīkāku aprakstu.

2.3 attēls: Vienkāršota shematisks procedūrai izmanto King, Pan, and Roberts (2013) , lai novērtētu noskaņojumu 11 miljonu Ķīnas sociālo mediju amatu. Pirmkārt, soli parasti sauc pirmapstrāde, pētnieki pārvērš sociālo mediju ziņojumus par dokumentu termiņa matricu (skat Grimmer and Stewart (2013) , lai iegūtu vairāk informācijas). Otrkārt, pētnieki roku kodēta noskaņojumu nelielu paraugu amatu. Treškārt, pētnieki apmācīts uzraudzītu mācību modeli klasificēt noskaņojumu amatu. Ceturtkārt, pētnieki izmantoja uzraudzīto mācību modeli, lai novērtētu noskaņojumu visu amatu. Skatīt King, Pan, and Roberts (2013) , B papildinājumu sīkāku aprakstu.

Galu galā, King un kolēģi atklāja, ka tikai trīs veidu amatiem tika regulāri cenzēta: pornogrāfija, kritiku par cenzūras, un tie, kas bija kolektīvās rīcības potenciāls (ti, iespēju izraisot plaša mēroga protestiem). Ievērojot milzīgs amatu skaits, kas tika svītrots un ziņojumi, kas nav izdzēsti, King un kolēģi bija iespēja uzzināt, kā cenzūras strādāt tikai skatoties un skaitīšana. Turpmākajā pētījuma, tie faktiski tieši iejaucās vērā Ķīnas sociālo mediju ekosistēmas pēc ziņas ar sistemātiski atšķirīgu saturu un mērīšanas kas get censored radot (King, Pan, and Roberts 2014) . Mēs uzzinātu vairāk par eksperimentālu pieeju 4. nodaļā tālāk, foreshadowing tēmu, kas notiks visā grāmatā, šie latenta-atribūts secināt problēmas-kas dažkārt var atrisināt ar uzraudzīta mācīšanās izrādīties ļoti bieži sociālajos pētījumus digitālais laikmets. Jūs redzēsiet bildes ļoti līdzīgs 2.3 3. un 5. nodaļā (uzdodot jautājumus) attēls (Radīt masu sadarbība); tas ir viens no nedaudzajiem idejas, kas parādās vairākās nodaļās.

Visi trīs no šiem piemēriem-darba uzvedību taksometru vadītājiem Ņujorkā, draudzības veidošanos studentu un sociālo mediju cenzūras uzvedību Ķīnas valdības liecina, ka samērā vienkāršs skaitīšana novērojumu dati var ļautu pētniekiem, lai pārbaudītu teorētiskās prognozes. Dažos gadījumos, lielie dati ļauj izdarīt skaitīšanu salīdzinoši tieši (kā gadījumā Ņujorkas taksometru). Citos gadījumos, pētnieki būs nepieciešams savākt savu novērojumu dati (kā gadījumā Ķīnas cenzūras); galā ar nepilnībām, apvienojot datu kopā (kā gadījumā tīkla attīstība); vai veicot kādu no latenta-iezīme secinājumu (kā gadījumā Ķīnas cenzūras). Kā es ceru, ka šie piemēri rāda, pētniekiem, kuri spēj uzdot interesantus jautājumus, liels tur liels solījums.