2.4.1.3 social media zentsura Txinako gobernuak

Ikertzaileak scraped Chinese social media sites zentsura aztertzeko. Landu sorra-ezaugarri inferentzia batera osatugabea ekin zioten.

Aurreko bi adibide erabilitako datuak big gain, ikertzaileek beren behaketa datuak ere jaso daiteke, gisa zen wonderfully Gary King, Jennifer Pan, eta Molly Roberts 'ilustratua (2013) zentsura buruzko ikerketa Txinako gobernuak.

Social media Txinan mezu izugarria egoera aparatu bat dela uste da hamarnaka mila pertsona, besteak zentsuratu. Ikertzaileak eta herritarrek, ordea, ez dute zentsoreek horiek nola erabaki zer edukiak gizarte-tik ezabatu egin behar da zentzu gutxi. Txinako Scholars benetan dute gatazkatsuak itxaropenak zein mezu mota dira ziurrenik deleted emateko. Batzuek uste zentsoreek duten egoera kritikoa batzuek, aldiz, portaera kolektiboa bultzatzen duten mezu, besteak beste, protesta gisa ardatz dute mezu ardatz. Kalkulatzen bertan aurreikuspen horiek zuzena da ikertzaile nola ulertzen Txina eta zentsura ihardun duten beste autoritario gobernuek inplikazioak ditu. Hori dela eta, King eta lankideek argitaratu ziren eta, ondoren argitaratu ziren, eta inoiz ezabatzen mezu ezabatu mezu alderatu nahi.

Mezu horiek Biltzen inplikatutako harrigarria ingeniaritza 1.000 baino gehiago Chinese social media web-bakoitzari arakatzea mezu garrantzitsuak ezberdinak Orrialdearen diseinu-aurkitzeko, eta, ondoren, mezu horiek berrikusten eta ondoren ezabatu ziren ikusteko batera balentria. eskala handiko web-arakatze- lotutako normal ingeniaritza arazoak gain, proiektu hau gehitu Erronka hori oso azkarra izan behar da zentsuratu mezu asko hartu behar dituelako behera 24 ordu baino gutxiago izan. Beste era batera esanda, crawler motela duten zentsuratuak sarrera asko galdu litzateke. Aurrerago, crawlers datu bilketa hori guztia egin bitartean evading detektatzeko lest gizarte media webgune sarbidea blokeatu edo bestela euren politikak aldatu estudio erantzunez izan.

Behin masiboa ingeniaritza Zeregin hori amaitu zen, King eta lankideen 85 gai ezberdinak aurrez zehaztutako oinarritutako bere sentikortasun-maila espero nabarmendu ziren mezu 11 milioi inguru izan dituzte. Adibidez, sentikortasun handiko gai bat Ai Weiwei, disidente artista da; erditik sentsibilitatea gai bat estimua eta txinatar monetaren debaluazioa da, eta sentikortasun baxua gaia bat Munduko Kopa da. horiek 11 milioi mezu Of 2 milioi inguru izan dira zentsuratuak, baina gaiak oso sentikorra mezu erdi eta behe sentsibilitatea gaiei buruzko mezu baino zentsuratuak bakarrik zertxobait maizago. Beste era batera esanda, Txinako zentsurak dira buruz bezala litekeena Ai Weiwei aipatzen World Cup aipatzen duten post gisa post bat zentsura. Aurkikuntza horiek ez sinplista ideia gobernuak zentsura duten gaiak sentikorra mezu guztiekin bat.

zentsura tasa gaia ek kalkulu sinple hau engainagarria izan daiteke, ordea. Esate baterako, gobernuak Ai Weiwei solidario dira, baina hori haren kritiko dira mezu utzi mezu zentsura ditzake. Ordena mezuen artean bereizteko orduan kontu, ikertzaileek post bakoitzaren sentimendu neurtu behar. Horrela, pentsatu bide bat da post bakoitzaren sentimendu post bakoitza ezkutuko ezaugarri garrantzitsua direla. Zoritxarrez, lan handirik izan arren, sentimendu detektatzeko metodo guztiz automatizatua erabiliz pre-dagoen hiztegiak oraindik ez dira asko ere oso onak (uste back arazoak irailaren 11, 2001 timeline emozional bat 2.3.2.6 artikulua sortzen den). Hori dela eta, King eta bere lankideek 11 milioi social media mezu etiketa gisa 1 ote ziren) egoera kritikoa modu bat behar du, 2) Estatua, edo 3) garrantzirik edo faktual ekitaldi buruz txostenak solidarioa. Hau lan masiboa bat bezala soinuak, baina indartsua trikimailu bat erabiliz konpondu dute; bat da, datuak zientzia ohikoa baina gaur egun nahiko gizarte zientzietan arraroa.

Lehenengoa, pauso bat ere normalean pre-prozesatzeko deitu, ikertzaileek bihurtutako social media mezu dokumentu epe matrize bat, non dago dokumentu bakoitzak ilara bat eta zutabe bat grabatu post hitz jakin bat agertzen ote zen (adibidez, protesta, trafikoa, etab). Hurrengoa, ikerketa laguntzaile talde bat eskuz etiketatu post lagin baten sentimendu. Orduan, erregea eta lankideak erabilia hau eskuz etiketatu datuak makinen ikasketa eredu bat oinarritutako bere ezaugarrien post baten sentimendu inferitu ezin zenbatesteko. Azkenik, makina ikaskuntza eredu hori erabili dute guztiek 11 milioi mezu sentimendu balioesteko. Horrela, eskuz baino irakurketa eta etiketatzeari 11 milioi mezu (bertan logistically ezinezkoa litzateke), eskuz etiketatutako dute mezu kopuru txiki bat eta, ondoren, zer datu zientzialari gainbegiratutako ikaskuntza deitzen litzateke mezu guztien kategoriak zenbatesteko erabiltzen. analisi hau egin ondoren, King eta lankide bukatzeko gai izan ziren, zertxobait harrigarriro, post baten probabilitatea ezabatuko egoera kritikoa edo egoera solidarioa izan zen ala zerikusirik izan zen.

2.3 irudia: King, Pan erabilitako prozedura eskematiko zatitu, eta Roberts (2013) 11 milioi txinatar social media mezu sentimendu estimazioen. Lehenengoa, pauso bat ere normalean pre-prozesatzeko deitu, ikertzaileek bihurtutako gizarte media mezu dokumentu epe matrize batean (ikus Grimmer eta Stewart (2013) informazio gehiago eskuratzeko). Bigarren, ikertzaileen esku-kodetuak mezu lagin txiki baten sentimendu. Hirugarren, ikertzaileek ikasteko eredua ikuskatu bat mezu sentimendu sailkatzeko prestatuak. Laugarren, ikertzaileek erabilitako gainbegiratutako ikaskuntza eredu mezu guztien sentimendu balioesteko. Ikusi King, Pan, eta Roberts (2013), B eranskinean deskribapen zehatzagoa da.

2.3 irudia: erabilitako prozedura eskematiko zatitu King, Pan, and Roberts (2013) 11 milioi txinatar social media mezu sentimendu estimazioen. Lehenengoa, pauso bat ere normalean pre-prozesatzeko deitu, ikertzaileek bihurtutako gizarte media mezu dokumentu epe matrize batean (ikus Grimmer and Stewart (2013) informazio gehiago eskuratzeko). Bigarren, ikertzaileen esku-kodetuak mezu lagin txiki baten sentimendu. Hirugarren, ikertzaileek ikasteko eredua ikuskatu bat mezu sentimendu sailkatzeko prestatuak. Laugarren, ikertzaileek erabilitako gainbegiratutako ikaskuntza eredu mezu guztien sentimendu balioesteko. Ikusi King, Pan, and Roberts (2013) , B eranskinean deskribapen zehatzagoa da.

Azkenean, King eta lankideek aurkitu mezu mota hiru bakarrik aldizka zentsuratuak: pornografia, zentsura, kritika, eta hori ekintza potentzial kolektiboaren izan dutenak (hau da, eskala handiko protestak liderra aukera). ez ziren ezabatutako hori ezabatu eta mezu ziren mezu kopuru handi bat errespetatuz, King eta lankideek zentsura nola lan besterik behaketa eta kontatuz ikasteko aukera izan zuten. Ondorengo ikerketa, zuzenean, benetan dute Txinako gizarte komunikabideen ekosistema sartu zen tartean edukiak sistematikoki ezberdinak eta neurketa bertan emateko zentsuratu duten mezuak sortuz (King, Pan, and Roberts 2014) . 4. kapitulua Aurrerago, beste ikuspegi esperimentala gehiago ikasiko dugu, gai bat izango dela liburu osoan zehar gertatzen foreshadowing, sorra-attribute inferentzia arazo-bertan batzuetan konpondu horiek gainbegiratutako ikaskuntza-buelta oso ohikoa ikerketa soziala ere izan Aro digitalean. irudiak oso antzekoak 2,3 3 eta 5. kapituluetan (galderak) en irudia ikusiko duzu (masa lankidetza sortzea); gutxi ideia kapitulu bat baino gehiago agertzen den bat da.

Adibide-lanean taxi New York-en, adiskidetasuna eraketa ikasleak arabera, eta gizarte komunikabideen zentsura Txinako gobernuak-show duten datuen behaketa zenbaketa nahiko erraza iragarpen teoriko probatzeko ikertzaile gaitu dezakezu portaera portaera horiek hiru. Zenbait kasutan, big datuak gaitzen zenbaketa hori egiteko nahiko zuzenean (New York Taxiak kasuan bezala). Beste kasu batzuetan, ikertzaileek beren behaketa datuak biltzeko (Txinako zentsura kasuan bezala) behar izango; osatugabea datuak batuz elkarrekin (sare eboluzioaren kasuan bezala) arabera moldatzea; edo sorra-ezaugarri inferentzia inprimaki batzuk eszenikoak (Txinako zentsura kasuan bezala). Espero nuen bezala adibide hauek erakusten, nor dira galdera interesgarri eskatu ahal ikertzaileentzat, big promesa handia dauka.