2.4.1.3 sensuer fan sosjale media troch de Sineeske oerheid

Ûndersikers sloopt Chinese sosjale media sites te studearjen sensuer. Se behannele incompleteness mei latinte-trait konklúzje.

Neist de grutte gegevens brûkt wurde yn de twa foargeande foarbylden, ûndersikers kinne ek sammelje harren eigen feiten 't waarnimming, as waard wûnderlik yllustrearre troch Gary King, Jennifer Pan, en Molly Roberts' (2013) ûndersyk op sensuer troch de Sineeske oerheid.

Sosjale media berjochten yn Sina wurde censored troch in enoarme steatsynrjochting foar dy't wurdt tocht oan ûnder tsientûzenen minsken. Ûndersikers en boargers, lykwols, hawwe net folle gefoel fan hoe't dizze censors bepale wat de ynhâld moat wurde wiske fan de sosjale media. Gelearden fan Sina eins hawwe tsjinstridige ferwachtings oer hokker soarten fan berjochten binne nei alle gedachten om wiske. Guon tinke dat censors rjochtsje op berjochten dy't kritysk fan de steat wylst oaren tinke dat se rjochtsje op berjochten dy't befoarderje kollektive gedrach, lykas protesten. Figuring út hokker fan dy ferwachtings is korrekt hat gefolgen foar hoe't ûndersikers begripe Sina en oare autoritêre oerheden dy't ynsette yn sensuer. Dêrom, kening en kollega woene ferlykje berjochten dy't publisearre waarden en dêrnei wiske nei berjochten dat waarden publisearre en nea wiske.

Collecting dizze berjochten belutsen it amazing engineering feat fan Crawling mear as 1.000 Chinese sosjale media websiden-elk mei ferskillende side layouts-finding relevante berjochten, en dan revisiting dizze berjochten om te sjen hokker waarden dêrnei wiske. Njonken de normale engineering problemen ferbûn mei grutte skaal web-Crawling, dit projekt hie de tafoege útdaging dat it nedich te wêzen tige fluch omdat in soad censored berjochten wurde ôfnommen yn minder as 24 oeren. Yn oare wurden, in trage crawler soe misse in soad berjochten dy't censored. Fierder, de crawlers moasten dwaan al dizze gegevens samling wylst striid tsjin opspoaren dat de sosjale media websites blokkearje tagong of oars feroarje harren belied yn nei oanlieding fan it ûndersyk.

Ienris dizze massive engineering taak wie klear, kening en kollega hie helle oer 11 miljoen berichten op 85 ferskillende ûnderwerpen dy't pre-spesifisearre op basis fan harren ferwachte nivo fan gefoelichheid. Bygelyks, in ûnderwerp fan hege gefoelichheid is Ai Weiwei, de dissidinte keunstner; in ûnderwerp fan midden gefoelichheid is wurdearring en devaluaasje fan de Sineeske munt, en in ûnderwerp fan lege gefoelichheid is de World Cup. Fan dy 11 miljoen berichten oer 2 miljoen hie censored, mar berjochten op tige gefoelige ûnderwerpen waarden censored allinne wat faker as berjochten op midden en lege gefoelichheid ûnderwerpen. Yn oare wurden, Chinese censors binne oer as nei alle gedachten te censor in post dy't neamt Ai Weiwei as in post dy't neamt de Wrâldbeker. Dy befinings kaam net oerien mei de simplistic idee dat de oerheid censors alle berjochten op gefoelige ûnderwerpen.

Dy ienfâldige berekkening fan sensuer taryf troch ûnderwerp koe wêze misliedend, lykwols. Bygelyks, de oerheid soe censor berjochten dy't stypjende fan Ai Weiwei, mar lit berjochten dy't kritysk fan him. Om ûnderskied tusken berjochten mear mei soarch, de ûndersikers moatte mjitten it fiellen fan elk post. Sa, ien manier om te tinken oer it is dat it fiellen fan elk post yn in wichtige latinte funksje fan elk post. Spitigernôch, nettsjinsteande in protte wurk, folslein automatisearre metoaden fan fiellen detection mei help fan pre-besteande wurdboeken binne noch net hiel goed yn in protte situaasjes (tink werom oan de problemen it meitsjen fan in emosjonele tiidbalke fan 11 septimber, 2001 út paragraaf 2.3.2.6). Dêrom, kening en kollega nedich in manier om label harren 11 miljoen sosjale media berjochten as oan oft se wienen 1) kritysk fan 'e steat, 2) stypjende fan' e steat, of 3) relevant of feitlike rapporten oer de eveneminten. Dat klinkt as in massive baan, mar se oplost dat mei help fan in krêftich trick; ien dat is gewoan in gegevens wittenskip, mar op dit stuit relatyf seldsum yn sosjale wittenskip.

Earst, yn in stap meastal neamd pre-ferwurking, de ûndersikers omsetten de sosjale media berjochten yn in dokumint-term matrix, dêr't der wie ien rige foar elk dokumint en ien kolom dy't opnommen oft de post befette in spesifyk wurd (eg, protest, ferkear, ensfh). Folgjende, in groep fan ûndersyk assistinten hân-bestimpele it fiellen fan in stekproef fan de post. Doe, kening en kollega brûkt dizze hân-bestimpele gegevens te skatten in masine learen model dat koe ôfliede it fiellen fan in post basearre op syn skaaimerken. Ta beslút, hja brûkt dizze machine learen model te skatten it fiellen fan alle 11 miljoen berichten. Sa, ynstee fan mei de hân it lêzen en Labeling 11 miljoen berichten (dat soe wêze logistically ûnmooglik), se hân bestimpele in lyts tal berjochten en dêrnei brûkt hokker gegevens wittenskippers soe neame begelaat learen te skatten de kategoryen fan alle berjochten. Nei it ynfoljen fan dizze analyze, Kening en kollega koenen konkludearje dat, wat ferrassend, de kâns fan in post dy't wiske wie Yngling oan oft it wie kritysk fan de steat of stypjende fan 'e steat.

Figuer 2.3: Simplified Skematyske foar de proseduere brûkt yn kening, Pan, en Roberts (2013) oan in rûzing it fiellen fan 11 miljoen Chinese sosjale media berjochten. Earst, yn in stap meastal neamd pre-ferwurking, de ûndersikers omsetten de sosjale media berjochten yn in dokumint-term matrix (sjoch Grimmer en Stewart (2013) foar mear ynformaasje). Twadde, de ûndersikers hand-ynmekoar setten it fiellen fan in lytse stekproef fan berjochten. Tredde, de ûndersikers oplaat in begelaat learen model te klassifisearjen it fiellen fan berjochten. Fjirde, de ûndersikers brûkt de begelaat learen model te skatten it fiellen fan alle berjochten. Sjoch King, Pan, en Roberts (2013), Taheakke B foar in mear detaillearre beskriuwing.

Figuer 2.3: Simplified Skematyske foar de proseduere brûkt yn King, Pan, and Roberts (2013) oan in rûzing it fiellen fan 11 miljoen Chinese sosjale media berjochten. Earst, yn in stap meastal neamd pre-ferwurking, de ûndersikers omsetten de sosjale media berjochten yn in dokumint-term matrix (sjoch Grimmer and Stewart (2013) foar mear ynformaasje). Twadde, de ûndersikers hand-ynmekoar setten it fiellen fan in lytse stekproef fan berjochten. Tredde, de ûndersikers oplaat in begelaat learen model te klassifisearjen it fiellen fan berjochten. Fjirde, de ûndersikers brûkt de begelaat learen model te skatten it fiellen fan alle berjochten. Sjoch King, Pan, and Roberts (2013) , Taheakke B foar in mear detaillearre beskriuwing.

Yn 'e ein, kening en kollega ûntdutsen dat mar trije soarten berjochten waarden geregeld censored: pornografy, krityk fan censors, en dyjingen dy't hienen kollektive aksje potinsje (dat wol sizze, de mooglikheid fan liedende ta grutskalige protesten). Troch observearjen in grut oantal berjochten dat waarden wiske en berjochten dy't net wiske, kening en kollega koenen te learen hoe't de censors wurkje gewoan troch watching en tellen. Yn lettere ûndersyk, se eins direkt tuskenbeide yn it Sineesk sosjale media ekosysteem troch it meitsjen fan berjochten mei systematysk ferskillende ynhâld en measuring dy't get censored (King, Pan, and Roberts 2014) . Wy sille leare mear oer eksperimintele oanpakken yn haadstik 4. Fierder, foreshadowing in tema dat sil foarkomme yn it boek, dy latinte-attribút konklúzje problemen-dat kin soms wurde oplost mei begelaat learen-blike te wêzen hiel gewoan yn sosjale ûndersyk yn de digitale leeftyd. Jo sille sjen foto tige ek te Figure 2.3 yn haadstikken 3 (Asking fragen) en 5 (meitsje massa gearwurking); it is ien fan de pear ideeën dy't ferskynt yn meardere haadstikken.

Alle trije fan dizze foarbylden-de wurkjende gedrach fan taxichauffeurs yn New York, freonskip formaasje troch studinten, en sosjale media sensuer gedrach fan de Sineeske regearing-show, dy't relatyf ienfâldige tellen fan feiten 't waarnimming kinne ynskeakelje ûndersikers te testen teoretyske foarsizzings. Yn guon gefallen, grutte gegevens makket jo te dwaan dit oantal groeit relatyf direkt (lykas yn it gefal fan New York Taxi). Yn oare gefallen, ûndersikers sille moatte sammelje harren eigen feiten 't waarnimming (lykas yn it gefal fan Sineesk sensuer); omgean mei incompleteness troch it gearfoegjen fan gegevens tegearre (sa as yn it gefal fan netwurk evolution); of it útfieren fan in oantal foarm fan latinte-trek konklúzje (sa as yn it gefal fan Sineesk sensuer). As ik hoopje dat dizze foarbylden litte, foar ûndersikers dy't by steat binne om freegje nijsgjirrige fragen, grut hâldt grutte belofte.