Tutkijat kaavittu Kiinan sosiaalisen median sivustoja tutkia sensuuria. Ne käsitellään epätäydellisyys Latenttia-ominaisuuden päättely.
Sen lisäksi, että suuri käytetyn datan kahdessa edellisessä esimerkkiä, tutkijat voivat myös kerätä omia havaintotietoa kuten ihanan havainnollistetaan Gary King Jennifer Pan, ja Molly Robertsin (2013) tutkimus sensuuria Kiinan hallitus.
Sosiaalinen media virkaa Kiinassa sensuroidaan jonka valtava valtiokoneiston joka on ajateltu sisällyttää kymmeniä tuhansia ihmisiä. Tutkijat ja kansalaisten on kuitenkin tunne, miten nämä sensuroi päättää, millaista sisältöä olisi poistettava sosiaalisen median. Tutkijat Kiina todella on ristiriitaisia odotuksia siitä, millaisia viestejä todennäköisimmin saa poistaa. Joidenkin mielestä sensorit keskittyvät virkaa, jotka ovat kriittisiä valtio taas toiset ajattelevat he keskittyvät viestejä, jotka kannustavat kollektiivinen käyttäytyminen, kuten protestit. Selvittämällä joka näiden odotusten on oikea on vaikutuksia miten tutkijat ymmärtää Kiinan ja muiden autoritaariset hallitukset harjoittavien sensuuri. Siksi kuningas ja kollegat halusivat verrata viestejä, jotka julkaistiin ja myöhemmin poistettava viestejä, jotka julkaistiin ja koskaan poisteta.
Keräämällä nämä virat mukana hämmästyttävä engineering feat indeksoinnin yli 1000 Kiinan sosiaalisen median sivustot-kukin eri sivuntaitot-oikeiden virkaa, ja sitten tarkistamassa näitä viestejä, mitkä sittemmin poistettu. Lisäksi normaalin teknisiin kysymyksiin, jotka liittyvät suuren mittakaavan web-indeksoinnin, tämä projekti oli lisätty haaste että sen oli erittäin nopeasti, koska monet sensuroitu virkaa otetaan alas alle 24 tuntia. Toisin sanoen, hidas tela kaipaisi paljon viestejä, jotka sensuroitiin. Edelleen indeksoijat oli tehdä kaiken tämän tiedonkeruun ajan välttäen havaitseminen ettei sosiaalisen median sivustot estää pääsyn tai muuten muuttaa politiikkaansa vastauksena tutkimuksen.
Kun tämä massiivinen suunnittelu tehtävä oli suoritettu, kuningas ja kollegat olivat saaneet noin 11 miljoonaa viestiä 85 eri aiheista, jotka oli etukäteen määritelty perustuu niiden odotetun herkkyys. Esimerkiksi aihe suuri herkkyys on Ai Weiwei, toisinajattelija taiteilija; aihe keski herkkyys on arvostus ja devalvoituminen Kiinan valuutan, ja aihe alhainen herkkyys on MM. Näistä 11 miljoonaa viestiä noin 2 miljoonaa oli censored, mutta virkaa erittäin herkkiä aiheita sensuroitiin vain hieman useammin kuin virkoja keski- ja matala herkkyys aiheista. Toisin sanoen, kiinalaiset sensorit ovat suunnilleen yhtä todennäköisesti sensuroida post joka mainitsee Ai Weiwei post joka mainitsee MM. Nämä havainnot eivät vastaa yksinkertaista ajatusta, että hallitus sensuroi kaikki viestit arkaluonteisista aiheista.
Tämä yksinkertainen laskennassa sensuurin korkoa aihe voisi olla harhaanjohtavaa, mutta. Esimerkiksi hallitus saattaisi sensuroida viestejä, jotka tukevat Ai Weiwei, mutta jättää viestejä, jotka ovat kriittisiä häntä. Jotta erottaa viestit tarkemmin, tutkijat täytyy mitata tunteisiin kunkin postitse. Siten yksi tapa ajatella on, että ilmapiiri jokaisen post tärkeässä piilevä piirre kunkin postitse. Valitettavasti huolimatta paljon työtä, täysin automatisoitu menetelmät ilmapiiri havaitseminen käyttäen ennestään sanakirjat eivät vieläkään ole kovin hyvä monissa tilanteissa (muistelen ongelmia luoda emotionaalinen aikajana 11. syyskuuta, 2001 § 2.3.2.6). Siksi kuningas ja työtovereiden tarvitsi tapa merkitä niiden 11 miljoonan sosiaalisen median viestiä siitä, olivatko ne 1) kriittisesti valtion, 2) tukevat valtion tai 3) merkityksettömiä tai tosiasioihin raportteja tapahtumista. Tämä kuulostaa massiivinen työtä, mutta ne ratkaissut sen voimakkaalla temppu; joka on yleinen data science mutta tällä hetkellä suhteellisen harvinaisia yhteiskuntatieteissä.
Ensin vaiheessa tyypillisesti nimeltään esikäsittelyä, tutkijat muunnetaan sosiaalisen median viestit dokumenttiin aikavälin matriisi, jossa oli yksi rivi kunkin asiakirjan ja yksi sarake tallennetusta onko post sisälsi tietyn sanan (esim protesti, liikenne, jne.). Seuraavaksi ryhmä tutkimusapulaisia käsin leimattu tunteisiin näytteen postitse. Sitten kuningas ja kollegoineen tämä käsin leimattu data arvioida koneen oppimisen malli, joka voisi päätellä tunteisiin post perustuu sen ominaisuuksiin. Lopuksi he käyttivät tämän koneen oppimisen malli arvioida tunteisiin kaikki 11 miljoonaa viestiä. Siten sen sijaan manuaalisesti lukeminen ja merkintöjä 11 miljoonaa viestiä (mikä olisi logistisesti mahdotonta), ne käsin leimattu pieni määrä virkoja ja sitten käytetään mitä tietoja tiedemiehet kutsuisin ohjattu oppiminen arvioida luokkia kaikki viestit. Suoritettuaan tämän analyysin, kuningas ja työtovereiden pystyivät päättelemään, että, hieman yllättäen, todennäköisyys viestisi poistamiseen oli liity oliko kriittinen valtion tai tukevien valtion.
Lopulta kuningas ja kollegat huomasivat, että vain kolmea virkaa olivat säännöllisesti censored: pornografia, kritiikki sensuroi, ja ne, jotka olivat työtaistelutoimet potentiaali (eli mahdollisuus johtaa laajamittaiseen vastalauseita). Tarkkailemalla valtava määrä viestejä, jotka on poistettu ja viestit, joita ei ole poistettu, kuningas ja työtovereiden pystyivät oppia sensuroi toimivat vain katsomalla ja laskemalla. Myöhemmillä tutkimus, ne todella suoraan puuttunut osaksi Kiinan sosiaalisen median ekosysteemissä luomalla viestit systemaattisesti eri sisältöä ja mittaus, jotka saavat sensuroitu (King, Pan, and Roberts 2014) . Me lisätietoja kokeellisten lähestymistapojen luvussa 4. Edelleen ennakoi teema, joka tapahtuu koko kirjan, nämä piilevä-määrite päättely ongelmia, jotka voidaan joskus ratkaista ohjattu oppiminen-osoittautua hyvin yleistä sosiaalista tutkimusta digitaaliaikaan. Näet kuvia hyvin samanlainen kuva 2.3 luvussa 3 (Kysymysten) ja 5 (luominen massa yhteistyö); se on yksi harvoista ajatuksia, jotka näkyvät useita lukuja.
Kaikki kolme näistä esimerkeistä-työ käyttäytymistä taksinkuljettajien New Yorkissa, ystävyys muodostumista opiskelijoiden, ja sosiaalinen media sensuuri käyttäytymistä Kiinan hallituksen osoittavat, että suhteellisen yksinkertainen laskenta havaintoaineistoa voi antaa tutkijoille testata teoreettisten ennusteiden. Joissakin tapauksissa suuret tietojen avulla voit tehdä tämän laskennan suhteellisen suoraan (kuten tapauksessa New Yorkin taksit). Muissa tapauksissa, tutkijat täytyy kerätä omia havaintoaineistoa (kuten tapauksessa kiinalaisen sensuuria); käsittelevät epätäydellisyys yhdistämällä tiedot yhteen (kuten tapauksessa verkon evoluutio); tai suorittamalla jonkinlainen piilevä-ominaisuuden päättely (kuten tapauksessa kiinalaisen sensuuri). Kuten toivon nämä esimerkit osoittavat, tutkijoille, jotka pystyvät kysyä mielenkiintoisia kysymyksiä, iso erittäin lupaava.