Teadlased kaabitakse Hiina sotsiaalse meedia saidid õppida tsensuur. Nad käsitletud puudulikkus latentse-tunnus järeldamine.
Lisaks suur andmeid kasutatakse kahte eelmist näidet, teadlased võivad koguda ka oma vaatlusandmeid, nagu oli rikkalikult illustreeritud Gary King, Jennifer Pan ja Molly Roberts " (2013) uuringud tsensuur Hiina valitsuse poolt.
Sotsiaalne meedia teateid Hiinas on tsenseeritud tohutu riigiaparaat, mis arvatakse hulka kümneid tuhandeid inimesi. Teadlased ja kodanikud on siiski vähe mõtet, kui need tsensorid otsustada, millist sisu tuleks kustutada sotsiaalse meedia. Õpetlased Hiina tegelikult on vastuolulised ootused, mis liiki postitused on kõige tõenäolisem, et saada kustutatakse. Mõned arvavad, et tsensorid keskenduda postitused, mis on olulised riigi teised arvavad, et nad keskenduvad postitusi, mis soodustavad kollektiivse käitumise, näiteks proteste. Välja selgitada, milline neist ootused on õige mõjutab seda, kuidas teadlased aru Hiinas ja teistes autoritaarsed valitsused, et tegeleda tsensuur. Seetõttu King ja tema kolleegid tahtsid võrrelda postitusi, mis avaldati hiljem kustutada postitused, mis ilmusid ja kunagi kustutada.
Kogudes need ametikohad on seotud hämmastav inseneri feat indekseerimise üle 1000 hiina sotsiaalse meedia veebilehed, millel on erinevad küljendusmäärangutest leidmise asjakohaseid postitusi, ja siis korrates neid postitusi näha, mis seejärel kustutatakse. Lisaks tavalisele tehnilised probleemid, mis on seotud suuremahuliste veebi indekseerimise, see projekt oli lisatud väljakutse, et ta pidi olema väga kiire, sest paljud tsenseeritud postid maha võtta vähem kui 24 tundi. Teisisõnu, aeglane roomik igatsen palju teateid, et tsenseeriti. Lisaks roomikud oli kõike seda teha andmete kogumise ajal kõrvalehoidmises avastamise muidu sotsiaalse meedia veebilehed blokeerida juurdepääsu või muul viisil muuta oma poliitikat vastuseks uuring.
Kui see tohutu inseneri ülesanne oli täidetud, King ja tema kolleegid oli saanud umbes 11 miljonit ametikohta 85 erinevaid teemasid, mis olid eelnevalt kindlaks määratud põhineb nende oodatud tasemel tundlikkus. Näiteks teema kõrge tundlikkus on Ai Weiwei, dissident kunstnik; teema keskel tundlikkus on tunnustust ja devalveerimine Hiina valuuta ja teema madal tundlikkus on World Cup. Neist 11 miljonit ametikohad umbes 2 miljonit olid tsenseeritud, kuid ametikohti väga tundlikud teemad tsenseeriti vaid veidi rohkem kui ametikohta keskmise ja madala tundlikkusega teemasid. Teisisõnu, Hiina tsensorid on umbes sama tõenäoline tsenseerida postitus, mis mainib Ai Weiwei kui postitus, mis mainib World Cup. Need leiud ei sobi lihtsustatud mõte, et valitsus tsenseerib kõik postitused tundlikel teemadel.
Lihtne arvutus tsensuuri määr teemade kaupa võib olla eksitav, aga. Näiteks võib valitsuselt tsenseerida postitusi, mis toetavad Ai Weiwei, kuid jätavad postitused, mis on kriitiline teda. Selleks, et eristada postitusi hoolikamalt teadlased vaja mõõta sentiment iga postitust. Seega üks võimalus mõelda on see, et sentiment iga postituse oluline latentne funktsioon iga postitust. Kahjuks, kuigi palju tööd, täielikult automatiseeritud meetodite sentiment avastamine kasutades olemasolevat sõnastikud ole ikka veel väga hea paljudes olukordades (meenutage probleeme kaasa emotsionaalse ajakava 11. september 2001 jaos 2.3.2.6). Seetõttu King ja tema kolleegid on vaja nii märgistusel 11 miljonit sotsiaalse meedia teateid selle kohta, kas nad olid 1) kriitiline riigi, 2) toetab riik, või 3) ebaoluline või faktilise teateid sündmuste kohta. See kõlab nagu tohutu töö, kuid need lahendati kasutades võimas trikk; üks, mis on levinud andmed teaduse kuid praegu suhteliselt harva sotsiaalteadustes.
Esiteks, samm on tavaliselt nimetatakse eeltöötlust, teadlased ümber sotsiaalse meedia teateid dokumenti perspektiivis maatriks, kus oli üks rida iga dokumendi ja üks veerg, mis on registreeritud kas postiga sisaldas konkreetseid sõna (nt protesti liiklus jne). Järgmine grupp teadustöö assistendid poolt märgistatud sentiment valimi post. Siis kuningas ja tema kolleegid kasutasid seda käsitsi märgistatud andmeid, et hinnata masin õppimise mudel, mis võiks järeldada sentiment post põhineb tema omadused. Lõpuks nad kasutasid seda masinat õppimise hindamise mudelit sentiment kõigi 11 miljonit postitusi. Seega, selle asemel käsitsi lugemine ja märgistamist 11 miljonit postitused (mis oleks logistiliselt võimatu), nende käsitsi märgistatud väike hulk postitusi ja siis kasutada, milliseid andmeid teadlased kutsuksin juhendatud õppimise hinnata kategooriad kõiki postitusi. Pärast selle analüüsi, King ja tema kolleegid suutsid järeldada, et mõnevõrra üllatav, et tõenäosus post kustutatakse oli seotud sellega, kas ta oli kriitiline riigi või toetav riik.
In the end, King ja tema kolleegid avastasid, et ainult kolme liiki teateid regulaarselt tsenseeritud: pornograafia, kriitika tsensorid, ja need, mis olid kollektiivse tegevuse potentsiaali (st võimalust viib suurte protestide). Jälgides tohutu hulk postitusi, mis kustutati ning postitusi, mis ei kustutatud, King ja tema kolleegid suutsid õppida tsensorid töö just vaadates ja lugedes. Järgnevatel teadus-, kui nad tegelikult on otseselt sekkunud arvesse Hiina sotsiaalmeedias ökosüsteemi luues postitusi süstemaatiliselt erineva sisuga ja mõõtmise mille saad tsenseeritud (King, Pan, and Roberts 2014) . Me rohkem teada eksperimentaalsete lähenemisviiside peatükis 4. Lisaks aimata teema, mis leiab aset kogu raamatu, nende varjatud atribuut järeldada probleeme-, mis võib mõnikord olla lahendatud juhendatud õppe-osutuda väga levinud sotsiaalsete uurimistöö digitaalajastul. Sa näed pildid väga sarnane joonis 2.3 peatükkides 3 (Küsimuste) ja 5 (loomine mass koostöö); see on üks vähestest ideid et esineb mitmes peatükkides.
Kõik need kolm näidet-töö käitumist taksojuhid New York, sõprus moodustumise õpilastele ja sotsiaalse meedia tsensuuri käitumist Hiina valitsuse näitavad, et suhteliselt lihtne loendamine vaatlusandmeid võib võimaldada teadlastel testida prognoose. Mõningatel juhtudel Andmemahuka võimaldab seda teha loendamise suhteliselt otseselt (nagu puhul New York Taksod). Muudel juhtudel teadlased pead koguma oma vaatlusandmeid (nagu näiteks Hiina tsensuuri); tegelema puudulikud ühendades andmed koos (nagu juhul võrgu- eraldumine); või tegeleb mingi varjatud-tunnus järeldada (nagu näiteks Hiina tsensuuri). Nagu ma loodan, et need näited näitavad, teadlastele, kes on võimelised küsida huvitavaid küsimusi, big väga paljutõotav.