Hulumtuesit scraped faqet kineze të mediave sociale për të studiuar censurën. Ata trajtohen plotësisë me latent-tipar konkluzion.
Përveç të dhënave të mëdha të përdorura në të dy shembujt e mëparshëm, hulumtuesit gjithashtu mund të mbledhë të dhënat e tyre vëzhgimor, siç është ilustruar mrekullisht nga Gary King, Jennifer Pan dhe Molly Roberts ' (2013) e kërkimit në censurës nga qeveria kineze.
Postimet e mediave sociale në Kinë janë censuruar nga një aparati të madh shtetëror që është menduar për të përfshirë dhjetëra mijëra njerëzve. Hulumtuesit dhe qytetarët, megjithatë, kanë pak kuptim të asaj se si këto censorët vendosë se çfarë përmbajtje duhet të fshihet nga mediat sociale. Dijetarët e Kinës në fakt kanë pritshmëri kontradiktore për të cilën llojet e postimeve kanë më shumë gjasa për të marrë të fshihen. Disa mendojnë se censorët përqëndrohet në postet që janë kritike ndaj shtetit, ndërsa të tjerët mendojnë se ata fokusohen në postet që nxisin sjellje kolektive, siç janë protestat. Parafytyruar se cilat prej këtyre pritjeve është i saktë ka implikime për mënyrën se si studiuesit kuptojmë Kinën dhe qeverive të tjera autoritare që angazhohen në censurë. Për këtë arsye, Mbreti dhe kolegët e dashur për të krahasuar mesazhet që janë botuar dhe më pas fshihet në postet që janë botuar dhe nuk fshihet.
Mbledhja e këtyre postimet përfshirë inxhinieri feat mahnitshme të zvarritur më shumë se 1.000 të mediave sociale faqet e internetit-secila kineze me ndryshëm faqe Layouts gjetjen mesazhet përkatëse, dhe pastaj të rishikuar këto poste për të parë se cilat janë fshirë më pas. Përveç problemeve inxhinierike normale të lidhura me shkallë të madhe web-zvarritje, ky projekt kishte sfidën shtuar se është e nevojshme të jetë shumë e shpejtë për shkak se shumë mesazhe censuruar janë marrë poshtë në më pak se 24 orë. Me fjalë të tjera, një servil i ngadalshëm do të humbasë shumë e posteve që janë censuruar. Më tej, crawlers kishte për të bërë gjithë këtë të mbledhjes së të dhënave duke shmangur zbulimin mos faqet e internetit të mediave sociale bllokojnë qasjen ose përndryshe ndryshojnë politikat e tyre në përgjigje të studimit.
Pasi kjo detyrë masive inxhinieri ka përfunduar, Mbreti dhe kolegët e kishte marrë rreth 11 milionë postimet në 85 tema të ndryshme që ishin para-përcaktuar në bazë të nivelit të tyre të pritur të ndjeshmërisë. Për shembull, një temë e ndjeshmërisë së lartë është Ai Weiwei, artisti disident; një temë e ndjeshmërisë së mesme është vlerësim dhe zhvlerësim të monedhës kineze, dhe një temë e ndjeshmëri të ulët është Kupa e Botës. Nga këto 11 milionë mesazhe rreth 2 milionë ishin censuruar, por posts mbi tema shumë të ndjeshme ishin të censuruar vetëm pak më shpesh se postet në mesëm dhe të ulët tema të ndjeshmërisë. Me fjalë të tjera, censuruesit kinezë janë gati si të ngjarë të censuruar një post që përmend Ai Weiwei si një post që përmend Kupën e Botës. Këto rezultate nuk korespondon me idenë thjeshtë se qeveria censorët gjitha postimet e bëra mbi tema të ndjeshme.
Kjo llogaritje e thjeshtë e normës së censurës me temë mund të jetë mashtruese, megjithatë. Për shembull, qeveria mund të censor mesazhet që janë përkrahës të Ai Weiwei, por të lënë mesazhet që janë kritikë ndaj tij. Për të dalluar në mes posteve më me kujdes, studiuesit kanë nevojë për të matur ndjenjën e çdo post. Kështu, një mënyrë për të menduar për këtë është se me ndjenjën e çdo post në një tipar të rëndësishëm të fshehur të çdo post. Për fat të keq, pavarësisht shumë punë, metodat plotësisht i automatizuar e zbulimit ndjenjave duke përdorur para-ekzistuese fjalorë ende nuk janë shumë të mira në shumë situata (mendoj se mbrapa për problemet duke krijuar një afat kohor emocionale të 11 shtatorit 2001 nga Seksioni 2.3.2.6). Për këtë arsye, Mbreti dhe kolegët nevojë për një mënyrë për të etiketojnë 11 milionë postet e tyre të mediave sociale nëse ata ishin 1) kritik ndaj shtetit, 2) në mbështetje të shtetit, ose 3) raportet e parëndësishme ose faktike në lidhje me ngjarjet. Kjo tingëllon si një punë masive, por ato zgjidhen duke përdorur një mashtrim të fuqishëm; një që është e zakonshme në shkencë e të dhënave, por aktualisht relativisht të rralla në shkencat sociale.
Së pari, në një hap të zakonisht të quajtur para-përpunimit, studiuesit konvertuar postimet e mediave sociale në një matricë dokument të gjatë, ku ka pasur një rresht për secilin dokument dhe një kolonë që regjistrohen nëse pas përmban një fjalë të veçantë (për shembull, protesta, trafiku, etj). Tjetra, një grup prej asistentëve të hulumtimit dorë etiketuar ndjenjën e një mostër të post. Pastaj, Mbreti dhe kolegët e përdorur këto të dhëna me dorë emërtuar për të vlerësuar një model të mësuarit makinë që mund të konkludoj ndjenjën e një post të bazuar në karakteristikat e saj. Së fundi, ata kanë përdorur këtë model të mësuarit makinë për të vlerësuar ndjenjën e të gjithë 11 milionë postimeve. Kështu, në vend se me dorë duke lexuar dhe etiketimit 11 milionë mesazhe (e cila do të ishte e pamundur logjistik), ata me dorë emërtuar një numër të vogël të postimeve dhe përdoren pastaj çfarë të dhëna shkencëtarët do të thërrasë të mësuarit të mbikqyrur për të vlerësuar kategoritë e të gjitha postet. Pas përfundimit të kësaj analize, Mbreti dhe kolegët ishin në gjendje të konstatojmë se, disi e habitshme, probabiliteti i një post që fshihet nuk kishte lidhje me nëse ishte kritik ndaj shtetit, ose në mbështetje të shtetit.
Në fund, mbreti dhe kolegët e zbuloi se vetëm tre lloje të postimeve u censuruar rregullisht: pornografia, kritika e censurës, dhe ata që kishin potencial të përbashkët të veprimit (p.sh., mundësia e çuar në protesta në shkallë të gjerë). Duke respektuar një numër të madh të postimeve që janë fshirë dhe Mesazhe që nuk janë fshirë, Mbreti dhe kolegët ishin në gjendje për të mësuar se si censorët punojnë vetëm duke shikuar dhe duke numëruar. Në hulumtimet e mëvonshme, ata në fakt ndërhyri direkt në ekosistemin kineze social media, duke krijuar mesazhet me përmbajtje sistematike të ndryshme dhe matjen e cila të censuruar (King, Pan, and Roberts 2014) . Ne do të mësojnë më shumë për qasje eksperimentale në Kapitullin 4. Më tej, duke paralajmëruar një temë që do të ndodhë gjatë gjithë librit, këto probleme-e cila latent-atribut konkluzion nganjëherë mund të zgjidhen me të mbikëqyrur të mësuarit, të kthehet të jetë shumë e zakonshme në kërkimin social në mosha dixhitale. Ju do të shihni fotografi shumë e ngjashme me figurën 2.3 në kapitujt 3 (duke i kërkuar pyetje) dhe 5 (Krijimi bashkëpunimin në masë); kjo është një nga disa ide të cilat shfaqet në kapituj të shumta.
Të tre këta shembuj-sjelljen e punës së Shoferët e taksive në New York, formimin e miqësisë nga studentët, dhe social media sjelljen censurë e kineze qeverisë-tregojnë se numërimi relativisht e thjeshtë e të dhënave vëzhguese mund të mundësuar kërkuesit për të testuar parashikimet teorike. Në disa raste, të dhënat e madhe ju mundëson të bëni këtë numërimin relativisht të drejtpërdrejtë (si në rastin e New York Taksitë). Në raste të tjera, studiuesit do të duhet për të mbledhur të dhënat e tyre vëzhgimor (si në rastin e censurës kineze); merren me plotësisë nga bashkimi i të dhënave së bashku (si në rastin e evolucionit rrjetit); ose kryerjen e një formë të fshehur-tipar konkluzion (si në rastin e censurës kineze). Si unë shpresoj që tregojnë këta shembuj, për studiuesit që janë në gjendje të bëjnë pyetje interesante, big premton shumë.