A kutatók kapart kínai szociális média oldalak, hogy tanulmányozza a cenzúrát. Ők foglalkoznak hiányos latens-tulajdonság következtetést.
Amellett, hogy a nagy felhasznált adatok az előző két példa, a kutatók is gyűjthet saját megfigyeléses adatok, csodálatosan illusztrált Gary King, Jennifer Pan, és Molly Roberts (2013) kutatása cenzúra a kínai kormány.
Szociális média üzenete Kínában cenzúrázzák egy hatalmas államapparátus gondolják, hogy tartalmazza a több tízezer ember. A kutatók és a polgárok azonban kevés értelme, hogy ezek a cenzorok eldönteni, hogy milyen tartalmat kell hagyni a szociális média. Tudósok Kína valójában ellentmondó elvárásokat, milyen fajta állások leginkább valószínű, hogy el kell hagyni. Néhányan úgy vélik, hogy a cenzorok összpontosítani hozzászólásokat, amelyek kritikusak az állam, míg mások úgy vélik, hogy összpontosítson hozzászólásokat, amelyek ösztönzik a kollektív viselkedés, mint például a tiltakozások. Kitalálni, hogy melyik az ezen elvárásoknak megfelelő kihat kutatók hogyan értik Kína és más tekintélyelvű kormányok vegyenek részt a cenzúrát. Ezért király és kollégái akarta összehasonlítani bejegyzésekben közzétett, majd hagyni, hogy a bejegyzésekben közzétett, és soha nem kell hagyni.
Gyűjtés az ilyen beosztásban részt a lenyűgöző mérnöki bravúr mászó több mint 1000 kínai szociális média weboldalak-mindegyik különböző elrendezésben-megállapítás fontos üzenete, majd feleleveníti ezeket a bejegyzéseket, hogy mely később törölték. Amellett, hogy a szokásos műszaki problémák járó nagyszabású webtérképező, ez a projekt volt a hozzáadott kihívás, hogy szükség van, hogy rendkívül gyorsan, mert sok cenzúrázott üzenetét hozzák le kevesebb, mint 24 óra. Más szóval, a lassú lánctalpas hiányozni fog sok hozzászólás, hogy cenzúrázták. Továbbá, a csúszómászó kellett mindezt adatgyűjtés közben kijátssza felismerés nehogy a szociális média weboldalak blokkolja a hozzáférést, vagy más módon megváltoztassák politika válaszul a tanulmány.
Ha ez a hatalmas mérnöki feladat befejeződött, a King és munkatársai szerzett mintegy 11 millió állásokat 85 különböző témák, amelyek előre meghatározott alapján elvárt érzékenység. Például a téma nagy érzékenységű Ai Weiwei, az ellenzéki művész; a téma középső érzékenység felértékelődése és leértékelődése a kínai valuta, és a téma érzékenysége alacsony a világbajnokság. Ezeknek 11000000 hozzászólás 2000000 volna cenzúrázott, de üzenete nagyon érzékeny téma cenzorálták csak kicsit gyakrabban, mint állásokat közepes és alacsony érzékenységű témák. Más szóval, a kínai cenzorok körülbelül annyira valószínű, hogy cenzúrázzák a bejegyzést, amely megemlíti Ai Weiwei, mint egy poszt, amely megemlíti a világbajnokság. Ezek az eredmények nem felelnek meg az egyszerű ötlet, hogy a kormány cenzúrázza összes üzenete az érzékeny témákról.
Ez az egyszerű számítás cenzúra mértéke téma félrevezető lehet, de. Például a kormányt, hogy cenzúrázzák hozzászólásokat, amelyek támogatják az Ai Weiwei, de hagyjuk hozzászólásokat, amelyek kritikusak vele. Annak érdekében, hogy különbséget hozzászólás alaposabban, a kutatóknak meg kell mérni a hangulat minden post. Így az egyik módja annak, hogy úgy gondolja, hogy az, hogy a hangulat az egyes bejegyzések egy fontos látens funkció az egyes post. Sajnos, annak ellenére, hogy sok munka, teljesen automatizált módszerek hangulat detektálását meglévő szótárak még mindig nem túl jó sok helyzetben (gondolok vissza azokra a problémákra, létrehozása érzelmi idővonal szeptember 11, 2001 2.3.2.6 pont). Ezért király és kollégái szükség van egy módja címkézhetik 11000000 szociális média üzenete, hogy voltak-e 1) kritikus az állam, 2) támogató állami, vagy 3) irreleváns vagy ténybeli tudósít az eseményekről. Ez úgy hangzik, mint egy hatalmas feladat, de megoldható ez egy erőteljes trükk; az egyik, hogy gyakori az adatok a tudomány, hanem a jelenleg viszonylag ritka a társadalmi tudomány.
Először is, egy lépésben általában az úgynevezett pre-feldolgozás, a kutatók alakítjuk a szociális média üzenete a dokumentumba távú mátrix, amelyben egy sor minden dokumentumot és egy oszlop, amely rögzített, hogy a poszt foglalt egy adott szó (pl tiltakozás, forgalom, stb.) Ezután a csoport kutatási asszisztensek kézzel jelölt a hangulat egy mintájának post. Ezután király és munkatársai is ezt kézzel címkézett adatok becslésére gépi tanulási modellt, amely következtetni hangulat utáni alapuló tulajdonságait. Végül úgy használják ezt a gépi tanulási modell becslésére hangulat minden 11 millió álláshely. Így ahelyett, hogy kézzel olvasás és címkézés a 11 millió álláshely (ami logisztikailag lehetetlen), akkor kézzel címkézett kis álláshelyek száma, majd használni, hogy milyen adatokat a tudósok neveznék felügyelt tanulás megbecsülni kategóriák összes üzenete. Befejezése után az elemzés, a King és munkatársai voltak arra a következtetésre, hogy a némileg meglepő, hogy a valószínűsége, hogy egy poszt törlődnek volt független attól, hogy ez volt a kritikus az állami vagy támogató az állam.
A végén, a King és munkatársai felfedezték, hogy csak három álláshelyet rendszeresen cenzúrázzák: pornográfia, kritika cenzorok, és az, hogy már a kollektív akciós potenciál (azaz az a lehetőség, ami a nagyszabású tüntetések). Azáltal, hogy egy hatalmas álláshelyek száma a törölt és a hozzászólást, nem lettek törölve, a King és munkatársai voltak képesek megtanulni a cenzorok dolgoznak csak nézi és számolás. A későbbi kutatások, valójában közvetlenül beavatkozott a kínai szociális média ökoszisztéma létrehozásával állások szisztematikusan eltérő tartalmú és mérési amelyek kap cenzúrázott (King, Pan, and Roberts 2014) . Mi többet megtudni kísérleti megközelítések fejezet 4. Továbbá, előrevetítve egy témát ami akkor következik be az egész könyvben, ezek a látens tulajdonság következtetési probléma-ami esetenként megoldhatók felügyelt tanulási kiderül, hogy igen gyakori a szociális kutatás digitális kor. Látni fogja, képeket nagyon hasonló a 2.3 ábrát a 3. fejezetben (A kérdezés) és 5. (létrehozása tömeges együttműködést); ez az egyik a néhány ötlet, amely úgy tűnik, több fejezetből áll.
Mindhárom példa-dolgozó viselkedését taxisok New York, a barátság kialakulását a diákok, és a szociális média cenzúra viselkedését a kínai kormány azt mutatják, hogy viszonylag egyszerű számolás megfigyelési adatok segítségével a kutatók, hogy teszteljék az elméleti jóslatok. Egyes esetekben nagy adatok lehetővé teszik, hogy ezt számlálási viszonylag közvetlenül (például abban az esetben, New York taxik). Más esetekben, a kutatók kell gyűjteni a saját megfigyelési adatokat (például abban az esetben a kínai cenzúra); foglalkozik hiányossága összevonásával adatok együtt (például abban az esetben a hálózati Evolution); vagy valamilyen formában a látens-tulajdonság következtetés (például abban az esetben a kínai cenzúra). Mivel Remélem a fenti példák mutatják, a kutatók, akik képesek feltenni érdekes kérdést, nagy ígéretesek.