Naukowcy ociera chińskich portalach społecznościowych studiować cenzurę. Są one rozpatrywane niekompletność z utajonym-cecha wnioskowanie.
Oprócz dużych danych wykorzystywanych w dwóch poprzednich przykładów, naukowcy mogą również gromadzić własne dane obserwacyjne, jak to wspaniale zilustrowane przez Gary King, Jennifer Pan, i Molly Roberts " (2013) badań na cenzurę przez chiński rząd.
Social posty mediów w Chinach są cenzurowane przez ogromnego aparatu państwowego, który jest uważany obejmują dziesiątki tysięcy ludzi. Naukowcy i obywatele mają jednak większego sensu, jak te cenzorzy decydować, jakie treści powinny być usuwane z social media. Naukowcy z Chin rzeczywiście mają sprzeczne oczekiwania, o których rodzaje Słupki są najprawdopodobniej zostaną usunięte. Niektórzy uważają, że cenzorzy skupić się na stanowiskach, które są krytyczne stanu, podczas gdy inni uważają, że koncentrują się na stanowiskach, które zachęcają zbiorowych zachowań, takich jak protesty. Dowiedzieć się, które z tych oczekiwań jest poprawna ma wpływ na sposób naukowcom zrozumieć Chiny i inne autorytarne rządy, które angażują się w cenzurę. Dlatego król i jego współpracownicy chcieli porównać posty, które zostały opublikowane, a następnie usunięte notki, które zostały opublikowane, a nie usunięte.
Zbieranie tych stanowisk zaangażowanych niesamowity wyczyn inżynierii indeksowania ponad 1000 chińskich stron internetowych-each social media z innej strony układy rozpoznawczej odpowiednich stanowisk, a następnie ponowne te posty aby zobaczyć, które następnie zostały usunięte. Oprócz normalnych problemów technicznych związanych z dużą skalę internetowej indeksowania, projekt ten miał dodatkową wyzwanie, które trzeba ją bardzo szybko, ponieważ wiele ocenzurowane stanowisk zdjęty w czasie krótszym niż 24 godziny. Innymi słowy, powolny robot minie wiele stanowisk, które zostały ocenzurowane. Ponadto, roboty musiał wykonać całą tę kolekcję danych przy jednoczesnym unikaniu wykrycia bo na stronach internetowych mediów społecznych zablokowania dostępu lub w inny sposób zmienić swoją politykę w odpowiedzi na badania.
Gdy to ogromne zadanie technika została zakończona, król i jego współpracownicy uzyskali około 11 milionów postów na 85 różnych tematów, które zostały wstępnie określone na podstawie ich oczekiwanego poziomu czułości. Na przykład tematem dużej czułości jest Ai Weiwei, dysydent artysty; tematem jest wzrost średniej wrażliwości i dewaluacji chińskiej waluty, a tematem niskiej czułości jest Puchar Świata. Spośród tych 11 milionów stanowisk około 2 mln zostały ocenzurowane, ale posty na bardzo drażliwe tematy były cenzurowane tylko nieznacznie częściej niż stanowisk na średnich i niskich tematów czułości. Innymi słowy, chińscy cenzorzy są tak prawdopodobne, aby cenzurować post wspomina, że Ai Weiwei w poście, który wspomina o Puchar Świata. Ustalenia te nie pasują do uproszczonego pojęcia, że rząd cenzuruje wszystkie posty na temat drażliwych tematów.
To proste obliczenie stopy cenzura w temacie może być mylące, jednak. Na przykład, rząd może cenzurować posty, które wspierają Ai Weiwei, ale pozostawić posty, które są krytyczne wobec niego. W celu rozróżnienia między słupkami dokładniej naukowcy muszą mierzyć uczucia każdego posta. Tak więc jednym ze sposobów, aby myśleć o tym, że sentyment każdego postu w ważnej utajonego cechą każdego posta. Niestety, pomimo dużo pracy, w pełni zautomatyzowane metody wykrywania nastrojów z wykorzystaniem istniejących już słowniki nie są nadal bardzo dobre w wielu sytuacjach (wracam do problemów tworzenie emocjonalnej osi czasu 11 września 2001 roku z sekcji 2.3.2.6). Dlatego król i jego współpracownicy potrzebne sposób znakować swoje 11 milionów społecznych wiadomości multimedialnych, czy były one 1) krytyczna państwa, 2) wspierać państwa, lub 3) nieistotnych lub faktycznych raportów o wydarzeniach. To brzmi jak ogromnym pracy, ale rozwiązać go za pomocą potężnego podstęp; taki, który jest powszechny w nauce danych, ale obecnie stosunkowo rzadkie w naukach społecznych.
Po pierwsze, w etapie zazwyczaj nazywany pre-processing, naukowcy konwertowane posty social media do matrycy dokument określony, gdzie był jeden wiersz dla każdego dokumentu i jedna kolumna odnotowanego czy stanowisko zawarte konkretne słowo (np, protest, ruchu, itp.) Następnie grupa asystentów badawczych ręcznie oznaczone sentyment próbce postu. Następnie król i współpracownicy wykorzystali ten oznaczony ręcznie dane do oszacowania modelu uczenia maszynowego, który mógłby wywnioskować sentyment post w oparciu o jego właściwościach. W końcu kiedyś ten model uczenia maszynowego w celu oszacowania nastroje wszystkich 11 milionów stanowisk. Tak więc, zamiast ręcznego czytania i etykietowania 11 milionów postów (co byłoby logistycznie niemożliwe), to ręcznie oznaczone małą liczbę stanowisk, a następnie wykorzystywane jakie dane naukowcy nazywają nadzorowanego uczenia oszacować kategorie wszystkich stanowisk. Po zakończeniu tej analizy, król i jego współpracownicy byli w stanie stwierdzić, że dość niespodziewanie, prawdopodobieństwo stanowisku usunięciem było niezwiązane czy to był krytyczny wobec państwa lub wspierać państwa.
W końcu król i jego współpracownicy odkryli, że tylko trzy rodzaje stanowisk były regularnie ocenzurowane: pornografia krytykę cenzorów, a te, które miały zbiorowego potencjału czynnościowego (czyli możliwość prowadzi do protestów na dużą skalę). Obserwując ogromną liczbę stanowisk, które zostały usunięte i posty, które nie zostały usunięte, król i jego współpracownicy byli w stanie dowiedzieć się, jak cenzura działa tylko poprzez oglądanie i liczenia. W późniejszych badaniach, faktycznie bezpośrednio interweniował w chińskiej społecznej poprzez stworzenie ekosystemu mediów systematycznie posty z różną zawartością i pomiarów, które ulegną ocenzurowane (King, Pan, and Roberts 2014) . Dowiemy się więcej o podejściach eksperymentalnych w rozdziale 4. Ponadto, zapowiadając temat, który zostanie przeprowadzony w całej książce, których te problemy-utajone-atrybut Wnioskowanie może czasami być rozwiązany z nadzorowanego uczenia się okazać bardzo powszechne w badaniach społecznych w Era cyfrowa. Będziesz zobacz zdjęcia bardzo podobny do rysunku 2.3 w punkcie 3 (zadawanie pytań) i 5 (Tworzenie współpracę masowy); jest to jeden z nielicznych pomysłów, które pojawiają się w różnych rozdziałach.
Wszystkie te trzy przykłady-zachowania pracy taksówkarzy w Nowym Jorku, tworzenie przyjaźni przez studentów i social media cenzury zachowanie chińskiego rządu pojawienia się, że stosunkowo proste liczenie danych obserwacyjnych może umożliwić naukowcom do testowania przewidywań teoretycznych. W niektórych przypadkach duże danych pozwala zrobić to liczenie stosunkowo bezpośrednio (jak w przypadku nowojorskiej taksówki). W innych przypadkach, naukowcy będą musieli zebrać własnych danych obserwacyjnych (jak w przypadku chińskiej cenzury); zajmować niekompletność przez łączenie danych ze sobą (tak jak w przypadku sieci ewolucji); lub wykonywanie pewnego formy utajone-cecha wnioskowania (jak w przypadku chińskiego kontroli). Jak już nadzieję, że te przykłady pokazują, dla naukowców, którzy są w stanie zadać interesujące pytania, duży jest bardzo obiecujący.