2.4.1.3 중국 정부의 소셜 미디어의 검열

연구자들은 검열을 연구하기 위해 중국어 소셜 미디어 사이트를 긁어. 그들은 잠재 형질 추론과 불완전 렸습니다.

멋지고 게리 킹, 제니퍼 팬, 그리고 몰리 로버츠 '에 의해 설명 된 바와 같이 앞의 두 예에서 사용 된 빅 데이터뿐만 아니라, 연구자들은 또한 자신의 관측 데이터를 수집 할 수 있습니다 (2013) 중국 정부의 검열에 대한 연구.

중국의 소셜 미디어 게시물은 수만 수천의 사람들을 포함하는 것으로 생각되는 거대한 국가기구에 의해 검열된다. 연구자와 시민 그러나, 이러한 검열 콘텐츠가 소셜 미디어에서 삭제해야하는지 결정하는 방법의 거의 의미가 있습니다. 중국의 학자들은 실제로 게시물의 종류가 삭제 얻을 가능성이 가장 대해 충돌하는 기대를 가지고있다. 일부는 검열이 다른 사람들이 같은 시위 등 집단 행동을 장려 게시물에 초점을 생각하면서 국가의 중요 포스트에 초점을 맞출 생각합니다. 이러한 기대의 올바른 알아내는 것은 연구자들이 중국과 검열에 종사하는 다른 독재 정부를 이해하는 방법에 대한 의미를 가지고있다. 따라서, 왕과 동료들은 출판 이후에 출판 결코 삭제 된 게시물에 삭제 된 게시물을 비교하고 싶었다.

이 게시물을 수집하면 다른 페이지 관련 게시물 레이아웃-발견하고 이후에 삭제 된 볼이 게시물을 재 방문과 1,000 개 이상의 중국어 소셜 미디어 웹 사이트 - 각 크롤링의 놀라운 엔지니어링 공적을 포함했다. 대규모 웹 크롤링과 관련된 정상 공학 문제에 더하여,이 프로젝트들은 수많은 검열 게시물 24 시간 미만에서 중단되어 있기 때문에 매우 빨라야하기 위해 필요한 추가 과제가 있었다. 즉, 느린 크롤러 검열 된 게시물 많이 놓칠 것이다. 또한, 크롤러는 소셜 미디어 웹 사이트가이 연구에 대한 응답으로 자신의 정책을 변경, 그렇지 않은 액세스를 차단하거나 않도록 탐지를 회피하면서이 모든 데이터 수집을해야했다.

이 대규모의 엔지니어링 작업이 완료되면, 왕과 동료들은 미리 지정된 감도 자신의 기대 수준에 따라했다 85 다른 주제에 대한 1100 만 게시물을 취득했다. 예를 들어, 높은 감도의 주제는 아이 웨이웨이의 반체제 작가이다 중간 감도의 주제는 감사와 중국 통화의 평가 절하, 그리고 낮은 감도의 주제는 월드컵이다. 이러한 11000000 게시물 중 약 2 백만 검열했다, 그러나 매우 민감한 주제에 대한 게시물은 중간과 낮은 감도 주제에 대한 게시물보다 약간 더 자주 검열되었다. 즉 중국의 검열은 월드컵을 언급 게시물로 아이 웨이웨이를 언급 게시물을 검열하려고으로 보인다. 이러한 연구 결과는 정부가 민감한 주제에 대한 모든 게시물을 검열하는 단순한 생각이 일치하지 않습니다.

주제에 의한 검열 비율이 간단한 계산하지만, 오해의 소지가있을 수 있습니다. 예를 들어, 정부는 아이 웨이웨이의지지하지만, 그의 중요한 글을 남겨 게시물을 검열 할 수 있습니다. 더 신중하게 글을 구별하기 위해, 연구자들은 각 게시물의 감정을 측정 할 필요가있다. 따라서, 그것에 대해 생각하는 한 가지 방법은 각 게시물의 중요한 잠재 기능의 각 게시물의 감정이. 불행하게도, 많은 작업에도 불구하고, 기존의 사전을 사용하여 감정 검출 완전 자동화 된 방법 (제 2.3.2.6에서 2001 년 9 월 11 일 감정적 인 타임 라인을 만드는 문제를 다시 생각한다) 여전히 많은 상황에서 매우 잘되지 않습니다. 따라서, 왕과 동료들이) (1) 국가의 중요했다 여부에 그들의 11000000 소셜 미디어 게시물에 레이블을 수있는 방법이 필요, 2) 상태, 또는 이벤트에 대한 3) 관련이 없거나 사실 보고서의지지. 이 방대한 작업처럼 들리지만, 그들은 강력한 트릭을 사용하여 해결; 데이터 과학의 일반적인하지만 사회 과학의 현재 상대적으로 드문 일.

먼저, 단계에서 일반적으로 전처리라고 연구진은 각 문서에 대해 하나의 행과 포스트가 특정 단어를 포함할지 여부를 녹음 한 열이 있었다 문서 기간 행렬에 소셜 미디어 게시물을 변환 (예를 들어, 항의, 트래픽 등)를 포함한다. 다음으로, 연구 보조원의 그룹 게시물의 샘플의 감정을 손으로 표시. 그런 다음, 왕과 동료들은 그 특성에 따라 게시물의 감정을 추론 할 수있는 기계 학습 모델을 추정하기 위해이 손으로 표시된 데이터를 사용했다. 마지막으로, 그들은 모두 1100 만 게시물의 감정을 추정하기 위해 기계 학습 모델을 사용했다. 따라서, 수동으로 읽고 표시 11,000,000 게시물 (물류 불가능할 것이다)보다는, 그들은 수동 게시물의 작은 숫자를 표시하고 과학자들은 모든 게시물의 범주를 추정하는지도 학습라고 부르는 데이터 사용. 이 분석을 완료 한 후, 왕과 동료들은 다소 놀랍게도, 게시물의 확률은 국가의 중요하거나 국가의 지원 여부와 관련이없는했다가 삭제되고, 그 결론을 내릴 수 있었다.

11000000 중국어 소셜 미디어 게시물의 감정을 추정 킹, 팬에 사용 된 절차에 대한 간략한 회로도 및 로버츠 (2013) 그림 2.3. 먼저, 단계에서 일반적으로 전처리라고 연구진은 문서 기간 행렬에 소셜 미디어 게시물을 변환 (자세한 내용은 Grimmer 스튜어트 (2013) 참조). 둘째, 연구자들은 게시물의 작은 샘플의 감정을 코딩 손입니다. 셋째, 연구자들은 게시물의 감정을 분류하는지도 학습 모델을 훈련했다. 넷째, 연구자들은 모든 게시물의 감정을 추정하기 위해 감독 학습 모델을 사용했다. 에 대한 자세한 설명은 왕, 팬, 그리고 로버츠 (2013), 부록 B를 참조하십시오.

에 사용 된 절차에 대한 간략한 회로도 그림 2.3 King, Pan, and Roberts (2013) 11000000 중국어 소셜 미디어 게시물의 감정을 추정한다. 먼저, 단계에서 일반적으로 전처리라고 연구진은 문서 기간 행렬에 소셜 미디어 게시물을 변환합니다 ( Grimmer and Stewart (2013) 자세한 내용은). 둘째, 연구자들은 게시물의 작은 샘플의 감정을 코딩 손입니다. 셋째, 연구자들은 게시물의 감정을 분류하는지도 학습 모델을 훈련했다. 넷째, 연구자들은 모든 게시물의 감정을 추정하기 위해 감독 학습 모델을 사용했다. 참조 King, Pan, and Roberts (2013) 에 대한 자세한 설명은 부록 B를.

결국, 왕과 동료들은 게시물의 세 가지 유형이 정기적으로 검열 된 것을 발견 : 포르노, 검열의 비판을, 그리고 집단 행동 잠재력을 가지고 그 사람들 (즉, 대규모 시위로 이어지는 가능성). 삭제되지 않은 삭제 및 게시물되었다 게시물의 거대한 숫자를 관찰함으로써, 왕과 동료들은 검열보고 및 계산하여 그냥 작동 방법을 배울 수 있었다. 후속 연구에서, 그들은 실제로 직접 검열받을 체계적으로 다른 콘텐츠와 측정에 게시물 작성하여 중국의 소셜 미디어 생태계에 개입 (King, Pan, and Roberts 2014) . 우리는이 책 전반에 걸쳐 발생 테마를 전조 또한, 제 4 장에서 실험 방법에 대한 자세한 내용은 것, 이러한 잠재-속성 추론 문제 - 때때로으로 해결 될 수 감독 학습려면 사회 연구에 매우 일반적인 것으로 밝혀 디지털 시대. 당신은 (질량 공동 작성) 3 장 (질문을) 5 2.3도 할 사진과 매우 유사 볼 수 있습니다; 그것은 여러 장에 나타나는 몇 가지 아이디어 중 하나입니다.

이러한 예 - 뉴욕의 택시 운전사, 학생들의 우정 형성하고, 관측 자료의 비교적 간단한 계산은 이론적 인 예측을 테스트하는 연구자를 활성화 할 수 있습니다 중국 정부 쇼의 소셜 미디어 검열 행동의 작업 행동의 세 가지. 어떤 경우에는, 큰 데이터는 (뉴욕 택시의 경우에서와 같이) 상대적으로 직접 계산을 수행 할 수있다. 다른 경우에서, 연구자들은 (중국어 검열의 경우에서와 같이) 자신의 관측 데이터를 수집 할 필요가있을 것이다; (네트워크 진화의 경우에서와 같이) 함께 데이터를 병합하여 미완성을 처리; 또는 (중국어 검열의 경우에서와 같이) 잠상 형질 추론 형태를 수행하는 단계를 포함한다. 나는 희망 이러한 예는 흥미로운 질문을 할 수있는 연구자, 큰 큰 약속을 보유 보여줍니다.