研究者は、検閲を研究するために中国のソーシャルメディアサイトを掻き取りました。彼らは、潜在特性推論と不備に対処しました。
素晴らしくゲイリー・キング、ジェニファー・パン、そしてモリー・ロバーツ'によって示されたように、2つ前の例で使用されるビッグデータに加えて、研究者はまた、自分自身の観測データを収集することができる(2013)中国政府の検閲に関する研究。
中国におけるソーシャルメディアの投稿は何万人もの人々を含むと考えられている巨大な国家機構によって検閲されています。研究者や市民は、しかし、これらの検閲官は、コンテンツがソーシャルメディアから削除すべきかを決定する方法のほとんど意味を持っています。中国の学者は、実際にポストの種類が削除されます可能性が最も高いかについて矛盾する期待しています。いくつかは、検閲が他の人は、彼らがそのような抗議行動などの集団行動を助長する投稿、に焦点を当てると思いながら、状態の極めて重要であるポストに焦点を当てていると思います。正しいこれらの期待のどの把握することは、研究者は、中国や検閲に従事する他の権威主義政府を理解どのように影響を与えています。したがって、王らは公開され、その後に発表され、決して削除されたポストに削除された投稿を比較したかったです。
これらの投稿を収集する別のページレイアウト発見関連のポストで1,000人以上の中国のソーシャルメディアのウェブサイト-それぞれをクロールし、その後削除されたかを確認するには、これらの記事を再訪の驚くべきエンジニアリング偉業を関与しました。大規模なウェブクローリングに関連した通常の工学的問題に加えて、このプロジェクトは、多くの検閲ポストが24時間未満で降ろされているので、それは非常に高速であるために必要な追加の課題がありました。つまり、遅いクローラは検閲された記事の多くを逃すことになります。また、クローラは、ソーシャルメディアのウェブサイトが調査に応じて、そのポリシーを変更それ以外のアクセスをブロックしたり、ないような検出を回避しながら、このすべてのデータ収集をしなければなりませんでした。
この大規模なエンジニアリング・タスクが完了した後、王とその同僚は、感度の彼らの期待されるレベルに基づいて、事前に指定された85さまざまなトピックで約1100万ポストを得ていました。例えば、高感度のトピックでは、アイ・ウェイウェイ、反体制派の作家です。中央の感度のトピックでは、感謝と中国の通貨の切り下げで、低感度のトピックは、ワールドカップです。これら1100万ポストの約2百万ドルが検閲されていたが、高感度のトピックの投稿が中低感度のトピックに関する記事よりもほんの少しだけより頻繁に検閲しました。言い換えれば、中国の検閲官はワールドカップに言及ポストとして艾未未を言及ポストを検閲しようとして可能性があります。これらの知見は、政府が敏感なトピックに関するすべての投稿を検閲することを単純な考えを一致しませんでした。
トピックによって検閲率のこの単純な計算は、しかし、誤解を招く可能性があります。例えば、政府は、艾未未を支持しているが、彼の非常に重要ですポストを残す投稿を検閲することがあります。より慎重にポストを区別するために、研究者は、各ポストの感情を測定する必要があります。このように、それについて考えるための一つの方法は、各ポストの重要な潜在特徴の各ポストの感情です。残念ながら、多くの作業にもかかわらず、既存の辞書を使用して、感情検出の完全自動化された方法は、(セクション2.3.2.6から2001年9月11日の感情的なタイムラインを作成する問題に戻ると思います)、まだ多くの状況で非常に良いものではありません。そこで、王と同僚は、彼らが)1の状態を批判したかどうかにように彼らの1100万ソーシャルメディアの投稿にラベルを付ける方法が必要、2)状態、またはイベントに関する3)無関係なまたは事実の報告を支援。これは、大規模な仕事のように聞こえるが、彼らは強力なトリックを使用して、それを解決しました。データ科学における共通だが社会科学で現在は比較的まれである1。
まず、ステップで一般的に前処理と呼ばれ、研究者がそれぞれの文書に対して1つの行とポストは、特定の単語が含まれているかどうか記録された1つの列があった文書長期行列 、にソーシャルメディアの投稿を変換(例えば、抗議、トラフィック、等)。次に、研究助手のグループは、ポストのサンプルの感情を手標識。その後、王とその同僚は、その特性に基づいて、ポストの感情を推測することができ、機械学習モデルを推定するために、この手で標識されたデータを使用していました。最後に、彼らはすべての1100万記事の感情を推定するために、この機械学習モデルを用いました。このように、手動で読み込むとラベリング1100万ポスト(ロジスティック不可能であろう)のではなく、彼らは手動で投稿の少数を標識し、その後、科学者たちは、すべての記事のカテゴリを推定するために、 教師付き学習を呼ぶものデータを使用します。この分析を完了した後、王とその同僚は、やや驚くべきことに、ポストの確率は、それが国家の重要または状態の支えであったかどうかには無関係だった削除される、と結論することができました。
最後に、王とその同僚は、ポストの3種類のみが定期的に検閲されたことを発見:ポルノ、検閲官の批判をし、集団行動の可能性を持っていたもの(すなわち、大規模な抗議行動につながる可能性)。削除されなかった削除された投稿や投稿の膨大な数を観察することによって、王らは検閲を見て、カウントすることによってうまく動作方法を学ぶことができました。その後の研究では、彼らが実際に直接検閲を受ける系統的に異なる内容と測定とポスト作成することによって、中国のソーシャルメディアの生態系への介入(King, Pan, and Roberts 2014)私たちは、本を通して発生するテーマを伏線、さらに、第4章の実験的アプローチについての詳細を学びます、これらの潜在属性推論問題-時々で解決することができる教師付き学習ターンの社会調査では非常に一般的であることが判明デジタル時代。あなたは(マスコラボレーションの作成)章3(質問を)および5で図2.3に写真が非常に似て表示されます。それは、複数の章に表示されますいくつかのアイデアの一つです。
これらの例 - ニューヨークのタクシー運転手、学生による友情の形成、及び観測データの比較的単純なカウントが理論的予測をテストするために、研究者を有効にすることができ、中国政府ショーのソーシャルメディアの検閲の挙動の作業行動のすべての3つ。いくつかのケースでは、ビッグデータを使用すると、(ニューヨークタクシーの場合のように)比較的直接このカウントを行うことができます。他の例では、研究者は(中国の検閲の場合のように)自分の観測データを収集する必要があります。 (ネットワークの進化の場合のように)一緒にデータをマージすることによって不備に対処します。または(中国の検閲の場合のように)潜形質推論のいくつかのフォームを実行します。私はこれらの例が示す願っていたように、興味深い質問をすることができます研究者のために、大きなは非常に有望です。