Forscher geschabt chinesischen Social - Media - Websites , die Zensur zu studieren. Sie beschäftigten sich mit Unvollständigkeit mit Latent Charakterzug Inferenz.
Zusätzlich zu den großen Datenmengen in den beiden vorangegangenen Beispielen verwendet, können die Forscher auch ihre eigenen Beobachtungsdaten sammeln, wie wunderbar von Gary King, Jennifer Pan, und Molly Roberts 'dargestellt wurde (2013) Forschung über die Zensur der chinesischen Regierung.
Social-Media-Beiträge in China sind durch einen riesigen Staatsapparat zensiert das vermutlich Zehntausende von Menschen aufzunehmen. Forscher und Bürger haben jedoch wenig Sinn, wie diese Zensoren entscheiden, welche Inhalte aus dem sozialen Medien gelöscht werden sollen. Wissenschaftler von China haben eigentlich widersprüchliche Erwartungen darüber, welche Arten von Beiträgen sind am ehesten gelöscht zu werden. Einige denken, dass Zensoren auf Beiträge konzentrieren, die kritisch des Staates sind, während andere denken, dass sie auf Beiträge konzentrieren, die kollektive Verhalten fördern, wie Proteste. Herauszufinden, welche dieser Erwartungen als korrekt ist, hat Auswirkungen darauf, wie die Forscher verstehen, China und andere autoritäre Regierungen, die in Zensur engagieren. Deshalb wollte König und Kollegen Beiträge zu vergleichen, die veröffentlicht wurden und anschließend auf Beiträge gelöscht, die veröffentlicht wurden und nie gelöscht.
diese Beiträge sammeln beteiligt die erstaunliche Ingenieurleistung von mehr als 1.000 chinesische Social-Media-Webseiten-mit jeweils unterschiedlichen Seitenlayouts Findungs relevante Beiträge kriechen, und dann diese Beiträge erneuten Besuch zu sehen, welche anschließend gelöscht wurden. Zusätzlich zu den normalen technischen Problemen mit großem Maßstab Web-Crawling verbunden ist, hatte dieses Projekt die zusätzliche Herausforderung, die es benötigt extrem schnell sein, weil viele zensiert Beiträge in weniger als 24 Stunden werden heruntergenommen. Mit anderen Worten würde ein langsamer Crawler viele Beiträge verpassen, die zensiert wurden. Weiterhin hatte die Crawler alle diese Datensammlung zu tun, während Erkennung zu umgehen, damit die Social-Media-Websites den Zugriff blockieren oder auf andere Weise als Reaktion auf die Studie ihre Politik ändern.
Sobald diese massive Engineering-Aufgabe beendet war, König und Kollegen hatten über 11 Millionen Beiträge über 85 verschiedenen Themen erhalten, die auf der Grundlage ihrer erwarteten Maß an Sensibilität vorgegebenen waren. Zum Beispiel ist ein Thema von hoher Empfindlichkeit Ai Weiwei, der Dissident Künstler; ein Thema von mittlerer Empfindlichkeit ist Wertschätzung und Abwertung der chinesischen Währung, und ein Thema von geringer Empfindlichkeit ist die Weltmeisterschaft. Von diesen 11 Millionen Beiträge über 2 Millionen waren zensiert worden, aber zum Thema hochsensible Themen wurden nur etwas häufiger zensiert als Beiträge auf mittlere und niedrige Empfindlichkeit Themen. Mit anderen Worten, sind die chinesischen Zensoren ungefähr so wahrscheinlich einen Beitrag zu zensieren, die Ai Weiwei als Beitrag erwähnt, dass die Weltmeisterschaft erwähnt. Diese Ergebnisse nicht den simplen Idee überein, dass die Regierung alle Beiträge zu sensiblen Themen zensiert.
Diese einfache Berechnung der Zensur Rate Motiv könnte irreführend sein, aber. Zum Beispiel könnte die Regierung Beiträge zensieren, die unterstützend von Ai Weiwei sind, aber lassen Sie Beiträge, die von ihm kritisch sind. Um zwischen den Pfosten genauer zu unterscheiden, müssen die Forscher die Stimmung der einzelnen Posten zu messen. Somit ist eine Möglichkeit, darüber zu denken, dass das Gefühl von jedem Beitrag in einem wichtigen latent Merkmal jeder Beitrag. Leider, trotz viel Arbeit, vollautomatische Methoden der Stimmungsdetektion bereits bestehenden Wörterbücher sind noch nicht sehr gut in vielen Situationen (denken Sie zurück an die Probleme, eine emotionale Zeitleiste September Schaffung 11, 2001 von Abschnitt 2.3.2.6). Daher König und Kollegen brauchte eine Möglichkeit, ihre 11 Millionen Social-Media-Beiträge als zu beschriften, ob sie 1) kritisch gegenüber dem Staat, 2) unterstützt den Staat oder 3) irrelevant oder sachliche Berichte über die Ereignisse. Das klingt wie eine massive Aufgabe, aber sie löste es einen mächtigen Trick; eine, die in der Daten Wissenschaft üblich ist aber derzeit relativ selten in den Sozialwissenschaften.
Zunächst wird typischerweise in einem Schritt Vorverarbeitung genannt, die Forscher die Social - Media - Beiträge in ein Dokument-Begriff - Matrix umgewandelt, wo es eine Zeile für jedes Dokument und eine Spalte war , die aufgezeichnet , ob die Post ein bestimmtes Wort enthalten (zB Protest, Verkehr, etc.). Als nächstes wird das Gefühl einer Stichprobe von Post eine Gruppe von wissenschaftlichen Mitarbeitern von Hand beschriftet. Dann verwendet König und Kollegen diese Hand-markierten Daten ein Maschinenlernmodell zu schätzen, die das Gefühl von einem Post auf seine Eigenschaften anhand ableiten könnte. Schließlich nutzten sie dieses Modell für maschinelles Lernen die Stimmung aller 11 Millionen Beiträge zu schätzen. So, anstatt manuell zu lesen und die Kennzeichnung 11 Millionen Beiträge (was logistisch unmöglich wäre), sie manuell eine kleine Anzahl von Stellen markiert und dann verwendet , welche Daten die Wissenschaftler überwachten Lernens nennen würde die Kategorien aller Beiträge zu schätzen. Nach dieser Analyse abgeschlossen waren König und Kollegen der Lage, das zu dem Schluss, etwas überraschend, wobei die Wahrscheinlichkeit eines Post gelöscht war nichts zu tun, ob es sich kritisch gegenüber dem Staat oder unterstützt den Staat.
Am Ende entdeckte König und Kollegen, dass nur drei Arten von Beiträgen regelmäßig zensiert wurden: Pornografie, Kritik an der Zensur, und diejenigen, die kollektive Aktionspotential hatte (dh die Möglichkeit, groß angelegte Proteste führender). Durch eine große Anzahl von Stellen zu beobachten, die gelöscht und Beiträge wurden, die nicht gelöscht wurden, König und Kollegen waren in der Lage zu lernen, wie die Zensoren arbeiten gerade durch die Beobachtung und Zählung. In den Folge Forschung, sie interveniert tatsächlich direkt in den chinesischen Ökosystem Social Media durch Beiträge mit systematisch unterschiedlichen Inhalten und Messen , die zensiert bekommen zu schaffen (King, Pan, and Roberts 2014) . Wir werden mehr über experimentelle Ansätze in Kapitel lernen 4. Weiterhin ein Thema Vorahnung, die durch das ganze Buch auftreten, diese latent-Attribut Inferenzprobleme-die manchmal gelöst werden können, mit überwachten Lern-entpuppen sehr häufig in der Sozialforschung zu sein, in der digitales Zeitalter. Sie werden sehen, sehr ähnliche Bilder 2.3 in den Kapiteln 3 (Fragen zu stellen) und 5 (Erstellen von Massen Zusammenarbeit) Abbildung; es ist eines der wenigen Ideen, die in mehreren Kapiteln erscheint.
Alle drei dieser Beispiele-Arbeitsverhalten der Taxifahrer in New York, Freundschaft Bildung von Studenten und Social-Media-Zensur Verhalten der chinesischen Regierung zeigen, dass relativ einfaches Zählen von Beobachtungsdaten Forschern ermöglichen, können den theoretischen Vorhersagen zu testen. In einigen Fällen können große Daten Sie das Zählen relativ direkt zu tun (wie im Fall von New York Taxis). In anderen Fällen müssen die Forscher ihre eigenen Beobachtungsdaten zu sammeln (wie in dem Fall der chinesischen Zensur); befassen sich mit Unvollständigkeit von Daten miteinander verschmelzen (wie im Falle von Netzwerk-Evolution); oder Durchführen irgendeiner Form von Latent trait Inferenz (wie im Fall der chinesischen Zensur). Wie ich diese Beispiele zeigen hoffen, für die Forscher die in der Lage sind interessante Fragen zu stellen, große großes Versprechen hält.