2.4.1.3 Η λογοκρισία των μέσων κοινωνικής δικτύωσης από την κινεζική κυβέρνηση

Ερευνητές ξύνεται κινεζικές ιστοσελίδες κοινωνικής δικτύωσης για να μελετήσει τη λογοκρισία. Ασχολούνταν με ελλιπή με λανθάνουσα-χαρακτηριστικό συμπέρασμα.

Εκτός από τα μεγάλα δεδομένα που χρησιμοποιούνται στα δύο προηγούμενα παραδείγματα, οι ερευνητές μπορούν επίσης να συλλέγουν τις δικές τους παρατηρησιακά δεδομένα, όπως ήταν θαυμάσια απεικονίζεται από τον Gary King, Jennifer Pan, και Molly Roberts » (2013) η έρευνα σχετικά με τη λογοκρισία από την κινεζική κυβέρνηση.

Οι κοινωνικές θέσεις των μέσων ενημέρωσης στην Κίνα λογοκρίνονται από ένα τεράστιο κρατικό μηχανισμό που θεωρείται ότι περιλαμβάνει δεκάδες χιλιάδες ανθρώπους. Οι ερευνητές και οι πολίτες, όμως, έχουν ελάχιστη αίσθηση του πώς αυτές οι λογοκριτές αποφασίσετε τι περιεχόμενο πρέπει να διαγραφεί από την κοινωνική μέσων μαζικής ενημέρωσης. Οι μελετητές της Κίνας στην πραγματικότητα έχουν αντικρουόμενες προσδοκίες σχετικά με το ποια είδη των θέσεων είναι πιο πιθανό να διαγραφεί. Ορισμένοι πιστεύουν ότι λογοκριτές επικεντρωθεί σε θέσεις που είναι κρίσιμες από το κράτος, ενώ άλλοι πιστεύουν ότι επικεντρώνονται στις θέσεις που ενθαρρύνουν τη συλλογική συμπεριφορά, όπως διαμαρτυρίες. Υπολογίζοντας ποια από αυτές τις προσδοκίες είναι σωστή έχει συνέπειες για το πώς τους ερευνητές να κατανοήσουν την Κίνα και άλλες αυταρχικές κυβερνήσεις που συμμετέχουν σε λογοκρισία. Ως εκ τούτου, ο βασιλιάς και οι συνεργάτες του θέλησαν να συγκρίνουν τις θέσεις που είχαν δημοσιευθεί και στη συνέχεια διαγράφονται σε θέσεις που δημοσιεύονται και δεν διαγράφονται.

Η συλλογή αυτών των θέσεων αφορούσε την καταπληκτική μηχανικής κατόρθωμα της σέρνεται πάνω από 1.000 Κινέζοι ιστοσελίδες-το καθένα τα μέσα κοινωνικής δικτύωσης με διαφορετικές διατάξεις σελίδας εύρεσης σχετικών θέσεων, και στη συνέχεια την αναθεώρηση αυτών των θέσεων για να δείτε ποια διαγράφηκαν στη συνέχεια. Εκτός από τα συνήθη προβλήματα μηχανικής που συνδέονται με μεγάλης κλίμακας web-crawling, το έργο αυτό είχε την προστιθέμενη πρόκληση που θα έπρεπε να είναι εξαιρετικά γρήγορα γιατί πολλοί λογοκρίνονται θέσεις που λαμβάνονται σε λιγότερο από 24 ώρες. Με άλλα λόγια, μια αργή ερπυστριοφόρο θα χάσετε τα μέρη των θέσεων που είχαν λογοκριθεί. Περαιτέρω, οι αντιολισθητικές αλυσίδες έπρεπε να κάνει όλη αυτή τη συλλογή δεδομένων, ενώ αποφύγει την ανίχνευση μήπως οι ιστοσελίδες κοινωνικών μέσων μαζικής ενημέρωσης εμποδίσει την πρόσβαση ή αλλιώς να αλλάξουν τις πολιτικές τους για την αντιμετώπιση της μελέτης.

Μόλις ολοκληρώθηκε αυτή η μαζική αποστολή μηχανικού, ο βασιλιάς και οι συνεργάτες του είχαν λάβει περίπου 11 εκατομμύρια θέσεις σε 85 διαφορετικά θέματα, που ήταν προκαθορισμένο με βάση το αναμενόμενο επίπεδο ευαισθησίας τους. Για παράδειγμα, ένα θέμα υψηλής ευαισθησίας είναι Ai Weiwei, ο αντιφρονών καλλιτέχνης? ένα θέμα της μεσαίας ευαισθησίας είναι η εκτίμηση και η υποτίμηση του κινεζικού νομίσματος, και ένα θέμα της χαμηλής ευαισθησίας είναι το Παγκόσμιο Κύπελλο. Από αυτά τα 11 εκατομμύρια θέσεις περίπου 2 εκατομμύρια είχαν λογοκριθεί, αλλά δημοσιεύσεις σε εξαιρετικά ευαίσθητα θέματα είχαν λογοκριθεί μόνο ελαφρώς πιο συχνά από ό, τι θέσεις για μεσαία και χαμηλά θέματα ευαισθησία. Με άλλα λόγια, οι κινεζικές λογοκριτές έχουν περίπου τις ίδιες πιθανότητες να λογοκρίνει μια θέση που αναφέρει Ai Weiwei ως θέση που αναφέρει το Παγκόσμιο Κύπελλο. Τα ευρήματα αυτά δεν ταιριάζει με την απλοϊκή ιδέα ότι η κυβέρνηση λογοκρίνει όλες τις θέσεις σε ευαίσθητα θέματα.

Αυτό το απλό υπολογισμό του ποσοστού λογοκρισία από το θέμα θα μπορούσε να είναι παραπλανητική, όμως. Για παράδειγμα, η κυβέρνηση θα μπορούσε να λογοκρίνει θέσεις που στηρίζουν Ai Weiwei, αλλά αφήνουν τις θέσεις που είναι κρίσιμη γι 'αυτόν. Προκειμένου να γίνει διάκριση μεταξύ των μηνυμάτων πιο προσεκτικά, οι ερευνητές πρέπει να μετρήσετε το συναίσθημα της κάθε θέσης. Έτσι, ένας τρόπος για να το σκεφτώ είναι ότι το συναίσθημα του κάθε θέση σε μια σημαντική λανθάνουσα χαρακτηριστικό της κάθε θέσης. Δυστυχώς, παρά την πολλή δουλειά, πλήρως αυτοματοποιημένων μεθόδων ανίχνευσης συναισθήματος χρησιμοποιώντας προ-υπάρχουσες λεξικά εξακολουθούν να μην είναι πολύ καλή σε πολλές περιπτώσεις (σκεφτείτε ξανά στα προβλήματα που δημιουργούν ένα συναισθηματικό χρονοδιάγραμμα της 11ης Σεπτεμβρίου, 2001 Ενότητα 2.3.2.6). Ως εκ τούτου, ο βασιλιάς και οι συνεργάτες χρειάζονται έναν τρόπο να ονομάσει 11 εκατομμύρια κοινωνικές θέσεις τους μέσα ενημέρωσης ως προς το αν ήταν 1) η κρίσιμη του κράτους, 2) υποστηρικτική του κράτους, ή 3) άσχετο ή πραγματικές εκθέσεις για τα γεγονότα. Αυτό ακούγεται σαν μια τεράστια δουλειά, αλλά αυτό λύνεται χρησιμοποιώντας ένα ισχυρό τέχνασμα? αυτό που είναι κοινό στην επιστήμη των δεδομένων, αλλά προς το παρόν είναι σχετικά σπάνια στις κοινωνικές επιστήμες.

Κατ 'αρχάς, σε ένα βήμα συνήθως ονομάζεται προ-επεξεργασίας, οι ερευνητές μετέτρεψαν τις θέσεις των κοινωνικών μέσων μαζικής ενημέρωσης σε ένα έγγραφο-όρος μήτρα, όπου υπήρχε μία γραμμή για κάθε έγγραφο και μία στήλη που καταγράφηκαν κατά πόσο η θέση περιείχε μια συγκεκριμένη λέξη (π.χ., διαμαρτυρία, κυκλοφορίας, κλπ). Στη συνέχεια, μια ομάδα έρευνας βοηθούς χέρι-επισημασμένο το συναίσθημα ενός δείγματος των υστέρων. Στη συνέχεια, ο βασιλιάς και οι συνεργάτες του χρησιμοποίησαν αυτό το χέρι-επισημασμένα δεδομένα για να εκτιμηθεί ένα μοντέλο μάθησης μηχάνημα που θα μπορούσε να συναχθεί το συναίσθημα μιας θέσης με βάση τα χαρακτηριστικά του. Τέλος, χρησιμοποίησαν αυτό το μοντέλο μηχανικής μάθησης για να εκτιμηθεί η ψυχολογία όλων των 11 εκατομμυρίων θέσεων. Έτσι, αντί για το χέρι την ανάγνωση και την επισήμανση 11 εκατομμύρια θέσεις (που θα ήταν αδύνατον), που με το χέρι επισημανθεί ένα μικρό αριθμό των θέσεων και στη συνέχεια χρησιμοποιούνται τα δεδομένα που οι επιστήμονες θα καλέσει εποπτευόμενης μάθησης για την εκτίμηση των κατηγοριών όλων των θέσεων. Μετά την ολοκλήρωση της ανάλυσης αυτής, ο βασιλιάς και οι συνεργάτες του ήταν σε θέση να καταλήξει στο συμπέρασμα ότι, κάπως αναπάντεχα, η πιθανότητα μιας θέσης να διαγραφούν ήταν άσχετα με το αν ήταν κρίσιμα από το κράτος ή υποστηρικτική του κράτους.

Εικόνα 2.3: Απλοποιημένο σχηματικό για τη διαδικασία που χρησιμοποιείται στο βασιλιά, τον Πάνα, και Roberts (2013) για την εκτίμηση του συναισθήματος των 11 εκατομμυρίων κινεζικής θέσεις των κοινωνικών μέσων μαζικής ενημέρωσης. Κατ 'αρχάς, σε ένα βήμα συνήθως ονομάζεται προ-επεξεργασίας, οι ερευνητές μετέτρεψε τις κοινωνικές θέσεις μέσων μαζικής ενημέρωσης σε ένα έγγραφο-όρος μήτρα (βλέπε Grimmer και Stewart (2013) για περισσότερες πληροφορίες). Δεύτερον, οι ερευνητές χέρι-κωδικοποιημένα το συναίσθημα ενός μικρού δείγματος των θέσεων. Τρίτον, οι ερευνητές εκπαίδευσαν έναν εποπτευόμενο μοντέλο μάθησης για να χαρακτηρίσει το συναίσθημα των θέσεων. Τέταρτον, οι ερευνητές χρησιμοποίησαν το εποπτευόμενο μοντέλο μάθησης για να εκτιμηθεί το συναίσθημα όλων των θέσεων. Δείτε το βασιλιά, τον Πάνα, και Roberts (2013), Παράρτημα Β για μια πιο λεπτομερή περιγραφή.

Εικόνα 2.3: Απλοποιημένο σχηματικό για τη διαδικασία που χρησιμοποιείται στο King, Pan, and Roberts (2013) για την εκτίμηση του συναισθήματος των 11 εκατομμυρίων κινεζικής θέσεις των κοινωνικών μέσων μαζικής ενημέρωσης. Κατ 'αρχάς, σε ένα βήμα συνήθως ονομάζεται προ-επεξεργασίας, οι ερευνητές μετέτρεψε τις κοινωνικές θέσεις μέσων μαζικής ενημέρωσης σε ένα έγγραφο-όρος μήτρα (βλέπε Grimmer and Stewart (2013) για περισσότερες πληροφορίες). Δεύτερον, οι ερευνητές χέρι-κωδικοποιημένα το συναίσθημα ενός μικρού δείγματος των θέσεων. Τρίτον, οι ερευνητές εκπαίδευσαν έναν εποπτευόμενο μοντέλο μάθησης για να χαρακτηρίσει το συναίσθημα των θέσεων. Τέταρτον, οι ερευνητές χρησιμοποίησαν το εποπτευόμενο μοντέλο μάθησης για να εκτιμηθεί το συναίσθημα όλων των θέσεων. Δείτε King, Pan, and Roberts (2013) , Παράρτημα Β για μια πιο λεπτομερή περιγραφή.

Στο τέλος, ο βασιλιάς και οι συνεργάτες του ανακάλυψαν ότι μόνο τρεις τύπους των θέσεων ήταν τακτικά λογοκρισία: πορνογραφία, η κριτική των λογοκριτών, και εκείνοι που είχαν τη συλλογική δυναμικό δράσης (δηλαδή, η δυνατότητα που οδηγεί σε ευρείας κλίμακας διαμαρτυρίες). Παρατηρώντας ένα τεράστιο αριθμό των θέσεων που έχουν διαγραφεί και τις θέσεις που δεν είχαν διαγραφεί, ο βασιλιάς και οι συνεργάτες του ήταν σε θέση να μάθουν πώς λειτουργούν οι λογοκριτές απλά βλέποντας και την καταμέτρηση. Σε μεταγενέστερη έρευνα, που πραγματικά παρενέβη άμεσα στην κινεζική κοινωνικό οικοσύστημα των μέσων ενημέρωσης, με τη δημιουργία θέσεων συστηματικά διαφορετικό περιεχόμενο και μέτρησης που να λογοκριθεί (King, Pan, and Roberts 2014) . Θα μάθουμε περισσότερα για πειραματικές προσεγγίσεις στο Κεφάλαιο 4. Περαιτέρω, προαναγγέλλει ένα θέμα που θα προκύψει σε όλο το βιβλίο, αυτοί οι λανθάνουσες-χαρακτηριστικό συμπέρασμα προβλήματα, που μπορεί μερικές φορές να λυθεί με εποπτευόμενης μάθησης, να αποδειχθεί πολύ κοινό στην κοινωνική έρευνα στην ψηφιακή εποχή. Θα δείτε τις εικόνες πολύ παρόμοια με το Σχήμα 2.3 στα κεφάλαια 3 (Υποβολή ερωτήσεων) και 5 (Δημιουργία μάζα συνεργασία)? είναι ένα από τα λίγα ιδέες που εμφανίζεται σε πολλαπλές κεφάλαια.

Και τα τρία από αυτά τα παραδείγματα, η συμπεριφορά εργασίας των οδηγών ταξί στη Νέα Υόρκη, ο σχηματισμός φιλία με τους μαθητές, και τα social media συμπεριφορά λογοκρισία της κινεζικής κυβέρνησης δείχνουν ότι είναι σχετικά απλή καταμέτρηση των παρατηρησιακά δεδομένα μπορεί να επιτρέψει στους ερευνητές να δοκιμάσουν τις θεωρητικές προβλέψεις. Σε ορισμένες περιπτώσεις, τα μεγάλα τα δεδομένα σας δίνει τη δυνατότητα να κάνετε αυτήν την καταμέτρηση σχετικά άμεσα (όπως στην περίπτωση της Νέας Υόρκης ταξί). Σε άλλες περιπτώσεις, οι ερευνητές θα πρέπει να συλλέγουν τις δικές τους παρατηρησιακά δεδομένα (όπως στην περίπτωση της κινεζικής λογοκρισίας)? ασχοληθεί με ελλιπή συνδυάζοντας τα δεδομένα μεταξύ τους (όπως στην περίπτωση της εξέλιξης του δικτύου)? ή την εκτέλεση κάποια μορφή λανθάνουσας-χαρακτηριστικό συμπέρασμα (όπως στην περίπτωση της κινεζικής λογοκρισίας). Όπως Ελπίζω ότι αυτά τα παραδείγματα δείχνουν, για τους ερευνητές οι οποίοι είναι σε θέση να ζητήσει από ενδιαφέροντα ερωτήματα, μεγάλα και πολλά υποσχόμενο.