2.4.1.3 ცენზურა სოციალური მედიის ჩინეთის მთავრობა

მკვლევარებმა scraped ჩინური სოციალური მედია საიტებზე შესწავლა ცენზურა. შეეხო დაუსრულებლობის ლატენტური-trait დასკვნა.

გარდა იმისა, რომ დიდი მონაცემები გამოიყენება წინა ორი მაგალითები, მკვლევარები ასევე შეგიძლიათ შეაგროვოთ საკუთარი დაკვირვების მონაცემები, შესანიშნავად ილუსტრირებული Gary King, Jennifer Pan და Molly რობერტსი (2013) კვლევის ცენზურა ჩინეთის ხელისუფლების მიერ.

სოციალური მედიის ფორუმზე ჩინეთში ცენზურის მიერ უზარმაზარი სახელმწიფო აპარატი, რომელიც ეგონა, რომ მოიცავს ათობით ათასი ადამიანი. მკვლევარებმა და მოქალაქეებს, თუმცა, აქვს პატარა გრძნობა, თუ როგორ ეს ცენზურის გადაწყვეტს, თუ რა შინაარსი უნდა წაიშლება სოციალური მედია. მეცნიერები ჩინეთის რეალურად კონფლიქტის მოლოდინი, რომელიც სახის შეტყობინება, სავარაუდოდ, უნდა წაიშალოს. ზოგი ფიქრობს, რომ ცენზურის ფოკუსირება შეტყობინება, რომ არის კრიტიკული სახელმწიფო ხოლო სხვები ფიქრობენ, მათ ფოკუსირება შეტყობინება, რომ ხელი შეუწყოს კოლექტიური ქცევა, როგორიცაა საპროტესტო აქციებს. მჭიდროდაა რომელი ამ მოლოდინის სწორი აქვს გავლენა როგორ მკვლევარები მესმის ჩინეთი და სხვა ავტორიტარულ მთავრობებს, რომ ჩაერთონ ცენზურა. ამიტომ, მეფე და კოლეგებს სურდა შედარების შეტყობინება, რომ დაიბეჭდა და შემდგომში იშლება შეტყობინება, რომ დაიბეჭდა და არ იშლება.

შეგროვება ამ ფორუმზე ჩართული საოცარი საინჟინრო feat მცოცავი 1000-ზე მეტი ჩინური სოციალური მედია საიტებზე თითოეული სხვადასხვა გვერდი ფორმატისთვის დამდგენი შესაბამისი შეტყობინება და შემდეგ გადახედვას ამ ფორუმზე ვხედავ რომლებიც შემდგომში იშლება. გარდა ამისა, ნორმალური საინჟინრო დაკავშირებული პრობლემების მასშტაბური ვებ-crawling, ამ პროექტს დამატებითი გამოწვევა, რომ ეს საჭირო იქნება ძალიან სწრაფად, რადგან ბევრი ცენზურა პოსტი ჩამოიყვანეს ნაკლებ 24 საათის განმავლობაში. სხვა სიტყვებით, ნელი crawler მენატრება უამრავი შეტყობინება, რომ ცენზურა იყო დაწესებული. გარდა ამისა, შემოდიან უნდა გაეკეთებინათ ყველა ამ მონაცემთა შეგროვების ხოლო გვერდის ავლით გამოვლენის ნუუკუე სოციალური მედია საიტებზე დაბლოკოს ხელმისაწვდომობის ან სხვაგვარად შეცვალოს მათი პოლიტიკის საპასუხოდ შესწავლა.

მას შემდეგ, რაც ამ მასიური საინჟინრო ამოცანა დასრულდა, მეფე და კოლეგებს მიღებული 11 მლნ შეტყობინება 85 სხვადასხვა თემებზე, რომლებიც წინასწარ განსაზღვრული საფუძველზე მათი ელოდებიან დონის მგრძობიარობა. მაგალითად, თემა მაღალი მგრძნობელობა Ai Weiwei დისიდენტური მხატვარი; თემა შუა მგრძობიარობა მადლიერება და დევალვაცია ჩინური ვალუტა და თემა დაბალი მგრძნობელობა მსოფლიო ჩემპიონატი. ეს 11 მილიონი შეტყობინება დაახლოებით 2 მილიონი ცენზურა, მაგრამ შეტყობინება უაღრესად მგრძნობიარე თემებზე ცენზურა მხოლოდ ოდნავ უფრო ხშირად, ვიდრე შეტყობინება საშუალო და დაბალი მგრძნობელობა თემები. სხვა სიტყვებით, ჩინური ცენზურის შესახებ, როგორც სავარაუდოდ ცენზურას პოსტი, რომელიც აღნიშნავს, Ai Weiwei როგორც პოსტ რომ ახსენებს მსოფლიო ჩემპიონატი. ეს დასკვნები არ შეესაბამება მარტივი, რომ მთავრობა ცენზურის ყველა წერილის მგრძნობიარე თემებზე.

ეს მარტივი გაანგარიშებით ცენზურის განაკვეთი თემაზე შეიძლება იყოს შეცდომა, თუმცა. მაგალითად, მთავრობას, შესაძლოა, ცენზურას შეტყობინება, რომ მხარს უჭერს Ai Weiwei, მაგრამ თანამდებობას დატოვებს, რომლებიც კრიტიკული მას. იმისათვის, რომ განასხვავოს შეტყობინება უფრო ყურადღებით, მკვლევარებმა უნდა გავზომოთ სენტიმენტი ყოველი ჩანაწერი. ამგვარად, ერთი გზა ვიფიქროთ, რომ ეს არის ის, რომ განწყობა თითოეული ჩანაწერი მნიშვნელოვანი ფარული თვისება ყოველი ჩანაწერი. სამწუხაროდ, მიუხედავად ბევრი მუშაობა, სრულად ავტომატიზირებული მეთოდები განწყობა გამოვლენის გამოყენებით წინასწარ არსებული ლექსიკონები ჯერ კიდევ არ არის ძალიან კარგი ბევრ სიტუაციაში (ვფიქრობ, უკან პრობლემების შექმნა ემოციური ქრონოლოგია 2001 წლის 11 სექტემბერს სექცია 2.3.2.6). ამიტომ, მეფე და კოლეგებს საჭიროა გზა წარწერა მათი 11 მილიონი სოციალური მედიის ფორუმზე, შეიძლება თუ არა, რომ ისინი 1) კრიტიკული სახელმწიფო, 2) მხარდამჭერი სახელმწიფო, და 3) შეუსაბამო ან ფაქტობრივი ანგარიშები მოვლენების შესახებ. ეს ჟღერს მასიური სამუშაო, მაგრამ ისინი მოგვარდეს ეს გამოყენებით ძლიერი შეასრულა; ერთი, რომ არის გავრცელებული მონაცემები მეცნიერების მაგრამ გაკეთებული შედარებით იშვიათი სოციალურ მეცნიერებათა.

პირველი, ნაბიჯი, როგორც წესი, მოუწოდა წინასწარ დამუშავებას, მკვლევართა მოაქცია სოციალური მედიის ფორუმზე დოკუმენტი გრძელვადიანი matrix, სადაც არ იყო ერთი რიგის თითოეული დოკუმენტი და ერთი სვეტი, რომ ჩაწერა თუ პოსტი შეიცავს კონკრეტული სიტყვა (მაგალითად, პროტესტის ნიშნად, მოძრაობის, და ა.შ.). შემდეგი, ჯგუფის კვლევის თანაშემწეები ხელით შეაფასა განწყობა ნიმუში პოსტი. ამის შემდეგ, მეფე და მისმა კოლეგებმა გამოიყენეს ამ მხრივ შეაფასა მონაცემების დადგენა მანქანა სწავლის მოდელი, რომელიც შეიძლება ითქვას, განწყობის პოსტი ეფუძნება მისი თვისებები. და ბოლოს, ისინი გამოიყენება ამ მანქანა სწავლის მოდელი, რათა დადგინდეს განწყობა ყველა 11 მილიონი შეტყობინება. ამდენად, ვიდრე ხელით კითხულობს და ეტიკეტირების 11 მილიონი პოსტი (რომელიც იქნება ლოჯისტიკური შეუძლებელია), მათ ხელით შეაფასა მცირე რაოდენობის პოსტი და შემდეგ გამოიყენება რა მონაცემები მეცნიერები მინდა მოვუწოდო ზედამხედველობით სასწავლო, რათა დადგინდეს კატეგორიები ყველა პოსტი. დასრულების შემდეგ ამ ანალიზი, მეფე და კოლეგებს შეძლეს დავასკვნათ, რომ, გარკვეულწილად გასაკვირი, ალბათობა პოსტი წაიშლება არ უკავშირდება თუ არა ეს იყო კრიტიკული სახელმწიფო და მხარს უჭერს სახელმწიფო.

ნახაზი 2.3: გამარტივებული სქემატური პროცედურა გამოიყენება King, Pan და Roberts (2013), რომ შეფასებისას განწყობის 11 მილიონი ჩინური სოციალური მედიის ფორუმზე. პირველი, ნაბიჯი, როგორც წესი, მოუწოდა წინასწარ დამუშავებას, მკვლევართა მოაქცია სოციალური მედიის ფორუმზე დოკუმენტი გრძელვადიანი matrix (იხ Grimmer და Stewart (2013) დამატებითი ინფორმაცია). მეორე, მკვლევართა ხელის კოდირებული განწყობა მცირე ნიმუში ფორუმზე. მესამე, მკვლევართა მომზადება ზედამხედველობით სწავლების მოდელი დაალაგეთ განწყობა ფორუმზე. მეოთხე, მკვლევარებმა გამოიყენეს ზედამხედველობით სწავლების მოდელი, რათა დადგინდეს განწყობა ყველა პოსტი. იხილეთ King, Pan და Roberts (2013), დანართი B უფრო დეტალური აღწერა.

ნახაზი 2.3: გამარტივებული სქემატური პროცედურა გამოიყენება King, Pan, and Roberts (2013) , რომ შეფასებისას განწყობის 11 მილიონი ჩინური სოციალური მედიის ფორუმზე. პირველი, ნაბიჯი, როგორც წესი, მოუწოდა წინასწარ დამუშავებას, მკვლევართა მოაქცია სოციალური მედიის ფორუმზე დოკუმენტი გრძელვადიანი matrix (იხ Grimmer and Stewart (2013) დამატებითი ინფორმაცია). მეორე, მკვლევართა ხელის კოდირებული განწყობა მცირე ნიმუში ფორუმზე. მესამე, მკვლევართა მომზადება ზედამხედველობით სწავლების მოდელი დაალაგეთ განწყობა ფორუმზე. მეოთხე, მკვლევარებმა გამოიყენეს ზედამხედველობით სწავლების მოდელი, რათა დადგინდეს განწყობა ყველა პოსტი. იხილეთ King, Pan, and Roberts (2013) , დანართი B უფრო დეტალური აღწერა.

და ბოლოს, მეფე და კოლეგებმა აღმოაჩინეს, რომ მხოლოდ სამი სახის შეტყობინება რეგულარულად ცენზურა: პორნოგრაფია, კრიტიკა ცენზურის და ის, რომ ჰქონდა კოლექტიური მოქმედების პოტენციალის (ანუ, შესაძლებლობა წამყვანი ფართომასშტაბიანი საპროტესტო აქციები). აკვირდებიან დიდი რაოდენობით შეტყობინება, რომელიც იყო წაშლილი და შეტყობინება, რომ არ იყო წაშლილი, მეფე და კოლეგებს შეძლეს ისწავლონ ცენზურის მუშაობა მხოლოდ თვალს და იმედი. მომდევნო კვლევა, მათ რეალურად პირდაპირ ჩაერია შევიდა ჩინეთის სოციალური მედია ეკოსისტემა შექმნით პოსტები სისტემატურად სხვადასხვა შინაარსის და გაზომვებისთვის რომელიც უნდა ცენზურა (King, Pan, and Roberts 2014) . ჩვენ გაეცნობიან ექსპერიმენტული მიდგომები თავი 4. ამასთან, foreshadowing თემა, რომ მოხდება მთელი წიგნი, ეს ფარული ატრიბუტი დასკვნა პრობლემები, რომელიც შეიძლება ზოგჯერ მოგვარდება ზედამხედველობით სასწავლო აღმოჩნდება ძალიან გავრცელებული სოციალური კვლევის ციფრული ასაკი. ნახავთ სურათები ძალიან ჰგავს ნახაზი 2.3 in მე -3 (კითხვის დასმა) და 5 (შექმნა მასობრივი თანამშრომლობით); ეს არის ერთ ერთი იმ რამდენიმე იდეები, რომელიც, როგორც ჩანს, მრავალი თავი.

სამივე ეს მაგალითები-სამუშაო ქცევის ტაქსის მძღოლებს New York, მეგობრობისათვის ფორმირების სტუდენტები და სოციალური მედიის ცენზურის ქცევის ჩინეთის მთავრობა-შოუ, რომელიც შედარებით მარტივი დათვლა ზედამხედველობითი მონაცემები შეიძლება საშუალებას მკვლევარები შესამოწმებლად თეორიული წინასწარმეტყველება. ზოგიერთ შემთხვევაში, დიდი მონაცემები საშუალებას გაძლევთ ამის გაკეთება დათვლის შედარებით პირდაპირ (როგორც იმ შემთხვევაში, New York ტაქსი). სხვა შემთხვევაში, მკვლევარებმა უნდა შეაგროვოს საკუთარი დაკვირვების მონაცემები (როგორც იმ შემთხვევაში, ჩინეთის ცენზურა); გაუმკლავდეთ დაუსრულებლობის შერწყმის მონაცემები ერთად (როგორც იმ შემთხვევაში, ქსელის ევოლუცია); ან ასრულებენ გარკვეული ფორმით ფარული-trait დასკვნა (როგორც იმ შემთხვევაში, ჩინეთის ცენზურა). როგორც იმედი მაქვს, ეს მაგალითები გვიჩვენებს, მკვლევარები, რომელთაც შეუძლიათ ვთხოვო საინტერესო კითხვები, big ფლობს დიდ.