Các nhà nghiên cứu cạo trang web truyền thông xã hội của Trung Quốc để nghiên cứu kiểm duyệt. Họ xử lý bất toàn có tiềm ẩn tính trạng suy luận.
Ngoài các dữ liệu lớn được sử dụng trong các ví dụ trước, các nhà nghiên cứu cũng có thể thu thập dữ liệu quan sát của riêng mình, như đã được tuyệt vời minh họa bởi Gary King, Jennifer Pan, và Molly Roberts (2013) nghiên cứu về sự kiểm duyệt của chính phủ Trung Quốc.
phương tiện truyền thông xã hội ở Trung Quốc bài viết được kiểm duyệt bởi một bộ máy nhà nước khổng lồ được cho là bao gồm hàng chục ngàn người. Các nhà nghiên cứu và người dân, tuy nhiên, có rất ít cảm giác như thế nào các nhà kiểm duyệt quyết định những nội dung cần được xóa từ phương tiện truyền thông xã hội. Các học giả của Trung Quốc thực sự có những kỳ vọng trái ngược nhau về những loại bài viết có thể sẽ được xóa nhất. Một số người nghĩ rằng kiểm duyệt tập trung vào bài viết đó rất quan trọng của nhà nước trong khi những người khác nghĩ rằng họ tập trung vào bài viết để khuyến khích hành vi tập thể, chẳng hạn như các cuộc biểu tình. Nghĩ ra những kỳ vọng là chính xác có ý nghĩa đối với các nhà nghiên cứu hiểu Trung Quốc và các chính phủ độc tài khác mà tham gia vào kiểm duyệt. Do đó, vua và các đồng nghiệp muốn so sánh bài viết được xuất bản và sau đó bị xóa để bài viết được xuất bản và không bao giờ bị xóa.
Thu thập những bài viết liên quan đến thiết kế kỹ thuật tuyệt vời của bò hơn 1.000 phương tiện truyền thông xã hội các trang web mỗi Trung Quốc với trang khác bố trí tìm hiểu các bài viết có liên quan, và sau đó xem xét lại những bài viết để xem mà sau đó đã bị xóa. Ngoài các vấn đề kỹ thuật bình thường liên quan với quy mô lớn web-bò, dự án này đã có sự thách thức rằng nó cần thiết để được rất nhanh vì nhiều bài kiểm duyệt được đưa xuống trong ít hơn 24 giờ. Nói cách khác, một trình thu thập chậm sẽ bỏ lỡ rất nhiều bài viết đã được kiểm duyệt. Hơn nữa, các trình thu thập đã phải làm tất cả các bộ sưu tập dữ liệu này trong khi trốn tránh phát hiện vì sợ rằng các trang web truyền thông xã hội chặn truy cập hoặc thay đổi chính sách của họ để đáp ứng với nghiên cứu.
Khi nhiệm vụ kỹ thuật đồ sộ này được hoàn thành, vua và các đồng nghiệp đã thu được khoảng 11 triệu bài viết trên 85 chủ đề khác nhau mà đã được xác định trước dựa trên mức dự kiến của họ về độ nhạy. Ví dụ, một chủ đề nhạy cảm cao là Ai Weiwei, các nghệ sĩ bất đồng chính kiến; một chủ đề nhạy cảm giữa là sự đánh giá cao và sự mất giá của đồng tiền Trung Quốc, và một chủ đề nhạy cảm thấp là World Cup. Trong số này 11 triệu bài viết khoảng 2 triệu người đã được kiểm duyệt, nhưng bài viết về các chủ đề nhạy cảm được kiểm duyệt chỉ hơi thường xuyên hơn so với bài viết về các chủ đề nhạy cảm trung bình và thấp. Nói cách khác, kiểm duyệt Trung Quốc được về như khả năng kiểm duyệt một bài đề cập đến Ai Weiwei là một bài đề cập đến World Cup. Những phát hiện này không phù hợp với ý niệm đơn giản rằng chính phủ kiểm duyệt tất cả các bài viết về các chủ đề nhạy cảm.
Đây phép tính đơn giản của tỷ lệ kiểm duyệt theo chủ đề có thể gây hiểu nhầm, tuy nhiên. Ví dụ, chính phủ có thể kiểm duyệt bài viết được hỗ trợ của Ai Weiwei, nhưng lại bài viết đó rất quan trọng của anh ta. Để phân biệt giữa các bài viết cẩn thận hơn, các nhà nghiên cứu cần phải đo tình cảm của mỗi bài. Vì vậy, một trong những cách để suy nghĩ về nó là tình cảm của mỗi bài đăng trong một tính năng tiềm ẩn quan trọng của mỗi bài. Thật không may, mặc dù nhiều công việc, phương pháp hoàn toàn tự động phát hiện tình cảm bằng các từ điển trước hiện vẫn không phải là rất tốt trong nhiều tình huống (suy nghĩ lại về vấn đề tạo ra một dòng thời gian cảm xúc của ngày 11 tháng 9 năm 2001 từ mục 2.3.2.6). Do đó, vua và các đồng nghiệp đang rất cần một cách để nhãn 11 triệu bài viết truyền thông xã hội của họ cho dù họ là 1) quan trọng của nhà nước, 2) hỗ trợ của nhà nước, hoặc 3) báo cáo không liên quan hoặc thực tế về các sự kiện. Điều này nghe có vẻ như một công việc lớn, nhưng họ giải quyết nó bằng cách sử dụng một thủ thuật mạnh mẽ; một trong đó là phổ biến trong khoa học dữ liệu nhưng hiện tại tương đối hiếm trong khoa học xã hội.
Đầu tiên, trong một bước thường được gọi là tiền xử lý, các nhà nghiên cứu chuyển đổi các bài gửi phương tiện truyền thông xã hội vào một ma trận tài liệu hạn, nơi đã có một hàng cho mỗi tài liệu và một cột ghi nhận cho dù các bài chứa một từ cụ thể (ví dụ, biểu tình, giao thông, vv). Tiếp theo, một nhóm trợ lý nghiên cứu mặt nhãn tình cảm của một mẫu của bài. Sau đó, vua và các đồng nghiệp đã sử dụng dữ liệu bằng tay dán nhãn này để ước lượng một mô hình học máy đó có thể suy ra tình cảm của một bài dựa trên những đặc điểm của nó. Cuối cùng, họ đã sử dụng mô hình máy học này để ước lượng tình cảm của tất cả 11 triệu bài viết. Do đó, chứ không phải là tự đọc và ghi nhãn 11 triệu bài viết (đó sẽ là hậu cần không thể), họ tự dán nhãn một số lượng nhỏ các bài viết và sau đó sử dụng những dữ liệu khoa học sẽ gọi học có giám sát để ước tính các chuyên mục của tất cả các bài viết. Sau khi hoàn thành phân tích này, vua và các đồng nghiệp đã có thể kết luận rằng, một chút ngạc nhiên, xác suất của một bài bị xóa là không liên quan đến cho dù đó là quan trọng của nhà nước hoặc hỗ trợ của nhà nước.
Cuối cùng, vua và các đồng nghiệp phát hiện ra rằng chỉ có ba loại bài thường xuyên được kiểm duyệt: nội dung khiêu dâm, những lời chỉ trích của các nhà kiểm duyệt và những người có tiềm năng hoạt động tập thể (tức là, khả năng dẫn đến cuộc biểu tình quy mô lớn). Bằng cách quan sát một số lượng lớn các bài viết đã được xóa và các bài viết mà không bị xóa, vua và các đồng nghiệp đã có thể học cách kiểm duyệt làm việc chỉ bằng cách quan sát và đếm. Trong nghiên cứu tiếp theo, họ thực sự trực tiếp can thiệp vào hệ sinh thái phương tiện truyền thông xã hội của Trung Quốc bằng cách tạo ra các bài viết có nội dung hệ thống khác nhau và đo đó có được kiểm duyệt (King, Pan, and Roberts 2014) . Chúng tôi sẽ tìm hiểu thêm về phương pháp thực nghiệm trong chương 4. Hơn nữa, báo hiệu một chủ đề đó sẽ xảy ra trong suốt cuốn sách, những vấn đề này, trong đó tiềm ẩn thuộc tính suy luận đôi khi có thể được giải quyết với giám sát học tập-bật ra được rất phổ biến trong nghiên cứu xã hội trong thời đại kỹ thuật số. Bạn sẽ nhìn thấy hình ảnh rất giống như hình 2.3 trong chương 3 (Đặt câu hỏi) và 5 (Tạo sự hợp tác đoàn thể); nó là một trong số ít các ý tưởng xuất hiện trong nhiều chương.
Tất cả ba trong số những ví dụ-hành vi làm việc của lái xe taxi ở New York, hình thành tình bạn của sinh viên, và xã hội phương tiện truyền thông kiểm duyệt hành vi của chính phủ Trung Quốc cho thấy rằng đếm tương đối đơn giản của các dữ liệu quan sát có thể cho phép các nhà nghiên cứu để kiểm tra dự đoán lý thuyết. Trong một số trường hợp, dữ liệu lớn cho phép bạn làm điều này tương đối đếm trực tiếp (như trong trường hợp của New York Taxi). Trong trường hợp khác, các nhà nghiên cứu sẽ cần phải thu thập dữ liệu quan sát của riêng mình (như trong trường hợp của sự kiểm duyệt của Trung Quốc); đối phó với bất toàn bằng cách kết hợp dữ liệu với nhau (như trong trường hợp của sự tiến hóa mạng); hoặc thực hiện một số hình thức tiềm ẩn tính trạng suy luận (như trong trường hợp của sự kiểm duyệt của Trung Quốc). Như tôi hy vọng những ví dụ trên, các nhà nghiên cứu người có thể đặt câu hỏi thú vị, lớn hứa hẹn tuyệt vời.