Đếm đơn giản có thể là thú vị nếu bạn kết hợp một câu hỏi tốt với dữ liệu tốt.
Mặc dù nó được đặt trong ngôn ngữ nghe có vẻ phức tạp, nhưng rất nhiều nghiên cứu xã hội thực sự chỉ đếm mọi thứ. Trong thời đại dữ liệu lớn, các nhà nghiên cứu có thể đếm nhiều hơn bao giờ hết, nhưng điều đó không có nghĩa là họ chỉ nên bắt đầu đếm một cách bừa bãi. Thay vào đó, các nhà nghiên cứu nên hỏi: Điều gì đáng được đếm? Điều này có vẻ như là một vấn đề hoàn toàn chủ quan, nhưng có một số mô hình chung.
Thường thì sinh viên thúc đẩy nghiên cứu đếm của họ bằng cách nói: Tôi sẽ đếm một cái gì đó mà không ai từng đếm trước đây. Ví dụ, một sinh viên có thể nói rằng nhiều người đã nghiên cứu người di cư và nhiều người đã nghiên cứu cặp song sinh, nhưng không ai đã nghiên cứu cặp song sinh di cư. Theo kinh nghiệm của tôi, chiến lược này, mà tôi gọi là động lực bởi sự vắng mặt , thường không dẫn đến nghiên cứu tốt. Động lực bởi sự vắng mặt là loại giống như nói rằng có một lỗ trên đó, và tôi sẽ làm việc rất chăm chỉ để lấp đầy nó. Nhưng không phải mọi lỗ đều cần được lấp đầy.
Thay vì thúc đẩy bởi sự vắng mặt, tôi nghĩ rằng một chiến lược tốt hơn là tìm kiếm các câu hỏi nghiên cứu quan trọng hoặc thú vị (hoặc lý tưởng cả hai). Cả hai thuật ngữ này hơi khó xác định, nhưng một cách để suy nghĩ về nghiên cứu quan trọng là nó có một số tác động hoặc nguồn cấp dữ liệu có thể đo lường thành quyết định quan trọng của các nhà hoạch định chính sách. Ví dụ, đo tỷ lệ thất nghiệp là quan trọng vì nó là một chỉ số của nền kinh tế thúc đẩy các quyết định chính sách. Nói chung, tôi nghĩ rằng các nhà nghiên cứu có một ý thức khá tốt về những gì là quan trọng. Vì vậy, trong phần còn lại của phần này, tôi sẽ cung cấp hai ví dụ mà tôi cho rằng việc đếm là thú vị. Trong mỗi trường hợp, các nhà nghiên cứu không đếm ngược; thay vào đó, họ đang đếm trong các thiết lập rất cụ thể cho thấy những hiểu biết quan trọng về những ý tưởng chung hơn về cách thức hoạt động của các hệ thống xã hội. Nói cách khác, rất nhiều điều làm cho các bài tập đếm đặc biệt này thú vị không phải là chính dữ liệu, nó xuất phát từ những ý tưởng tổng quát hơn.
Một ví dụ về sức mạnh đếm đơn giản đến từ nghiên cứu của Henry Farber (2015) về hành vi của các tài xế taxi ở thành phố New York. Mặc dù nhóm này có vẻ không thú vị nhưng đây là một địa điểm nghiên cứu chiến lược để thử nghiệm hai lý thuyết cạnh tranh trong kinh tế lao động. Với mục đích nghiên cứu của Farber, có hai đặc điểm quan trọng về môi trường làm việc của tài xế taxi: (1) tiền lương theo giờ của họ dao động từng ngày, dựa trên các yếu tố như thời tiết, và (2) số giờ họ công việc có thể dao động mỗi ngày dựa trên quyết định của họ. Những tính năng này dẫn đến một câu hỏi thú vị về mối quan hệ giữa tiền lương theo giờ và giờ làm việc. Các mô hình tân cổ điển về kinh tế dự đoán rằng những người lái xe taxi sẽ làm việc nhiều hơn vào những ngày mà họ có lương cao hơn theo giờ. Ngoài ra, các mô hình từ kinh tế học hành vi dự đoán chính xác điều ngược lại. Nếu trình điều khiển thiết lập mục tiêu thu nhập cụ thể — nói $ 100 mỗi ngày — và làm việc cho đến khi mục tiêu đó được đáp ứng, thì trình điều khiển sẽ kết thúc ít giờ hơn vào những ngày mà họ kiếm được nhiều tiền hơn. Ví dụ, nếu bạn là người có thu nhập mục tiêu, bạn có thể sẽ làm việc bốn giờ vào một ngày tốt lành (25 đô la mỗi giờ) và năm giờ vào một ngày tồi tệ (20 đô la mỗi giờ). Vì vậy, các tài xế có làm việc nhiều giờ hơn vào những ngày có lương cao hơn theo giờ (như được tiên đoán bởi các mô hình tân cổ điển) hay nhiều giờ hơn vào những ngày có lương thấp hơn theo giờ (theo các mô hình kinh tế hành vi)?
Để trả lời câu hỏi này Farber thu thập dữ liệu về mọi chuyến đi taxi do taxi của thành phố New York thực hiện từ năm 2009 đến năm 2013, dữ liệu hiện có sẵn công khai. Những dữ liệu này được thu thập bằng đồng hồ điện tử mà thành phố yêu cầu taxi sử dụng — bao gồm thông tin về mỗi chuyến đi: thời gian bắt đầu, địa điểm bắt đầu, thời gian kết thúc, vị trí kết thúc, giá vé và mẹo (nếu mẹo được thanh toán bằng thẻ tín dụng) . Sử dụng dữ liệu này, Farber thấy rằng hầu hết các trình điều khiển làm việc nhiều hơn vào những ngày khi tiền lương cao hơn, phù hợp với lý thuyết tân cổ điển.
Ngoài phát hiện chính này, Farber đã có thể sử dụng kích thước của dữ liệu để hiểu rõ hơn về tính không đồng nhất và động lực học. Ông thấy rằng, theo thời gian, những người lái xe mới dần dần học cách làm việc nhiều giờ hơn vào những ngày lương cao (ví dụ, họ học cách hành xử như mô hình tân cổ điển dự đoán). Và những người lái xe mới cư xử giống như những người có thu nhập mục tiêu có nhiều khả năng bỏ việc trở thành tài xế taxi. Cả hai phát hiện tinh tế hơn, giúp giải thích hành vi quan sát của các trình điều khiển hiện tại, chỉ có thể thực hiện được vì kích thước của tập dữ liệu. Họ đã không thể phát hiện trong các nghiên cứu trước đó sử dụng tờ giấy đi lại từ một số ít tài xế taxi trong một khoảng thời gian ngắn (Camerer et al. 1997) .
Nghiên cứu của Farber gần với kịch bản tốt nhất cho một nghiên cứu sử dụng nguồn dữ liệu lớn vì dữ liệu được thu thập bởi thành phố khá gần với dữ liệu mà Farber thu thập được (một điểm khác biệt là Farber sẽ muốn có dữ liệu trên tổng số tiền lương - giá vé cộng với các mẹo — nhưng dữ liệu thành phố chỉ bao gồm các mẹo được thanh toán bằng thẻ tín dụng). Tuy nhiên, các dữ liệu một mình là không đủ. Chìa khóa dẫn đến nghiên cứu của Farber là đưa ra một câu hỏi thú vị cho dữ liệu, một câu hỏi có ý nghĩa lớn hơn ngoài bối cảnh cụ thể này.
Một ví dụ thứ hai về việc đếm được từ nghiên cứu của Gary King, Jennifer Pan và Molly Roberts (2013) về sự kiểm duyệt trực tuyến của chính phủ Trung Quốc. Tuy nhiên, trong trường hợp này, các nhà nghiên cứu phải thu thập dữ liệu lớn của riêng họ và họ phải đối phó với thực tế là dữ liệu của họ không đầy đủ.
Vua và các đồng nghiệp đã được thúc đẩy bởi thực tế là các bài đăng truyền thông xã hội ở Trung Quốc bị kiểm duyệt bởi một bộ máy nhà nước khổng lồ được cho là có hàng chục nghìn người. Tuy nhiên, các nhà nghiên cứu và công dân ít có ý thức về cách những người kiểm duyệt này quyết định nội dung nào sẽ bị xóa. Các học giả Trung Quốc thực sự có những kỳ vọng mâu thuẫn về loại bài đăng nào có nhiều khả năng bị xóa nhất. Một số người cho rằng những người kiểm duyệt tập trung vào các bài đăng rất quan trọng của tiểu bang, trong khi những người khác nghĩ rằng họ tập trung vào các bài đăng khuyến khích hành vi tập thể, chẳng hạn như các cuộc biểu tình. Việc tìm ra những kỳ vọng này là chính xác có ý nghĩa cho việc các nhà nghiên cứu hiểu được Trung Quốc và các chính phủ độc đoán khác tham gia kiểm duyệt như thế nào. Do đó, King và các đồng nghiệp muốn so sánh các bài đăng đã được xuất bản và sau đó bị xóa với các bài đăng đã được xuất bản và không bao giờ bị xóa.
Thu thập những bài viết liên quan đến thiết kế kỹ thuật tuyệt vời của bò hơn 1.000 phương tiện truyền thông xã hội các trang web mỗi Trung Quốc với trang khác bố trí tìm hiểu các bài viết có liên quan, và sau đó xem xét lại những bài viết để xem mà sau đó đã bị xóa. Ngoài các vấn đề kỹ thuật bình thường liên quan với quy mô lớn web-bò, dự án này đã có sự thách thức rằng nó cần thiết để được rất nhanh vì nhiều bài kiểm duyệt được đưa xuống trong ít hơn 24 giờ. Nói cách khác, một trình thu thập chậm sẽ bỏ lỡ rất nhiều bài viết đã được kiểm duyệt. Hơn nữa, các trình thu thập đã phải làm tất cả các bộ sưu tập dữ liệu này trong khi trốn tránh phát hiện vì sợ rằng các trang web truyền thông xã hội chặn truy cập hoặc thay đổi chính sách của họ để đáp ứng với nghiên cứu.
Vào thời điểm đó, nhiệm vụ kỹ thuật khổng lồ này đã được hoàn thành, King và các đồng nghiệp đã thu được khoảng 11 triệu bài đăng trên 85 chủ đề được xác định trước khác nhau, mỗi chủ đề có mức độ nhạy cảm giả định. Ví dụ, một chủ đề nhạy cảm cao là Ai Weiwei, nghệ sĩ bất đồng chính kiến; một chủ đề về độ nhạy giữa là sự đánh giá cao và sự mất giá của đồng tiền Trung Quốc, và một chủ đề nhạy cảm thấp là World Cup. Trong số 11 triệu bài đăng này, khoảng 2 triệu người đã bị kiểm duyệt. Hơi ngạc nhiên một chút, King và các đồng nghiệp nhận thấy rằng các bài viết về các chủ đề nhạy cảm cao chỉ bị kiểm duyệt một chút thường xuyên hơn so với các bài viết về chủ đề trung bình và độ nhạy thấp. Nói cách khác, kiểm duyệt Trung Quốc có khả năng kiểm duyệt một bài đăng đề cập đến Ai Weiwei như một bài đăng đề cập đến World Cup. Những phát hiện này không ủng hộ ý tưởng rằng chính phủ kiểm duyệt tất cả các bài viết về các chủ đề nhạy cảm.
Tuy nhiên, tính toán đơn giản về tỷ lệ kiểm duyệt theo chủ đề có thể gây hiểu lầm. Ví dụ, chính phủ có thể kiểm duyệt những bài viết ủng hộ Ai Weiwei, nhưng để lại những bài viết rất quan trọng đối với ông. Để phân biệt giữa các bài đăng cẩn thận hơn, các nhà nghiên cứu cần đo lường tình cảm của mỗi bài đăng. Thật không may, mặc dù nhiều công việc, phương pháp tự động phát hiện tình cảm sử dụng từ điển có sẵn vẫn không tốt trong nhiều tình huống (suy nghĩ lại các vấn đề tạo ra một mốc thời gian cảm xúc của ngày 11 tháng 9 năm 2001 được mô tả trong phần 2.3.9). Do đó, King và các đồng nghiệp cần một cách để ghi nhãn 11 triệu bài đăng trên mạng xã hội của họ về việc liệu họ có quan trọng hay không, (2) ủng hộ nhà nước, hoặc (3) báo cáo không liên quan hoặc thực tế về các sự kiện. Điều này nghe giống như một công việc lớn, nhưng họ đã giải quyết nó bằng cách sử dụng một thủ thuật mạnh mẽ phổ biến trong khoa học dữ liệu nhưng tương đối hiếm trong khoa học xã hội: học tập có giám sát ; xem hình 2.5.
Đầu tiên, trong một bước thường được gọi là tiền xử lý , các nhà nghiên cứu đã chuyển đổi các bài đăng truyền thông xã hội thành ma trận tài liệu , trong đó có một hàng cho mỗi tài liệu và một cột ghi lại bài đăng có chứa một từ cụ thể (ví dụ: phản đối hoặc giao thông) . Tiếp theo, một nhóm trợ lý nghiên cứu đã gắn nhãn tình cảm của một mẫu bài đăng. Sau đó, họ sử dụng dữ liệu được dán nhãn bằng tay này để tạo ra một mô hình học máy có thể phỏng đoán tình cảm của một bài đăng dựa trên các đặc điểm của nó. Cuối cùng, họ đã sử dụng mô hình này để ước tính tình cảm của tất cả 11 triệu bài đăng.
Vì vậy, thay vì đọc và ghi nhãn 11 triệu bài viết theo cách thủ công, điều này sẽ không thể ghi nhận được - King và các đồng nghiệp đã gắn nhãn một số lượng nhỏ các bài đăng và sau đó sử dụng học được giám sát để ước tính tình cảm của tất cả các bài đăng. Sau khi hoàn thành phân tích này, họ đã có thể kết luận rằng, phần nào đáng ngạc nhiên, xác suất của một bài đăng bị xóa không liên quan đến việc nó có quan trọng với nhà nước hay hỗ trợ của nhà nước hay không.
Cuối cùng, King và các đồng nghiệp phát hiện ra rằng chỉ có ba loại bài viết thường xuyên bị kiểm duyệt: nội dung khiêu dâm, phê phán kiểm duyệt, và những người có tiềm năng hành động tập thể (nghĩa là khả năng dẫn đến các cuộc biểu tình quy mô lớn). Bằng cách quan sát một số lượng lớn các bài đăng đã bị xóa và các bài đăng không bị xóa, King và các đồng nghiệp đã có thể tìm hiểu cách kiểm duyệt hoạt động chỉ bằng cách xem và đếm. Hơn nữa, báo trước một chủ đề sẽ xảy ra trong cuốn sách này, phương pháp học được giám sát mà họ đã sử dụng - ghi nhãn một số kết quả và sau đó xây dựng mô hình học máy để gắn nhãn phần còn lại - hóa ra là rất phổ biến trong nghiên cứu xã hội trong thời đại kỹ thuật số . Bạn sẽ thấy hình ảnh rất giống với hình 2.5 trong chương 3 (Đặt câu hỏi) và 5 (Tạo sự cộng tác hàng loạt); đây là một trong số ít ý tưởng xuất hiện trong nhiều chương.
Những ví dụ này - hành vi làm việc của tài xế taxi ở New York và hành vi kiểm duyệt truyền thông xã hội của chính phủ Trung Quốc - cho thấy việc đếm các nguồn dữ liệu lớn tương đối đơn giản có thể, trong một số trường hợp, dẫn đến nghiên cứu thú vị và quan trọng. Tuy nhiên, trong cả hai trường hợp, các nhà nghiên cứu phải đưa ra những câu hỏi thú vị cho nguồn dữ liệu lớn; dữ liệu của chính nó là không đủ.