Dữ liệu phi đại diện không tốt cho các tổng quát ngoài mẫu, nhưng có thể khá hữu ích cho các so sánh trong mẫu.
Một số nhà khoa học xã hội quen với việc làm việc với dữ liệu đến từ một mẫu ngẫu nhiên xác suất từ một dân số được xác định rõ, chẳng hạn như tất cả người lớn ở một quốc gia cụ thể. Loại dữ liệu này được gọi là dữ liệu đại diện bởi vì mẫu "đại diện" số lượng lớn hơn. Nhiều nhà nghiên cứu giải thưởng dữ liệu đại diện, và một số dữ liệu đại diện đồng nghĩa với khoa học nghiêm ngặt trong khi dữ liệu phi đại diện đồng nghĩa với sự cẩu thả. Ở mức cực đoan nhất, một số người hoài nghi dường như tin rằng không có gì có thể học được từ dữ liệu phi đại diện. Nếu đúng, điều này dường như sẽ hạn chế nghiêm trọng những gì có thể học được từ các nguồn dữ liệu lớn bởi vì nhiều người trong số họ không đại diện. May thay, những người hoài nghi này chỉ đúng một phần. Có một số mục tiêu nghiên cứu nhất định mà dữ liệu phi đại diện rõ ràng là không phù hợp, nhưng có những mục tiêu khác mà nó thực sự có thể khá hữu ích.
Để hiểu sự khác biệt này, chúng ta hãy xem xét một cổ điển khoa học: nghiên cứu của John Snow về dịch bệnh tả 1853-54 ở London. Vào thời điểm đó, nhiều bác sĩ tin rằng bệnh tả là do "không khí xấu", nhưng Snow tin rằng đó là một bệnh truyền nhiễm, có lẽ lây lan bởi nước uống có nước thải. Để kiểm tra ý tưởng này, Snow đã lợi dụng những gì chúng ta có thể gọi là thử nghiệm tự nhiên. Ông so sánh tỷ lệ dịch tả của các hộ gia đình được phục vụ bởi hai công ty nước khác nhau: Lambeth và Southwark & Vauxhall. Các công ty này phục vụ các hộ gia đình tương tự, nhưng chúng khác nhau theo một cách quan trọng: vào năm 1849 - một vài năm trước khi dịch bệnh bắt đầu - Lambeth đã di chuyển điểm lấy nước của nó từ lưu lượng nước thải chính ở London, trong khi Southwark & Vauxhall rời đường ống lấy nước từ hạ lưu xả nước thải. Khi Snow so sánh tỷ lệ tử vong do bệnh tả trong các hộ gia đình do hai công ty phục vụ, ông phát hiện ra rằng khách hàng của Southwark & Vauxhall - công ty cung cấp nước thải cho khách hàng - có nguy cơ tử vong cao gấp 10 lần so với dịch tả. Kết quả này cung cấp bằng chứng khoa học mạnh mẽ cho lập luận của Snow về nguyên nhân của bệnh tả, mặc dù nó không dựa trên một mẫu đại diện của những người ở London.
Tuy nhiên, dữ liệu từ hai công ty này sẽ không lý tưởng để trả lời một câu hỏi khác: tỷ lệ mắc bệnh tả ở London trong thời gian bùng phát là bao nhiêu? Đối với câu hỏi thứ hai, đó cũng là điều quan trọng, nó sẽ là tốt hơn để có một mẫu đại diện của những người từ London.
Như công trình của Snow minh họa, có một số câu hỏi khoa học mà dữ liệu phi đại diện có thể khá hiệu quả và có những người khác mà nó không phù hợp. Một cách thô lỗ để phân biệt hai loại câu hỏi này là một số câu hỏi là về các so sánh trong mẫu và một số câu hỏi về các khái quát hóa ngoài mẫu. Sự khác biệt này có thể được minh họa thêm bằng một nghiên cứu cổ điển khác về dịch tễ học: Nghiên cứu Bác sĩ Anh, đóng vai trò quan trọng trong việc chứng minh rằng hút thuốc lá gây ung thư. Trong nghiên cứu này, Richard Doll và A. Bradford Hill theo sau khoảng 25.000 bác sĩ nam trong nhiều năm và so sánh tỷ lệ tử vong của họ dựa trên số tiền họ hút thuốc khi nghiên cứu bắt đầu. Doll and Hill (1954) tìm thấy mối quan hệ tiếp xúc mạnh mẽ: những người hút thuốc nhiều hơn, nhiều khả năng họ sẽ chết vì ung thư phổi. Tất nhiên, nó sẽ là không khôn ngoan để ước tính tỷ lệ ung thư phổi trong số tất cả người Anh dựa trên nhóm các bác sĩ nam này, nhưng so sánh trong mẫu vẫn cung cấp bằng chứng cho thấy hút thuốc lá gây ung thư phổi.
Bây giờ tôi đã minh họa sự khác biệt giữa các so sánh bên trong mẫu và các khái quát hóa ngoài mẫu, hai cảnh báo theo thứ tự. Đầu tiên, có những câu hỏi tự nhiên về mức độ mối quan hệ giữa các bác sĩ nam Anh cũng sẽ được giữ trong một mẫu các bác sĩ nữ, Anh hoặc nam công nhân nhà máy Anh hoặc nữ công nhân nhà máy Đức hoặc nhiều nhóm khác. Những câu hỏi này thú vị và quan trọng, nhưng chúng khác với các câu hỏi về mức độ mà chúng ta có thể khái quát hóa từ một mẫu cho một dân số. Lưu ý, ví dụ, bạn có thể nghi ngờ rằng mối quan hệ giữa hút thuốc và ung thư được tìm thấy ở các bác sĩ nam Anh có lẽ sẽ giống nhau ở những nhóm khác. Khả năng của bạn để làm ngoại suy này không xuất phát từ thực tế rằng các bác sĩ nam Anh là một mẫu ngẫu nhiên xác suất từ bất kỳ dân số nào; thay vào đó, nó xuất phát từ sự hiểu biết về cơ chế liên kết hút thuốc và ung thư. Vì vậy, khái quát hóa từ một mẫu cho dân số từ đó được rút ra là một vấn đề thống kê, nhưng các câu hỏi về khả năng vận chuyển của mô hình được tìm thấy trong một nhóm đến nhóm khác phần lớn là vấn đề phi chính thống (Pearl and Bareinboim 2014; Pearl 2015) .
Tại thời điểm này, một người hoài nghi có thể chỉ ra rằng hầu hết các mô hình xã hội có thể ít vận chuyển qua các nhóm hơn là mối quan hệ giữa hút thuốc và ung thư. Và tôi đồng ý. Mức độ mà chúng ta mong đợi các mẫu có thể được vận chuyển cuối cùng là một câu hỏi khoa học phải được quyết định dựa trên lý thuyết và bằng chứng. Nó không nên tự động được giả định rằng các mẫu sẽ được vận chuyển, nhưng cũng không nên giả định rằng chúng sẽ không thể vận chuyển được. Những câu hỏi hơi trừu tượng về khả năng vận chuyển sẽ quen thuộc với bạn nếu bạn đã theo dõi các cuộc tranh luận về số lượng các nhà nghiên cứu có thể tìm hiểu về hành vi của con người bằng cách nghiên cứu sinh viên đại học (Sears 1986, [@henrich_most_2010] ) . Mặc dù có những cuộc tranh luận này, tuy nhiên, sẽ không hợp lý khi nói rằng các nhà nghiên cứu không thể học được gì từ việc nghiên cứu sinh viên đại học.
Thông báo thứ hai là hầu hết các nhà nghiên cứu có dữ liệu không đại diện không cẩn thận như Tuyết hay Búp bê và Đồi. Vì vậy, để minh họa những gì có thể xảy ra khi các nhà nghiên cứu cố gắng đưa ra một sự tổng quát ngoài mẫu từ dữ liệu không đại diện, tôi muốn nói với bạn về một nghiên cứu về cuộc bầu cử quốc hội Đức năm 2009 của Andranik Tumasjan và các đồng nghiệp (2010) . Bằng cách phân tích hơn 100.000 tweet, họ thấy rằng tỷ lệ tweets đề cập đến một đảng chính trị phù hợp với tỷ lệ phiếu bầu mà đảng nhận được trong cuộc bầu cử quốc hội (hình 2.3). Nói cách khác, nó xuất hiện rằng dữ liệu Twitter, về cơ bản là miễn phí, có thể thay thế các cuộc khảo sát ý kiến công chúng truyền thống, điều này rất tốn kém vì sự nhấn mạnh của họ về dữ liệu đại diện.
Với những gì bạn có thể đã biết về Twitter, bạn nên ngay lập tức hoài nghi về kết quả này. Người Đức trên Twitter vào năm 2009 không phải là một mẫu ngẫu nhiên có xác suất của cử tri Đức, và những người ủng hộ một số đảng có thể tweet về chính trị nhiều hơn so với những người ủng hộ các bên khác. Vì vậy, có vẻ như đáng ngạc nhiên rằng tất cả các thành kiến có thể mà bạn có thể tưởng tượng bằng cách nào đó sẽ hủy bỏ để dữ liệu này sẽ phản ánh trực tiếp các cử tri Đức. Trong thực tế, kết quả trong Tumasjan et al. (2010) hóa ra là quá tốt là đúng. Một bài báo tiếp theo của Andreas Jungherr, Pascal Jürgens và Harald Schoen (2012) đã chỉ ra rằng phân tích ban đầu đã loại trừ đảng chính trị thực sự nhận được nhiều đề cập nhất trên Twitter: Đảng cướp biển, một bên nhỏ chống lại quy định của chính phủ của Internet. Khi Đảng cướp biển được đưa vào phân tích, đề cập đến Twitter trở thành một yếu tố dự đoán khủng khiếp về kết quả bầu cử (hình 2.3). Như ví dụ này minh họa, việc sử dụng các nguồn dữ liệu lớn không đại diện để thực hiện việc khái quát hóa mẫu có thể rất sai. Ngoài ra, bạn nên lưu ý rằng thực tế rằng có khoảng 100.000 tweet về cơ bản là không liên quan: nhiều dữ liệu không đại diện vẫn không mang tính đại diện, một chủ đề mà tôi sẽ quay lại trong chương 3 khi tôi thảo luận các cuộc điều tra.
Để kết luận, nhiều nguồn dữ liệu lớn không phải là mẫu đại diện của một số dân số được xác định rõ. Đối với các câu hỏi yêu cầu tổng quát các kết quả từ mẫu đến dân số mà từ đó nó được rút ra, đây là một vấn đề nghiêm trọng. Nhưng đối với các câu hỏi về so sánh trong mẫu, dữ liệu không đại diện có thể mạnh mẽ, miễn là các nhà nghiên cứu rõ ràng về các đặc điểm của mẫu và hỗ trợ tuyên bố về khả năng vận chuyển với bằng chứng lý thuyết hoặc thực nghiệm. Trên thực tế, hy vọng của tôi là các nguồn dữ liệu lớn sẽ cho phép các nhà nghiên cứu thực hiện các so sánh trong mẫu nhiều hơn ở nhiều nhóm không đại diện, và dự đoán của tôi là ước tính từ nhiều nhóm khác nhau sẽ làm nhiều hơn để thúc đẩy nghiên cứu xã hội. mẫu vật.