Không có vấn đề lớn như thế nào dữ liệu lớn của bạn, nó có lẽ không có thông tin bạn muốn.
Hầu hết các nguồn dữ liệu lớn không đầy đủ , theo nghĩa là chúng không có thông tin mà bạn sẽ muốn cho nghiên cứu của mình. Đây là một tính năng phổ biến của dữ liệu được tạo ra cho các mục đích khác ngoài nghiên cứu. Nhiều nhà khoa học xã hội đã có kinh nghiệm đối phó với sự không hoàn thiện, chẳng hạn như một cuộc khảo sát hiện tại không hỏi câu hỏi cần thiết. Thật không may, các vấn đề về sự không hoàn thiện có xu hướng khắc nghiệt hơn trong dữ liệu lớn. Theo kinh nghiệm của tôi, dữ liệu lớn có xu hướng thiếu ba loại thông tin hữu ích cho nghiên cứu xã hội: thông tin nhân khẩu học về người tham gia, hành vi trên các nền tảng khác và dữ liệu để vận hành các cấu trúc lý thuyết.
Trong ba loại không hoàn chỉnh, vấn đề của dữ liệu không đầy đủ để vận hành các cấu trúc lý thuyết là khó khăn nhất để giải quyết. Và theo kinh nghiệm của tôi, nó thường vô tình bị bỏ qua. Nói chung, các cấu trúc lý thuyết là những ý tưởng trừu tượng mà các nhà khoa học xã hội nghiên cứu và vận hành một cấu trúc lý thuyết có nghĩa là đề xuất một số cách để nắm bắt cấu trúc đó với dữ liệu quan sát được. Thật không may, quá trình nghe đơn giản này thường trở nên khá khó khăn. Ví dụ, chúng ta hãy tưởng tượng cố gắng thử nghiệm thực nghiệm tuyên bố rõ ràng đơn giản rằng những người thông minh hơn kiếm được nhiều tiền hơn. Để kiểm tra yêu sách này, bạn sẽ cần phải đo lường “thông minh”. Nhưng trí thông minh là gì? Gardner (2011) cho rằng thực tế có tám dạng thông minh khác nhau. Và liệu có những thủ tục nào có thể đo lường chính xác bất kỳ hình thức thông minh nào trong số này? Mặc dù có rất nhiều công việc của các nhà tâm lý học, những câu hỏi này vẫn không có câu trả lời rõ ràng.
Vì vậy, ngay cả một tuyên bố tương đối đơn giản - những người thông minh hơn kiếm được nhiều tiền hơn — có thể khó đánh giá theo kinh nghiệm bởi vì khó có thể vận hành các cấu trúc lý thuyết trong dữ liệu. Các ví dụ khác về cấu trúc lý thuyết quan trọng nhưng khó vận hành bao gồm “định mức”, “vốn xã hội” và “dân chủ”. Các nhà khoa học xã hội gọi sự khớp giữa các cấu trúc lý thuyết và hiệu lực xây dựng dữ liệu (Cronbach and Meehl 1955) . Vì danh sách ngắn các cấu trúc này cho thấy, xây dựng tính hợp lệ là một vấn đề mà các nhà khoa học xã hội đã phải vật lộn trong một thời gian rất dài. Nhưng theo kinh nghiệm của tôi, các vấn đề về hiệu lực xây dựng thậm chí còn lớn hơn khi làm việc với dữ liệu không được tạo ra cho mục đích nghiên cứu (Lazer 2015) .
Khi bạn đang đánh giá kết quả nghiên cứu, một cách nhanh chóng và hữu ích để đánh giá tính hợp lệ của cấu trúc là lấy kết quả, thường được biểu diễn theo cấu trúc và biểu thị lại dữ liệu được sử dụng. Ví dụ, hãy xem xét hai nghiên cứu giả thuyết cho rằng những người thông minh hơn kiếm được nhiều tiền hơn. Trong nghiên cứu đầu tiên, nhà nghiên cứu phát hiện ra rằng những người đạt điểm cao trong Phép thử Tiến bộ Raven - một bài kiểm tra trí tuệ phân tích được nghiên cứu kỹ lưỡng (Carpenter, Just, and Shell 1990) - có thu nhập cao hơn trong báo cáo thuế của họ. Trong nghiên cứu thứ hai, nhà nghiên cứu nhận thấy rằng những người trên Twitter sử dụng những từ dài hơn có nhiều khả năng đề cập đến các thương hiệu cao cấp hơn. Trong cả hai trường hợp, các nhà nghiên cứu này có thể tuyên bố rằng họ đã chỉ ra rằng những người thông minh hơn kiếm được nhiều tiền hơn. Tuy nhiên, trong nghiên cứu đầu tiên, các cấu trúc lý thuyết được vận hành tốt bởi dữ liệu, trong khi thứ hai thì không. Hơn nữa, như ví dụ này minh họa, nhiều dữ liệu hơn không tự động giải quyết vấn đề với tính hợp lệ của cấu trúc. Bạn nên nghi ngờ kết quả của nghiên cứu thứ hai cho dù nó liên quan đến một triệu tweets, một tỷ tweets, hoặc một nghìn tỷ tweets. Đối với các nhà nghiên cứu không quen thuộc với ý tưởng về hiệu lực xây dựng, bảng 2.2 cung cấp một số ví dụ về các nghiên cứu đã vận hành các cấu trúc lý thuyết sử dụng dữ liệu theo dõi kỹ thuật số.
Nguồn dữ liệu | Cấu trúc lý thuyết | Tài liệu tham khảo |
---|---|---|
Nhật ký email từ một trường đại học (chỉ siêu dữ liệu) | Các mối quan hệ xã hội | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Bài đăng trên phương tiện truyền thông xã hội trên Weibo | Tương tác với Civic | Zhang (2016) |
Nhật ký email từ một công ty (siêu dữ liệu và văn bản hoàn chỉnh) | Văn hóa phù hợp trong một tổ chức | Srivastava et al. (2017) |
Mặc dù vấn đề dữ liệu không đầy đủ để nắm bắt các cấu trúc lý thuyết là khá khó giải quyết, nhưng vẫn có những giải pháp phổ biến cho các loại không hoàn chỉnh phổ biến khác: thông tin nhân khẩu học chưa đầy đủ và thông tin không đầy đủ về hành vi trên các nền tảng khác. Giải pháp đầu tiên là thu thập dữ liệu bạn cần; Tôi sẽ nói với bạn về điều đó trong chương 3 khi tôi nói với bạn về các cuộc điều tra. Giải pháp chính thứ hai là làm những gì các nhà khoa học dữ liệu gọi là suy luận thuộc tính người dùng và các nhà khoa học xã hội gọi là imputation . Trong phương pháp này, các nhà nghiên cứu sử dụng thông tin mà họ có trên một số người để suy ra các thuộc tính của người khác. Giải pháp thứ ba có thể là kết hợp nhiều nguồn dữ liệu. Quá trình này đôi khi được gọi là liên kết ghi . Ẩn dụ yêu thích của tôi cho quá trình này được viết bởi Dunn (1946) trong đoạn đầu tiên của bài báo đầu tiên từng viết trên liên kết ghi:
“Mỗi người trên thế giới tạo ra một cuốn sách của cuộc sống. Cuốn sách này bắt đầu bằng việc sinh và kết thúc bằng cái chết. Các trang của nó được tạo thành từ các hồ sơ về các sự kiện chính trong cuộc sống. Ghi lại liên kết là tên được đặt cho quá trình lắp ráp các trang của cuốn sách này thành một quyển sách. ”
Khi Dunn viết đoạn văn đó, anh đã tưởng tượng rằng Sách Sự Sống có thể bao gồm những sự kiện lớn như sinh, hôn nhân, ly hôn và chết. Tuy nhiên, bây giờ có rất nhiều thông tin về mọi người được ghi lại, Sách Sự sống có thể là một bức chân dung cực kỳ chi tiết, nếu những trang khác nhau (ví dụ, dấu vết kỹ thuật số của chúng tôi) có thể bị ràng buộc với nhau. Cuốn sách này của cuộc sống có thể là một nguồn tài nguyên tuyệt vời cho các nhà nghiên cứu. Nhưng, nó cũng có thể được gọi là cơ sở dữ liệu hủy hoại (Ohm 2010) , có thể được sử dụng cho tất cả các mục đích phi đạo đức, như tôi sẽ mô tả trong chương 6 (Đạo đức).