Nguồn dữ liệu lớn có thể được nạp với rác và thư rác.
Một số nhà nghiên cứu tin rằng các nguồn dữ liệu lớn, đặc biệt là các nguồn trực tuyến, là nguyên sơ bởi vì chúng được thu thập tự động. Trong thực tế, những người đã làm việc với các nguồn dữ liệu lớn biết rằng họ thường xuyên bị bẩn . Nghĩa là, chúng thường bao gồm dữ liệu không phản ánh các hành động thực sự mà các nhà nghiên cứu quan tâm. Hầu hết các nhà khoa học xã hội đã quen thuộc với quá trình làm sạch dữ liệu khảo sát xã hội quy mô lớn, nhưng làm sạch các nguồn dữ liệu lớn có vẻ khó khăn hơn. Tôi nghĩ nguồn gốc cuối cùng của khó khăn này là nhiều nguồn dữ liệu lớn không bao giờ được dùng để nghiên cứu, và do đó chúng không được thu thập, lưu trữ và ghi lại theo cách tạo điều kiện làm sạch dữ liệu.
Sự nguy hiểm của dữ liệu dấu vết kỹ thuật số bẩn được minh họa bởi nghiên cứu của Back và các đồng nghiệp (2010) về phản ứng cảm xúc đối với các cuộc tấn công ngày 11 tháng 9 năm 2001 mà tôi đã đề cập trong chương trước. Các nhà nghiên cứu thường nghiên cứu phản ứng với các sự kiện bi thảm sử dụng dữ liệu hồi cứu được thu thập trong nhiều tháng hoặc thậm chí nhiều năm. Tuy nhiên, Back và các đồng nghiệp đã tìm thấy một nguồn dấu vết kỹ thuật số luôn luôn — các thông điệp được ghi thời gian, tự động từ 85.000 máy nhắn tin của Mỹ — và điều này cho phép họ nghiên cứu phản ứng cảm xúc trong một khoảng thời gian dài hơn nhiều. Họ đã tạo ra một mốc thời gian cảm xúc từng phút vào ngày 11 tháng 9 bằng cách mã hóa nội dung cảm xúc của tin nhắn máy nhắn tin theo phần trăm các từ liên quan đến (1) nỗi buồn (ví dụ: "khóc" và "đau buồn"), (2) lo âu ( ví dụ, "lo lắng" và "sợ hãi"), và (3) tức giận (ví dụ, "ghét" và "quan trọng"). Họ thấy rằng nỗi buồn và lo lắng biến động suốt cả ngày mà không có một mô hình mạnh mẽ, nhưng có một sự gia tăng đáng kể trong sự tức giận trong suốt cả ngày. Nghiên cứu này có vẻ là một minh họa tuyệt vời về sức mạnh của các nguồn dữ liệu luôn: nếu các nguồn dữ liệu truyền thống đã được sử dụng, sẽ không thể có được một mốc thời gian có độ phân giải cao như vậy đối với một sự kiện bất ngờ.
Tuy nhiên, chỉ một năm sau, Cynthia Pury (2011) đã xem xét cẩn thận dữ liệu hơn. Cô phát hiện ra rằng một số lượng lớn các tin nhắn được cho là tức giận được tạo ra bởi một máy nhắn tin duy nhất và tất cả đều giống hệt nhau. Đây là những gì những tin nhắn được cho là tức giận nói:
"Khởi động lại máy NT [name] trong tủ [name] tại [vị trí]: QUAN TRỌNG: [ngày tháng và thời gian]"
Những thông điệp này được dán nhãn tức giận vì chúng bao gồm từ “CRITICAL”, thường có thể biểu thị sự tức giận nhưng trong trường hợp này thì không. Loại bỏ các tin nhắn được tạo ra bởi máy nhắn tin tự động đơn lẻ này hoàn toàn loại bỏ sự gia tăng rõ rệt trong sự tức giận trong suốt cả ngày (hình 2.4). Nói cách khác, kết quả chính trong Back, Küfner, and Egloff (2010) là một tạo phẩm của một máy nhắn tin. Như ví dụ này minh họa, phân tích tương đối đơn giản dữ liệu tương đối phức tạp và lộn xộn có khả năng đi sai nghiêm trọng.
Mặc dù dữ liệu bẩn được tạo không chủ ý — chẳng hạn như từ một máy nhắn tin ồn ào — có thể được phát hiện bởi một nhà nghiên cứu hợp lý, cũng có một số hệ thống trực tuyến thu hút người gửi spam có chủ ý. Những kẻ gửi thư rác này chủ động tạo ra dữ liệu giả mạo và — thường được thúc đẩy bởi lợi nhuận — làm việc rất chăm chỉ để giữ cho spam của họ bị che dấu. Ví dụ, hoạt động chính trị trên Twitter dường như bao gồm ít nhất một số thư rác phức tạp hợp lý, theo đó một số nguyên nhân chính trị được cố tình tạo ra để trông phổ biến hơn thực tế (Ratkiewicz et al. 2011) . Thật không may, việc xóa thư rác có chủ ý này có thể khá khó khăn.
Tất nhiên những gì được coi là dữ liệu bẩn có thể phụ thuộc một phần vào câu hỏi nghiên cứu. Ví dụ: nhiều chỉnh sửa đối với Wikipedia được tạo bởi rô bốt tự động (Geiger 2014) . Nếu bạn quan tâm đến sinh thái học của Wikipedia, thì những bản chỉnh sửa do bot tạo ra này rất quan trọng. Nhưng nếu bạn quan tâm đến cách con người đóng góp cho Wikipedia, thì các bản chỉnh sửa do bot tạo ra sẽ bị loại trừ.
Không có kỹ thuật hoặc phương pháp thống kê duy nhất có thể đảm bảo rằng bạn đã làm sạch đủ dữ liệu bẩn của mình. Cuối cùng, tôi nghĩ cách tốt nhất để tránh bị lừa bởi dữ liệu bẩn là hiểu càng nhiều càng tốt về cách dữ liệu của bạn được tạo ra.