Mặc dù nó có thể lộn xộn, chào bán giàu có thể mạnh mẽ.
Một cách tiếp cận khác nhau để đối phó với những bất toàn của kỹ thuật số dấu vết dữ liệu là để làm giàu cho nó trực tiếp với số liệu điều tra, một quá trình mà tôi sẽ gọi chào bán làm giàu. Một ví dụ về chào bán làm giàu là nghiên cứu của Burke and Kraut (2014) , mà tôi đã mô tả trước đó trong chương này (mục 3.2), về việc tương tác trên Facebook tăng cường tình hữu nghị. Trong trường hợp đó, Burke và Kraut kết hợp dữ liệu khảo sát với dữ liệu đăng nhập Facebook.
Thiết lập mà Burke và Kraut đã được làm việc trong, tuy nhiên, có nghĩa là họ không phải đối phó với hai vấn đề lớn mà các nhà nghiên cứu làm giàu mặt hỏi. Đầu tiên, thực sự gắn kết với nhau các bộ dữ liệu-một quá trình được gọi là liên kết bản ghi, sự kết hợp của một bản ghi trong một tập dữ liệu với những hồ sơ phù hợp trong các tập dữ liệu khác, có thể khó khăn và dễ bị lỗi (chúng ta sẽ thấy một ví dụ về vấn đề này dưới đây ). Vấn đề chính thứ hai của chào làm giàu là chất lượng của các dấu vết kỹ thuật số thường xuyên sẽ là khó khăn cho các nhà nghiên cứu để đánh giá. Ví dụ, đôi khi quá trình mà qua đó nó được thu thập là độc quyền và có thể dễ bị nhiều vấn đề mô tả trong Chương 2. Nói cách khác, chào làm phong phú sẽ thường xuyên liên quan đến liên kết dễ bị lỗi của các cuộc điều tra các nguồn dữ liệu hộp đen không rõ phẩm chất. Bất chấp những lo ngại rằng hai vấn đề này giới thiệu, có thể tiến hành nghiên cứu quan trọng với chiến lược này như đã được chứng minh bởi Stephen Ansolabehere và Eitan Hersh (2012) trong nghiên cứu của họ trên các mẫu biểu quyết tại Mỹ. Nó là đáng giá để đi qua nghiên cứu này trong một số chi tiết bởi vì nhiều người trong số các chiến lược mà Ansolabehere và Hersh phát triển sẽ hữu ích trong các ứng dụng khác của chào bán làm giàu.
Cử tri đi bầu đã là chủ đề của nghiên cứu sâu rộng về khoa học chính trị, và trong quá khứ, sự hiểu biết các nhà nghiên cứu của những người bỏ phiếu và tại sao đã thường được dựa trên sự phân tích số liệu điều tra. Bỏ phiếu tại Mỹ, tuy nhiên, là một hành vi bất thường trong đó hồ sơ của chính phủ cho dù mỗi người dân đã bình chọn (tất nhiên, chính phủ không ghi lại những người từng phiếu công dân đối). Trong nhiều năm, những hồ sơ bỏ phiếu chính phủ đã có sẵn trên các mẫu giấy tờ, nằm rải rác trong các văn phòng chính quyền địa phương khác nhau trên khắp đất nước. Điều này đã gây khó khăn, nhưng không phải không thể, các nhà khoa học chính trị để có một bức tranh hoàn chỉnh của cử tri và so sánh những gì mọi người nói trong các cuộc điều tra về hành vi bỏ phiếu để bỏ phiếu thực tế của họ (Ansolabehere and Hersh 2012) .
Nhưng, bây giờ những hồ sơ bỏ phiếu đã được số hóa, và một số công ty tư nhân đã thu thập có hệ thống và hợp nhất các hồ sơ bầu cử để sản xuất các tập tin tổng thể biểu quyết toàn diện mà ghi lại các hành vi biểu quyết của tất cả người Mỹ. Ansolabehere và Hersh hợp tác với một trong những công ty công Catalist LCC-in để sử dụng tập tin bầu cử tổng thể của họ để giúp phát triển một hình ảnh tốt hơn của các cử tri. Hơn nữa, bởi vì nó dựa trên các hồ sơ kỹ thuật số thu thập và giám tuyển bởi một công ty, nó cung cấp một số lợi thế hơn những nỗ lực trước đây của các nhà nghiên cứu đã được thực hiện mà không cần sự trợ giúp của các công ty và sử dụng các hồ sơ tương tự.
Giống như rất nhiều các nguồn tin dấu vết kỹ thuật số trong Chương 2, các tập tin tổng thể Catalist không bao gồm nhiều các thông tin cá nhân, thái độ, hành vi và rằng Ansolabehere và Hersh cần thiết. Ngoài các thông tin này, Ansolabehere và Hersh đã được đặc biệt quan tâm đến việc so sánh báo cáo hành vi bỏ phiếu cho hành vi bỏ phiếu xác nhận (tức là, các thông tin trong cơ sở dữ liệu Catalist). Vì vậy, các nhà nghiên cứu đã thu thập các dữ liệu mà họ muốn là một phần của nghiên cứu hợp tác Quốc hội bầu cử (CCES), một cuộc khảo sát xã hội lớn. Tiếp theo, các nhà nghiên cứu đã đưa ra các dữ liệu này để Catalist, và Catalist cho các nhà nghiên cứu lại một tập tin sáp nhập dữ liệu bao gồm xác nhận hành vi bỏ phiếu (từ Catalist), tự báo cáo hành vi bỏ phiếu (từ CCES) và nhân khẩu học và thái độ của người trả lời (từ CCES ). Nói cách khác, Ansolabehere và Hersh làm giàu dữ liệu biểu quyết với số liệu điều tra, và kết quả là các tập tin được kết hợp cho phép họ làm điều gì đó mà không phải tập tin kích hoạt riêng.
Bằng cách làm phong phú thêm Catalist tập tin dữ liệu tổng thể với các số liệu điều tra, Ansolabehere và Hersh đến ba kết luận quan trọng. Đầu tiên, qua báo cáo của bầu cử tràn lan: gần một nửa số cử tri không báo cáo có quyền biểu quyết. Hoặc, một cách khác để nhìn vào nó là nếu ai đó đã báo cáo có quyền biểu quyết, chỉ có 80% cơ hội mà họ thực sự bình chọn. Thứ hai, qua báo cáo không phải là ngẫu nhiên; qua báo cáo là phổ biến hơn ở có thu nhập cao, được giáo dục tốt, du kích người đang tham gia vào các vấn đề công cộng. Nói cách khác, những người có nhiều khả năng bỏ phiếu cũng nhất là khả năng nói dối về bầu cử. Thứ ba, và quan trọng nhất, vì bản chất hệ thống các lỗi báo cáo, sự khác biệt thực sự giữa cử tri và không cử tri nhỏ hơn chúng xuất hiện chỉ từ các cuộc điều tra. Ví dụ, những người có bằng cử nhân là khoảng 22 điểm phần trăm, nhiều khả năng báo cáo biểu quyết, nhưng chỉ có 10 điểm phần trăm, nhiều khả năng bỏ phiếu thực tế. Hơn nữa, các lý thuyết dựa trên nguồn lực hiện có của bầu cử là tốt hơn nhiều lúc dự đoán người sẽ báo cáo có quyền biểu quyết hơn những người thực sự phiếu, một phát hiện thực nghiệm mà các cuộc gọi cho các lý thuyết mới để hiểu và dự đoán có quyền biểu quyết.
Nhưng, có bao nhiêu chúng ta nên tin tưởng những kết quả này? Ghi kết quả phụ thuộc vào dễ bị lỗi liên kết với dữ liệu hộp đen với số lượng không rõ của lỗi. Cụ thể hơn, các kết quả xoay quanh hai bước chính: 1) khả năng của Catalist để kết hợp nhiều nguồn dữ liệu khác nhau để tạo ra một datafile chủ chính xác và 2) khả năng của Catalist để liên kết các dữ liệu khảo sát cho datafile chủ của nó. Mỗi bước là khá khó khăn và sai sót ở hai bước có thể dẫn các nhà nghiên cứu kết luận sai. Tuy nhiên, cả hai xử lý dữ liệu và phù hợp là rất quan trọng cho sự tồn tại tiếp tục của Catalist như một công ty để có thể đầu tư nguồn lực trong việc giải quyết những vấn đề này, thường ở một quy mô mà không có nghiên cứu học tập cá nhân hoặc một nhóm các nhà nghiên cứu có thể phù hợp. Trong bài đọc thêm ở phần cuối của chương này, tôi mô tả những vấn đề này một cách chi tiết hơn và làm thế nào Ansolabehere và Hersh xây dựng sự tự tin trong các kết quả của họ. Mặc dù những chi tiết cụ thể đối với nghiên cứu này, các vấn đề tương tự như những sẽ phát sinh đối với các nhà nghiên cứu khác có nhu cầu liên kết đến hộp đen các nguồn dữ liệu dấu vết kỹ thuật số.
các bài học chung các nhà nghiên cứu có thể rút ra từ nghiên cứu này là gì? Trước tiên, có giá trị to lớn từ phong phú thêm dấu vết kỹ thuật số với số liệu điều tra. Thứ hai, mặc dù các tổng hợp, các nguồn dữ liệu thương mại nên không được coi là "đất thật", trong một số trường hợp, chúng có thể hữu ích. Trong thực tế, nó là tốt nhất để so sánh các nguồn dữ liệu không cho sự thật tuyệt đối (từ đó họ sẽ luôn luôn rơi ngắn). Thay vào đó, nó là tốt hơn để so sánh chúng với các nguồn dữ liệu sẵn có khác, mà lúc nào cũng có lỗi là tốt.