Thu thập dữ liệu phân tán là có thể, và trong tương lai nó sẽ có khả năng liên quan đến công nghệ và sự tham gia thụ động.
Như eBird chứng minh, việc thu thập dữ liệu phân tán có thể được sử dụng cho nghiên cứu khoa học. Hơn nữa, PhotoCity cho thấy rằng các vấn đề liên quan đến lấy mẫu và chất lượng dữ liệu có khả năng giải quyết được. Làm thế nào có thể phân phối công việc thu thập dữ liệu cho nghiên cứu xã hội? Một ví dụ xuất phát từ tác phẩm của Susan Watkins và các đồng nghiệp của cô trong dự án tạp chí Malawi (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Trong dự án này, 22 cư dân địa phương - được gọi là “nhà báo” - “ghi chép” các cuộc hội thoại được ghi lại, cụ thể là các cuộc trò chuyện họ nghe về AIDS trong cuộc sống hàng ngày của người thường (vào thời điểm bắt đầu dự án, khoảng 15% người lớn) ở Malawi bị nhiễm HIV (Bello, Chipeta, and Aberle-Grasse 2006) ). Vì tình trạng nội bộ của họ, những nhà báo này có thể nghe lỏm được những cuộc hội thoại mà Watkins và các cộng tác viên nghiên cứu phương Tây không thể tiếp cận (tôi sẽ thảo luận về đạo đức này sau này trong chương khi tôi đưa ra lời khuyên về thiết kế dự án cộng tác đại chúng của riêng bạn) . Dữ liệu từ Dự án Tạp chí Malawi đã dẫn đến một số phát hiện quan trọng. Ví dụ, trước khi dự án bắt đầu, nhiều người ngoài tin rằng có sự im lặng về AIDS ở châu Phi cận Sahara, nhưng các tạp chí đàm thoại đã chứng minh rằng điều này rõ ràng không phải như vậy: các nhà báo nghe lỏm hàng trăm cuộc thảo luận về chủ đề, ở những địa điểm đa dạng như đám tang, quán bar và nhà thờ. Hơn nữa, bản chất của các cuộc hội thoại này đã giúp các nhà nghiên cứu hiểu rõ hơn về một số khả năng chống sử dụng bao cao su; cách sử dụng bao cao su được đóng khung trong các thông điệp y tế công cộng không phù hợp với cách mà nó được thảo luận trong cuộc sống hàng ngày (Tavory and Swidler 2009) .
Tất nhiên, giống như dữ liệu từ eBird, dữ liệu từ Dự án Tạp chí Malawi không hoàn hảo, một vấn đề được thảo luận chi tiết bởi Watkins và các đồng nghiệp. Ví dụ, các cuộc hội thoại được ghi lại không phải là một mẫu ngẫu nhiên của tất cả các cuộc hội thoại có thể. Thay vào đó, họ là một cuộc tổng điều tra chưa đầy đủ về các cuộc hội thoại về AIDS. Về chất lượng dữ liệu, các nhà nghiên cứu tin rằng các nhà báo của họ là các phóng viên chất lượng cao, được chứng minh bằng sự nhất quán trong các tạp chí và trên các tạp chí. Đó là, bởi vì đủ nhà báo được triển khai trong một môi trường đủ nhỏ và tập trung vào một chủ đề cụ thể, có thể sử dụng dự phòng để đánh giá và đảm bảo chất lượng dữ liệu. Ví dụ, một nhân viên tình dục tên là “Stella” xuất hiện nhiều lần trong các tạp chí của bốn nhà báo khác nhau (Watkins and Swidler 2009) . Để tiếp tục xây dựng trực giác của bạn, bảng 5.3 cho thấy các ví dụ khác về thu thập dữ liệu phân tán cho nghiên cứu xã hội.
Dữ liệu được thu thập | Tài liệu tham khảo |
---|---|
Thảo luận về HIV / AIDS ở Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Ăn xin đường phố ở London | Purdam (2014) |
Các sự kiện xung đột ở Đông Congo | Windt and Humphreys (2016) |
Hoạt động kinh tế ở Nigeria và Liberia | Blumenstock, Keleher, and Reisinger (2016) |
Giám sát cúm | Noort et al. (2015) |
Tất cả các ví dụ được mô tả trong phần này đều liên quan đến sự tham gia tích cực: các nhà báo đã phiên âm các cuộc hội thoại mà họ đã nghe; birders đã tải lên danh sách kiểm tra birding của họ; hoặc người chơi tải lên ảnh của họ. Nhưng điều gì sẽ xảy ra nếu sự tham gia tự động và không yêu cầu bất kỳ kỹ năng hoặc thời gian cụ thể nào để gửi? Ví dụ, Pothole Patrol, một dự án của các nhà khoa học tại MIT, lắp đặt gia tốc kế GPS được trang bị bên trong bảy xe taxi ở khu vực Boston (Eriksson et al. 2008) . Bởi vì lái xe trên một ổ gà để lại một tín hiệu gia tốc riêng biệt, các thiết bị này, khi được đặt bên trong taxi di chuyển, có thể tạo ra bản đồ ổ gà của Boston. Tất nhiên, taxi không lấy mẫu ngẫu nhiên các con đường, nhưng, nếu có đủ taxi, có thể có đủ bảo hiểm để cung cấp thông tin về các phần lớn của thành phố. Lợi ích thứ hai của các hệ thống thụ động dựa vào công nghệ là chúng bỏ kỹ năng đóng góp dữ liệu: trong khi đòi hỏi kỹ năng đóng góp cho eBird (vì bạn cần xác định được các loài chim), nó không đòi hỏi kỹ năng đặc biệt đóng góp cho Pothole Patrol.
Về sau, tôi nghi ngờ rằng nhiều dự án thu thập dữ liệu phân tán sẽ bắt đầu tận dụng khả năng của các điện thoại di động đã được hàng tỷ người trên toàn thế giới thực hiện. Những điện thoại này đã có một số lượng lớn các cảm biến quan trọng để đo lường, chẳng hạn như micrô, máy ảnh, thiết bị GPS và đồng hồ. Hơn nữa, chúng hỗ trợ các ứng dụng của bên thứ ba cho phép các nhà nghiên cứu kiểm soát một số giao thức thu thập dữ liệu cơ bản. Cuối cùng, họ có kết nối Internet, giúp họ có thể tải dữ liệu mà họ thu thập được. Có rất nhiều thách thức kỹ thuật, từ cảm biến không chính xác đến tuổi thọ pin giới hạn, nhưng những vấn đề này có thể sẽ giảm theo thời gian khi công nghệ phát triển. Các vấn đề liên quan đến quyền riêng tư và đạo đức, mặt khác, có thể trở nên phức tạp hơn; Tôi sẽ trả lời các câu hỏi về đạo đức khi tôi đưa ra lời khuyên về thiết kế sự hợp tác hàng loạt của riêng bạn.
Trong các dự án thu thập dữ liệu phân tán, các tình nguyện viên đóng góp dữ liệu về thế giới. Cách tiếp cận này đã được sử dụng thành công và việc sử dụng trong tương lai có thể sẽ phải giải quyết các vấn đề về lấy mẫu và chất lượng dữ liệu. May mắn thay, các dự án hiện có như PhotoCity và Pothole Patrol đề xuất các giải pháp cho những vấn đề này. Khi nhiều dự án tận dụng công nghệ cho phép sự tham gia có kỹ năng và thụ động, các dự án thu thập dữ liệu phân tán sẽ tăng đáng kể về quy mô, cho phép các nhà nghiên cứu thu thập dữ liệu đơn giản là tắt các giới hạn trong quá khứ.