Thu thập dữ liệu phân tán là có thể, và trong tương lai có thể sẽ liên quan đến công nghệ và tham gia thụ động.
Như eBird chứng minh, thu thập dữ liệu phân tán có thể được sử dụng cho nghiên cứu khoa học. Hơn nữa, PhotoCity cho thấy rằng các vấn đề liên quan đến lấy mẫu và chất lượng dữ liệu có khả năng giải quyết được.
Làm thế nào có thể phân phối công việc thu thập dữ liệu cho nghiên cứu xã hội? Một ví dụ tuyệt vời đến từ công việc của Susan Watkins và các đồng nghiệp của cô trên tạp chí Dự án Malawi (Watkins and Swidler 2009; Kaler, Watkins, and Angotti 2015) . Trong dự án này, 22 cư dân địa phương gọi là "nhà báo" -kept "tạp chí đàm thoại" mà ghi lại, chi tiết, hội thoại mà họ nghe được về AIDS trong cuộc sống hàng ngày của những người bình thường (tại thời điểm dự án bắt đầu, khoảng 15% người trưởng thành trong Malawi đã bị nhiễm HIV (Bello, Chipeta, and Aberle-Grasse 2006) ). Bởi vì tình trạng nội bộ của họ, các nhà báo đã có thể nghe lỏm được cuộc trò chuyện có thể đã không thể tiếp cận với Susan Watkins và cộng tác viên nghiên cứu phương Tây của mình (tôi sẽ thảo luận về đạo đức này ở phần sau khi tôi đưa ra lời khuyên về thiết kế dự án hợp tác khối lượng riêng của bạn ). Các dữ liệu từ Dự án Malawi Tạp chí đã dẫn đến một số kết quả quan trọng. Ví dụ, trước khi dự án bắt đầu, nhiều người ngoài tin rằng có sự im lặng về AIDS ở châu Phi cận Sahara, nhưng các tạp chí chứng minh rằng điều này là rõ ràng không phải là trường hợp: nhà báo nghe lén hàng trăm trò chuyện về chủ đề này, tại các địa điểm khác nhau như đám tang , quán bar, và nhà thờ. Hơn nữa, bản chất của các cuộc hội thoại đã giúp các nhà nghiên cứu hiểu rõ hơn một số kháng để sử dụng bao cao su; cách mà sử dụng bao cao su đã được đóng khung trong các thông điệp sức khỏe cộng đồng là không phù hợp với cách mà nó đã được thảo luận trong cuộc sống hàng ngày (Tavory and Swidler 2009) .
Tất nhiên, giống như các dữ liệu từ eBird, các dữ liệu từ Dự án Tạp chí Malawi là không hoàn hảo, một vấn đề thảo luận chi tiết Watkins và đồng nghiệp. Ví dụ, các cuộc hội thoại được ghi nhận là không phải là một mẫu ngẫu nhiên của tất cả các cuộc trò chuyện có thể. Thay vào đó, họ là một điều tra dân số chưa đầy đủ của cuộc trò chuyện về AIDS. Xét về chất lượng dữ liệu, các nhà nghiên cứu tin rằng phóng viên của họ là phóng viên chất lượng cao, bằng chứng là sự nhất quán trong các tạp chí và trên các tạp chí. Hơn nữa, khi đủ các nhà báo được triển khai trong một khung nhỏ đủ và báo cáo tập trung vào một chủ đề cụ thể, dự phòng trở thành có thể, làm tăng sự tự tin vào chất lượng dữ liệu. Ví dụ, một gái mại dâm tên là "Stella" xuất hiện nhiều lần trong các tạp chí bốn nhà báo khác nhau (Watkins and Swidler 2009) . Vì nó là trong PhotoCity, việc sử dụng dự phòng là một nguyên tắc quan trọng để đánh giá và đảm bảo chất lượng dữ liệu trong các dự án thu thập dữ liệu phân tán. Để tiếp tục xây dựng trực giác của bạn, Bảng 5.3 cho thấy ví dụ khác về thu thập dữ liệu phân phối cho các nghiên cứu xã hội.
Số liệu thu thập | Trích dẫn |
---|---|
Thảo luận về HIV / AIDS ở Malawi | Watkins and Swidler (2009) ; Kaler, Watkins, and Angotti (2015) |
Đường đi ăn xin ở London | Purdam (2014) |
sự kiện xung đột ở Đông Congo | Windt and Humphreys (2016) |
Hoạt động kinh tế ở Nigeria và Liberia | Blumenstock, Keleher, and Reisinger (2016) |
giám sát cúm | Noort et al. (2015) |
Tất cả các ví dụ được mô tả trong phần này có liên quan đến sự tham gia tích cực: các nhà báo ghi chép lại cuộc hội thoại mà họ nghe; birders tải lên danh sách kiểm tra birding của họ; hoặc người chơi tải lên hình ảnh của họ. Nhưng những gì nếu tham gia là tự động và không đòi hỏi bất kỳ kỹ năng hoặc thời gian cụ thể để trình? Đây là lời hứa cung cấp bởi "cảm biến có sự tham gia" hay "người làm trung tâm cảm biến." Ví dụ, ổ gà Patrol, một dự án của các nhà khoa học tại MIT, gắn GPS tốc trang bị bên trong bảy xe taxi tại khu vực Boston (Eriksson et al. 2008) . Bởi vì lái xe qua một ổ gà để lại một tín hiệu gia tốc khác nhau, các thiết bị này, khi được đặt bên trong xe taxi di chuyển, có thể tạo ra các bản đồ ổ gà của Boston. Tất nhiên, taxi không mẫu ngẫu nhiên những con đường, nhưng nếu có đủ taxi, có thể có đủ bảo hiểm để cung cấp thông tin về phần lớn họ thành phố. Một lợi ích thứ hai của hệ thống thụ động dựa trên công nghệ là họ de-skill quá trình đóng góp dữ liệu: trong khi nó đòi hỏi kỹ năng để đóng góp vào eBird (bởi vì bạn cần phải có khả năng đáng tin cậy xác định các loài chim), nó đòi hỏi không có kỹ năng đặc biệt để góp phần vào ổ gà Patrol.
Đi về phía trước, tôi nghi ngờ rằng các dự án thu thập nhiều dữ liệu phân bố sẽ bắt đầu sử dụng các tính năng của điện thoại di động đã được thực hiện bởi hàng tỷ người trên khắp thế giới. Các điện thoại này đã có một số lượng lớn các bộ cảm biến quan trọng để đo lường, chẳng hạn như micro, máy ảnh, thiết bị GPS, và đồng hồ. Hơn nữa, các điện thoại di động hỗ trợ ứng dụng của bên thứ ba cho phép các nhà nghiên cứu một số kiểm soát các giao thức thu thập dữ liệu cơ bản. Cuối cùng, các điện thoại có kết nối Internet, làm cho nó có thể cho họ để off-load dữ liệu họ thu thập. Có rất nhiều thách thức kỹ thuật từ các cảm biến không chính xác tuổi thọ pin hạn chế, nhưng những vấn đề này có thể sẽ giảm xuống khi công nghệ phát triển. Các vấn đề liên quan đến sự riêng tư và đạo đức, mặt khác, có thể trở nên phức tạp hơn khi công nghệ phát triển; Tôi sẽ trở lại câu hỏi về đạo đức khi tôi cung cấp lời khuyên về thiết kế phối hợp khối lượng riêng của bạn.
Trong các dự án thu thập dữ liệu phân tán, tình nguyện viên đóng góp dữ liệu về thế giới. Cách tiếp cận này đã được sử dụng thành công, và sử dụng trong tương lai có thể sẽ phải giải quyết lấy mẫu và chất lượng dữ liệu quan ngại. May mắn thay, các dự án hiện có như PhotoCity và ổ gà Patrol đề nghị giải pháp cho những vấn đề này. Khi có thêm dự án tận dụng lợi thế của công nghệ cho phép sự tham gia de tay nghề và thụ động, phân phối các dự án thu thập dữ liệu sẽ tăng đáng kể về quy mô, cho phép các nhà nghiên cứu để thu thập dữ liệu mà chỉ đơn giản là tắt giới hạn trong quá khứ.