eBird thu thập dữ liệu về chim từ birders; tình nguyện viên có thể cung cấp một quy mô mà không có nhóm nghiên cứu nào có thể phù hợp.
Chim ở khắp mọi nơi, và các nhà nghiên cứu chim muốn biết mọi con chim ở đâu trong mọi khoảnh khắc. Với một số liệu hoàn hảo như vậy, các nhà nghiên cứu về chim có thể giải quyết nhiều câu hỏi cơ bản trong lĩnh vực của họ. Tất nhiên, việc thu thập các dữ liệu này nằm ngoài phạm vi của bất kỳ nhà nghiên cứu cụ thể nào. Đồng thời, các nhà nghiên cứu chim muốn có dữ liệu phong phú hơn và đầy đủ hơn, “người lai” - những người đi ngắm chim cho vui - liên tục quan sát chim và ghi lại những gì họ thấy. Hai cộng đồng này có một lịch sử hợp tác lâu dài, nhưng giờ đây những cộng tác này đã được biến đổi bởi kỷ nguyên số. eBird là một dự án thu thập dữ liệu phân tán thu hút thông tin từ các birders trên toàn thế giới và đã nhận được hơn 260 triệu lượt xem chim từ 250.000 người tham gia (Kelling, Fink, et al. 2015) .
Trước khi ra mắt eBird, hầu hết dữ liệu được tạo bởi birders không có sẵn cho các nhà nghiên cứu:
“Trong hàng ngàn tủ quần áo trên toàn thế giới ngày nay có vô số máy tính xách tay, thẻ chỉ mục, danh sách kiểm tra có chú thích và nhật ký. Những người trong chúng ta tham gia với các tổ chức birding biết rõ sự thất vọng của việc nghe lặp đi lặp lại về 'hồ sơ chim của chú tôi muộn' [sic] Chúng ta biết chúng có giá trị như thế nào. Đáng buồn thay, chúng tôi cũng biết chúng tôi không thể sử dụng chúng. ” (Fitzpatrick et al. 2002)
Thay vì để các dữ liệu có giá trị này không được sử dụng, eBird cho phép các birders tải chúng lên một cơ sở dữ liệu số hóa tập trung. Dữ liệu được tải lên eBird chứa sáu trường chính: ai, ở đâu, khi nào, loài nào, bao nhiêu và nỗ lực. Đối với những người đọc không birding, "nỗ lực" đề cập đến các phương pháp được sử dụng trong khi thực hiện các quan sát. Kiểm tra chất lượng dữ liệu bắt đầu ngay cả trước khi dữ liệu được tải lên. Birders cố gắng gửi báo cáo bất thường — chẳng hạn như báo cáo về các loài rất hiếm, số lượng rất cao hoặc báo cáo ngoài mùa — được gắn cờ và trang web tự động yêu cầu thêm thông tin, chẳng hạn như ảnh. Sau khi thu thập thông tin bổ sung này, các báo cáo được gắn cờ được gửi đến một trong hàng trăm chuyên gia tình nguyện khu vực để xem xét thêm. Sau khi điều tra bởi chuyên gia khu vực - bao gồm cả thư từ bổ sung có thể có với birder - các báo cáo được gắn cờ hoặc bị loại bỏ là không đáng tin cậy hoặc được nhập vào cơ sở dữ liệu eBird (Kelling et al. 2012) . Cơ sở dữ liệu về các quan sát được sàng lọc này sau đó được cung cấp cho bất kỳ ai trên thế giới có kết nối Internet, và cho đến nay, gần 100 ấn phẩm được xem xét ngang hàng đã sử dụng nó (Bonney et al. 2014) . eBird cho thấy rõ ràng rằng birders tình nguyện có thể thu thập dữ liệu hữu ích cho nghiên cứu điểu học thực sự.
Một trong những nét đẹp của eBird là nó chụp "công việc" đã xảy ra - trong trường hợp này, là birding. Tính năng này cho phép dự án đạt được quy mô lớn. Tuy nhiên, "công việc" được thực hiện bởi birders không khớp chính xác với dữ liệu cần thiết của các nhà nghiên cứu chim. Ví dụ, trong eBird, thu thập dữ liệu được xác định bởi vị trí của birders, không phải là vị trí của các loài chim. Điều này có nghĩa là, ví dụ, hầu hết các quan sát có xu hướng xảy ra gần đường (Kelling et al. 2012; Kelling, Fink, et al. 2015) . Ngoài sự phân bố không đồng đều của nỗ lực này qua không gian, các quan sát thực tế được thực hiện bởi các birders không phải lúc nào cũng lý tưởng. Ví dụ, một số birders chỉ tải lên thông tin về các loài mà chúng coi là thú vị, thay vì thông tin về tất cả các loài mà chúng quan sát được.
Các nhà nghiên cứu eBird có hai giải pháp chính cho các vấn đề chất lượng dữ liệu này — các giải pháp có thể hữu ích trong các dự án thu thập dữ liệu phân tán khác. Đầu tiên, các nhà nghiên cứu eBird liên tục cố gắng nâng cấp chất lượng của dữ liệu được gửi bởi birders. Ví dụ, eBird cung cấp giáo dục cho những người tham gia, và nó đã tạo ra hình ảnh hóa dữ liệu của mỗi người tham gia, theo thiết kế của họ, khuyến khích những người birders tải lên thông tin về tất cả các loài mà họ quan sát chứ không chỉ là thú vị nhất (Wood et al. 2011; Wiggins 2011) . Thứ hai, các nhà nghiên cứu eBird sử dụng các mô hình thống kê cố gắng sửa chữa bản chất thô và không đồng nhất của dữ liệu thô (Fink et al. 2010; Hurlbert and Liang 2012) . Vẫn chưa rõ liệu các mô hình thống kê này có hoàn toàn loại bỏ các thành kiến khỏi dữ liệu hay không, nhưng các nhà nghiên cứu đã đủ tự tin về chất lượng dữ liệu eBird đã được điều chỉnh, như đã đề cập trước đó, các dữ liệu này đã được sử dụng trong gần 100 ấn phẩm khoa học được thẩm định.
Nhiều người không phải là nhà đa khoa học ban đầu vô cùng hoài nghi khi họ nghe về eBird lần đầu tiên. Theo tôi, một phần của sự hoài nghi này xuất phát từ suy nghĩ về eBird một cách sai lầm. Nhiều người đầu tiên nghĩ rằng “Dữ liệu eBird có hoàn hảo không?” Và câu trả lời là “tuyệt đối không.” Tuy nhiên, đó không phải là câu hỏi đúng. Đối với câu hỏi đó câu trả lời là "chắc chắn có", một phần vì nhiều câu hỏi quan tâm - chẳng hạn như câu hỏi về di cư theo mùa quy mô lớn —Không có lựa chọn thay thế thực tế nào để thu thập dữ liệu phân tán.
Dự án eBird chứng minh rằng có thể liên quan đến các tình nguyện viên trong việc thu thập các dữ liệu khoa học quan trọng. Tuy nhiên, eBird, và các dự án liên quan, chỉ ra rằng những thách thức liên quan đến lấy mẫu và chất lượng dữ liệu là mối quan ngại đối với các dự án thu thập dữ liệu phân tán. Như chúng ta sẽ thấy trong phần tiếp theo, tuy nhiên, với thiết kế thông minh và công nghệ, những mối quan tâm này có thể được giảm thiểu trong một số cài đặt.