5.4.1 eBird

eBird從鳥類收集鳥類數據;志願者可以提供沒有研究團隊可以匹配的規模。

鳥類無處不在,鳥類學家想知道每一隻鳥每時每刻都在哪裡。鑑於這樣一個完美的數據集,鳥類學家可以解決他們領域的許多基本問題。當然,收集這些數據超出了任何特定研究人員的範圍。在鳥類學家渴望更豐富和更完整的數據的同時,“鳥類” - 為了娛樂而觀鳥的人 - 不斷觀察鳥類並記錄他們所看到的東西。這兩個社區有著悠久的合作歷史,但現在這些合作已經被數字時代所改變。 eBird是一個分佈式數據收集項目,它從世界各地的鳥類那裡獲取信息,並且已經從250,000名參與者那裡收到了超過2.6億隻鳥類的目擊(Kelling, Fink, et al. 2015)

在eBird發布之前,研究人員無法獲得大多數由鳥類創建的數據:

“今天全世界成千上萬的壁櫥裡躺著無數的筆記本,索引卡,帶註釋的清單和日記。我們這些與觀鳥機構有關的人都非常清楚地聽到“我已故的叔叔的鳥類記錄”的反复挫折感[原文如此]我們知道它們有多麼寶貴。可悲的是,我們也知道我們不能使用它們。“ (Fitzpatrick et al. 2002)

eBird不是讓這些有價值的數據閒置,而是讓鳥類將它們上傳到集中的數字數據庫。上傳到eBird的數據包含六個關鍵字段:誰,何地,何時,何種,多少和努力。對於非觀鳥讀者,“努力”是指觀察時使用的方法。數據質量檢查甚至在數據上傳之前就開始了。 Birders試圖提交不尋常的報告 - 例如非常稀有物種的報告,非常高的計數或季節性報告 - 被標記,並且網站自動請求其他信息,例如照片。收集到這些額外信息後,標記的報告將發送給數百名志願者區域專家中的一位進行進一步審查。經過區域專家的調查 - 包括可能與鳥類的額外通信 - 被標記的報告要么被丟棄為不可靠,要么被輸入eBird數據庫(Kelling et al. 2012) 。然後,通過互聯網連接向世界上的任何人提供這個篩選觀察數據庫,到目前為止,已有近100個同行評審的出版物使用過它(Bonney et al. 2014) 。 eBird清楚地表明,志願者的鳥類能夠收集對真實鳥類學研究有用的數據。

eBird的一個優點是它捕獲了已經發生的“工作” - 在這種情況下,觀鳥。此功能使項目實現了巨大的規模。然而,鳥類完成的“工作”並不完全符合鳥類學家所需的數據。例如,在eBird中,數據收集取決於鳥類的位置,而不是鳥類的位置。這意味著,例如,大多數觀測往往發生在道路附近(Kelling et al. 2012; Kelling, Fink, et al. 2015) 。除了在太空上的這種不均衡的努力分佈之外,由鳥類進行的實際觀測並不總是理想的。例如,一些鳥類只上傳他們認為有趣的物種的信息,而不是他們觀察到的所有物種的信息。

eBird研究人員有兩個主要解決方案來解決這些數據質量問題 - 這些解決方案在其他分佈式數據收集項目中也可能有所幫助。首先,eBird的研究人員一直在努力提升鳥類提交的數據質量。例如,eBird為參與者提供教育,並且已經創建了每個參與者數據的可視化,通過他們的設計,鼓勵人們上傳他們觀察到的所有物種的信息,而不僅僅是最有趣的信息(Wood et al. 2011; Wiggins 2011) 。其次,eBird研究人員使用統計模型來嘗試糾正原始數據的嘈雜和異構性質(Fink et al. 2010; Hurlbert and Liang 2012) 。目前尚不清楚這些統計模型是否完全消除了數據中的偏差,但鳥類學家對調整後的eBird數據的質量有足夠的信心,如前所述,這些數據已被用於近100篇同行評審的科學出版物中。

許多非鳥類學家最初在第一次聽到eBird時非常懷疑。在我看來,這種懷疑主義的一部分來自於以錯誤的方式思考eBird。許多人首先想到“eBird數據是否完美?”,答案是“絕對沒有。”但是,這不是正確的問題。正確的問題是“對於某些研究問題,eBird數據是否優於現有的鳥類學數據?”對於這個問題,答案是“肯定是的”,部分原因是因為許多感興趣的問題 - 例如關於大規模季節性遷移的問題 - 分佈式數據收集沒有現實的替代方案。

eBird項目表明,志願者可以參與收集重要的科學數據。但是,eBird和相關項目表明,與採樣和數據質量相關的挑戰是分佈式數據收集項目的關注點。然而,正如我們將在下一節中看到的那樣,通過巧妙的設計和技術,可以在某些設置中最小化這些問題。