5.4.1 eBird

eBird收集從鳥觀鳥數據;志願者可以提供地理範圍,沒有科研隊伍無法比擬的。

鳥類是隨處可見,鳥類學家想知道,每一個鳥是在每一個時刻。鑑於如此完美的數據集,鳥類學家可以解決各自領域的許多基本的問題。當然,收集該數據是超出任何特定研究者的範圍。在同一時間,鳥類學家渴望更豐富,更完整的數據,“觀鳥者” - 人們誰去觀鳥的樂趣,都在不斷觀察鳥類和記錄他們看到什麼。這兩個社區有協作的悠久歷史,但現在這些合作已經被數字時代轉變。 eBird是一個分佈式數據採集項目,來自世界各地的觀鳥者索取信息,並且它已經250,000參與者收到了超過2.6億觀鳥(Kelling et al. 2015)

到發射eBird之前,倍受觀鳥創建數據的不可用的研究人員:

“千當今世界各地的壁櫥騙了無數的筆記本,索引卡,帶註釋的清單,和日記。我們這些參與到觀鳥機構熟悉聽到一遍又一遍有關的無奈“我已故的叔叔的鳥類記錄”我們知道他們可能是多麼寶貴。可悲的是,我們也知道我們不能使用他們。“ (Fitzpatrick et al. 2002)

與其讓這些有價值的數據坐在未使用的,eBird使觀鳥把它上傳到一個集中的,數字化數據庫。上傳到eBird數據包含六個重點領域:誰,在哪裡,何時,什麼品種,多少,省力。對於非觀鳥讀者,“努力”是指同時使觀測使用的方法。數據質量檢查,開始上傳數據之前也。捕鳥的人試圖提交不尋常的報告,如非常罕見的物種的報導,非常高的數量,或出於季節報導,被標記,並在網站自動請求的其他信息,如照片。收集這些附加信息後,標記的報告發送給數百名志願者的區域專家的進一步審查中的一個。通過與捕鳥,被標記的報告,區域專家,包括可能的附加通信經過調查或被放棄不可靠或它們輸入到數據庫eBird (Kelling et al. 2012) 。篩選觀測這個數據庫,然後提供給任何人在世界上擁有互聯網連接,到目前為止,幾乎100同行評審的出版物都用它(Bonney et al. 2014) 。 eBird清楚地表明,志願者觀鳥能夠收集這是真正的鳥類學研究的有用數據。

其中eBird的美女之一是,它抓住了“工作”的情況已經發生,在這種情況下,觀鳥。此功能使該項目取得了巨大的規模。但是,“工作”由捕鳥的人做的不完全匹配由鳥類學家所需要的數據。例如,在eBird,數據收集由捕鳥的位置不鳥類的位置決定。這意味著,例如,大多數觀察往往會發生接近道路(Kelling et al. 2012; Kelling et al. 2015)除了這種分佈不均的努力在空間,由捕鳥取得的實際觀測並不總是理想。例如,一些觀鳥者只能上傳的是他們認為有趣的,而不是上載上他們觀察到的所有物種的信息種類的信息。

eBird研究人員對這些數據質量問題的兩個主要的解決方案,在許多其他的分佈式數據採集項目中出現的問題。首先,eBird研究人員不斷努力升級提交捕鳥的數據的質量。例如,eBird提供教育的參與者,它已創造了每個參與者的數據,由他們設計,鼓勵觀鳥者的可視化,以上傳的是他們觀察到,而不僅僅是一個子集,所有物種的信息(Wood et al. 2011; Wiggins 2011) 。其次,研究人員eBird使用試圖糾正為原始數據的嘈雜和異質性統計模型。它是目前尚不清楚是否這些統計模型完全從數據中刪除的偏見,但鳥類學家都在說,已經有人前面提到的,已在近100個同行評審的科學出版物中使用調整eBird數據的質量有足夠的信心。

許多非鳥類學家最初是非常懷疑,當他們聽到eBird首次。在我看來,這種懷疑的一部分來自於錯誤的方式思考eBird。很多人首先想到“是eBird數據完美?”,答案是絕對不會。然而,這不是正確的問題。正確的問題是,“對於某些研究問題,是eBird數據比現有鳥類數據好?”對於這個問題,答案當然是肯定的,部分地是因為許多感興趣的問題有分佈式數據採集沒有現實的選擇。

該eBird項目表明,有可能涉及到的重要的科學數據集合中的志願者。然而,eBird,及相關項目,表明相關的採樣和數據質量挑戰是分佈式數據採集項目的擔憂。正如我們將在下一節中看到的,但是,與巧妙的設計和技術,這些問題在某些設置最小化。