eBird从鸟类收集鸟类数据;志愿者可以提供没有研究团队可以匹配的规模。
鸟类无处不在,鸟类学家想知道每一只鸟每时每刻都在哪里。鉴于这样一个完美的数据集,鸟类学家可以解决他们领域的许多基本问题。当然,收集这些数据超出了任何特定研究人员的范围。在鸟类学家渴望更丰富和更完整的数据的同时,“鸟类” - 为了娱乐而观鸟的人 - 不断观察鸟类并记录他们所看到的东西。这两个社区有着悠久的合作历史,但现在这些合作已经被数字时代所改变。 eBird是一个分布式数据收集项目,它从世界各地的鸟类那里获取信息,并且已经从250,000名参与者那里收到了超过2.6亿只鸟类的目击(Kelling, Fink, et al. 2015) 。
在eBird发布之前,研究人员无法获得大多数由鸟类创建的数据:
“今天全世界成千上万的壁橱里躺着无数的笔记本,索引卡,带注释的清单和日记。我们这些与观鸟机构有关的人都非常清楚地听到“我已故的叔叔的鸟类记录”的反复挫折感[原文如此]我们知道它们有多么宝贵。可悲的是,我们也知道我们不能使用它们。“ (Fitzpatrick et al. 2002)
eBird不是让这些有价值的数据闲置,而是让鸟类将它们上传到集中的数字数据库。上传到eBird的数据包含六个关键字段:谁,何地,何时,何种,多少和努力。对于非观鸟读者,“努力”是指观察时使用的方法。数据质量检查甚至在数据上传之前就开始了。 Birders试图提交不寻常的报告 - 例如非常稀有物种的报告,非常高的计数或季节性报告 - 被标记,并且网站自动请求其他信息,例如照片。收集到这些额外信息后,标记的报告将发送给数百名志愿者区域专家中的一位进行进一步审查。经过区域专家的调查 - 包括可能与鸟类的额外通信 - 被标记的报告要么被丢弃为不可靠,要么被输入eBird数据库(Kelling et al. 2012) 。然后,通过互联网连接向世界上的任何人提供这个筛选观察数据库,到目前为止,已有近100个同行评审的出版物使用过它(Bonney et al. 2014) 。 eBird清楚地表明,志愿者的鸟类能够收集对真实鸟类学研究有用的数据。
eBird的一个优点是它捕获了已经发生的“工作” - 在这种情况下,观鸟。此功能使项目实现了巨大的规模。然而,鸟类完成的“工作”并不完全符合鸟类学家所需的数据。例如,在eBird中,数据收集取决于鸟类的位置,而不是鸟类的位置。这意味着,例如,大多数观测往往发生在道路附近(Kelling et al. 2012; Kelling, Fink, et al. 2015) 。除了在太空上的这种不均衡的努力分布之外,由鸟类进行的实际观测并不总是理想的。例如,一些鸟类只上传他们认为有趣的物种的信息,而不是他们观察到的所有物种的信息。
eBird研究人员有两个主要解决方案来解决这些数据质量问题 - 这些解决方案在其他分布式数据收集项目中也可能有所帮助。首先,eBird的研究人员一直在努力提升鸟类提交的数据质量。例如,eBird为参与者提供教育,并且已经创建了每个参与者数据的可视化,通过他们的设计,鼓励人们上传他们观察到的所有物种的信息,而不仅仅是最有趣的信息(Wood et al. 2011; Wiggins 2011) 。其次,eBird研究人员使用统计模型来尝试纠正原始数据的嘈杂和异构性质(Fink et al. 2010; Hurlbert and Liang 2012) 。目前尚不清楚这些统计模型是否完全消除了数据中的偏差,但鸟类学家对调整后的eBird数据的质量有足够的信心,如前所述,这些数据已被用于近100篇同行评审的科学出版物中。
许多非鸟类学家最初在第一次听到eBird时非常怀疑。在我看来,这种怀疑主义的一部分来自于以错误的方式思考eBird。许多人首先想到“eBird数据是否完美?”,答案是“绝对没有。”但是,这不是正确的问题。正确的问题是“对于某些研究问题,eBird数据是否优于现有的鸟类学数据?”对于这个问题,答案是“肯定是的”,部分原因是因为许多感兴趣的问题 - 例如关于大规模季节性迁移的问题 - 分布式数据收集没有现实的替代方案。
eBird项目表明,志愿者可以参与收集重要的科学数据。但是,eBird和相关项目表明,与采样和数据质量相关的挑战是分布式数据收集项目的关注点。然而,正如我们将在下一节中看到的那样,通过巧妙的设计和技术,可以在某些设置中最小化这些问题。