eBird recopila datos sobre aves de observadores de aves; los voluntarios pueden proporcionar una escala que ningún equipo de investigación puede igualar.
Las aves están en todas partes, y los ornitólogos quisieran saber dónde está cada ave en todo momento. Dado un conjunto de datos tan perfecto, los ornitólogos podrían abordar muchas preguntas fundamentales en su campo. Por supuesto, recopilar estos datos está fuera del alcance de cualquier investigador en particular. Al mismo tiempo que los ornitólogos desean datos más completos y completos, los "observadores de aves" -la gente que busca aves por diversión- constantemente observan aves y documentan lo que ven. Estas dos comunidades tienen una larga historia de colaboración, pero ahora estas colaboraciones han sido transformadas por la era digital. eBird es un proyecto de recopilación de datos distribuidos que solicita información a observadores de aves de todo el mundo, y ya ha recibido más de 260 millones de avistamientos de aves de 250,000 participantes (Kelling, Fink, et al. 2015) .
Antes del lanzamiento de eBird, la mayoría de los datos creados por los observadores de aves no estaban disponibles para los investigadores:
"Hoy en miles de armarios de todo el mundo se encuentran innumerables cuadernos, fichas, listas de control anotadas y diarios. Aquellos de nosotros que estamos involucrados en las instituciones de observación de aves conocemos bien la frustración de escuchar una y otra vez acerca de 'los registros de aves de mi difunto tío' [sic]. Sabemos lo valiosos que podrían ser. Lamentablemente, también sabemos que no podemos usarlos ". (Fitzpatrick et al. 2002)
En lugar de dejar estos datos valiosos sin utilizar, eBird les permite a los observadores de aves subirlos a una base de datos digital centralizada. Los datos cargados en eBird contienen seis campos clave: quién, dónde, cuándo, qué especies, cuántos y esfuerzo. Para los lectores que no observan aves, "esfuerzo" se refiere a los métodos utilizados al hacer observaciones. Las comprobaciones de calidad de datos comienzan incluso antes de que se carguen los datos. Los observadores que intentan enviar informes inusuales, como informes de especies muy raras, recuentos muy altos o informes fuera de temporada, están marcados y el sitio web solicita automáticamente información adicional, como fotografías. Después de recopilar esta información adicional, los informes marcados se envían a uno de los cientos de expertos regionales voluntarios para su posterior revisión. Después de la investigación del experto regional, incluida la posible correspondencia adicional con el observador de aves, los informes marcados se descartan por no ser confiables o se ingresan en la base de datos de eBird (Kelling et al. 2012) . Esta base de datos de observaciones filtradas se pone a disposición de cualquier persona en el mundo con conexión a Internet y, hasta ahora, casi 100 publicaciones revisadas por pares la han utilizado (Bonney et al. 2014) . eBird muestra claramente que los observadores de aves voluntarios pueden recopilar datos que son útiles para la investigación ornitológica real.
Una de las bellezas de eBird es que captura el "trabajo" que ya está sucediendo, en este caso, la observación de aves. Esta característica permite que el proyecto alcance una escala tremenda. Sin embargo, el "trabajo" realizado por los observadores de aves no coincide exactamente con los datos que necesitan los ornitólogos. Por ejemplo, en eBird, la recolección de datos está determinada por la ubicación de los observadores de aves, no por la ubicación de las aves. Esto significa que, por ejemplo, la mayoría de las observaciones tienden a ocurrir cerca de las carreteras (Kelling et al. 2012; Kelling, Fink, et al. 2015) . Además de esta distribución desigual del esfuerzo sobre el espacio, las observaciones reales hechas por los observadores de aves no siempre son ideales. Por ejemplo, algunos observadores de aves solo cargan información sobre especies que consideran interesantes, en lugar de información sobre todas las especies que observaron.
Los investigadores de eBird tienen dos soluciones principales para estos problemas de calidad de datos: soluciones que también podrían ser útiles en otros proyectos de recopilación de datos distribuidos. En primer lugar, los investigadores de eBird están constantemente tratando de mejorar la calidad de los datos presentados por los observadores de aves. Por ejemplo, eBird ofrece educación a los participantes y ha creado visualizaciones de los datos de cada participante que, por su diseño, alientan a los observadores a subir información sobre todas las especies que observaron, no solo las más interesantes (Wood et al. 2011; Wiggins 2011) Segundo, los investigadores de eBird usan modelos estadísticos que intentan corregir la naturaleza ruidosa y heterogénea de los datos en bruto (Fink et al. 2010; Hurlbert and Liang 2012) . Todavía no está claro si estos modelos estadísticos eliminan completamente los sesgos de los datos, pero los ornitólogos confían lo suficiente en la calidad de los datos ajustados de eBird que, como se mencionó anteriormente, estos datos se han utilizado en casi 100 publicaciones científicas revisadas por pares.
Muchos no ornitólogos inicialmente son extremadamente escépticos cuando oyen hablar de eBird por primera vez. En mi opinión, parte de este escepticismo proviene de pensar en eBird de la manera incorrecta. Muchas personas primero piensan "¿Son los datos de eBird perfectos?", Y la respuesta es "absolutamente no". Sin embargo, esa no es la pregunta correcta. La pregunta correcta es "Para ciertas preguntas de investigación, ¿los datos de eBird son mejores que los datos de ornitología existentes?". Para esa pregunta, la respuesta es "definitivamente sí", en parte porque se trata de muchas preguntas de interés, como preguntas sobre migración estacional a gran escala. -No hay alternativas realistas a la recopilación de datos distribuidos.
El proyecto eBird demuestra que es posible involucrar a voluntarios en la recopilación de datos científicos importantes. Sin embargo, eBird y los proyectos relacionados indican que los desafíos relacionados con el muestreo y la calidad de los datos son motivo de preocupación para los proyectos de recopilación de datos distribuidos. Sin embargo, como veremos en la siguiente sección, con diseño y tecnología inteligentes, estas preocupaciones se pueden minimizar en algunos entornos.