eBird собирает данные о птицах у птиц; добровольцы могут обеспечить масштаб, который никакая исследовательская группа не может сопоставить.
Птицы повсюду, и орнитологи хотели бы знать, где каждая птица в каждый момент. Учитывая такой идеальный набор данных, орнитологи могут решать многие фундаментальные вопросы в своей области. Конечно, сбор этих данных выходит за рамки любого конкретного исследователя. В то же время орнитологи желают получить более богатые и полные данные, «птица» - люди, которые смотрят на забаву, - постоянно наблюдают за птицами и документируют то, что они видят. Эти две общины имеют долгую историю сотрудничества, но теперь эти отношения были преобразованы в эпоху цифровых технологий. eBird - это проект по распределенным сборам данных, который запрашивает информацию у птицеводов по всему миру, и он уже получил более 260 миллионов наблюдений за птицами от 250 000 участников (Kelling, Fink, et al. 2015) .
До запуска eBird большая часть данных, созданных птицами, была недоступна исследователям:
«Сегодня в тысячах шкафов по всему миру лежат бесчисленные ноутбуки, картотеки, аннотированные контрольные списки и дневники. Те из нас, кто связан с птичьими учреждениями, хорошо знают разочарование слушания снова и снова о «записях птиц моего последнего дяди» [sic] Мы знаем, насколько они ценны. К сожалению, мы также знаем, что мы не можем их использовать » (Fitzpatrick et al. 2002)
Вместо того, чтобы эти ценные данные не использовались, eBird позволяет птицам загружать их в централизованную, цифровую базу данных. Данные, загруженные в eBird, содержат шесть ключевых полей: кто, где, когда, какие виды, сколько и какие усилия. Для читателей, не относящихся к птицам, «усилие» относится к методам, используемым при проведении наблюдений. Проверка качества данных начинается еще до того, как данные будут загружены. Птицы, пытающиеся представить необычные отчеты, такие как отчеты о очень редких видах, очень высокие подсчеты или внесезонные отчеты, отмечены флажком, и веб-сайт автоматически запрашивает дополнительную информацию, например фотографии. После сбора этой дополнительной информации, отмеченные сообщения направляются одному из сотен добровольческих региональных экспертов для дальнейшего рассмотрения. После изучения региональным экспертом, в том числе возможной дополнительной переписки с банком, отмеченные сообщения либо отбрасываются как ненадежные, либо вводятся в базу данных eBird (Kelling et al. 2012) . Эта база данных экранированных наблюдений затем становится доступной для всех в мире с подключением к Интернету, и до сих пор ее использовали почти 100 рецензируемых публикаций (Bonney et al. 2014) . eBird ясно показывает, что птицеводы-добровольцы могут собирать данные, которые полезны для реальных исследований орнитологии.
Одна из красавиц eBird заключается в том, что он захватывает «работу», которая уже происходит - в данном случае - птица. Эта функция позволяет проекту достичь огромного масштаба. Однако «работа», выполняемая птицами, точно не соответствует данным, необходимым орнитологам. Например, в eBird сбор данных определяется положением птиц, а не местоположением птиц. Это означает, что, например, большинство наблюдений имеют тенденцию встречаться вблизи дорог (Kelling et al. 2012; Kelling, Fink, et al. 2015) . В дополнение к этому неравному распределению усилий над пространством фактические наблюдения, сделанные птицами, не всегда идеальны. Например, некоторые птицеводы только загружают информацию о видах, которые они считают интересными, а не информацию обо всех видах, которые они наблюдали.
Исследователи eBird имеют два основных решения этих проблем качества данных - решения, которые могут быть полезны и в других проектах по распределенным сборам данных. Во-первых, исследователи eBird постоянно пытаются повысить качество данных, представленных птицами. Например, eBird предлагает обучение участникам, и он создал визуализацию данных каждого участника, которые своим дизайном поощряют птицеводов загружать информацию обо всех видах, которые они наблюдали, а не только самые интересные (Wood et al. 2011; Wiggins 2011) . Во-вторых, исследователи eBird используют статистические модели, которые пытаются исправить шумный и неоднородный характер исходных данных (Fink et al. 2010; Hurlbert and Liang 2012) . Пока неясно, полностью ли эти статистические модели устраняют предубеждения по данным, но орнитологи достаточно уверены в качестве скорректированных данных eBird, которые, как уже упоминалось ранее, были использованы в почти 100 научных журналах, прошедших независимую экспертизу.
Многие неорнитологи изначально крайне скептичны, когда впервые слышат об eBird. На мой взгляд, часть этого скептицизма исходит из того, что думать о eBird не так. Многие люди сначала думают: «Являются ли данные eBird идеальными?», И ответ «абсолютно нет». Однако это не правильный вопрос. Правильный вопрос: «По некоторым вопросам исследования, лучше ли данные eBird, чем существующие данные орнитологии?». На этот вопрос ответ «определенно да», отчасти потому, что для многих интересующих вопросов, таких как вопросы о крупномасштабной сезонной миграции - нет реалистичных альтернатив распределенному сбору данных.
Проект eBird демонстрирует, что вовлекать волонтеров в сбор важных научных данных можно. Тем не менее, eBird и связанные с ними проекты показывают, что проблемы, связанные с выборкой и качеством данных, являются проблемами для проектов распределенных проектов по сбору данных. Однако, как мы увидим в следующем разделе, с умным дизайном и технологией, эти проблемы могут быть сведены к минимуму в некоторых настройках.