Ботанический журнал, 2023, T. 108, № 5, стр. 491-505

Геоданные гербария МГУ: структура данных и методика геопривязки

А. П. Серёгин 1*, В. Н. Пашкина 1, И. Н. Поспелов 2

1 Московский государственный университет имени М.В. Ломоносова
119991 Москва, Ленинские горы, 1, Россия

2 Институт проблем экологии и эволюции имени А.Н. Северцова РАН
119071 Москва, Ленинский пр.,33, Россия

* E-mail: botanik.seregin@gmail.com

Поступила в редакцию 13.03.2023
После доработки 08.04.2023
Принята к публикации 18.04.2023

Полный текст (PDF)

Аннотация

Оцифровка Гербария Московского университета (MW) была начата весной 2015 г., с октября 2016 г. мы стали размещать изображения образцов в открытый доступ на портале Цифрового гербария МГУ (https://plant.depo.msu.ru/). Постепенно на нашем портале стали появляться и расширенные метаданные: полные расшифровки текста этикеток и геопривязки, т.е. значения координат места сбора каждого образца. На 14.01.2023 две трети образцов Гербария МГУ (693168 штук, или 66%) имеют электронные метки на карте, в то время как 359593 образца их пока не имеют. В статье дана характеристика массива геоданных Гербария Московского университета как в географическом аспекте (покрытие геоданных для разных регионов), так и в аспекте точности геопривязок. Приведены общие методические указания по геопривязке гербарных коллекций.

Ключевые слова: гербарий, пространственные данные, география растений

Оцифровка Гербария Московского университета (MW) была начата весной 2015 года с участием коммерческого партнера в рамках комплексной программы “Научные основы создания Национального банка-депозитария живых систем” по гранту РНФ. В течение 2015 года было отсканировано 502 тыс. образцов из отделов Восточной Европы, Сибири и Дальнего Востока – примерно половина фондовой коллекции Гербария МГУ.

С октября 2016 г. мы стали размещать изображения образцов в открытый доступ на портале Цифрового гербария МГУ (https://plant.depo.msu.ru/) (Seregin, 2018, 2023b). Изображения образцов выкладывались в открытый доступ с минимумом ключевых метаданных, таких как таксономия, район гербария и идентификаторы образцов, используя удачный опыт оцифровки Музея естественной истории в Париже (Le Bras et al., 2017).

Постепенно на нашем портале стали появляться и расширенные метаданные: полные расшифровки текста этикеток и геопривязки, т.е. значения координат места сбора каждого образца. К концу 2018 года было полностью завершено сканирование фондовой коллекции с разрешением 300 dpi (для типовых образцов 600 dpi). К этому моменту база содержала 971732 образца, 323015 геопривязок и 135812 расшифрованных этикеток. Кроме того, для всех образцов были получены результаты автоматического оптического распознавания символов (OCR) (Drinkwater et al., 2014), что позволило осуществлять быстрый поиск образцов по ключевым словам, имеющимся в печатных элементах этикеток. Эта работа была начата в марте 2018 года, и с тех пор OCR в фоновом режиме осуществляется с помощью программного продукта Tesseract для всех образцов Цифрового гербария МГУ.

С ноября 2017 года массив данных Гербария МГУ стал целиком индексироваться в Global Biodiversity Information Facility (GBIF, https://www.gbif.org/) (Global…, 2023). Это позволило как полностью интегрировать электронные сведения о наших образцах в международный агрегатор открытых данных о биоразнообразии, так и использовать инструменты GBIF в ежедневной кураторской, научной и изыскательской работе. На 14.01.2023 день данные Гербария Московского университета в GBIF были процитированы 857 раз (Seregin, 2023a).

Возможности Цифрового гербария МГУ привлекли внимание не только пользователей коллекций, но и кураторов других гербариев. С апреля 2019 года он стал консорциумом (Seregin, 2020), в котором организации-участники из Москвы, Иркутска, Кемерово, Тулы и Магадана публикуют свои коллекции в электронном виде по единым стандартам. Уже девять российских гербариев сделали свои коллекции доступными через платформу Цифрового гербария МГУ (табл. 1).

Таблица 1.

Основные показатели вклада участников консорциума Цифрового гербария МГУ (на 14.01.2023) Table 1. Contributions from the participants of the Moscow Digital Herbarium consortium (as of 14 January, 2023)

Гербарий Herbarium Дата подключения/ Date of the first publication Число образцов/ Number of specimens Число изображений/ Number of images Число видов/ Number of species Число геопривязок/ Number of georeferences Число этикеток/ Number of captured labels
MW (Гербарий Московского государственного университета, г. Москва) / Moscow University Herbarium 16.10.2016 1 052 761 1 031 628 39 579 693 168 449 389
MHA (Гербарий Главного ботанического сада РАН, г. Москва)/Herbarium of the Main Botanical Garden RAS, Moscow 01.04.2019 116 362 116 157 3962 87 742 50 053
IRKU (Гербарий Иркутского государственного университета)/Herbarium of Irkutsk State University 11.09.2020 42 265 42 154 1112 29 050 30 901
KUZ (Гербарий Кузбасского ботанического сада СО РАН, г. Кемерово)/ Herbarium of the Kuzbass Botanical Garden SB RAS, Kemerovo 14.05.2020 19 014 19 104 1445 19 004 19 009
TUL (Гербарий Тульского государственного педагогического университета, г. Тула)/Herbarium of Leo Tolstoy Tula State Pedagogical University 25.12.2019 9808 9832 1208 9369 9807
TULGU (Гербарий Тульского государственного университета, г. Тула)/Herbarium of Tula State University 15.07.2021 5054 5054 818 5045 5054
KULPOL (Гербарий Музея-заповедника “Куликово поле”, г. Тула)/Herbarium of the Museum-Reserve “Kulikovo Field”, Tula 15.07.2021 3657 3656 594 3522 3657
TKM (Гербарий Тульского областного краеведческого музея, г. Тула) / Herbarium of the Tula Regional Museum of Local Lore 15.07.2021 2873 2855 878 1468 2866
MAG (Гербарий Института биологических проблем Севера ДВО РАН, г. Магадан)/Herbarium of the Institute of Biological Problems of the North FEB RAS, Magadan 22.10.2020 2604 2604 106 2537 2598
Цифровой гербарий МГУ (итог по консорциуму)/ Moscow Digital Herbarium (consortium total)   1 254 398 1 233 044 40 072 850 905 573 334

По результатам оцифровки фондов мы получили точные данные по объему и составу коллекций. Физическая коллекция Гербария Московского университета после ежегодного пополнения в 2022 году насчитывает 1 109  606 образцов, занимая по этому показателю 62-е место в мире и 2-е место в России (Thiers, 2023). Оцифрованы все образцы, кроме 62 тыс. образцов немонтированных исторических коллекций и коллекции лишайников, современный объем которой установить не представляется возможным. Отсканированные коллекции сосудистых растений и мохообразных представляют 40016 видов согласно номенклатуре “Catalogue of Life” (https://www.catalogueoflife.org/) (Catalogue…, 2023).

Отдельный интерес в методологическом плане и в плане полученных результатов представляет развитие блока пространственных данных. Данная статья логически продолжает публикацию 2017 года (Seregin, 2017), охватывая последние шесть лет работы Гербария Московского университета как центра документации и изучения разнообразия растений международного значения. Задачи у настоящей статьи две: (1) обнародовать протоколы ввода и обработки пространственных данных в Цифровом гербарии МГУ и (2) охарактеризовать созданный нами массив геоданных Гербария Московского университета. Все приведенные цифры включают как сосудистые растения, так и мохообразные, если не указано иное. Отдельно подчеркнем, что речь идет не обо всех коллекциях участников консорциума Цифрового гербария МГУ (табл. 1), а только о Гербарии Московского университета (MW).

МАТЕРИАЛЫ И МЕТОДЫ

Категории геопривязок

Не у каждого образца из Гербария Московского университета, который отсканирован и размещен в открытом доступе, имеется геопривязка. Это процесс, который занимает время, и работа по полному покрытию коллекций геоданными ведется постоянно.

Все геоданные находятся в открытом доступе как на платформе Цифрового гербария МГУ, так и в GBIF (откуда их можно скачивать). Принципиально все геопривязки, которые у нас имеются, делятся на четыре категории:

– взятые напрямую из этикеток;

– установленные вручную для конкретного образца (или группы образцов с одинаковым текстом этикетки);

– установленные автоматически в результате работы алгоритма ИСТРА;

– образцы, у которых геопривязка невозможна в принципе.

Рассмотрим каждую из этих категорий, охарактеризовав источники и методы получения пространственных данных.

(1) Геопривязки взяты напрямую с этикеток (128957 шт., или 18.6%). Этикетки свежих образцов, как правило, содержат в явном виде географические координаты места сбора. Они вводятся в табличном виде операторами ввода этикеточных данных. В поле “Оператор геопривязки” при этом выбирается стандартный параметр “Коллектор”. С декабря 2022 г. такой ввод осуществляется волонтерами в модуле “Помогатор” (https://plant.depo.msu.ru/pomogator) (Pomogator, 2023) с автоматическим контролем ошибок на основании двойного независимого ввода данных.

Доля коллекций, которые непосредственно в этикетках содержат координаты места сбора, неуклонно растет. Стремление коллекторов, которые передают свои сборы в Гербарий МГУ, к точности и надежности документации находок можно продемонстрировать такими цифрами: в 2000 г., когда портативные GPS-приемники только стали появляться, 39.5% собранных образцов имели координаты в этикетках; в 2005 г. таковых уже было 55.2%; в 2010 г. эта доля выросла до 60.3%; а к 2015 г. дошла до 78.0%, сохраняясь примерно на том же уровне до самого последнего времени.

Формат записи географических координат на этикетках, поступающих на монтировку, самый разнообразный: 55.755831° (градусы), 55°45.35′ или 55°45′ (градусы и минуты), 55°45′20.99″ или 55°45′21″ (градусы, минуты и секунды), а также редкие случаи более экзотической записи форматов и непредсказуемых ошибок форматирования координат. При этом коллекторы используют как округление значений, так и, напротив, недопустимо большую точность, которая превосходит погрешность самих приборов. Среда Цифрового гербария МГУ работает со всеми форматами записи, преобразуя в вид, указанный в настройках пользователя. В GBIF данные импортируются строго в градусах в виде десятичной дроби с точностью до шестого знака после запятой.

Одна из особенностей непосредственного использования геоданных с этикеток заключается в том, что при вводе нами не осуществляется формальная оценка точности данных – это не соответствует международным стандартам ввода данных, но является общепринятой практикой (Marcer et al., 2021). Иными словами, цифры берутся как есть и отправляются на ручную геопривязку (см. ниже) только в том случае, если имеется явная ошибка указания координат коллектором. Ведется постепенная проверка координат, взятых непосредственно с этикеток.

(2) Геопривязки установлены вручную для конкретного образца или группы образцов с одинаковым текстом этикетки (240834 шт., или 34.7%). Ручная геопривязка – это установление места сбора конкретного образца с использованием корпуса исторических и современных картографических и справочных материалов, которые широко представлены в открытом доступе в интернете. Кроме того, для каждой ручной геопривязки устанавливается значение точности геопривязки (см. ниже). В целом наши стандарты и решения соответствуют общим методическим рекомендациям (Chapman, Wieczorek, 2020).

Массив ручных геопривязок – результат работы свыше 60 операторов, которые в разное время в качестве основной работы или в ходе решения научно-исследовательских задач осуществляли геопривязку образцов из фондов Гербария МГУ. Три автора настоящей статьи сделали 47.5% ручных геопривязок (В.Н. Пашкина – 62837 шт., И.Н. Поспелов – 27069 шт., А.П. Серегин – 24514 шт.).

Для осуществления этого этапа ключевыми исходными данными являются, как правило, не изображения образцов, а расшифрованные и введенные в систему транскрипции тексты этикеток. В Цифровом гербарии МГУ используется строгий протокол ввода этикеточных данных, который позволяет жестко унифицировать процедуры ввода различными операторами с минимальными разночтениями. Так, например, используется единое текстовое поле “Вся география и экология (текст этикетки)”, а страна и административные единицы устанавливаются, как правило, автоматически на основе введенных координат.

Операторы ручной геопривязки в качестве исходных данных работают с табличными расшифровками текста этикеток, ограничиваясь выборкой образцов по какому-нибудь району или отделу гербария. Это позволяет быстро выявлять повторяющиеся топонимы и восстанавливать маршруты конкретных исследователей, что уменьшает время ввода и повышает качество взаимной геопривязки близко расположенных пунктов работ. Если работа ведется в табличном редакторе, то на разных этапах производится сортировка массива по различным параметрам. Так, сортировка по дате сбора позволяет устанавливать у анонимных сборов фамилию коллектора, опираясь на место сбора и почерк на этикетке. В целом, сортировка по тексту этикетки ускоряет работу, позволяя выявить одни и те же локации, где в разные годы работали разные коллекторы.

Кроме того, именно на этапе геопривязки операторы зачастую выполняют окончательное редактирование (чистку) массива введенного текста многочисленных этикеток.

(3) Геопривязки установлены автоматически в результате работы алгоритма ИСТРА (314215 шт., или 45.3%). Алгоритм ИСТРА (Интеллектуальная Система Топонимического Распознавания И Атрибутирования) – разработка О.Н. Платко, программиста “Проекта Скулачева”, архитектора и главного разработчика Цифрового гербария МГУ. На сегодняшний день ИСТРА в фоновом режиме объединяет все образцы из базы в группы по паре “коллектор–дата” с дополнительной нормировкой по географическим районам гербария. На ручную геопривязку отправляется один образец из группы, а все образцы, собранные коллектором в течение одного дня, привязываются к одному и тому же месту сбора. Такие автоматически сгруппированные и привязанные к карте образцы получают особую пометку в базе, и постепенно их место сбора может уточняться за счет ручной геопривязки.

Для обеспечения работы алгоритма ИСТРА еще в июле 2018 года силами коммерческого партнера был осуществлен массовый ввод пары “коллектор–дата” для 80% образцов Гербария Московского университета. По сути, эти данные были введены для всех образцов, в которых единственная дата сбора и фамилия коллектора были указаны однозначно и полно, однако без нормоконтроля, т.е. однозначного сопоставления указанной фамилии коллектора и конкретного человека, что является трудной задачей (Güntsch et al., 2021). На следующий день система ИСТРА автоматически привязала к карте 63 тыс. образцов и общее число геопривязок составило 217971 шт. – каждый четвертый оцифрованный образец Гербария МГУ получил в тот момент метку на карте.

Подход с вводом пары “коллектор–дата” в качестве обязательных метаданных позволил, с одной стороны, добиться группировки массива по описанным принципам, а с другой стороны – систематизировать дальнейшую выдачу образцов на ввод полного текста этикеток. Так, операторам ввода текстовых данных отправляется теперь строго отсортированная выборка образцов, день за днем представляющая сборы одного и того же исследователя. Операторы заметно улучшили качество ввода текстовых данных, поскольку у них появилась возможность разобраться с почерком одного и того же человека, вводить повторяющиеся топонимы, а зачастую – копировать текст этикеток, которые выдаются на ввод в хронологическом порядке.

Система ИСТРА работает не только с образцами Гербария Московского университета, а охватывает все коллекции участников консорциума. Это позволяет создать единую сеть данных, полностью включающую как оригинальные коллекции каждого гербария, так и дублеты, поступающие из других коллекций. Кроме того, любая геопривязка, внесенная в систему любым участником консорциума, пополняет общую библиотеку референсных геоданных, необходимых для работы системы ИСТРА. Инструменты и протоколы автоматического и полуавтоматического поиска и исправления ошибок (как внутри платформы, так и в GBIF) позволяют поддерживать чистоту массивов данных от взаимных нестыковок.

(4) Кроме того, имеется относительно небольшая группа образцов, у которых установить геопривязку принципиально невозможно. Это связано с отсутствием указаний места сбора на образце или лишь с самыми общими указаниями. Таких образцов 10  460 штук (или 1.5%). Вот реальные примеры текста этикеток образцов из европейской части России, которые получили пометку о невозможности геопривязки:

“Deserto”;

“Gouv. Ssamara. Steppenabhang”;

“Астраханская обл. Полузакрепленные пески”;

“В лесах, в кустарниках”;

“В лесу, под пологом”;

“Встречается по всей ИПО, как спец[иализированный] сорняк оз[имой] ржи, реже в друг[их] культурах”;

“Жел. дорога. Часто”;

“Иваново-Вознесенская губерния”;

“Костромская обл.”;

“Курская губ.” и т.д.

Специальным случаем является ситуация, когда на этикетке место сбора отсутствует, однако в явном виде указаны дата сбора и коллектор. Такой образец входит в соответствующую группу образцов по паре “коллектор–дата” и получает автоматическую геопривязку с помощью алгоритма ИСТРА (см. выше).

Оценка точности геопривязок

Мы используем в качестве обязательного параметра при ручной геопривязке переменную “Точность”. Это радиус круга (в километрах) с центром в предположительном месте сбора образца. Такой круг охватывает все возможные места сбора образца, исходя из той неопределенности, что заложена в текстовом описании места сбора в этикетке. На переменную “Точность” влияет и число используемых румбов направлений (4, 8 или 16), и точность определения расстояния от условной точки (например, населенного пункта), и характер работы с различными картами в прошлом, и взаимное расположение точечных, линейных и площадных объектов, упомянутых в этикетке.

Точность установления координат в результате ручной геопривязки может быть как очень высокой (например, если сохранилось конкретное здание, местоположение которого легко установить по спутниковым снимкам), так и чрезвычайно низкой. Например, у образца MW0210476 с этикеткой “Кольский п-ов, Терский берег Мурманская область, Терский р-он. Сухая лишайниково-кустарничковая тундра на морской террасе” точность геопривязки составляет 260 км. Используя инструменты GBIF, пользователи имеют возможность отсечь неточные геопривязки, указывая значения этой переменной.

В целом случаи, когда место сбора указано в тексте этикетки неточно, нередки. Характер этой неопределенности таков, что предполагаемое место сбора представляет собой не одну, а массив равновероятных точек. Здесь используется следующий подход: параметр “Точность” здесь – это минимальный радиус круга, в пределах которого реальное место сбора находится с вероятностью, близкой к 1, а в качестве геопривязки выступают координаты центра данного круга. Например, для образца одного из гибридов ив MW0307869 (“Канин п-ов, южн. часть. Оз. Яжемское. Низкий берег”) в качестве геопривязки использованы координаты центра озера Яжемского, а точность равна 2 км (радиус озера плюс 250 м), хотя центр озера, безусловно, не является местообитанием этой ивы.

В целом указываемая точность тем ниже (радиус больше), чем больше размер населенного пункта, чем менее населена данная территория, чем дальше расстояние до условной точки, указанной в этикетке. Для старых сборов приходится увеличивать радиус, в связи с неточностью самих старых карт, с изменением величины и положения населенных пунктов за последние два века и другими событиями, такими как прокладка и исчезновение дорог, осушение местности, создание водохранилищ и т.д. Мы стараемся сверяться с двумя картами, чтобы свести к минимуму возможную погрешность. Основные подходы к оценке точности, используемые в Цифровом гербарии МГУ, размещены в открытом доступе в качестве стандартной инструкции (Seregin, 2022).

В консорциуме Цифрового гербария МГУ каждый из гербариев самостоятельно отвечает за объем и качество внесенных геоданных. Редактор портала ведет мониторинг возможных ошибок, связанных с качеством ввода текстовых метаданных, элементов курирования коллекции и геопривязок места сбора. В текстовых метаданных ошибки, влияющие на качество геоданных, могут содержаться в дате сбора, фамилии и инициалах коллектора, расшифровке текста этикетки, а также в цифрах координат, введенных с этикеток. Источником ошибок среди элементов курирования коллекции чаще всего является неверно указанный район гербария. Сами геопривязки, поступившие от операторов, могут содержать опечатки, ошибки установления топонимов, неточности интерпретации этикеток, сбой форматов координат, и проч.

Проверка введенных геопривязок осуществляется также пользователями Цифрового гербария МГУ путем краудсорсинга. В паспорте каждого образца имеется ссылка “Сообщить об ошибке”, где любой пользователь без предварительной регистрации может сообщить нам о той или иной проблеме с вводом образца. Мы регулярно получаем сообщения как об ошибках в геопривязках, так и о неточностях трактовок текста этикеток или некорректной работе алгоритма ИСТРА. Поступившие от пользователей данные используются для улучшения базы.

Красноярский край: пример монографической работы с геоданными

Отдел Сибири и Дальнего Востока в Гербарии Московского университета был оцифрован в первую очередь и уже в октябре 2016 г. к нему был открыт онлайн-доступ.

И.Н. Поспелов поставил перед собой задачу выявления всех сборов сосудистых растений из Таймырского района Красноярского края. В процессе работы выяснилось, что для полного выявления коллекций с Таймыра необходим просмотр фондов всего района Центральная Сибирь (S3) Гербария МГУ, включавшего на тот момент около 19 500 образцов. Примерно треть (около 6300 образцов) составляли сборы И.Н. и Е.Б. Поспеловых и участников совместных экспедиций. Для этих коллекций с середины 1990-х годов велась база данных с координатами всех собранных и переданных в МГУ образцов, то есть достаточно было связать ID образца в MW (его роль выполняет штрихкод) с уникальным коллекторским номером, чтобы отправить данные в базу Цифрового гербария МГУ.

Остальные образцы по Центральной Сибири были привязаны И.Н. Поспеловым “с нуля” в течение 2017 года (Pospelov, 2018), хотя примерно в 10% случаев координаты района сбора разной степени точности на этикетках все же имелись. Например, в некоторых образцах начала ХХ века на этикетках использовались значения долготы от Пулковского меридиана. В целом, район S3 Гербария МГУ охватывает Красноярский край без горных массивов Алтае-Саянской горной страны, расположенных на юге края.

В этом случае первым условием привязки образца являлись отличные знания географической номенклатуры и истории ботанических исследований региона. Оператор геопривязки хорошо знал природные условия региона и имел опыт полевых работ здесь. Это позволяло “поставить себя на место коллектора”, например, оценить реальность суточных перемещений коллектора в соответствии с условиями местности, что существенно повышало качество привязки. Во многих случаях коллекторы ныне здравствуют, и при необходимости могли при личном обращении уточнить место или хотя бы район сбора (Pospelov, Pospelova, 2019).

После нахождения искомого района (по топониму) осуществлялся переход по координатам в проект в среде ArcGIS. Координаты уточнялись по описанию места сбора и при помощи специального скрипта одним кликом переносились в табличный редактор, там же вводились коллекторы, дата сбора и экспертная точность привязки в км.

После привязки первых 1000 образцов определились районы работ основных коллекторов гербария, что позволило в проекте ArcGIS установить закладки на эти районы (около 25 шт.), что позволило выполнять до 500 привязок в день. Как показала практика, после подобного “погружения” в коллекцию большинство сборов может быть привязано с точностью 0.5–5 км (Pospelov, 2020). В ряде случаев имела бы смысл привязка не к точке с радиусом точности, а к площадному или линейному объекту (участок течения реки, прохождения дороги, окрестностям населенного пункта и т.д.), однако эта практика пока не получила широкого распространения в международных базах данных.

РЕЗУЛЬТАТЫ

На 14.01.2023 две трети образцов Гербария МГУ (693168 шт., или 66%) имеют электронные метки на карте, в то время как 359593 образца их пока не имеют. Характеристику массива геоданных Гербария Московского университета необходимо дать как в географическом аспекте (покрытие геоданных для разных регионов), так и в аспекте точности геопривязок.

Основная работа по формированию массива геоданных в Гербарии Московского университета (MW) ведется для “Атласа флоры России”, который основан на множестве различных источников. Исходя из этого, именно территория России является приоритетом с точки зрения геопривязки образцов (табл. 2). Больше 80% образцов привязано к карте из России (80.8%), Вьетнама (85.2%), Канады (96.2%), а также не попавших в таблицу Афганистана, Парагвая, Кипра и Великобритании.

Таблица 2.

Распределение образцов Гербария Московского университета по странам и характеру геоданных (на 14.01.2023). Таблица отсортирована по общему числу геопривязок Table 2. Distribution of specimens from the Moscow University Herbarium by country and sources of geodata (as of 14 Jan 2023). The table is sorted by the total number of georeferences

№ п/п Страна/Country Число образцов/ Number of specimens Есть геопривязки/ Specimens with geodata Нет геопривязок/ Specimens with no geodata Точные геопривязки/ Manual georeferences Геопривязки по ИСТРЕ/ Automatic georeferences Невозможно привязать/ Georeferencing impossible
1 Россия (с Крымом)/ Russia (with Crimea) 714 628 577 147 137 481 328 354 240 200 9688
2 Монголия/Mongolia 27 890 16 827 11 063 3326 13 501 0
3 Казахстан/ Kazakhstan 53 308 14 248 39 060 1474 12 774 18
4 Киргизия/ Kyrgyzstan 18 583 8093 10 490 2036 6057 22
5 Украина/Ukraine 31 570 7619 23 951 1067 6551 12
6 Азербайджан/ Azerbaijan 15 403 7325 8078 1501 5776 5
7 Армения/Armenia 11 147 5571 5576 1208 4338 1
8 Вьетнам/Vietnam 5974 5088 886 3868 807 0
9 Узбекистан/ Uzbekistan 11 047 3928 7119 644 3284 1
10 Южная Осетия/ South Ossetia 5437 3411 2026 859 2520 0
11 Туркмения/Turkmenistan 10 841 3305 7536 223 3082 1
12 Канада/Canada 3432 3301 131 2222 1079 71
13 Таджикистан/ Tajikistan 10 327 2962 7365 477 2483 0
14 Грузия/Georgia 10 608 2573 8035 607 1950 16
15 Эфиопия/Ethiopia 2958 2209 749 1164 1045 10
16 Латвия/Latvia 4044 2200 1844 1087 1103 3
17 КНР/China 5662 2185 3477 1738 447 0
18 Белоруссия / Belarus 7229 2005 5224 1263 741 0
19 Турция / Turkey 3670 1349 2321 843 506 0
20 Иран / Iran 2619 1284 1335 1273 11 1

Распределение образцов сосудистых растений с территории России по районам, принятым для курирования фондов Гербария Московского университета, дано в табл. 3. В целом мы ввели геопривязки для 81.6% образцов, собранных в нашей стране. Наибольший объем как физических образцов, так и геопривязок имеется в Гербарии МГУ по Европейской России – Москве и Подмосковью (район E4a), Центральному Нечерноземью (E4), Центральному Черноземью (E6), Европейскому Северу (E1) и Крыму (KRYM). По азиатской части России более полно представлены коллекции по югу Дальнего Востока (S6) и Алтае-Саянскому региону (S2), а по Кавказу – в основном, по Карачаево-Черкесии (K1b).

Таблица 3.

Распределение образцов сосудистых растений Гербария Московского университета, собранных в России, по районам гербария (на 14.01.2023) Table 3. Distribution of specimens from the Moscow University Herbarium collected in Russia by curatorial areas (as of 14 January, 2023)

Код и название района гербария/ Code and name of the herbarium area Число образцов/ Number of specimens Есть геопривязки/ Specimens with geodata Доля с геопривязкой, % / Percentage of samples with geodata, % Нет геопривязок/ Specimens with no geodata Точные геопривязки/ Manual georeferences Геопривязки по ИСТРЕ/ Automatic georeferences Невозможно привязать/ Georeferencing impossible
E1 Северный район/ Northern region 39408 34668 88.0 4740 19538 14698 32
E2 Северо-Западный район/ North-Western region 15626 10259 65.7 5367 7197 2665 41
E3 Западный район/ Western region 6828 5178 75.8 1650 3475 1416 183
E4 Центральный район/ Central region 53936 49583 91.9 4353 23821 24916 1315
E4a Московская область и Москва/Moscow region 77851 69241 88.9 8610 34091 32877 1846
E5 Центральный лесной район/Central forest region 15649 13793 88.1 1856 12290 1157 232
E6 Центральный лесостепной район/Central forest-and-steppe region 51389 35966 70.0 15423 15758 19718 303
E7 Волжско-Камский район /Volga-Kama region 14429 12440 86.2 1989 6740 5546 66
E8 Средневолжский район/ Middle Volga region 25769 25209 97.8 560 20379 4763 24
E9 Нижневолжский район/ Lower Volga region 25283 22666 89.6 2617 12004 10561 713
E10 Восточный район/ Eastern region 24460 23211 94.9 1249 10561 12451 321
E12a Ростовская область/ Rostov Oblast 8998 7483 83.2 1515 6738 740 1101
K1a Краснодарский край и Адыгея/Krasnodar Krai and Adygea 16642 14050 84.4 2592 9400 4125 1133
K1b Ставропольский край, КЧР и КБР / Stavropol Krai, Karachay-Cherkessia and Kabardino-Balkaria 20721 10339 49.9 10382 3614 6568 17
K1c Северная Осетия, Ингушетия и Чечня / North Ossetia, Ingushetia and Chechnya 9264 3948 42.6 5316 774 3117 0
K2 Дагестан / Dagestan 6048 2671 44.2 3377 735 1862 16
K3 Черноморское побережье Кавказа / Black Sea Coast 11668 10806 92.6 862 7200 3287 82
KRYM Крым / Crimea 34032 30474 89.5 3558 14619 15375 1447
S1 Западная Сибирь / Western Siberia 16230 12492 77.0 3738 7598 4809 136
S2 Алтай и Саяны / Altai and Sayany Mountains 34486 24736 71.7 9750 12508 12070 23
S3 Центральная Сибирь / Central Siberia 23290 21815 93.7 1475 21642 171 0
S4 Прибайкалье и Забайкалье / Baikal and Transbaikal region 27548 15490 56.2 12058 9033 6140 3
S5 Якутия / Yakutia 17372 11100 63.9 6272 3825 6987 8
S6 Дальний Восток / Russian Far East 35740 30999 86.7 4741 13257 17509 0
S7 Чукотка и Камчатка / Chukotka and Kamchatka 26942 23230 86.2 3712 13908 9144 545
Россия в целом / Russia (total) 639609 521847 81.6 117762 290705 222672 9587

За редким исключением доля образцов, которые мы смогли привязать к карте, не превышает 90% по каждому району. Остальные 10%, как правило, приходятся на образцы, у которых геопривязка невозможна (старые неотыскиваемые топонимы, образцы без этикеток и проч.). Осторожно можно предположить, что нам удастся привязать к карте еще около 50–55 тыс. российских образцов из числа имеющихся в фондах Гербария Московского университета, а остальное, к сожалению, представляет собой “мертвый объем” (разумеется, только с географической точки зрения).

Каждый год мы включаем в фонды Гербария Московского университета около 15 тыс. образцов – это средняя цифра ежегодных поступлений за последние десять лет. Большинство из них происходят с территории России. С 2016 года мы полностью включили в свои фонды несколько малых коллекций: гербарий лаборатории устойчивости лесных экосистем Костромского университета (около 1000 листов – Костромская область, 2016 г.); гербарий Бадхызского заповедника (около 1000 лис-тов – юго-восточная Туркмения, 2017 г.); гербарий Института проблем почвоведения РАН в г. Пущино (около 1000 листов – преимущественно Якутия, 2018 г.); гербарий Музея природы в г. Владимир (около 500 листов – Владимирская область, 2019 г.); гербарий Института лесоведения РАН (около 28 000 листов – бывший СССР, КНР, 2022 г.).

Постепенно эти образцы становятся доступными в Цифровом гербарии МГУ не только в виде отсканированных изображений, но и с метками на карте. Физическое объединение всех гербариев в один произошло в столь разных странах как Узбекистан, Нидерланды и Израиль. По-видимому, процесс вливания малых гербариев в состав крупных коллекций продолжится в ближайшем будущем и в России.

ОБСУЖДЕНИЕ

Считается, что геопривязка образцов завершает процесс их оцифровки и включения в научный оборот после этапов (1) подготовки, (2) сканирования, (3) обработки изображений и (4) ввода данных этикеток (Nelson et al., 2012). Однако наш опыт показывает, что предварительный ввод ключевых метаданных (пара “коллектор–дата”) и геопривязка образцов с использованием этого параметра заметно упрощает дальнейший ввод этикеточных данных и делает его эффективнее. Саму работу по геопривязке коллекций мы ведем с использованием современных информационных технологий и различных источников (текстовых, картографических, архивных), которые находятся как в открытом доступе, так и в доступных хранилищах. Еще несколько лет назад наши возможности в этом плане были гораздо скромнее.

Так, для геопривязки сборов европейской части России конца XIX – начала XX вв. используются карты Шуберта, Менде, а также военные трехверстовки отдельных губерний, доступные на сайтах “RetroMap: Старые карты России и зарубежья” (http://retromap.ru/) (RetroMap, 2023) и “ЭтоМесто” (http://www.etomesto.ru/) (EtoMesto, 2023). На этих ресурсах растровые отсканированные карты имеют привязку к современным картам и координатной сетке с возможностью наложения слоев или параллельной работы на двух картах. Также на сайте “ЭтоМесто” размещены карты РККА масштабом до 1 : 100 000, позволяющие установить места сбора образцов начала – середины 20 века. Крайне полезны также карты Генштаба СССР, где отмечено множество точечных объектов (мельницы, плотины, башни, броды и т.д.). В редких случаях используются также космоснимки и результаты аэрофотосъемки – как исторические, так и современные.

Определенную сложность представляет геопривязка образцов, место сбора которых указано с точностью до лесного квартала. Причины этого – регулярные изменения в лесоустройстве отдельных лесхозов, а также отсутствие поквартальных архивных схем лесничеств в открытом доступе. Иногда номера кварталов отмечены на картах ГГЦ масштаба 1 : 25 000 с сайта “Маршруты.Ру” (https://maps.marshruty.ru/) (Marshruty…, 2023). Геопривязка сборов с территории заказников, национальных парков и заповедников осуществляется с использованием карт данных ООПТ. При этом важно, чтобы схема кварталов была актуальна на дату сбора – в этом отношении ценен сайт “ООПТ России” (http://www.oopt.aari.ru/) (OOPT, 2023).

Информация о местоположении урочищ, не обозначенных на картах, зачастую кажется утраченной. Тем не менее, порой удается ее установить. Сведения о таких топонимах можно в наиболее затруднительных случаях получить, обратившись в библиотеку или краеведческий музей соответствующего района. Много ценной информации содержится также на краеведческих сайтах и форумах: например, на краеведческом портале “Родная Вятка” (http://rodnaya-vyatka.ru/) (Rodnaya…, 2023) и ряде других. На таких ресурсах оцифрованы списки населенных мест по уездам Российской Империи, с которыми необходимо сверяться при ручной геопривязке. Делается это из-за возможного наличия на искомой территории нескольких населенных пунктов с одинаковым названием. В процессе работы учитываются также изменения границ и названий административных единиц.

Кроме того, один и тот же географический объект в тексте этикетки и на картах разных лет может иметь разное название (которое менялось с течением времени, либо приводится на другом языке). Например, расположенное в Хибинских горах озеро Гольцовое также фигурирует под названиями оз. Пай-кун’явр или Пай-Кунявр. Так, работа по ручной геопривязке регулярно приобретает элементы исторического исследования.

В Центральной Сибири для первичной привязки использовались топографические карты масштаба 1 : 200 000 советского периода (состояние местности на 1960–1980-е гг.). Непосредственно поиск мест сбора осуществлялся в картографических веб-сервисах – в основном “Яндекс.Карты” (https://yandex.ru/maps/) (Yandex, 2023). Если же в тексте этикетки использовались устаревшие топонимы или названия ныне отсутствующих населенных пунктов и иных объектов, производился поиск в общих поисковых системах (Google, Яндекс). Почти во всех случаях удавалось найти хотя бы косвенное упоминание объекта, анализ которого позволял идентифицировать и сам объект (хотя и здесь не обходилось без казусов).

Для сборов XIX – начала XX века с этой территории использовались карты из “Атласа Азиатской России” (Glinka et al., 1914) хотя и имеющие довольно мелкий масштаб (например, 1 : 3 360 000, 80 верст в дюйме для Енисейской губернии), но содержащие для большей части края населенные пункты, ныне забытые даже старожилами районов. При необходимости изучались отчеты экспедиций, публикации коллекторов и даже биографические сведения о них. Возможность и качество привязки часто не зависит даже от времени сбора – так, сборы XVIII – начала XIX века из окрестностей Красноярска привязаны с довольно высокой точностью, т.к. выполнены на известных горных останцах в пригородах.

Очень важную помощь в работе с привязкой образцов по Центральной Сибири оказали также монография “История открытия и освоения Северного Морского пути”, в особенности тома 3 и 4 (Belov, 1959a, b), посвященные советскому периоду освоения Арктики, где описываются или как минимум упоминаются почти забытые в настоящий момент экспедиционные исследования севера России. Кроме того, недавно была издана монография Н.Н. Тупицыной и др. (Tupitsyna et al., 2016), содержащая почти полный обзор флористических исследований на территории Красноярского края.

Обширный объем привязанных к карте данных Гербария Московского университета был использован для создания предварительных сеточных карт “Атласа флоры России” по квадратам 100 × × 100 км. Для создания исходного массива данных использованы как предварительно очищенные данные из GBIF, так и из ряда других источников. Эти карты размещены в открытом доступе в Цифровом гербарии МГУ (https://plant.depo.msu.ru/) (Seregin, 2023b) и видны в карточке каждого образца, собранного в России. В общей сложности опубликованы карты для 9000 видов. Постепенно мы ведем проверку карт, устраняя ошибки и неточности.

Рост количества геоданных в открытом доступе имеет также важное репутационное значение. По показателю глубины и качества геопривязок мы заметно опережаем многие крупные гербарии мира, размещенные в GBIF. Несмотря на скромные по объему в мировом масштабе коллекции, по абсолютному числу геопривязок Гербарий Московского университета занимает 9-е место в мире (на 31.01.2023), уступая Миссури (MO) (Teisher, Stimmel, 2022), Лейдену (L) (Bijmoer et al., 2023), Нью-Йорку (NY) (Ramirez et al., 2022), Претории (PRE) (Ranwashe et al., 2022), Лунду (LD) (Wittzell, Shah, 2022) и трем австралийским гербариям (CANB, MEL, PERTH).

Создание и развитие Цифрового гербария МГУ со свободным доступом к данным фундаментально изменило доступность коллекций Гербария Московского университета и характер работы с ними – как справочной, так и научно-исследовательской. Так, за 2022 год на портал Цифрового гербария МГУ заходили пользователи с 33870 устройств (без учета роботов). В 2021 г. этот показатель был 23670 единиц, а в 2020 г. – 23180. Кроме того, ежедневно 88 выгрузок данных с портала GBIF включают сведения об образцах из Гербария Московского университета. Во многом, это стало результатом постоянной работы по увеличению объема геоданных, связанных с гербарными образцами.

Список литературы

  1. [Belov] Белов М.И. 1959а. История открытия и освоения Северного Морского пути. Т. 3. Советское арктическое мореплавание 1917–1932 гг. Л. 511 с.

  2. [Belov] Белов. М.И. 1959b. История открытия и освоения Северного Морского пути. Т. 4. Научное и хозяйственное освоение Советского Севера. 1933–1945 гг. Л. 616 с.

  3. Bijmoer R., Scherrenberg M., Creuwels J. 2023. Naturalis Biodiversity Center (NL) – Botany. Naturalis Biodiversity Center. Occurrence dataset https://doi.org/10.15468/ib5ypt accessed via GBIF.org on 2023-01-31.

  4. Catalogue of Life. 2023. https://www.catalogueoflife.org/

  5. Chapman A.D., Wieczorek J.R. 2020. Georeferencing best practices. Version 1.0. Copenhagen, Denmark, GBIF Secretariat. 112 p. https://doi.org/10.15468/doc-gg7h-s853

  6. Drinkwater R.E., Cubey R.W., Haston E.M. 2014. The use of Optical Character Recognition (OCR) in the digitisation of herbarium specimen labels. – PhytoKeys. 19(38): 15–30.

  7. EtoMesto.ru. 2023. http://www.etomesto.ru/

  8. [Glinka et al.] Глинка Г.В., Тхоржевский И.И., Цветков М.А. 1914. Атлас Азиатской России. Издание переселенческого управления главного управления землеустройства и земледелия. СПб. 71 с. http://kartolog.ru/2009/09/atlas-aziatskoj-rossii-1914-g/?ysclid=ld1jlbtnsj906089553

  9. Global Biodiversity Information Facility. 2023. https://www.gbif.org/

  10. Güntsch A., Groom Q., Ernst M., Holetschek J., Plank A., Röpert D., Fichtmüller D., Shorthouse D.P., Hyam R., Dillen M., Trekels M., Haston E., Rainer H. 2021. A botanical demonstration of the potential of linking data using unique identifiers for people. – PLoS ONE. 16(12): e0261130. https://doi.org/10.1371/journal.pone.0261130

  11. Le Bras G., Pignal M., Jeanson M.L., Muller S., Aupic C., Carré B., Flament G., Gaudeul M., Gonçalves C., Invernón V.R., Jabbour F., Lerat E., Lowry P.P., Offroy B., Pimparé E.P., Poncy O., Rouhan G., Haevermans T. 2017. The French Muséum national d’histoire naturelle vascular plant herbarium collection dataset. – Scientific Data. 4(1): 1–16.

  12. Marcer A., Groom Q., Haston E., Uribe F. 2021. Natural History collections: georeferencing survey report: current georeferencing practices across institutions worldwide. – Zenodo. https://doi.org/10.5281/zenodo.4644529

  13. Marshruty.ru 2023. https://maps.marshruty.ru/

  14. Nelson G., Paul D., Riccardi G., Mast A.R. 2012. Five task clusters that enable efficient and effective digitization of biological collections. – ZooKeys. 209: 19–45. https://doi.org/10.3897/zookeys.209.3135

  15. [OOPT] ООПТ России. 2023. http://www.oopt.aari.ru/

  16. [Pomogator…] Помогатор Цифрового гербария МГУ. 2023.

  17. https://plant.depo.msu.ru/pomogator

  18. Pospelov I.N. 2018. The experience of geographical fixing Central Siberia herbarium collections from the Moscow State University (MW) collection. – In: Abstracts of the conference “Information Technologies in the Research of Biodiversity” (BIT–2018). Irkutsk. P. 105–106.

  19. [Pospelov] Поспелов И.Н. 2020. Уровни географической локализации пространственных данных в информационных ресурсах о биологическом разнообразии. – В кн.: Информационные технологии в исследовании биоразнообразия: материалы III Национальной науч. конф. с междунар. участием, посвященной 100-летию со дня рождения академика РАН П.Л. Горчаковского. – Екатеринбург. С. 448–451.

  20. [Pospelov, Pospelova] Поспелов И.Н., Поспелова Е.Б. 2019. О возможностях исследования флористического разнообразия на основании анализа гербарных сборов (Цифровой гербарий MW). – В кн.: Ботанико-географические исследования. Камелинские чтения: сб. науч. тр. Пермь. С. 134–138.

  21. Ramirez J., Watson K., McMillin L., Gjieli E., Sessa E. 2022. The New York Botanical Garden Herbarium (NY). Version 1.56. The New York Botanical Garden. Occurrence dataset accessed via GBIF.org on 2023-01-31.https://doi.org/10.15468/6e8nje

  22. Ranwashe F. et al. 2022. Botanical Database of Southern Africa (BODATSA): Botanical Collections. Version 1.16. South African National Biodiversity Institute. Occurrence dataset accessed via GBIF.org on 2023-01-31.https://doi.org/10.15468/2aki0q

  23. RetroMap. 2023. RetroMap: Старые карты России и зарубежья. http://retromap.ru/

  24. [Rodnaya…] Родная Вятка. 2023. http://rodnaya-vyatka.ru/

  25. [Seregin] Серегин А.П. 2017. Гербарий Московского университета (MW) сегодня: фонды, онлайн доступ и научная работа. – Бот. журн. 102 (3): 281–308.

  26. Seregin A.P. 2018. The largest digital herbarium in Russia is now available online! – Taxon. 67 (2): 463–467. https://doi.org/10.12705/672.34

  27. Seregin A.P. 2020. Moscow Digital Herbarium: a consortium since 2019 – Taxon. 67 (2): 417–419. https://doi.org/10.1002/TAX.12228

  28. [Seregin] Серегин А.П. 2022. Инструкция по геопривязке образцов Гербария Московского университета (MW). Вариант “Монголия”. Версия 1.0. М. https://doi.org/10.13140/RG.2.2.14879.84645

  29. Seregin A. 2023a. Moscow University Herbarium (MW). Version 1.265. Lomonosov Moscow State University. Occurrence dataset accessed via GBIF.org on 2023-01-31.https://doi.org/10.15468/cpnhcc

  30. Seregin A.P. (Ed.). 2023b. Moscow Digital Herbarium: Electronic resource. Moscow State University, Moscow. https://plant.depo.msu.ru/

  31. Thiers B.M. 2023. Index Herbariorum. https://sweetgum.nybg.org/science/ih/

  32. [Tupitsyna et al.] Тупицына Н.Н., Шауло Д.Н., Гуреева И.И. 2016. Обзор флористических исследований Средней Сибири. Красноярск. 253 с. https://doi.org/10.17223/9785946216371/33 (https://vital.lib.tsu.ru/vital/access/services/Download/vtls:000617746/SOURCE1)

  33. Teisher J., Stimmel H. 2022. Tropicos Specimen Data. Missouri Botanical Garden. Occurrence dataset accessed via GBIF.org on 2023-01-31https://doi.org/10.15468/hja69f

  34. Wittzell H., Shah M. 2022. Lund Botanical Museum (LD). Lund Botanical Museum (LD). Occurrence dataset accessed via GBIF.org on 2023-01-31https://doi.org/10.15468/c4w4co

  35. [Yandex] Яндекс.Карты. 2023. https://yandex.ru/maps/

Дополнительные материалы отсутствуют.