Ботанический журнал, 2019, T. 104, № 4, стр. 644-652

СПОСОБ УСКОРЕННОГО ВВЕДЕНИЯ МЕТАДАННЫХ ГЕРБАРНЫХ ОБРАЗЦОВ В ЭЛЕКТРОННУЮ БАЗУ ДАННЫХ

И. А. Артемов *

Центральный сибирский ботанический сад СО РАН
630090 Новосибирск, ул. Золотодолинская, 101, Россия

* E-mail: artemov_1@mail.ru

Поступила в редакцию 25.05.2018
После доработки 25.02.2019
Принята к публикации 12.03.2019

Полный текст (PDF)

Аннотация

Описывается ускоренный ввод метаданных гербарных образцов в настольную электронную базу данных (БД), созданную в MS Access. Для внесения в БД основной части текстовых данных гербарных этикеток используются поля с раскрывающимися списками. С целью ускорения ввода предложен и реализован метод, когда списки коллекторов, местонахождений и местообитаний обновляются каждый раз при вводе новой записи и пополняются параллельно с заполнением БД. Скорость ввода метаданных в настоящий момент составляет около 30 гербарных образцов в час. К настоящему времени с помощью интерфейса на базе описанного метода в БД введены метаданые более 12000 образцов сосудистых растений Гербария им. И.М. Красноборова Центрального сибирского ботанического сада СО РАН (NS), собранных в горах Южной Тувы.

Ключевые слова: база данных, ввод метаданных, гербарий

DOI: 10.1134/S0006813619040033

Электронные базы данных (БД), содержащие метаданные коллекционных образцов и данные об отдельных находках видов, представляют собой ценный информационный ресурс по биоразнообразию и биогеографии. Это могут быть как сравнительно небольшие настольные БД отдельных исследователей (Pospelov, 2009; Sagalayev, 2015; Zolotov, 2009), так и доступные в сети Интернет виртуальные БД крупнейших гербариев, например, Французского Музея естественной истории (Le Bras et al., 2017); Нью-Йоркского ботанического сада (C.V. Starr Virtual Herbarium, 2018), Миссурийского ботанического сада (Tropicos, 2018), Московского университета (Seregin, 2017). В первом случае БД существенно облегчают работу систематиков и биогеографов с собственным, нередко очень объемным материалом, во втором случае они представляют собой основу для характеристики и моделирования пространственного распределения видов в мировом масштабе. Эта информация, в частности, необходима для оценки состояния и рациональной эксплуатации ресурсных видов, охраны и мониторинга исчезающих видов, предотвращения распространения инвазионных видов.

Однако решение перечисленных, как и многих других задач, с помощью БД зависит непосредственно от их наполненности. Причем если проектирование и создание демоверсии БД укладывается в 2 года стандартного проекта, то наполнение БД крупных коллекций при отсутствии достаточного финансирования и персонала может затянуться на неопределенный срок. Наиболее затратным по времени при формировании БД является ввод с клавиатуры текстов этикеток. В связи с этим представляется актуальным ускорение ввода метаданных образцов в БД, для чего может быть предложено несколько решений.

Один из вариантов, использованный на начальном этапе формирования БД гербария Нью-Йоркского ботанического сада – предварительный отбор образцов, собранных одним коллектором (Tulig et al., 2012). Однако в данном случае требуется время и технический персонал для сортировки образцов. Для ускорения ввода можно использовать заранее подготовленные списки топонимов и имен коллекторов (Krasnoborov et al., 1996; Ketova, 1997; Poluektov, 2015) либо коллекционных событий (Tulig et al., 2012). Однако предварительное составление, а также пополнение и редактирование подобных списков представляет собой довольно масштабную задачу. Кроме того, если эталонные таксономические списки существуют в виде монографических сводок или электронных баз данных (Cherepanov, 1995; Conspectus.., 2012; IPNI.., 2012), то для создания списков топонимов, местообитаний или коллекторов требуется кропотливая работа с полевыми дневниками, которые могут отсутствовать, или гербарием, к которому и так надо будет возвращаться при вводе метаданных образцов. Для интенсификации ввода в БД информации из гербарных этикеток возможно использование компьютерных технологий и программ по распознаванию голоса и текста (Nelson, Paul et al., 2012). Однако текст, представляющий собой распознанную речь, в любом случае требует редактирования, например, расстановку знаков препинания, заглавных букв в топонимах, дефисов в составных словах. Распознанный текст отсканированных этикеток также нередко нуждается в редактировании. При этом следует иметь в виду, что этикетки старых образцов зачастую написаны от руки, вследствие чего они не распознаются и их приходится вводить в БД рутинным способом.

Скорость ввода в БД текстов этикеток с клавиатуры составляет от 10 (Tulig et al., 2012) до 25 образцов в час (Harris, Marsico, 2017). Использование в гербарии Нью-Йоркского ботанического сада дневников коллекторов для предварительной подготовки списков коллекционных событий позволило увеличить скорость ввода метаданных до 30 образцов в час (Tulig et al., 2012). Ввод в БД текста напечатанной этикетки с отсканированного образца с использованием программы по распознаванию текста занимает 2–3 минуты (Е.А. Гатилова, биоресурсная научная коллекции ЦСБС СО РАН, личное сообщение), что также соответствует скорости ввода до 30 образцов в час.

В качестве альтернативы перечисленным способам ввода метаданных гербарных образцов можно использовать настольные БД со специализированным графическим пользовательским интерфейсом, в котором для ускорения ввода данных применяются опции, более или менее успешно реализуемые в различных системах управления базами данных: автоматическое и заданное в определенной последовательности перемещение курсора по элементам управления, выбор нужных записей из раскрывающихся списков, автоматическое обновление списков по мере пополнения БД, экспорт таблиц. Интерфейс может быть полезен как при создании самоценных небольших настольных БД, так и для подготовки данных с целью их последующего экспорта в большие многопользовательские онлайновые БД.

Цель настоящей работы заключалась в создании пользовательского графического интерфейса для ускоренного ввода информации в настольную БД метаданных гербарных образцов, собранных в горах Южной Тувы (БДЮТ) и хранящихся в Тувинском отделе гербария Центрального сибирского ботанического сада СО РАН (NS). В дальнейшем предполагается использование БДЮТ для составления конспектов сосудистых растений и сравнения флор хребтов Южной Тувы, а также для уточнения распространения отдельных видов.

МАТЕРИАЛ И МЕТОДИКА

БДЮТ создана в среде MS Access. Основная информация содержится в таблице метаданных гербарных образцов, которая включает поля, соответствующие содержанию и структуре гербарной этикетки и прилагающимися к образцу тесточкам (табл. 1). Для ускоренного ввода метаданных гербарных образцов в БДЮТ используются форма (рис. 1), запросы и справочные таблицы (таблица приоритетных названий таксонов (табл. 2) и таблица горных хребтов Южной Тувы).

Рис. 1.

Форма для ввода метаданных гербарных образцов

Fig. 1. The form for entering of herbarium specimen metadata into the database

Новая запись – New record

Таблица 1.

Поля таблицы метаданных гербарных образцов.
Table 1
. Fields of the table of herbarium specimen metadata

Номер
Number
Название
Name
Описание
Description
1 N Уникальный номер, присваивается автоматически при добавлении записи в таблицу
Unique number, assigned automatically when a record is added to the table
2 Fam Семейство приоритетного названия
Family of a valid name
3 Gen Род приоритетного названия
Genus of a valid name
4 Spe Видовой эпитет и автор(ы) приоритетного названия
Specific epithet and author(s) of a valid name
5 Mt Горный массив / хребет (Монгун-Тайга, Зап. Танну-Ола и др.)
Mountain massif / ridge (Mongun-Taiga, W. Tannu-Ola, etc.)
6 Lab_1 Род, видовой эпитет и автор(ы) (как на этикетке)
Genera, specific epithet and author(s) (as in the label)
7 Lab_n Номер гербарного образца / полевой номер коллектора (как на этикетке)
Herbarium specimen number / field number of a collector (as in the label)
8 Lab_2 Описание местонахождения (как на этикетке)
Locality (as in the label)
9 Lat_g Широта, градусы (как на этикетке)
Latitude, degrees (as in the label)
10 Lat_m Широта, минуты (как на этикетке)
Latitude, minutes (as in the label)
11 Lon_g Долгота, градусы (как на этикетке)
Longitude, degrees (as in the label)
12 Lon_m Долгота, минуты (как на этикетке)
Longitude, minutes (as in the label)
13 Alt Высота над уровнем моря, метры (как на этикетке)
Altitude, meters (as in the label)
14 Lab_3 Описание местообитания (как на этикетке)
Habitat (as in the label)
15 Day День сбора (как на этикетке)
Day of collection (as in the label)
16 Mon Месяц сбора (как на этикетке)
Month of collection (as in the label)
17 Year Год сбора образца (как на этикетке)
Year of collection (as in the label)
18 Col Коллектор(ы) (как на этикетке)
Collector(s) (as in the label)
19 Test Переопределение (содержание прилагающихся к гербарному образцу тесточек с переопределением, указанием даты, автора и авторскими пояснениями)
Reidentification (contents of addidional labels: new name of the reidentified species, date, name and comments of a researcher)
Таблица 2.

Поля таблицы приоритетных названий таксонов.
Table 2
. Fields of the table of valid taxa names

Номер
Number
Название
Name
Описание
Description
1 Код Уникальный номер, присваивается автоматически при добавлении записи в таблицу
Unique number, assigned automatically when a record is added to the table
2 Сем Семейство
Family
3 Род Род
Genus
4 Вид Видовой эпитет и фамилия автора
Specific epithet and name of author(s)

В форме БДЮТ реализованы следующие опции, позволяющие ускорить ввод данных:

1. для ввода основной части текстовых данных гербарных этикеток используются поля с раскрывающимися списками, списки трех полей автоматически обновляются;

2. некоторые поля заполняются автоматически;

3. перемещение курсора от одного поля к другому происходит автоматически после ввода данных (обновления очередного поля) и в заданной последовательности;

4. для полей, предназначенных для ввода латинского или русского текста, задано свойство, предполагающее автоматическую установку нужного языка клавиатуры.

Внесение метаданных гербарного образца в БДЮТ начинается с ввода приоритетного родового названия в поле со списком “gen”. В качестве источника строк для списка используется запрос к справочной таблице приоритетных названий таксонов. Нужное родовое название можно выбрать непосредственно в раскрывающемся списке либо ввести в поле начальные буквы рода и нужный элемент списка будет выбран автоматически.

После ввода родового названия оно используется в качестве условия отбора при создании запроса к таблице приоритетных названий таксонов. В результирующем наборе записей значение поля “сем” для всех записей одинаково – это семейство, к которому относится введенный род, тогда как значение поля “вид” для каждой записи уникально и представляет собой видовой эпитет и фамилию автора вида. Название семейства автоматически вводится в поле “fam” формы. Поле видовых эпитетов запроса используется в качестве источника строк для поля со списком “spe” формы. Перемещение курсора на поле “spe” и раскрывание списка происходит автоматически.

Ввод видового эпитета в поле “spe” осуществляется, как и ввод родового названия, путем введения первых букв с последующей автоподстановкой и/или выбором нужного названия из списка.

После того, как введен видовой эпитет, происходят два события. Во-первых, в поле “lab_1” автоматически вводятся название рода, видовой эпитет и автор из полей “gen” и “spe”. Данное поле предназначено для таксономической части этикетки. Если в этикетке написано название, в настоящее время являющееся валидным, оно оставляется без изменений. Если на этикетке неверное или неприоритетное название, содержимое поля исправляется вручную с клавиатуры в соответствии с написанием вида в этикетке. Если в этикетке приводится определение до подвидового ранга, то это также отражается в данном поле. Во-вторых, происходит перемещение курсора на поле со списком “mt” и раскрывание списка. В качестве источника данных для поля используется таблица горных хребтов Южной Тувы.

После ввода названия горного хребта в поле “mt” происходит перемещение курсора на поле “№”, куда вводится коллекторский номер гербарного образца. Ввод номера образца, как и других числовых данных, осуществляется с клавиатуры.

Далее происходит последовательное перемещение курсора на поля “day”, “mon”, “year” и ввод дня, месяца и года сбора образца соответственно. После ввода эти данные используются в качестве условия отбора для обновления запросов к таблице метаданных, которые используются в качестве источников строк для полей со списком “col”, “lab_2” и “lab_3”. В результате в строках списка для поля “col” будут расположены по алфавиту неповторяющиеся имена коллекторов, встречающиеся на этикетках образцов, собранных в данный день и уже введенных в БДЮТ. Если при вводе этикетки гербарного образца окажется, что в таблице метаданных уже есть данные образцов, собранных в этот же день этим же коллектором, то будет достаточно выбрать нужную запись из списка (часто запись представляет собой перечень нескольких коллекторов, приведенных в этикетке). Если таких данных еще нет, имя коллектора вводится в поле с клавиатуры. Так как запросы и, соответственно, раскрывающиеся списки полей, обновляются каждый раз при вводе даты, имя этого коллектора окажется в списке при введении метаданных очередного образца, собранного в этот же день.

После ввода имени коллектора (имен коллекторов) курсор переходит на поле “lab_2” и раскрывается список местонахождений (рис. 1). Как и в случае со списком коллекторов, это местонахождения, отмеченные на этикетках образцов, собранных в этот же день и уже введенных в БДТ. Ввод данных в поле и обновление списка происходит по тому же принципу.

После ввода местонахождения, происходит последовательное перемещение курсора на поля “lat_g”, “lat_m”, “lon_g”, “lon_m”, “alt” и с клавиатуры вводятся числовые параметры точки сбора образца: градусы и минуты северной широты, градусы и минуты восточной долготы, высота над уровнем моря.

После ввода высоты курсор переходит на поле “lab_3” и раскрывается список местообитаний. Формирование и обновление списка и ввод данных в поле происходит аналогично полям и спискам коллекторов и местонахождений.

После ввода местообитания курсор переходит на кнопку “Новая запись”, по которой происходит обновление формы для ввода метаданных очередного образца. Если к образцу прилагаются тесточки, информация с них вводится с клавиатуры в поле “test”.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

К настоящему времени в БДЮТ с помощью описанного интерфейса введены метаданные более 12 тыс. гербарных образцов из Тувинского отдела гербария ЦСБС СО РАН (NS), собранных в горах Южной Тувы: на горном массиве Монгун-Тайга, хребтах Цаган-Шибету, Западный и Восточный Танну-Ола, Хорумнуг-Тайга и Сенгилен. Это составляет более половины фондов NS из Южной Тувы.

На начальном этапе заполнения БДЮТ информацию о коллекторах, местонахождениях и местообитаниях для большинства образцов приходилось вводить с клавиатуры, либо обращаться к ранее введенным данным, копировать б.м. похожее значение поля в буфер, возвращаться на последнюю запись, вставлять в поле значение из буфера и редактировать его в соответствии с содержанием вводимой этикетки. По мере пополнения БДЮТ, благодаря автоматически дополняемым и обновляемым спискам полей текстовых метаданных, описанные выше процедуры все чаще заменялись выбором значений из раскрывающихся списков, что существенно экономило время и уменьшало вероятность ошибок ввода. На настоящем этапе заполнения БДЮТ текстовая часть этикеток, как правило, вводится путем выбора записей из раскрывающихся списков и крайне редко набирается с клавиатуры. Скорость ввода при этом составляет около 30 образцов в час, что превышает скорость ввода в случае простого перепечатывания этикетки (Tulig et al., 2012; Harris, Marsico, 2017) и сравнимо со скоростью ввода при использовании списков коллекционных событий, составленных с использованием полевых дневников (Tulig et al., 2012). Это объясняется тем, что для ввода данных в БДЮТ также используется принцип коллекционных событий, с той разницей, что списки составляются не вручную заранее на основании полевых дневников коллекторов, а автоматически по мере пополнения БДЮТ на основании уже введенных данных. Вследствие этого списки представляют собой не соответствующие разным коллекторам хронологически ранжированные записи местонахождений и местообитаний, а перечни коллекторов, местообитаний и местонахождений, составленные по данным массива обработанных образцов, собранных в один день. Списки включают в себя неповторяющиеся значения. За счет этого, а также за счет того, что списки представляют собой коллекционные события за один день, они получаются довольно компактными, обозримыми и удобными в работе.

Корректное сравнение описанного ввода данных с процессом цифровой обработки образцов, основанном на сканировании и распознавании текста, не представляется возможным, поскольку скорость последнего зависит от качества текста. Отчетливо пропечатанные и хорошо распознаваемые этикетки вводятся в БД за 2–3 минуты, тогда как рукописные, нерезко или бледно напечатанные этикетки не распознаются и вводятся в БД вручную со скоростью, соответствующей простому вводу данных с клавиатуры. Следует отметить, что описываемый метод ввода метаданных гербарных образцов, как и другие, менее автоматизированные, практически не зависит от качества оформления этикеток, в частности, рукописные они или напечатанные.

Описанный способ ввода в БД метаданных гербарных образцов сосудистых растений из Южной Тувы применим для обработки коллекций других таксономических групп с иных территорий. Так, модифицированный вариант интерфейса используется для формирования электронных таблиц данных по материалам старых бриологических коллекций с юга Красноярского края с целью их последующего импорта в базу данных “Флора мхов России” (Ivanov et al., 2017; Pisarenko et al., 2018).

ЗАКЛЮЧЕНИЕ

Создан интерфейс для ввода метаданных гербарных образцов в настольную БД, в котором для ввода текстовой информации используются обновляющиеся списки коллекторов, местонахождений и местообитаний, что ускоряет и облегчает представление данных в электронном виде. Предложенный метод может быть использован для сравнительно быстрого создания и наполнения настольных БД, крайне полезных как для частных флористических исследований, так и в качестве инструмента подготовки массивов метаданных для их экспорта в крупные онлайновые гербарные БД.

Список литературы

  1. C. V. Starr Virtual Herbarium. http://sweetgum.nybg.org/science/vh/ (accessed: November 07, 2018).

  2. [Cherepanov] Черепанов С.К. 1995. Сосудистые растения России и сопредельных государств (в пределах бывшего СССР). СПб. 992 с.

  3. [Conspectus…] Конспект флоры Азиатской России: Сосудистые растения. 2012. Новосибирск. 640 с.

  4. Harris K.M., Marsico T.D. 2017. Digitizing specimens in a small herbarium: A viable workflow for collections working with limited resources. – Applications in Plant Sciences. 5 (4): 1600125. https://doi.org/10.3732/apps.1600125

  5. IPNI: The International Plant Names Index. 2012. http://www.ipni.org (accessed: May 04, 2018).

  6. Ivanov O.V., Kolesnikova M.A., Afonina O.M., Akatova T.V., Baisheva E.Z., Belkina O.A., Bezgodov A.G., Czernyadjeva I.V., Dudov S.V., Fedosov V.E., Ignatova E.A., Ivanova E.I., Kozhin M.N., Lapshina E.D., Notov A.A., Pisarenko O.Yu., Popova N.N., Savchenko A.N., Teleganova V.V., Ukrainskaya G.Yu., Ignatov M.S. 2017. The database of the moss flora of Russia. – Arctoa. 26: 1–10. https://doi.org/10.15298/arctoa.26.01

  7. [Ketova] Кетова Т.С. 1997. Банк данных по Гербарию им. П.Н. Крылова. – В сб.: Тезисы докл. конф. “Состояние и перспективы развития Гербариев Сибири”. Томск. С. 25–27.

  8. [Krasnoborov et al.] Красноборов И.М., Красинский В.И., Артемов И.А. 1996. Ботанические компьютерные базы данных и анализ флористической информации. – В сб.: Труды международного симпозиума “Глобальный мониторинг и Убсунурская котловина”. Москва. С. 81–86.

  9. Le Bras G., Pignal M., Jeanson M.L., Muller S., Aupic S., Carré B., Flament G., Gaudeul M., Gonçalves C., Invernón V.R., Jabbour F., Lerat E., Lowry P.P., Offroy B., Pérez Pimparé E., Poncy O., Rouhan G., Haevermans T. 2017. The French Muséum national d’histoire naturelle vascular plant herbarium collection dataset. – Sci. Data. 4:170016. https://doi.org/10.1038/sdata.2017.16

  10. Nelson G., Paul D., Riccardi G., Mast A.R. 2012. Five task clusters that enable efficient and effective digitization of biological collections. – Zookeys. 209: 19–45. https://doi.org/10.3897/zookeys.209.3135

  11. Pisarenko O., Artemov I., Kazanovsky S., Prelovskaya E. 2018. Actualization of herbarium labels information. In: Abstracts of the conference “Information Technologies in the Research of Biodiversity” (BIT – 2018). Irkutsk: ISDCT SB RAS. P. 22–23.

  12. [Poluektov] Полуэктов С.А. 2015. База данных типового гербария Главного ботанического сада им. Н.В. Цицина РАН. – В сб.: Науч. ст. Всерос. конф. “Ботанические коллекции – национальное достояние России”. Пенза. С. 164–166.

  13. [Pospelov] Поспелов И.Н. 2009. База данных “Флора Таймыра” – опыт создания региональных баз данных по биоразнообразию. – В сб.: Материалы Международной конф. “Формирование баз данных по биоразнообразию – опыт, проблемы, решения”. Барнаул. С. 198–204.

  14. [Sagalayev] Сагалаев В.А. 2015. Электронная база данных инвазионных видов флоры Волгоградской области: современное состояние и перспективы развития. – В сб.: Науч. ст. Всерос. конф. “Ботанические коллекции – национальное достояние России”. Пенза. С. 168–169.

  15. [Seregin] Серегин А.П. 2017. Гербарий Московского университета (MW) сегодня: фонды, онлайн доступ и научная работа. – Бот. журн. 102(3): 281–308.

  16. Tropicos.org. Missouri Botanical Garden. 2018. http://www.tropicos.org/ (accessed: November 08, 2018)

  17. Tulig M., Tarnowsky N., Bevans M., Kirchgessner A., Thiers B.M. 2012. Increasing the efficiency of digitization workflows for herbarium specimens. In: Blagoderov V., Smith V.S. (Ed.). No specimen left behind: mass digitization of natural history collections. – ZooKeys. 209: 103–113. https://doi.org/10.3897/zookeys.209.3125

  18. [Zolotov] Золотов Д.В. 2009. Опыт создания и использования флористических электронных баз данных в Microsoft Access 2002. – В сб.: Материалы Международной конф. “Формирование баз данных по биоразнообразию – опыт, проблемы, решения”. Барнаул. С. 91–95.

Дополнительные материалы отсутствуют.