Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, T. 507, № 1, стр. 29-35

ОНТОЛОГИЯ МАТЕМАТИЧЕСКОГО ЗНАНИЯ OntoMathPRO

А. М. Елизаров 1*, А. В. Кириллович 1**, Е. К. Липачёв 1***, О. А. Невзорова 1****

1 Казанский (Приволжский) федеральный университет
Казань, Россия

* E-mail: amelizarov@gmail.com
** E-mail: alik.kirillovich@gmail.com
*** E-mail: elipachev@gmail.com
**** E-mail: onevzoro@gmail.com

Поступила в редакцию 03.06.2022
После доработки 24.07.2022
Принята к публикации 06.09.2022

Полный текст (PDF)

Аннотация

Представлена онтология OntoMathPRO – первая семантическая веб-онтология профессионального математического знания, предназначенная для классификации и систематизации математических понятий. Концепты онтологии организованы в две иерархии: математических объектов и материализованных отношений. Учтены мета-онтологические различия, определенные в онтологии верхнего уровня, проведено разделение концептов на типы и роли. Отношения между понятиями заданы в материализованном виде. Аргументами материализованных отношений являются концепты-роли. В онтологии определены также многоязычные лексиконы для выражения математических концептов в текстах на естественном языке. Эти лексиконы представлены в виде наборов лингвистических открытых связанных данных. Проект построения OntoMathPRO находится в развитии и предусматривает пополнение онтологии новыми разделами математики и расширение сферы ее практического применения.

Ключевые слова: онтологии, онтологическое проектирование, извлечение математических фактов, материализованные отношения, управление математическим знанием

1. ВВЕДЕНИЕ

Проведение современных научных исследований предполагает использование технологий управления знаниями, в том числе, расширенный поиск близких научных результатов, что может быть обеспечено, в частности, путем использования технологий семантического поиска в имеющихся цифровых коллекциях научных документов. Важную роль при этом играют онтологии. Как известно (см., например, [1]), онтология – это концептуальная модель предметной области, представленная на формальном языке, который обеспечивает применение машинных средств обработки информации. Отметим, что понятие “онтология” используется в разных сообществах в разных смыслах (исторически первом – в философским смысле), а приведенное определение, отражающее вычислительный смысл, характерно прежде всего для инженерии знаний и появилось сравнительно недавно.

С появлением Семантического веба онтологии стали играть ключевую роль в моделировании систем управления интеллектуальными данными и заняли центральное место в известном “слоеном пироге” Тима Бёрнерса-Ли (https://www.w3.org/ 2000/Talks/1206-xml2k-tbl/slide10-0.html). Наблюдаемая тенденция настоящего времени – расширение применения онтологий за счет создания онтологий отдельных предметных областей (в частности, математики), импортирования и логического объединения концептов онтологий смежных областей, а также использования различных баз данных и других информационных ресурсов. Вместе с тем однозначных описаний предметных областей с помощью онтологий не существует, потому что любая онтология предполагает развитие и зависит от целей ее создания и применения. Поэтому построение концептуальных моделей разделов предметных областей и формирование на этой базе соответствующих тезаурусов и онтологий составляют актуальное направление научных исследований. Существенные результаты в этом направлении применительно к математике получены в целом ряде работ.

Вопросам формирования онтологий научного информационного пространства посвящена работа [2]. Тезаурус предметной области “Смешанные уравнения математической физики” представлен в [3]. В исследовании [4] предложен способ описания термина, а также связанных с ним уравнений и формул в тезаурусе предметной области “Уравнения математической физики”. В [5] представлены подходы и методы создания семантической библиотеки в предметной области “Математика”; описаны информационная система LibMeta и онтология LibMeta Ontology, предназначенные для генерации семантических библиотек. Важность проектов по применению семантических технологий в математике в соответствии с принципами Открытых связанных данных (Linked Open Data, LOD, https://lod-cloud.net/), в том числе, проекта создания онтологии OntoMathPRO, отмечена в исследованиях по формированию машиночитаемой LOD-коллекции Mathematics Subject Classification [6].

Исследование структуры математического знания и возможности его представления в Вебе с помощью онтологий исследованы в [7], а обзор семантических методов решения фундаментальных задач управления математическими знаниями содержится в [8] (здесь онтологии описаны как формализмы для представления математических знаний). Более широкий класс языков формализации в математике приведен в [9].

С разработкой математических онтологий связано решение целого ряда актуальных задач. Фундаментальными являются задачи классификации и систематизации понятий математического знания, семантического поиска, извлечения математических утверждений из текста и их представления в облаке LOD. Другая важная задача – построение рекомендательных систем как элементов систем поддержки и принятия решений, в том числе в математике. Применение онтологий в обучающих системах, в частности, для контроля математических знаний, – еще одна важная цель разработки соответствующих онтологий.

2. ОНТОЛОГИЯ OntoMathPRO: БАЗОВЫЕ ПОДХОДЫ

OntoMathPRO относится к классу предметных онтологий, она предназначена для классификации и систематизации понятий профессионального математического знания и включает несколько важнейших областей (доменов) математики. Существенной особенностью OntoMathPRO является широкий охват понятий из различных областей математики, что дает возможность их повторного использования. Такая возможность – фундаментальное свойство всех предметных онтологий, оно в полной мере проявилось при проектировании OntoMathPRO.

Одной из главных целей разработки математической онтологии OntoMathPRO было ее использование в научных исследованиях, включая глобальные цели, определенные во всемирных проектах “Global Digital Mathematical Library” (GDML), “World Digital Mathematical Library” (WDML) [10, 11].

В направлении классификации понятий математического знания онтология OntoMathPRO обеспечивает построение современных классификаторов в различных областях математики, а также создание специализированных математических баз знаний. Встраивание онтологии в системы текстовой обработки математических документов позволяет не только извлекать из них новые математические понятия для обогащения самой онтологии, но и формировать и сохранять в базах знаний конкретные математические утверждения. Базы данных и базы знаний, сформированные методами извлечения информации из математических текстов, могут быть размещены в облаке LOD.

При проектировании онтологии OntoMathPRO были использованы результаты по управлению математическими знаниями, полученные нами ранее, а также разработанные методы структурного и семантического анализа математических документов [12].

Первая версия онтологии, представленная в [13], предназначена для моделирования математических сущностей и организована в виде иерархии математических объектов и разделов математики. В следующей версии онтологии средства моделирования математических сущностей были дополнены средствами моделирования математических утверждений. Для этого онтология была пополнена иерархией материализованных отношений, мета-онтологическим и лингвистическим уровнями (см. раздел 2). Кроме того, OntoMathPRO была использована для построения ряда приложений по управлению математическим знанием (см. раздел 3).

3. АРХИТЕКТУРА ОНТОЛОГИИ OntoMathPRO

В структуре онтологии выделены три уровня (рис. 1), которые организованы в соответствии с различными моделями представления ее концептов:

Рис. 1.

Общая архитектура онтологии OntoMathPRO.

• уровень предметной онтологии содержит концепты профессионального математического знания;

мета-онтологический уровень представлен разметкой математических концептов мета-онтологическими аннотациями;

лингвистический уровень обеспечивает распознавание математических концептов в научных математических текстах на русском и английском языках.

На уровне предметной онтологии определены иерархия объектов и представление материализованных отношений.

Иерархия объектов содержит концепты, относящиеся к широкому набору областей математики (математическая логика, теория множеств, математический анализ, алгебра, геометрия, дифференциальные уравнения и другие). Концепты первого уровня иерархии относятся к трем типам: базовые математические объекты (такие как Множество, Оператор, Отображение), корневые элементы соответствующей области математики (например, Элемент теории вероятностей) и общие математические концепты (такие как Проблема, Метод, Утверждение, Формула).

Описание концепта онтологии содержит его название и определение на русском и английском языках, мета-онтологические аннотации, связи с другими концептами, а также ссылки на внешние ресурсы. На рис. 2 приведен пример концепта Степень многочлена в редакторе WebProtégé. Описание этого концепта содержит два варианта названия концепта на русском языке (свойство rdfs:label): “Степень многочлена” и “Степень полинома”, название концепта на английском языке (свойство rdfs:label), определение (свойство rdfs:comment), указание мета-онтологического класса SubKind (свойство gufo:SubKind) и вышестоящий концепт Число.

Рис. 2.

Пример концепта Степень многочлена в редакторе WebProtégé.

OntoMathPRO определяет объектные свойства, связывающие все концепты из иерархии объектов. Введенные свойства выражают следующие отношения: (1) отношение между объектом математического знания и разделом математики; (2) отношение “определяется через”; (3) ассоциативное отношение и (4) отношение между задачей и методом ее решения.

Представление материализованных отношений нацелено на моделирование n-местных отношений между математическими объектами, выражаемых с помощью n-местных предикатов. Средствами языка OWL такие отношения представлены в материализованном виде, т.е. в виде классов. Аргументы n-местных отношений описаны с помощью классов-ролей, экземпляры которых связаны с экземплярами материализованных отношений с помощью объектных свойств.

На лингвистическом уровне материализованное отношение чаще всего задается формой глагола, например, “делить”, “принадлежать”. На рис. 3 представлен пример отношения делимости. Аргументы этого отношения – два концепта-роли Делимое и Делитель, которые являются подклассами концепта-типа Число. Экземплярами материализованного отношения служат отношения между конкретными числами, как указано на рисунке. Экземпляры аргументов отношения связаны с экземпляром отношения с помощью объектного свойства omp:hasArgument.

Рис. 3.

Представление материализованных отношений.

Мета-онтологический уровень. При проектировании онтологии OntoMathPRO учтены онтологические различия концептов-типов и концептов-ролей.

Тип – это концепт, который является семантически жестким и онтологически независимым [14, 15]. Например, концепт Натуральное число является типом, так как его существование не зависит от отношений с другими числами.

Роль – это концепт, который является семантически нежестким и онтологически зависимым. Концепт-роль возникает только в силу каких-либо отношений с другим объектом [14, 15]. Например, концепт Делитель является ролью, которая возникает у числа (концепт Число) только в контексте операции деления. Концепты-роли привязаны к соответствующим концептам-типам с помощью отношения онтологической зависимости.

На мета-онтологическом уровне концепты из иерархии объектов аннотируются мета-онтологическими классами (такими как Тип, Роль, Релятор), которые определены в онтологии верхнего уровня UFO (Unified Foundation Ontology) [14].

Для аннотирования концептов онтологии OntoMathPRO мета-онтологическими аннотациями использованы два подхода. В соответствии с первым из них аннотирование осуществляется с помощью предиката rdf:type. Такой подход требует поддержки механизма OWL Puning (https://www.w3.org/2007/OWL/wiki/Punning), но позволяет задействовать принципы многоуровневого моделирования, в том числе онтологию MLT Ontology (https://nemo.inf.ufes.br /projects/mlt/). В соответствии со вторым подходом для аннотирования используется свойство omp2:hasMetaclass.

Лингвистический уровень онтологии OntoMathPRO состоит из многоязычных лексиконов, определяющих способы выражения концептов из предметной онтологии в русском (английском) языке. Каждый лексикон содержит:

• лексические единицы (однословные и многословные), обозначающие математические концепты (например, лексическая единица “матрица” используется для обозначения одноименного концепта Матрица из уровня предметной онтологии);

• формы лексических единиц (в разных падежах, числах);

• синтаксические деревья для многословных лексических единиц;

• синтаксические фреймы для лексических единиц-предикатов, которые описывают синтаксические аргументы заданного предиката, грамматические показатели аргументов и их связь с концептами онтологии.

Многоязычные лексиконы представлены в виде наборов Лингвистических открытых связанных данных (Linguistic Linked Open Data, LLOD, http://linguistic-lod.org/) с помощью онтологий OntoLex/Lemon (https://www.w3.org/community/ontolex/; https://www.w3.org/2016/05/ontolex/), LexInfo (https://lexinfo.net/) и PreMOn (Predicate Model for Ontologies, https://premon.fbk.eu/).

Онтология OntoMathPRO продолжает активно развиваться, ее текущая версия содержит более 4 тыс. концептов в иерархии объектов, отношения верхнего уровня в иерархии материализованных отношений, а также мета-онтологические описания для 600 концептов и лингвистические описания базовых концептов на русском и английском языках. В дальнейшем планируются разработка новых разделов онтологии и пополнение существующих разделов новыми концептами, разработка новых материализованных отношений между концептами и снабжение концептов новыми лингвистическими аннотациями.

4. ПРИЛОЖЕНИЯ ОНТОЛОГИИ OntoMathPRO

Одни из таких приложений связаны с разработанной нами экосистемой OntoMath.

OntoMath – это система онтологий, инструментов текстовой аналитики и приложений для управления математическим знанием [16]. Центральным ее компонентом является платформа семантической публикации. Она принимает на вход коллекцию математических документов в формате LaTEX и автоматически строит семантическое представление документов в виде rdf-набора, интегрированного в облако LOD. Этот набор включает метаданные, компоненты логической структуры математических публикаций, математическую терминологию, математические формулы и представления, задающие связи терминов (концептов) с их символьными обозначениями в формулах. На базе сгенерированного rdf-набора функционируют сервисы управления математическим знанием, в частности, сервис семантического поиска по математическим формулам ([17], https://lobachevskii-dml.ru/mathsearch), рекомендательная система для поиска и анализа математических статей [18] и система формирования рекомендаций по назначению математическим статьям индексов Универсальной десятичной классификации (УДК) [19].

Принципы    моделирования    онтологии OntoMathPRO были применены при проектировании образовательной математической онтологии OntoMathEdu (https://github.com/CLLKazan/OntoMathEdu), которая представляет знания из элементарной математики и используется для формирования образовательных курсов на основе современных цифровых платформ [20]. Онтология OntoMathPRO была также использована при тестировании студентов математических специальностей для оценки уровня их компетенций. Тестирование предполагало построение взаимосвязей между рядом задач курса “Численные методы” и методами их решения. Проведенный эксперимент продемонстрировал эффективность примененного подхода.

Другие приложения онтологии OntoMathPRO связаны с ее использованием в смежных областях и направлениях исследований.

В работах [21, 22] осуществлен перевод онтологии OntoMathPRO на итальянский язык с дальнейшим ее использованием при разработке рекомендательных систем, связанных с обучающими математическими материалами.

В [23] онтология OntoMathPRO использована для построения онтологии объектов научного знания SKOO (Scientific Knowledge Objects Ontology), которая в свою очередь предназначена для визуализации научного знания.

В [24] OntoMathPRO использована в качестве компонента платформы для поиска документов в цифровых библиотечных каталогах.

В [25] онтология OntoMathPRO использована в качестве одного из компонентов системы оценки качества данных в сенсорных сетях.

Таким образом, проект построения онтологии OntoMathPRO уже нашел достаточно широкий спектр приложений.

5. ЗАКЛЮЧЕНИЕ

Представлена онтология профессиональной математики OntoMathPRO. Это первая семантическая веб-онтология профессионального математического знания, которая: (1) строго придерживается онтологических различий (ontological distinctions), определенных в онтологии верхнего уровня; (2) представляет математические отношения в качестве сущностей первого порядка; (3) содержит лингвистический уровень, который подробно описывает то, как математические концепты выражаются в тексте на естественном языке.

Основное научное значение полученных результатов состоит в том, что они связали между собой три различные области исследований: управление математическим знанием, онтологическое моделирование и Лингвистические открытые связанные данные (LLOD).

Проект построения онтологии OntoMathPRO находится в развитии и предусматривает ее пополнение новыми разделами математики.

Онтология OntoMathPRO распространяется под свободной лицензией Apache 2 и доступна в репозитории GitHub (https://github.com/CLLKazan/OntoMathPro/) с возможностью ее пополнения с участием заинтересованных специалистов-математиков.

Список литературы

  1. Guarino N., Oberle D., Staab S. In: Staab S., Studer R. (Eds.). International Handbooks on Information Systems. Handbook on Ontologies, 2th edition. N.Y.: Springer, 2009. P. 1–17. https://doi.org/10.1007/978-3-540-24750-0

  2. Моисеев Е.И., Муромский А.А., Тучкова Н.П. Об онтологии научного информационного пространства. М.: Вычислительный центр им. А.А. Дородницына РАН, 2013. 48 с.

  3. Муромский А.А., Тучкова Н.П. Представление математических понятий в онтологии научных знаний // Онтология проектирования. 2019. Т. 9. № 1 (31). С. 50–69. https://doi.org/10.18287/2223-9537-2019-9-1-50-69

  4. Тучкова Н.П. О Семантической модели предметной области “Уравнения математической физики” // Информационные и математические технологии в науке и управлении. 2020. № 4 (20). С. 132–142. https://doi.org/10.38028/ESI.2020.20.4.012

  5. Serebryakov V.A., Ataeva O.M. Ontology Based Approach to Modeling of the Subject Domain ‘‘Mathematics” in the Digital Library // Lobachevskii J. Math. 2021. V. 42, № 8. P. 1920–1934. https://doi.org/10.1134/S199508022108028X

  6. Arndt S., Ion P., Runnwerth M., Schubotz M., Teschke O. 10 Years Later: The Mathematics Subject Classification and Linked Open Data // In: Kamareddine F., Sacerdoti Coen C. (Eds.) Intelligent Computer Mathematics. CICM 2021. Lecture Notes in Computer Science. 2021. V. 12833. P. 153–158. https://doi.org/10.1007/978-3-030-81097-9_12

  7. Lange C. Ontologies and languages for representing mathematical knowledge on the Semantic Web // Semantic Web. 2013. V. 4 (2). P. 119–158. https://doi.org/10.3233/SW-2012-0059

  8. Elizarov A.M., Kirillovich A.V., Lipachev E.K., Nevzorova O.A., Solovyev V.D., Zhiltsov N.G. Mathematical Knowledge Representation: Semantic Models and Formalisms // Lobachevskii J. Math. 2014. V. 35. № 4. P. 347–353. https://doi.org/10.1134/S1995080214040143

  9. Kaliszyk C., Rabe F. A Survey of Languages for Formalizing Mathematics // In: Benzmüller C. and Miller B. (Eds.) CICM 2020 // Lecture Notes in Artificial Intelligence. 2020. V. 12236. P. 138–156. https://doi.org/10.1007/978-3-030-53518-6_9

  10. Developing a 21st Century Global Library for Mathematics Research, DC: The National Academies Press, Washington, 2014. https://doi.org/10.17226/18619

  11. Ion P.D.F., Watt S.M. The Global Digital Mathematics Library and the International Mathematical Knowledge Trust // Lecture Notes in Artificial Intelligence. 2017. V. 10383. P. 56–69. https://doi.org/10.1007/978-3-319-62075-6_5

  12. Елизаров А.М., Липачёв Е.К., Невзорова О.А., Соловьев В.Д. Методы и средства семантического структурирования электронных математических документов // ДАН. 2014. Т. 457. № 6. С. 642–645. https://doi.org/10.7868/S0869565214240049

  13. Nevzorova O., Zhiltsov N., Kirillovich A., Lipachev E. OntoMathPRO Ontology: A Linked Data Hub for Mathematics // In: Klinov P., Mouromstev D. (Eds.) Proceedings of the 5th International Conference on Knowledge Engineering and Semantic Web (KESW 2014). Communications in Computer and Information Science. Springer, Cham, 2014. V. 468. P. 105–119. https://doi.org/10.1007/978-3-319-11716-4_9

  14. Guizzardi G. et al. UFO: Unified Foundational Ontology // Applied Ontology. 2022. V. 17. № 1. P. 167–210. https://doi.org/10.3233/AO-210256

  15. Лукашевич Н.В., Добров Б.В. Проектирование лингвистических онтологий для информационных систем в широких предметных областях // Онтология проектирования. 2015. Т. 5. № 1 (15). С. 47–69.

  16. Elizarov A., Kirillovich A., Lipachev E., Nevzorova O. Digital Ecosystem OntoMath: Mathematical Knowledge Analytics and Management // Communications in Computer and Information Science. Springer, 2017. V. 706. P. 33–46. https://doi.org/10.1007/978-3-319-57135-5_3

  17. Elizarov A., Kirillovich A., Lipachev E., Nevzorova O. Semantic Formula Search in Digital Mathematical Libraries // RPC 2017 – Proceedings of the 2nd Russian–Pacific Conference on Computer Technology and Applications. 2017. C. 39–43. https://doi.org/10.1109/RPC.2017.8168063

  18. Елизаров А.М., Жижченко А.Б., Жильцов Н.Г., Кириллович А.В., Липачёв Е.К. Онтологии математического знания и рекомендательная система для коллекций физико-математических документов // ДАН. 2016. Т. 467. № 4. С. 392–395. https://doi.org/10.7868/S0869565216100042

  19. Nevzorova O., Almukhametov D. Towards a recommender system for the choice of UDC code for mathematical articles // CEUR Workshop Proceedings. 2021. V. 3036. P. 54–62. http://ceur-ws.org/Vol-3036/paper04.pdf.

  20. Kirillovich A., Nevzorova O., Falileeva M., Lipachev E., Shakirova L. OntoMathEdu: Towards an Educational Mathematical Ontology // CEUR Workshop Proceedings. 2020. V. 2634. P. 1–10. http://ceur-ws.org/Vol-2634/WiP1.pdf.

  21. Barana A., Di Caro L., Fioravera M., Marchisio M., Rabellino S. Ontology Development for Competence Assessment in Virtual Communities of Practice // In: Penstein Rosé, C. et al. (Eds.) Proceedings of the 19th International Conference Artificial Intelligence in Education (AIED 2018), part II. Lecture Notes in Computer Science. 2018. V. 10948. P. 94–98. https://doi.org/10.1007/978-3-319-93846-2_18

  22. Di Caro L., Rabellino S., Fioravera M., Marchisio M. A Model for Enriching Automatic Assessment Resources with Free-Text Annotations // 15th International Conference on Cognition and Exploratory Learning in Digital Age (CELDA 2018), October 21–23, 2018. Budapest, Hungary, 2018. P. 186–193.

  23. Daponte V., Falquet G. Une ontologie pour la formalisation et la visualisation des connaissances scientifiques // 29es  Journées Francophones d’Ingénierie des Connaissances, IC 2018, AFIA, Jul 2018, Nancy, France. P. 129–136. hal-01839572. https://hal.archives-ouvertes.fr/hal-01839572

  24. Intarapaiboon P., Kesamoon C. Applying domain knowledge and academic information to enhance unknown-item search in OPAC // Malaysian Journal of Library & Information Science. 2019. V. 24. № 1. P. 45–58. https://doi.org/10.22452/mjlis.vol24no1.3

  25. Vedurmudi A.P., Neumann J., Gruber M., Eichstädt S. Semantic Description of Quality of Data in Sensor Networks // Sensors. 2021. V. 21 (6462). P. 1–21. https://doi.org/10.3390/s21196462

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления