ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
КОГНИТИВНЫЕ И
СОЦИОГУМАНИТАРНЫЕ ИССЛЕДОВАНИЯ
УДК 81.33
РАЗРАБОТКА СРЕДСТВ СЕМАНТИЧЕСКОГО
АНАЛИЗА ТЕКСТА ДЛЯ УПРАВЛЕНИЯ РОБОТОМ
© 2021 г. А.А. Котов*, Н.А. Аринкин, Л.Я. Зайдельман, А.А. Зинина
Национальный исследовательский центр «Курчатовский институт», Москва, Россия
* E-mail: Kotov_AA@nrcki.ru
Интеллектуальные роботы способны автоматически планировать стратегии достижения поставленной цели,
поэтому для управления ими человеку достаточно ставить задачи, подсказывать приоритет целей, выбор стра-
тегии из нескольких альтернатив, при необходимости - корректировать деятельность робота. В отличие от
предыдущего поколения интерфейсов такое управление может выполняться командами на естественном язы-
ке. В данной работе описывается лингвистический модуль системы, необходимый для интерпретации команд
пользователя и передачи их на систему управления роботом. Мы показываем, как объекты в окружении робота
выглядят в пространстве лингвистических признаков, и как робот пользуется этими признаками для выбора
нужного объекта. Также мы описываем, как с помощью признаков обеспечивается обработка вежливости или
категоричности высказывания.
ВВЕДЕНИЕ
если бы просил о помощи своего ассистента-че-
По мере роста интеллектуального потенциала
ловека. Лингвистический компонент системы от-
роботов с человека снимается задача низкоуров-
вечает за то, чтобы в результате анализа выска-
невого управления каждым их движением с по-
зывание было преобразовано в семантическое
мощью контроллеров: кнопок, джойстиков и др.
представление, которое может сообщать робо-
Человеку достаточно координировать стратегии
ту новые знания об окружающем мире, ставить
деятельности робота, ставить цели и подсказывать
цель или описывать требуемое действие. Такая
выбор стратегии решения. Команды на естествен-
репрезентация команды пользователя должна
ном языке хорошо подходят для такого взаимодей-
быть доступна для исполнения системой управ-
ствия. Для анализа команды на естественном языке
ления робота.
роботу требуется выполнить автоматический ана-
В речи человек может упоминать объекты,
лиз команды, построить её смысл - семантическое
которые находятся в окружении робота, или во-
представление, - и найти поблизости упомянутые
ображаемые объекты (например, объекты, кото-
в команде объекты.
рые требуется построить). В этом случае част-
Разработка средств семантического анали-
ная задача компонента семантического анализа
за необходима в составе компонента речевого
состоит в том, чтобы отождествить объект, ре-
управления для роботов, перемещающихся по
гистрируемый сенсорами робота, с референтом,
местности или выполняющих различные опера-
обозначаемым человеком во входящем высказы-
ции, например, обрабатывающих детали, соби-
вании. Объекты, обозначаемые в речи, могут со-
рающих конструкции и т.д. Система анализа го-
провождаться ключевыми признаками: подойди к
лосовых команд позволяет человеку свободного
красному дому, подъедь к дому около леса. При
формулировать команду на естественном языке,
обработке таких высказываний система управле-
не заучивая команды из закрытого списка. Вме-
ния должна получить возможность найти в сво-
сто этого человек может описать роботу, куда
ём окружении объекты, которые соответствуют
нужно проехать, как расположить объекты, как
речевому обозначению, например, такой объ-
собрать конструкцию и т.д. Давая команды, чело-
ект должен соответствовать классу ‘дом’, быть
век может использовать естественный язык, как
‘красным’ или ‘находиться около леса’.
115
116
А.А. КОТОВ и др.
ОБЩЕЕ ОПИСАНИЕ
падеж, подлежащее, дочь - винительный падеж,
ЛИНГВИСТИЧЕСКОГО КОМПОНЕНТА
прямое дополнение, либо (б) мать - винительный
Общая схема работы лингвистического компо-
падеж, прямое дополнение, дочь - именительный
нента представлена на рис. 1. Компонент речевого
падеж, подлежащие. Синтаксические деревья, ко-
управления роботом (далее - парсер) получает тек-
торые строит для входящих высказываний син-
стовые сообщения от пользователя, которые под-
таксический компонент системы, соответствуют
вергаются поэтапному лингвистическому анализу.
по своей структуре системе синтаксических групп
Рассмотрим эти этапы подробнее.
Гладкого [2], сочетая в себе и принципы деревьев
В морфологическом компоненте парсер опре-
зависимостей [3], и принципы структур непосред-
деляет часть речи и грамматические признаки
ственно-составляющих [4]. Пример синтаксиче-
(граммемы) каждого слова. В синтаксическом
ского дерева для предложения Переместись от
компоненте парсер устанавливает синтаксиче-
леса к оврагу приведён на рис. 2.
ские связи между словами текста. При этом ис-
При семантической обработке для каждого
пользуется описание грамматики русского языка
синтаксического дерева строится семантическое
на языке syntXML [1]. Итоговая задача этого ком-
представление: после разрешения омонимии одно
понента в том, чтобы построить синтаксическое
из семантических представлений будет использо-
дерево, то есть объединить синтаксическими свя-
вано для выбора коммуникативной реакции в ком-
зями все слова предложения в древесный граф.
поненте сценариев.
Глагол, как правило, является синтаксической вер-
Семантическое представление - это множество
шиной предложения и с помощью валентностей
признаков, распределённых по семантическим ва-
(подробнее про валентности - в описании семан-
лентностям. Используется инвентарь из 4835 при-
тического компонента парсера) присоединяет дру-
знаков на основе набора базовых понятий [5] и
гие слова предложения. Как правило, результатом
семантического словаря [6]. В данном инвентаре
работы синтаксического компонента является не
учитываются семантические признаки объектов и
одно синтаксическое дерево, а множество деревь-
процессов, существенных для ориентации робота
ев. Это связано с возникновением омонимии. Так,
в окружающем пространстве. Семантические при-
одному слову может соответствовать несколько
знаки в исходном словаре приписываются каждо-
множеств граммем - возникает морфологическая
му слову; сейчас с помощью признаков размечена
омонимия, например словоформа дома может быть
семантика 37 тысяч слов. Слово может обладать
формой множественного числа именительного
омонимией, в этом случае признаки в его значе-
падежа - виднеются красные дома, или формой
нии разделены на группы. В используемом словаре
единственного числа родительного падежа - не
каждому значению слова может быть приписано
видно красного дома. Также высказыванию может
несколько признаков: некоторые из них отражают
соответствовать сразу множество синтаксических
семантический класс слова, а другие могут быть
структур - возникает синтаксическая омонимия,
важны для обработки команд, эмоций и намерений
например, высказывание мать любит дочь может
пользователя. При конструировании семантическо-
иметь две структуры (а) мать - именительный
го представления признаки слова копируются в ту
Рис. 1. Общая схема работы лингвистического компонента
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
РАЗРАБОТКА СРЕДСТВ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА ДЛЯ УПРАВЛЕНИЯ РОБОТОМ
117
Рис. 3. Семантическое представление для предложения Пере-
местись от леса к оврагу. Сегменты предложения распреде-
лились по валентностям p (предикат), src (исходная точка) и
targ (конечная точка)
Рис. 4. RDF-представление для предложения Переместись от
дерева к оврагу
процедуры типа если-то [8] и служат моделью для
Рис. 2. Синтаксическое дерево для предложения Переместись
элементов управляющих команд. В работе парсера
от дерева к оврагу
сценарии распознают смыслы, соответствующие
командам или описаниям окружающей ситуации:
валентность, которую слово заняло в синтаксиче-
сценарий активизируется, если смысл входящего
ской структуре. Используется инвентарь из 23 ва-
текста близок к посылке (условию «если») данного
лентностей на основе [7]: глагол занимает валент-
сценария. Сценарии также используются при раз-
ность предикат (p), подлежащее - валентность
решении омонимии: если при анализе предложе-
агенс (ag), дополнение - валентность пациенс (pat)
ния построено несколько синтаксических деревь-
и т.д. Семантическую структуру простого предло-
ев, то выбирается такое дерево, семантика которого
жения можно представить как двухуровневое дере-
наиболее близка к существующим сценариям. Это
во, где валентность предикат находится в вершине
означает, что для анализируемых команд выбирает-
и подчиняет другие валентности, но для компакт-
ся то понимание, которое более регулярно и соот-
ности эту структуру также можно записать в виде
ветствует известным ситуациям или стандартной
таблицы. Семантическое представление высказы-
команде.
вания Переместись от леса к оврагу приведено на
Финальной стадией анализа поступающих от
рис. 3.
пользователя команд является преобразование вы-
Синтаксическое дерево с построенным для него
бранного семантического представления (рис. 3),
семантическим представлением поступает в ком-
в формализованную команду в формате RDF1, до-
понент сценариев, где разрешается омонимия всех
ступную для анализа большинством средств управ-
предшествующих уровней, а также выбираются
ления робототехническими комплексами. На рис. 4
варианты реакций робота на входящее представ-
показано представление высказывания Переме-
ление. Компонент сценариев описывает возмож-
стись от леса к оврагу в формате RDF. Именно в
ные реакции робота на входящий смысл. Единицы
этом виде команда будет передана системе управ-
этого компонента - сценарии - определяются как
ления роботом.
1 См. подробнее: https://www.w3.org/RDF/
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
118
А.А. КОТОВ и др.
ПРЕДСТАВЛЕНИЕ ПРИЗНАКОВ
ИМЕННОЙ ГРУППЫ
В естественной речи человек может называть
объект местоимением, существительным или рас-
ширенной именной группой, включающей части-
цы, прилагательные, причастия и имя существи-
тельное. Имя существительное может подчинять
другие именные группы - несогласованные опре-
деления, стоящие в родительном падеже (дом
местных жителей) или с предлогом (помещение
для хранения). Кроме того, в составе именной груп-
пы могут использоваться однородные группы, со-
стоящие из существительных, прилагательных,
причастий, и даже из комбинаций прилагательных
и причастий (острые колющие предметы).
В полном предложении глагол приписывает ка-
ждой именной группе соответствующую валент-
ность (агенс, пациенс и т.д.). Если же существи-
тельное используется в высказывании без глаголов
(в составе так называемого назывного предложе-
ния), то для именной группы создаётся условная
валентность «0», в которую помещаются семан-
тические признаки существительного. Признаки
прилагательных также помещаются в валентность,
которую заняло существительное. На рис. 5 приво-
Рис. 5. Синтаксическое (слева) и семантическое (справа) пред-
дятся синтаксическое и семантическое представле-
ставления именной группы Зелёная сосна
ния именной группы Зелёная сосна.
Как видно на рисунке, прилагательное зелёный
В синтаксическом представлении именной
в синтаксическом представлении подчиняется су-
группы груз аккумуляторов слово аккумулятор
ществительному сосна. При этом в семантическом
занимает подчинённое положение. В семантиче-
представлении создаётся валентность «0», которая
ском представлении слову груз приписывается
получает как признаки существительного (о-де-
признак attr 8013, обозначающий дополнительный
рево2, @сосна_NOUN), так и признаки прилага-
семантический атрибут референта, выраженный в
тельного (оа-цветной3, оа-зеленый). В ходе ана-
зависимой предикации 8013. В этой предикации
лиза создаётся один узел (референт): робот имеет
находится один референт, построенный для слова
возможность найти в окружении такой объект, ко-
аккумуляторов. Таким образом, референты двух
торый соответствует большинству из указанных в
существительных последовательно разделяются
семантике признаков или наиболее существенным
(не происходит «склейки» референтов), при этом
признакам. Если данная именная группа употре-
у первого слова появляется атрибут, указывающий,
бляется в предложении с глаголом, то она займет
что оно охарактеризовано другим словом, нахо-
валентность, заданную моделью управления глаго-
дящимся в зависимости. Такое же представление
ла, например: зеленая сосна стоит на поляне (ва-
используется для других типов несогласованных
лентность агенс - ag), езжай к зелёной сосне (ва-
определений: для предложных групп (ящик с ак-
лентность конечной точки - targ) и т. д.
кумуляторами) и зависимых клауз (аккумуляторы,
Для описания семантики несогласованных
которые лежат в ящике).
определений, в частности существительных в ро-
дительном падеже (груз аккумуляторов), исполь-
ВЫРАЗИТЕЛЬНЫЕ СРЕДСТВА
зуется следующий подход. Вершинному суще-
Как уже говорилось ранее, для управления ро-
ствительному приписывается служебный признак,
ботом пользователю не требуются заучивать специ-
который ссылается на референт, обозначенный за-
альные команды, а можно использовать естествен-
висимым словом - пример приведён на рис. 6.
ный язык и давать команды в свободной форме.
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
РАЗРАБОТКА СРЕДСТВ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА ДЛЯ УПРАВЛЕНИЯ РОБОТОМ
119
манд в корпусе встречаются, например, такие: дви-
гайся вправо, если есть возможность; попробуй
повернуть налево; если получится, сделай круг во-
круг дома. Подчеркнутые слова и выражения - это,
так называемые, хеджи (ограничители). Хеджиро-
вание используется в речи для выражения неопре-
деленности и неуверенности, для преуменьшения
резкой критики. Согласно теории вежливости [9],
хеджи являются также инструментом для выраже-
ния вежливой просьбы, что и проявляется в приме-
рах команд из корпуса.
В качестве маркера - показателя вежливости в
базу данных был добавлен семантический признак
_пожалуйста_PRCL, получивший свое название
по наиболее частотному и простому способу выра-
зить вежливость в команде.
Противоположной характеристикой вежливости
мы считаем категоричность. Она проявляется в ко-
мандах, как правило, с помощью наречий скорости
со значением ‘быстро’ или со значением ‘сейчас’:
быстрей иди к дереву; немедленно остановись, а
Рис. 6. Синтаксическое (слева) и семантическое (справа) пред-
также с помощью глаголов, в семантику которых
ставления именной группы Груз аккумуляторов.
входит компонент ‘быстро’: гони к пруду; беги к
тому мужчине. В качестве маркера категорично-
Для того, чтобы реализовать понимание команд на
сти в базу семантических признаков был добавлен
естественном языке, с помощью краудфаиндинго-
признак па-быстро, он был присвоен 89 лексемам.
вой платформы было собрано множество (корпус)
С введением маркеров вежливости и катего-
таких команд. После чего высказывания в корпусе
ричности мы улучшили работу модуля сценариев,
были дополнены высказываниями с той же синтак-
находящего среди семантических представлений
сической структурой, но другими лексемами. Объ-
наиболее подходящее для данной ситуации. Эти
ем корпуса после этого составил 10.5 тысяч выра-
маркеры позволили добавить командам пользова-
жений. Для структурного описания семантических
теля показатели приоритета: команды, содержащие
шаблонов, присутствующих в текстах команд, был
в себе маркер категоричности, считаются более
сформирован список 24 команд-паттернов (сцена-
важными и имеют повышенный приоритет, коман-
риев). Кроме того, с помощью собранного корпуса
ды же с показателем вежливости, напротив, имеют
мы смогли расширить перечень обнаруживаемых
пониженный приоритет, поскольку, как было пока-
речевых средств, выражающих стратегии вежливо-
зано раньше, в вежливых командах часто использу-
сти или степень категоричности команды. Как по-
ется хеджирование, сигнализирующее о неуверен-
казал корпус, многие респонденты использовали в
ности пользователя в необходимости немедленного
своих командах к роботу показатели вежливости и
выполнения данной команды.
показатели категоричности. Это, с одной стороны,
подтверждает правильность подхода - разрешить
ЗАКЛЮЧЕНИЕ
пользователю отдавать команды на естественном
В данной работе описан принцип работы линг-
языке. С другой стороны, это подтолкнуло нас к
вистического модуля системы управления роботом.
разработке новых инструментов - маркеров вежли-
Этот модуль - часть большого проекта по созда-
вости и категоричности.
нию роботизированной многофункциональной
Наиболее частотным способом выражения веж-
системы взаимодействия с внешним миром. Опи-
ливости в собранном корпусе оказалось исполь-
санные лингвистические разработки позволяют
зование частицы пожалуйста (подъедь, пожалуй-
свести предварительную подготовку пользователя
ста, к дереву), однако это не единственный способ
к управлению роботом к минимуму. Система управ-
смягчить категоричность команды. Так, среди ко-
ления не требует навыков работы со специальным
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
120
А.А. КОТОВ и др.
интерфейсом, а допускает использование есте-
3. Мельчук И.А. Опыт теории лингвистических моде-
ственного языка для любых задач управления. Для
лей «СМЫСЛ <=> ТЕКСТ». М.: Школа «Языки русской
культуры», 1999.
реализации такого управления был сформирован
объемный корпус, содержащий различные коман-
4. Chomsky N. Syntactic Structures (The Hague: Mouton,
ды от реальных людей. В результате анализа кор-
1957) //Review of Verbal Behavior by BF Skinner, Language.
1957, v. 35, p. 26-58.
пуса был пополнен перечень сценариев (компонент
сценариев лингвистического модуля) и разработан
5. Вежбицкая А. Семантика междометий //Семантиче-
механизм приоритезации команд пользователя.
ские универсалии и описание языков. М.: А. Вежбицкая,
1999. С. 611.
В ближайшей перспективе предполагается раз-
вить связь лингвистического модуля с модулями
6. Шведова Н.Ю. и др. Русский семантический словарь //
технического зрения, отслеживающими направле-
Толковый словарь, систематизированный по классам
слов и значений. М.: Азбуковник, 1998.
ние взгляда и указательные жесты пользователя.
Такая связь необходима, поскольку команды поль-
7. Fillmore C.J. The Case for Case // Universals in linguistic
theory / под ред. E. Bach, R.T. Harms. New York: Holt,
зователя могут состоять не только из вербальных,
Rinehart & Winston, 1968. P. 1-68.
но также из жестовых и мимических компонентов.
8. Schank R.C., Abelson R.P. Scripts, plans, goals,
and understanding : an inquiry into human knowledge
СПИСОК ЛИТЕРАТУРЫ
structures. Hillsdale, N.J., New York: L. Erlbaum Associates,
1. Kotov A., Zinina A., Filatov A. Semantic Parser for
1977. P. 248.
Sentiment Analysis and the Emotional Computer Agents //
Proceedings of the AINL-ISMW FRUCT
2015,
2015.
9. Brown P., Levinson S. C. Politeness: Some universals in
P. 167-170.
language usage. - Cambridge university press, 1987. - V. 4.
2. Гладкий А.В. Синтаксические структуры естествен-
ного языка в автоматизированных системах общения.
М.: Наука, 1985.
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021