Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, T. 508, № 1, стр. 41-49

ПЕРСПЕКТИВЫ ПРИМЕНЕНИЯ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА В ПРИКЛАДНЫХ БИЗНЕС-ЗАДАЧАХ

В. В. Кондратьев 1*, И. О. Пивоваров 1, Р. А. Горбачев 2, В. В. Матюхин 3, Д. А. Корнев 2, Д. А. Гаврилов 2, Е. А. Татаринова 2, В. Э. Буздин 2, И. М. Михайлов 2, О. А. Поткин 4

1 Исследовательский центр прикладных систем искусственного интеллекта, Московский физико-технический институт
Москва, Россия

2 Московский физико-технический институт
Москва, Россия

3 Лаборатория продвинутой комбинаторики и сетевых приложений ФПМИ МФТИ
Москва, Россия

4 Sber Automotive Technologies, ООО Сбер Автомотив Технологии
Москва, Россия

* E-mail: biggroup1@gmail.com

Поступила в редакцию 28.10.2022
После доработки 31.10.2022
Принята к публикации 03.11.2022

Полный текст (PDF)

Аннотация

В статье рассмотрены основные научные результаты и достижения Исследовательского центра прикладных систем искусственного интеллекта Московского физико-технического института. Описаны достижения по ключевым научно-исследовательским направлениям – “Анализ естественного языка методами искусственного интеллекта” и “Искусственный интеллект для робототехники и управления беспилотными системами”. В частности, в рамках направления “Анализ естественного языка методами искусственного интеллекта” изучены мультимодальные и рекомендательные модели, показано, что перспективным с точки зрения объединения модальностей, оказывается текст: преобладающее большинство успешных мультимодальных продуктов так или иначе работает с модальностью текста, и часто именно к текстовому векторному пространству сводится векторное пространство иной модальности. В то же время очевидна непроработанность прикладного и продуктового применения мультимодальных моделей: способность сформулировать и решить конкретные бизнес-задачи с их помощью находится в начальном состоянии. В ходе выполнения работ по направлению “Искусственный интеллект для робототехники и управления беспилотными системами” выполняется разработка методико-алгоритмического обеспечения подсистемы управления роботизированного транспортного средства для построения карты и локализации на ней по камерам в реальном времени, позволяющего улучшить качество навигации беспилотного роботизированного транспортного средства при различных погодных условиях и разной окружающей обстановке (город, сельская местность, шоссе и др.). Кроме того, реализация проекта позволит упростить первичное прототипирование систем навигации, технического зрения и позиционирования беспилотных робототехнических комплексов и устройств за счет быстрого получения результатов обработки данных. Также проводятся работы по разработке бипедальных антропоморфных роботов: во всем мире в этом научно-техническом направлении активно ведутся исследования, публикуется большое количество научных работ, проводятся различные соревнования. Для обеспечения необходимой многофункциональности и гибкости для работы в человекоориентированной среде робот должен иметь конструкцию и механику, максимально приближенную к человеческим параметрам, и именно бипедальные антропоморфные роботы наиболее близко соответствуют этим требованиям. Разработана концепция конструкции робота, которая соответствует предъявляемым требованиям, начата работа по ее детальному проектированию для реализации реального прототипа робота. Также в статье описаны ключевые публикации по результатам работ в научных журналах, образовательные активности Центра.

Ключевые слова: vSLAM, диалоговые системы, бипедальные антропоморфные роботы, искусственный интеллект

1. ВВЕДЕНИЕ

Каждый год приносит нам новые удивительные технологии, которые меняют наш мир. Жизнь становится удобнее, быстрее, экономичнее. Но за каждой технологией стоит целая история кропотливых научных фундаментальных и прикладных исследований, разработки технологии и ее внедрения, создания продукта и выведения его на рынок. Как правило, прикладные исследования и разработка – это самый сложный участок пути, требующий высокой квалификации. Возможно поэтому в составе приоритетов ближайших лет ректор Московского физико-технического института Дмитрий Ливанов отметил “… практико-ориентированные исследования и разработки, инжиниринг для решения задач национального масштаба…”.

В число таких приоритетных исследований, безусловно, входят исследования и разработки в сфере искусственного интеллекта. Для них в МФТИ в 2022 г. создан Исследовательский Центр прикладных систем искусственного интеллекта.

Программа ИЦ предусматривает создание на базе открытых платформенных решений программно-аппаратного обеспечения (отраслевых платформ) для разработки разговорных ассистентов, робототехнических систем и беспилотного автотранспорта с текстовыми, голосовыми, фото- и видеосервисами и их экспериментальных образцов на этой основе с элементами сильного искусственного интеллекта для применения в электронной коммерции и ряде других областей.

Деятельность Центра сфокусирована на исследованиях, разработках и коммерциализации по следующим передовым направлениям:

1. основное направление: “Анализ естественного языка методами искусственного интеллекта”;

2. смежное направление: “Искусственный интеллект для робототехники и управления беспилотными системами”.

Благодаря партнерству со Сбербанком, исследовательские команды Центра работают вместе с передовыми инженерными и исследовательскими командами, реализующими самые актуальные бизнес задачи, что позволяет поддерживать уровень технологий и коммерциализации Центра на самом передовом уровне.

К факторам, объединяющим оба направления в одной Программе, относятся:

1. новые математические методы и эффективные алгоритмы обучения (глубоких) нейронных сетей и другие методы и алгоритмы, реализация текстовых, голосовых, фото- и видеосервисов в программных и аппаратных решениях (обработка, анализ, интерпретация) являются технологической основой (ядром) всех областей исследования и применения ИИ.

2. разработанные ранее платформенные решения, успешно реализованные совместно со Сбербанком России в рамках проекта “iPavlov” в 2017–2020 гг. и признанные мировым сообществом, включая компанию Amazon, предоставившей грант МФТИ, как одному из победителей открытого международного конкурса, позволяют использовать технологическое ядро для разных применений, одновременно развивая и расширяя платформу.

3. появление потребности в перспективных системах управления робототехникой и беспилотным транспортом, в которых встроены голосовые ассистенты и вместе с ними составляют единое целое, что требует совместной разработки уже на этапе эскизного проектирования.

За год, прошедший с начала активной деятельности центра, было достигнуто многое, и в первую очередь – существенные научные результаты в рамках ключевых научно-исследовательских проектов Центра. В настоящей статье будет дан краткий обзор основных результатов первого года работы.

2. УПРАВЛЕНИЕ ДИАЛОГОМ, ПЕРСОНАЛИЗАЦИЯ, ЭМОЦИОНАЛЬНОСТЬ И МУЛЬТИМОДАЛЬНОСТЬ ДЛЯ РУССКОЯЗЫЧНЫХ ЦИФРОВЫХ АССИСТЕНТОВ

В диалоговых системах важна как корректная обработка пользовательской информации, так и ответ пользователю, что релевантно обоим существующим направлениям построения мультимодальных моделей. Перцептивное, фокусирующееся на том, как единообразно обработать данные разных модальностей, и генеративное – о том, как наоборот породить новое.

Несмотря на обилие научных работ, очевидна непроработанность прикладного и продуктового их применения: часто самыми успешными оказываются стартапы, (Stable Diffusion, Mid Journey, AI Dungeon) фактически оборачивающие в забавный интерфейс сырую модель. А вот способность сформулировать и решить конкретные бизнес-задачи с помощью мультимодальных моделей находится в начальном состоянии.

Вычислительный инференс (исполнение) мультимодальных моделей очень ресурсоемок:

● существующие мультимодальные модели обладают огромным количеством параметров (напр. ~80*109 параметров у модели Flamingo),

● популярная практика позднего смешивания модальностей требует наличия нескольких мономодальных систем, каждая из которых ресурсоемкая.

Кроме того, не существует архитектуры, оптимальной с точки зрения скорости, качества и многодоменности генерации текста. GAN-сети быстрые и порождают качественные примеры, VAE и модели потоков быстрые и легко обобщаются на новые области, а диффузионные модели порождают качественные примеры и легко обобщаются на новые области.

Перспективным с точки зрения объединения модальностей оказывается текст: преобладающее большинство успешных мультимодальных продуктов так или иначе работает с модальностью текста, и часто именно к текстовому векторному пространству сводится векторное пространство иной модальности.

В конце концов, и генерирующие, и наоборот воспринимающие данные модели отличаются огромной сложностью для человеческого анализа, а конкретные сильные и слабые стороны существующих разработок могут указать техники интерпретации мультимодальных моделей, они же могут предложить дальнейшие направления научного развития. Интересным представляется пробинг, техника, позволяющая установить специализацию отдельных участков нейронных сетей.

3. ПОСТРОЕНИЕ И УПРАВЛЕНИЕ ДИАЛОГОМ НА РУССКОМ ЯЗЫКЕ

Диалоговый менеджмент на основе правил имеет высокую сложность разработки в открытом домене. А использование только вероятностного подхода к управлению диалогом снижает интерпретируемость и контролируемость диалогового менеджмента. Поэтому в работе Лаборатории нейронных систем и глубокого обучения мы используем гибридный подход к управлению диалогом, комбинирующий подход на основе целей и вероятностные модели. Это позволяет определять и задавать интерпретируемое направление диалога. Гибридный подход наиболее распространен при создании диалоговых систем открытого домена, например, большинство участников Alexa Prize Challenge 3 и 4 использовали подход, комбинирующий применение вероятностных моделей и правил, регламентирующих поведение системы в целом и в специальных случаях. Это позволило участникам ввести контролируемое управление диалогом при сохранении обобщенности на открытый домен.

Прагматический и дискурсивный анализ в управлении диалогом основывается на теории диалоговых актов и теории риторических структур, однако они недостаточно изучены на русскоязычном материале. Тем не менее диалоговые акты достаточно активно используются иностранными компаниями в разработке чат-ботов. Например, в Alexa используется модифицированная таксономия диалоговых актов для интерпретации действий, совершаемых в каждой реплике как пользователем, так и самой системой. Речевые акты используются и в XiaoIce для классификации намерений пользователя. Команды конкурса Alexa Prize SocialBot Grand Challenge, в рамках которого необходимо создать диалоговую систему открытого домена, также использовали для управления разговором диалоговые акты. Команды-победители “Slugbot”, “Gunrock” и “Alquist”, а также команда “Iris” обучали собственные модели для классификации абстрактных намерений. В результате работы над диалоговыми актами команда “Gunrock” разработала новую таксономию MIDAS, заимствующую принципы предыдущих схем аннотации, но адаптированную под современные задачи в области диалогового менеджмента. Для управления ходом диалога голосового ассистента Google также была разработана схема аннотации диалоговыми актами, которая представляет собой несколько групп абстрактных намерений со спецификацией речевых действий говорящего в определенный момент диалога.

4. ОПРЕДЕЛЕНИЕ ЭМОЦИОНАЛЬНОЙ ОКРАСКИ ДИАЛОГА И ФОРМИРОВАНИЯ ЭМОЦИОНАЛЬНЫХ ОТВЕТОВ НА РУССКОМ ЯЗЫКЕ

Область определения эмоциональной окраски диалога является достаточно развитой. Широко известны подходы, в которых используются лингвистические признаки, однако они теряют свою актуальность. Наиболее высокое качество показывают методы с использованием нейронных сетей. Анализ этих методов показал, что необходимо учитывать особенности диалоговых данных с помощью специального моделирования контекста двух участников. Первые работы также показали важность данных от различных модальностей и то, что модальности имеют разный вклад в точность определения эмоциональной окраски.

Наиболее перспективные направления исследований – 1) моделирование эмоционального поведения на основе психологических черт Big Five, а также 2) задание личности с помощью персональных фактов. Модели, основанные на правилах и сценариях, оказываются слишком ограниченными. Системы, вдохновленные биологическими процессами человека, слишком сложны в реализации, а их эффективность еще не доказана.

Существующие российские исследования предлагают применять правила и заготовленные сценарии или же генеративные модели с использованием векторных представлений диалога. Разработки ведутся в направлении как генерации эмоционального текста, так и синтеза речи с выражением эмоций. Для создания собственного эмоционального генеративного инструмента также следует обратиться к разработкам для английского языка, чтобы почерпнуть современные идеи и подходы. Большая часть недавних зарубежных разработок применяет генеративные модели на основе трансформеров, а также оснащает их дополнительными знаниями о мире и текущем диалоге. Другим интересным и перспективным направлением для экспериментов в этой области является применение трансфера стиля, где эмоциональная окраска реплик воспринимается как стиль текста.

5. ВОЗМОЖНЫЕ ОБЛАСТИ ПРИМЕНЕНИЯ

Одной из самых растущих областей является электронная коммерция, в которой все общение с клиентом происходит в онлайне, в том числе посредством чатов. Рекомендательные системы электронных коммерций должны уметь справляться с постоянным добавлением новых данных, у которых не обязательно при этом имеется подробное описание. Так, в электронной коммерции используют модели для классификации изображений и текста, чтобы самостоятельно извлекать недостающую информацию о товарах. Также рекомендательные системы должны учитывать информацию о совместимости комплементарных товаров с покупаемым, и то, уместно ли рекомендовать товар, принадлежащий той же категории, что и товар, уже купленный пользователем (чтобы не рекомендовать пользователю купить еще один телефон, но при этом рекомендовать купить еще одну книгу), и множество других нюансов, способных повлиять на качество пользовательского опыта. Некоторые системы используют модели глубокого обучения, которые позволяют также учитывать последовательность действий пользователей, так как это тоже является важной информацией, способной повлиять на качество рекомендаций.

Модели для рекомендательных систем беспрерывно совершенствуются за счет роста данных. Кроме того, исследователи постоянно предлагают новые признаки для анализа предпочтений. Так, это могут быть специфичные для сферы особенности контента, например, стилистические черты фильма или акустические признаки музыки. В случае с фильмами можно также анализировать по отдельности каждую модальность, так как кому-то при выборе фильма важнее визуальная составляющая, кому-то – музыкальное сопровождение и т.д. Но можно дополнять и данные о пользователе — информация о его личности, психотипе, а также текущем настроении значительно влияет на его потребности. Больше всего от эмоционального состояния, настроения и контекста зависит выбор музыки. Музыкальные предпочтения зависят от того, чем занят пользователь, погоды, дня недели, времени дня, местонахождения, его окружения. Поэтому важно уметь определять контекст, в котором находится пользователь. Для этого можно использовать информацию с его устройств, социальных сетей, или же из разговоров с ним (в случае голосовых помощников).

Область электронной коммерции представляется огромным полем для внедрения мультимодальных моделей.

6. РАЗРАБОТКА СИСТЕМЫ УПРАВЛЕНИЯ БЕСПИЛОТНОГО РОБОТИЗИРОВАННОГО ТРАНСПОРТНОГО СРЕДСТВА

Транспорт был и остается одной из самых перспективных отраслей экономики. А применение технологий искусственного интеллекта позволяет создавать системы управления беспилотными транспортными средствами.

Целью работы является разработка методико-алгоритмического обеспечения подсистемы управления роботизированного транспортного средства для построения карты и локализации на ней по камерам в реальном времени, а также создание научно-технического задела в области разработки интеллектуальных систем управления беспилотными робототехническими устройствами.

Объектом исследования является подсистема управления роботизированного транспортного средства для построения карты и локализации на ней по камерам в реальном времени (Visual Simultaneous Localization and Mapping). В результате разрабатывается макет специального программного обеспечения vSLAM (СПО vSLAM), верификация которого будет осуществляться на разрабатываемом макете программно-аппаратного комплекса локального позиционирования (ПАК ЛП), состоящем из макета блока оптико-электронного, макета блока вычислителя алгоритма vSLAM, комплекта вспомогательных инструментов и приспособлений.

В рамках разработки СПО vSLAM на первом этапе проекта выполнен аналитический обзор современного состояния исследований в области визуальной локализации автономной беспилотной системы и построения карты заранее неизвестной местности в режиме реального времени (vSLAM). Современные vSLAM-решения можно разделить на две основные группы: прямые и непрямые. В прямых vSLAM напрямую используются яркости пикселей изображений, а оценки позы камеры получаются путем минимизации фотометрической ошибки между соответствующими пикселями изображений. В непрямых vSLAM сначала извлекаются признаки изображений, а затем признаки описываются и сопоставляются для оценки позы путем минимизации ошибки перепроецирования. Одним из ключевых шагов vSLAM-решений, реализующих стереорежим, является поиск соответствующих точек на изображениях сцены, полученных с различных ракурсов (стереоотождествление). Решение задачи стереоотождествления и получение значений несоответствия для точек изображений позволяет далее (после вычисления элементов ориентирования) получить функцию дальности до видимого рельефа наблюдаемой сцены. Для решения задачи стереоотождествления вместо традиционных методов могут быть использованы методы стереоотождествления, основанные на использовании глубоких нейронных сетей, например, методы CoEx и HSMNet, которые обеспечивают работу в режиме реального времени. Для решения задачи семантической сегментации изображений в режиме реального времени наиболее целесообразным представляется использование нейронной сети DDRNet-23 или какой-либо из ее модификаций, характеризующихся высокой производительностью (например, модификации DDRNet-23_Bayer). Среди рассмотренных нами нейронных сетей, используемых для семантической сегментации в режиме реального времени, наилучшую производительность (скорость вычислений), демонстрирует сеть STDC1-50, для которой FPS = 250.

Основными задачами второго этапа являлись:

• исследование перспективных открытых vSLAM-решений и программных решений в области визуальной одометрии, направленных на выявление алгоритмических решений, которые будут положены в основу разрабатываемого макета специального программного обеспечения vSLAM;

• анализ ограничений на отобранные алгоритмы применительно к аппаратным платформам, на которых они реализуются;

• разработка промежуточных версий алгоритмов построения карты местности и локализации на ней по камерам.

В результате проведенных исследований выявлены наиболее предпочтительные, которые предполагается заложить в основу разрабатываемого vSLAM-решения. Во-первых, алгоритм Stella-SLAM, основанный на ORB-SLAM. Данная реализация позволяет использовать камеры различных типов, загружать и использовать для локализации ранее созданные карты, а также превосходит по точности определения траектории другие решения, в основе которых лежит ORB-SLAM. Во-вторых, алгоритм DROID-SLAM, основанный на методе DSO. Данный метод целиком основан на глубоком обучении, строит плотные 3D-карты окружающей среды, превосходит по точности определения траектории другие решения, в основе которых лежит DSO, реализован на языке Phyton, на котором реализованы также отобранные нами методы стереоотождествления. Исследованы возможности интеграции в разрабатываемое vSLAM-решение подходов, реализованных в решениях, в основу которых положен ORB-SLAM либо DSO. Получены предварительные результаты по интеграции отобранного real-time-метода стереоотождествления AANet в разрабатываемое vSLAM-решение.

В результате работ разработана промежуточная версия алгоритмов построения карт местности и локализации на ней по камерам, на основе которых будет разработан макет СПО vSLAM.

В рамках разработки макета программно-аппаратного комплекса локального позиционирования на первом этапе разработана концепция программного обеспечения для управления беспилотным роботизированным транспортным средством, выполнен аналитический обзор текущих разработок и современного уровня техники в области создания многофункциональных оптико-электронных систем.

На втором этапе разработан и создан макет многофункциональной оптико-электронной системы. Разрабатываемая многофункциональная оптоэлектронная система предназначена для управления беспилотным транспортным средством с помощью оперативного анализа окружающей обстановки, формирования изображения для построения карты местности, определения параметров курса, локализации и навигации беспилотного транспортного средства в режиме реального времени. Внешний вид многофункциональной оптико-электронной системы представлен на рисунке.

Рис. 1

Внедрение СПО vSLAM в перспективе позволит улучшить качество навигации беспилотного роботизированного транспортного средства при различных погодных условиях и разной окружающей обстановке (город, сельская местность, шоссе и др.). Реализация проекта позволит упростить первичное прототипирование систем навигации, технического зрения и позиционирования беспилотных робототехнических комплексов и устройств за счет быстрого получения результатов обработки данных. При этом использование гибридных данных нейросетевого анализа и данных, получаемых от сенсоров, позволит вывести эффективность подобных систем на новый качественный уровень.

Зарегистрированы результаты интеллектуальной деятельности: программы для ЭВМ “Программа обработки визуальной информации для беспилотного транспортного средства”, свидетельство о регистрации № 2022610215 от 27.12.2021 г., “Программное обеспечение блока вычислителя алгоритма vSLAM”, свидетельство о регистрации № 022669709 от 18.10.2022 г., полезная модель “Многофункциональное оптико-электронное устройство кругового обзора для управления движением беспилотного транспортного средства” № 210565 от 27.12.2021 г.

7. ИССЛЕДОВАНИЯ В ОБЛАСТИ АНТРОПОМОРФНОЙ РОБОТОТЕХНИКИ ДЛЯ СОЗДАНИЯ БИПЕДАЛЬНЫХ АНТРОПОМОРФНЫХ РОБОТОВ, РАЗРАБОТКА И ИСПЫТАНИЯ ИССЛЕДОВАТЕЛЬСКОЙ ПЛАТФОРМЫ ДЛЯ ОТРАБОТКИ ЭКСПЕРИМЕНТОВ ПО ИСПОЛЬЗОВАНИЮ АНТРОПОМОРФНЫХ РОБОТОВ НА РАЗЛИЧНЫХ УЧАСТКАХ ЦЕПОЧКИ СОЗДАНИЯ ЦЕННОСТИ В ЭЛЕКТРОННОЙ КОММЕРЦИИ

В настоящее время разработка бипедальных антропоморфных роботов является приоритетным научно-техническим направлением, в котором активно ведутся исследования, публикуется большое количество научных работ, проводятся различные соревнования (RoboCup, Робофест). Для обеспечения необходимой многофункциональности и гибкости робот должен иметь конструкцию и механику, максимально приближенную к человеческим параметрам. Именно бипедальные антропоморфные роботы наиболее близко соответствуют этим требованиям. Вследствие этого данный вид роботов является практически единственным универсальным типом робототехнических систем, которые хорошо способны выполнять многочисленные задачи.

Основной целью данного проекта являются исследование и разработка физически реализуемой цифровой модели антропоморфного робота и его реального прототипа, его комплектующих, а также программного обеспечения для обеспечения требуемой функциональности робота и реализация симуляторов реального мира для обучения и отработки алгоритмов управления движениями робота, тестирования системы технического зрения. Разрабатываемый прототип робота должен функционировать не только для работы в лабораторных условиях, но в условиях переменчивой окружающей среды, например, передвигаться не только по прямой поверхности, но и по поверхности со средним уровнем неровностей без падений, в том числе на улице.

Для реализации проекта была выработана концепция разработки, заключающаяся в следующем: сначала передовые алгоритмы движения, а только потом способная реализовать эти передовые алгоритмы конструкция. В связи с этим первоначальным этапом проекта было проведение анализа уже существующих разработок и современного уровня техники, в данном случае, в области алгоритмов и систем управления антропоморфными роботами, существующих симуляторов для разработки и исследования алгоритмов управления, математических и реальных моделей роботов, методов построения оптимальных траекторий движений роботов, а также комплектующих и материалов для изготовления реального прототипа.

Было проведено исследование современных трендов к подходам как проектирования, так и управления самыми современными роботами. В первую очередь были рассмотрены существующие решения в области разработки бипедальных антропоморфных роботов, такие как, например, ASIMO, Atlas, Cassie, Digit, LOLA. Для изучения их особенностей, не имея реальных роботов, используются их виртуальные модели, которые в свою очередь могут быть запущены в одном из симуляторов. Были исследованы основные симуляторы Webots, V-REP, Gazebo и MuJoCo, а также движки – ODE, Bullet, DART и MuJoCo. Проведя обширное исследование, были выделены ключевые моменты конструкции и алгоритмов, которые позволяют двуногому роботу быть устойчивым и эффективным:

• Практические успехи в области реализации таких сложных движений, как быстрая ходьба, бег, прыжки, были достигнуты за счет ряда конструктивных особенностей, например, принципа “облегчения ног”;

• Важным с точки зрения повышения энергоэффективности при разработки новых роботов является также использование модели Spring Loaded Inverted Pendulum (модель перевернутого маятника с пружиной), позволяющей строить малозатратные движения;

• Принцип “программной” реализации упругости конструкции робота за счет активной схемы управления приводами, реализующей прокручивание его сочленений при воздействии внешней силы для минимизации рисков поломки робота при значительных внешних воздействиях;

• Применение редукторов с малым передаточным числом для обеспечения гибкости и минимизации вероятности поломок при падениях и выполнении сложных движений (однако данное решение способствует повышению энергозатрат).

Для управления движениями антропоморфного бипедального робота были рассмотрены существующие подходы: традиционные (PID, MPC control, Robust control) и интеллектуальные (Machine Learning, Deep Learning, Fuzzy control). Был реализован ряд алгоритмов с использованием Reinforcement Learning, рекуррентных нейронных сетей, Feed Forward Torque Control и других подходов. Данные алгоритмы успешно прошли тестирование в симуляторе для разных типов роботов, как бипедальных, так и квадропедальных. Для апробации их реализации в реальности была использована модель квадропедального робота-собаки. Данные алгоритмы показали эффективность в обеспечении стабильности ходьбы в различных направлениях и поворотах, сохранении устойчивости при ходьбе по неровной поверхности и воздействии на робота внешних сил. Результатом данных исследований является набор алгоритмов управления для робота-собаки, который позволяет ей стабильно передвигаться, и который работает как в среде обучения и верификационном симуляторе, так и в реальности.

По итогам текущих исследований были выбраны основные направления исследований и разработок алгоритмов управления роботом, подходов к реализации его виртуальной и реальной модели. Был разработан ряд испытательных стендов для отработки реализуемых алгоритмов и исследования конструктивных особенностей составляющих компонентов робота. Были исследованы алгоритмы по управлению различными типами роботов в симуляционной среде, а также апробация некоторых из них на реальной модели робота-собаки. Итогом работ на текущий момент является разработанная концепция конструкции робота, которая соответствует предъявляемым требованиям, вследствие чего начата работа по ее детальному проектированию для реализации реального прототипа робота.

8. ЗНАЧИМЫЕ НАУЧНЫЕ РЕЗУЛЬТАТЫ, ПРЕДСТАВЛЕННЫЕ НА КОНФЕРЕНЦИЯХ И В ВЕДУЩИХ НАУЧНЫХ ЖУРНАЛАХ

В рамках деятельности ИЦ прикладных систем искусственного интеллекта важное место занимает деятельность по публикации полученных в ходе исследований научных результатов. Cотрудники Центра публикуют свои статьи в ведущих мировых журналах уровня Q1 (первый квартиль рецензируемых журналов), таких как Euro Journal on Computational Optimization, Optimization Methods and Software и другие).

Еще более значимым результатом является публикация своих работ на международных конференциях уровня А*, таких как ICML, AISTATS и NeurIPS. В 2022 г. ожидается 5 публикаций на конференциях уровня А* (было запланировано 4).

В 2022 г. сотрудниками центра были опубликованы следующие работы:

1. Decentralized personalized federated learning: Lower bounds and optimal algorithm for all personalization modes (Borodich, Beznosikov) – журнал Q1 Scopus Euro Journal on Computational Optimization

Работа сосредоточена на проблеме персонализации в федеративном обучении – разновидности распределенного машинного обучения, где предполагается, что вычислительные агенты – это пользовательские устройства (например, смартфоны, планшеты, ноутбуки, персональные компьютеры).

В работе исследуется формулировка децентрализованного персонализированного федеративного обучения, а также доказываются нижние границы сложности на число коммуникаций и локальных вычислений, разрабатывается несколько алгоритмов, способных достичь нижних границ.

2. Extragradient Method: O (1/K) Last-Iterate Convergence for Monotone Variational Inequalities and Connections with Cocoercivity (Gorbunov) – конференция A* AISTATS 2022

В данной работе удалось впервые вывести O(1/K) оценку на сходимость экстраградиентного метода для последней точки в терминах квадрата нормы оператора (и, соответственно, O(1/sqrt{K}) оценку для Gap-функции).

Кроме того, ключевой особенностью разработанного в статье анализа является тот факт, что основные части доказательства отличия между экстраградиентным методом и методом Попова получены частично при помощи компьютера, а именно, при помощи техники Performance Estimation Problem (PEP) (Taylor et al., 2017; Ryu et al., 2020). Данная техника получения доказательств является не очень популярной в виду своей нетривиальности. Однако сам по себе подход имеет огромный потенциал, что было продемонстрировано в данной работе.

3. Stochastic Extragradient: General Analysis and Improved Rates (Gorbunov) – конференция A* AISTATS 2022

В работе был разработан новый теоретический фреймворк для анализа метода SEG (Stochastic Extragradient method).

Сделаны точные оценки на скорость сходимости в известных частных случаях: наш анализ дает либо наилучшие известные оценки для известных частных случаев (например, для EG и I-SEG в частном случае, когда параметр delta в равномерной оценке дисперсии равен нулю). Рассмотрены новые методы с хорошими оценками. Разработан новый способ выбора шагов в SEG.

4. Last-Iterate Convergence of Optimistic Gradient Method for Monotone Variational Inequalities (Gorbunov) – конференция А* NIPS 2022

В этой работе предложен первый (неасимптотический) анализ сходимости PEG (Past Extragradient method) для последней точки, закрывающий тем самым важный открытый вопрос в литературе по экстраградиентным методам. В безусловном случае доказано, что PEG сходится со скоростью O(1/N) для последней точки в терминах квадрата нормы оператора. Для условных задач получен аналогичный результат для квадрата нормы невязки между точками на двух последних итерациях (естественное обобщение критерия на условный случай). В частности при помощи техники PEP (Performance Estimation Problem) найдены потенциальные функции для PEG для вариационных неравенств с ограничениями и без, из которых вытекает упомянутый выше результат. Кроме того, продемонстрирована нетривиальность данного вопроса; показано, что ключевое для анализа неравенство, выполненное для EG, может нарушаться для PEG.

5. Secure Distributed Training at Scale (Gorbunov) – конференция А* ICML 2022

В работе предложен новый протокол для децентрализованного обучения с устойчивостью к Византийским атакам на датасетах, доступных всем участникам. Дополнительные коммуникационные затраты предложенного протокола не зависят от количества параметров модели. Также в работе предложен математически строгий анализ нового протокола и доказываются оценки на скорость сходимости для выпуклых и невыпуклых задач с Византийскими рабочими. Кроме того, получаются ускоренные сходимости для одной и той же задачи при реалистичных предположениях о градиентах модели.

Предожена эвристика для сопротивления Sybil attacks со стороны вычислительно ограниченных злонамеренных рабочих, позволяющие принимать новых ненадежных рабочих по ходу обучения. Проверяется эффективность алгоритма в контролируемых экспериментах и реальных крупномасштабных прогонах обучения.

6. Clipped Stochastic Methods for Variational Inequalities with Heavy-Tailed Noise (Danilova) – конференция А* NIPS 2022

В работе было обнаружено, что шум в стохастических градиентах, возникающих при обучении популярных генеративно-состязательных моделей (GAN), имеет тяжелые (не суб-гауссовские) хвосты распределения. Это послужило основной мотивацией к исследованию сходимости стохастических методов для решения вариационных неравенств с большой вероятностью.

В частности, в работе были предложены два новых метода – clipped-SEG и clipped-SGDA. Оба метода используют популярный трюк в глубинном обучении, а именно, градиентный клиппинг. Были доказаны первые результаты о сходимости с большой вероятностью стохастических методов для решения монотонных вариационных неравенств без предположений о легкости хвостов распределения шума. Более того, дополнительно рассмотрены 5 классов задач, допускающих немонотонные операторы F. Для указанных классов задач полученные результаты не имеют аналогов даже в предположении легких хвостов распределения шума.

7. Accelerated variance-reduced methods for saddle-point problems (Borodich) – журнал Q1 Scopus Euro Journal on Computational Optimization

В данной работе предлагается ускоренный алгоритм с оракулом первого порядка для задач в виде суммы, который использует технику уменьшением дисперсии. В работе доказывается, что сложность данного алгоритма почти оптимальная, т.е. совпадает с нижними оценками с точностью до логарифмических факторов. Важно отметить, что алгоритм гарантирует необходимую точность с высокой вероятностью, а не в среднем. Насколько известно, эти алгоритмы являются первыми оптимальными для данной задачи. Таким образом, алгоритм позволяет понять, что нижние оценки достижимы.

9. ОБРАЗОВАТЕЛЬНЫЕ АКТИВНОСТИ

Центр поддерживает “Всероссийский учебный фестиваль по искусственному интеллекту и программированию “RuCode Festival” (далее – RuCode Festival). RuCode Festival управляется и проводится созданным консорциумом из 16 ведущих вузов страны (ДВФУ, ЗабГУ, НГУ, ННГУ, БФУ им. Канта, ТГУ, ИжГТУ, ПетрГУ, СГУ, СФУ, УрФУ, Университет “Иннополис”, КГУ, ТИУ, ИT-университет), общественных организаций и лидирующих IT-компаний во главе с МФТИ.

В 2020 г. RuCode Festival получил старт при поддержке Фонда президентских грантов в дистанционном формате. Сейчас RuCode Festival проходит дважды в год в онлайн и оффлан режиме при поддержке Минобрнауки РФ и благодаря спонсорской поддержке передовых российских IT-компаний. Организаторами фестиваля, наряду с МФТИ, выступают ведущие вузы России, общественные организации, технопарки и кванториумы. Индустриальные партнеры фестиваля: Яндекс, Сбер, 1С, Газпромбанк, Роскосмос и др.

В программе – онлайн-курсы, интенсивы, чемпионат по алгоритмическому программированию и искусственному интеллекту. С 2022 г. фестиваль является площадкой для реализации инновационного проекта “Система интенсивной подготовки ИТ-кадров для быстрого и эффективного устранения кадрового дефицита на рынке труда”. Фестиваль находится на стыке науки и искусства, охватывает и просвещает широкий круг как начинающих, так и опытных специалистов, которые заинтересованы развитием IT-технологий, обладает научной визуализацией и потенциалом трансдисциплинарности, предоставляет возможности каждому быть вовлеченным в мир высоких технологий.

В рамках фестиваля разрабатываются дополнительные профессиональные программы повышения квалификации в области искусственного интеллекта. По заданию Центра разработаны программы “Глубокое обучение в NLP” и “NLP: создание вопросно-ответных систем”.

10. ЗАКЛЮЧЕНИЕ

Исследовательский Центр прикладных систем искусственного интеллекта активно ведет научные исследования в передовых областях ИИ, публикуя свои результаты в ведущих мировых журналах и на конференциях. Наши команды участвуют в международных соревнованиях, занимая призовые места, например в октябре 2022 г. команда роботов Starkit выиграла открытый чемпионат Бразилии и Латинской Америки по робофутболу.

Перед нашими исследователями ставятся самые высокие планки по качеству и результативности исследований. Необходимость внедрения этих результатов в реальные бизнес-процессы делает работу на таком высоком уровне сложной, но потрясающе интересной! Здесь, на передовом крае науки, создаются новые технологии, которые могут потом применяться в промышленности и сельском хозяйстве, медицине и образовании, для решения коммерческих или государственных задач. Мы приглашаем партнеров и заказчиков, которым интересно внедрение передовых технологий искусственного интеллекта – давайте создавать будущее вместе!

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления