Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, T. 508, № 1, стр. 94-99
Применение предобученных больших языковых моделей в задачах воплощенного искусственного интеллекта
А. К. Ковалёв 1, А. И. Панов 2, *
1 Институт искусственного интеллекта AIRI
Москва, Россия
2 Федеральный исследовательский центр “Информатика и управление” Российской академии наук
Москва, Россия
* E-mail: panov@airi.net
Поступила в редакцию 28.10.2022
После доработки 31.10.2022
Принята к публикации 03.11.2022
- EDN: IKOLKF
- DOI: 10.31857/S268695432207013X
Полные тексты статей выпуска доступны только авторизованным пользователям.
Аннотация
Особенностью задач воплощенного искусственного интеллекта является формирование запроса к интеллектуальному агенту на естественном языке. Это приводит к необходимости использования методов обработки естественного языка для перевода этого запроса в формат, удобный для составления корректного плана поведения. Существует два основных подхода к решению этой задачи. Первый подход заключается в использовании специализированных моделей, обученных на конкретных примерах перевода инструкций в исполнимый агентом формат. Второй подход использует способность больших языковых моделей, обученных на большом объеме неразмеченных данных, хранить знания общего назначения (common sense). Это позволяет использовать такие модели для построения плана поведения агента по запросу на естественном языке без предварительного дообучения. В данной обзорной статье подробно рассматриваются модели, использующие второй подход в задачах воплощенного искусственного интеллекта.
Полные тексты статей выпуска доступны только авторизованным пользователям.
Список литературы
Min S.Y. et al. Film: Following instructions in language with modular methods //arXiv preprint arXiv:2110.07342. 2021.
Liu H. et al. LEBP – Language Expectation & Binding Policy: A Two-Stream Framework for Embodied Vision-and-Language Interaction Task Learning Agents // arXiv preprint arXiv:2203.04637. 2022.
Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding //arXiv preprint arXiv:1810.04805. 2018.
Chowdhery A. et al. Palm: Scaling language modeling with pathways //arXiv preprint arXiv:2204.02311. 2022.
Brown T. et al. Language models are few-shot learners // Advances in neural information processing systems. 2020. T. 33. C. 1877–1901.
Wei J. et al. Finetuned language models are zero-shot learners //arXiv preprint arXiv:2109.01652. 2021.
Huang W. et al. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents // arXiv preprint arXiv:2201.07207. 2022.
Puig X. et al. Virtualhome: Simulating household activities via programs //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. C. 8494–85.
Reimers N., Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks //arXiv preprint arXiv:1908.10084. 2019.
Lin B.Y. et al. On Grounded Planning for Embo-died Tasks with Language Models // arXiv preprint arXiv:2209.00465. 2022.
Shridhar M. et al. Alfred: A benchmark for interpreting grounded instructions for everyday tasks //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020. C. 10740–10749.
Gramopadhye M., Szafir D. Generating Executable Action Plans with Environmentally-Aware Language Models //arXiv preprint arXiv:2210.04964. 2022.
Ahn M. et al. Do as i can, not as i say: Grounding language in robotic affordances //arXiv preprint arXiv:2204.01691. 2022.
Wei J. et al. Chain of thought prompting elicits reasoning in large language models //arXiv preprint arXiv:2201.11903. 2022.
Singh I. et al. ProgPrompt: Generating Situated Robot Task Plans using Large Language Models //arXiv preprint arXiv:2209.11302. 2022.
Liang J. et al. Code as policies: Language model programs for embodied control //arXiv preprint arXiv:2209.07753. 2022.
Zeng A. et al. Socratic models: Composing zero-shot multimodal reasoning with language //arXiv preprint arXiv:2204.00598. 2022.
Huang W. et al. Inner monologue: Embodied reasoning through planning with language models //arXiv preprint arXiv:2207.05608. 2022.
Coumans E., Bai Y. Pybullet, a python module for physics simulation for games, robotics and machine learning. GitHub Repository – 2016.
Gu X. et al. Open-vocabulary object detection via vision and language knowledge distillation //arXiv preprint arXiv:2104.13921. 2021.
Shridhar M., Manuelli L., Fox D. Cliport: What and where pathways for robotic manipulation //Conference on Robot Learning. PMLR, 2022. C. 894–906.
Zeng A. et al. Transporter networks: Rearranging the visual world for robotic manipulation //arXiv preprint arXiv:2010.14406. 2020.
Shah D. et al. Lm-nav: Robotic navigation with large pre-trained models of language, vision, and action // arXiv preprint arXiv:2207.04429. 2022.
Radford A. et al. Learning transferable visual models from natural language supervision //International Conference on Machine Learning. PMLR, 2021. C. 8748–8763.
Shah D. et al. Ving: Learning open-world navigation with visual goals //2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021. C. 13215-13222.
Padmakumar A. et al. Teach: Task-driven embodied agents that chat //Proceedings of the AAAI Conference on Artificial Intelligence. 2022. T. 36. №. 2. C. 2017–2025.
Weihs L. et al. Visual room rearrangement //Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021. C. 5922–5931.
Talbot B. et al. Benchbot: Evaluating robotics research in photorealistic 3d simulation and on real robots // arXiv preprint arXiv:2008.00635. 2020.
Chen M. et al. Evaluating large language models trained on code //arXiv preprint arXiv:2107.03374. 2021.
Liu Q. et al. Tapex: Table pre-training via learning a neural sql executor //arXiv preprint arXiv:2107.07653. 2021.
Ouyang L. et al. Training language models to follow instructions with human feedback //arXiv preprint arXiv:2203.02155. 2022.
Дополнительные материалы отсутствуют.
Инструменты
Доклады Российской академии наук. Математика, информатика, процессы управления