Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 364-374

ИССЛЕДОВАНИЕ НЕЙРОСЕТЕВЫХ АЛГОРИТМОВ ПРОГНОЗИРОВАНИЯ ДВИЖЕНИЙ ЧЕЛОВЕКА НА БАЗЕ LSTM И ТРАНСФОРМЕРОВ

С. В. Жиганов 1*, Ю. С. Иванов 1**, Д. М. Грабарь 1***

1 Комсомольский-на-Амуре государственный университет
Комсомольск-на-Амуре, Россия

* E-mail: id_zero@list.ru
** E-mail: ivanov_ys@icloud.com
*** E-mail: gorbat308@yandex.ru

Поступила в редакцию 02.09.2023
После доработки 15.09.2023
Принята к публикации 24.10.2023

Аннотация

Решена задача прогнозирования положения человека на будущих кадрах видеопотока и проведены глубокие экспериментальные исследования по применению традиционных и SOTA блоков для данной задачи. Представлены оригинальная архитектура KeyFNet и ее модификации, основанная на трансформеных блоках, способная предсказать координаты в видеопотоке на 30, 60, 90 и 120 кадров вперед с высокой точностью. Новизна состоит в применении комбинированного алгоритма на основе нескольких блоков FNet с быстрым преобразованием Фурье в качестве механизма внимания, конкатенирующих координаты ключевых точек. Проведенные эксперименты на Human3.6M и на собственных реальных данных подтвердили эффективность предложенного подхода на базе блоков FNet, в сравнении с традиционным подходом, основанным на LSTM. Предлагаемый алгоритм соответствует по точности передовым моделям, но превосходит их по скорости и использует меньше ресурсов для вычисления и может быть применен в коллаборативных робототехнических решениях.

Ключевые слова: прогнозирование ключевых точек, трансформеры, коллаборативные робототехнические системы, глубокое обучение

Список литературы

  1. Pintea S.L., van Gemert J.C., Smeulders A.W.M. Déja vu: Motion prediction in static images // Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6–12, 2014, Proceedings, Part III 13. Springer International Publishing, 2014. P. 172–187.

  2. Walker J., Gupta A., Hebert M. Dense optical flow prediction from a static image // Proceedings of the IEEE International Conference on Computer Vision. 2015. P. 2443–2451.

  3. Chao Y.W. и дp. Forecasting human dynamics from static images // Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. P. 548–556.

  4. Amosov O. и дp. Human localization in video frames using a growing neural gas algorithm and fuzzy inference // Comput. Opt. 2017. V. 41. № 1. P. 46–58.https://doi.org/10.18287/2412-6179-2017-41-1-46-58

  5. Amosov O.S. и дp. Using the deep neural networks for normal and abnormal situation recognition in the automatic access monitoring and control system of vehicles // Neural Comput. Appl. 2021. V. 33. № 8. P. 3069–3083. https://doi.org/10.1007/s00521-020-05170-5

  6. Gerasimenko N.A., Chernyavsky A.S., Nikiforova M.A. RuSciBERT: A transformer language model for obtaining semantic embeddings of scientific texts in Russian // Dokl. Math. 2022. V. 106. № S1. P. S95–S96. https://doi.org/10.1134/S1064562422060072

  7. Amosov O.S. и дp. Using the ensemble of deep neural networks for normal and abnormal situations detection and recognition in the continuous video stream of the security system // Procedia Comput. Sci. 2019. V. 150. P. 532–539.https://doi.org/10.1016/j.procs.2019.02.089

  8. Gao X. и дp. Accurate grid keypoint learning for efficient video prediction // 2021 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2021. P. 5908–5915. https://doi.org/10.1109/IROS51168.2021.9636874

  9. Liu Z. и дp. Swin transformer v2: Scaling up capacity and resolution // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022. P. 12009–12019.https://doi.org/10.1109/CVPR52688.2022.01170

  10. Ionescu C. и дp. Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments // IEEE Trans. Pattern Anal. Mach. Intell. 2014. V. 36. № 7. P. 1325–1339. https://doi.org/10.1109/TPAMI.2013.248

  11. Ivanov Y. и дp. Using an ensemble of deep neural networks to detect human keypoints in the workspace of a collaborative robotic system // INTELS’22. Basel Switzerland: MDPI, 2023. https://doi.org/10.3390/engproc2023033019

  12. GutHub : URL: https://github.com/IdentySergey/fnet (дата обращения: 25.08.2023)

  13. Lee-Thorp J. и дp. Fnet: Mixing tokens with fourier transforms //arXiv preprint arXiv:2105.03824. 2021.

  14. Kreiss S., Bertoni L., Alahi A. Openpifpaf: Composite fields for semantic keypoint detection and spatio-temporal association //IEEE Transactions on Intelligent Transportation Systems. 2021. V. 23. № 8. P. 13498–13511. https://doi.org/10.1109/tits.2021.3124981

  15. Lugaresi и дp. Mediapipe: A framework for building perception pipelines //arXiv preprint arXiv:1906.08172. 2019.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления