Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 375-384
БЕЗОПАСНОЕ ПРЕДОБУЧЕНИЕ ГЛУБОКИХ ЯЗЫКОВЫХ МОДЕЛЕЙ НА СИНТЕТИЧЕСКОМ ПСЕВДОЯЗЫКЕ
Т. Е. Горбачева 1, *, И. Бондаренко 1, **
1 Новосибирский государственный университет
Новосибирск, Россия
* E-mail: t.gorbacheva@alumni.nsu.ru
** E-mail: i.bondarenko@g.nsu.ru
Поступила в редакцию 03.09.2023
После доработки 15.09.2023
Принята к публикации 24.10.2023
- EDN: CYAWMI
- DOI: 10.31857/S2686954323601860
Полные тексты статей выпуска доступны в ознакомительном режиме только авторизованным пользователям.
Аннотация
В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.
Полные тексты статей выпуска доступны в ознакомительном режиме только авторизованным пользователям.
Список литературы
Турдаков Д.Ю., Аветисян А.И., Архипенко К.В., Анциферова А.В., Ватолин Д.С., Волков С.С., Гасников А.В., Девяткин Д.А., Дробышевский М.Д., Коваленко А.П., Кривоносов М.И., Лукашевич Н.В., Малых В.А., Николенко С.И., Оселедец И.В., Перминов А.И., Соченков И.В., Тихомиров М.М., Федотов А.Н., Хачай М.Ю. Доверенный искусственный интеллект: вызовы и перспективные решения, 2022. doi:
Shumailov I., Shumaylov Z., Kazhdan D., Zhao Y., Papernot N., Erdogdu M.A., Anderson R. Manipulating SGD with Data Ordering Attacks, 2021. https://doi.org/10.48550/arXiv.2104.09667
Kataoka H., Okayasu K., Matsumoto A., Yamagata E., Yamada R., Inoue N., Nakamura A., Satoh Y. Pre-training without Natural Images, 2020. https://doi.org/10.48550/arXiv.2101.08515
Liu Y., M Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019. https://doi.org/10.48550/arXiv.1907.11692
JSpeech Grammar Format https://www.w3.org/TR/2000/NOTE-jsgf-20000605/. Дата обращения: 2023-05-08.
Баранов М.Т., Костяева Т.А., Прудникова А.В. Под ред. Н.М. Шанского Русский язык: Справ. материалы: Учеб. пособие для учащихся. 4-е изд. – M.: Просвещение, 1988. 288 с.
Лукашевич Н.В. Тезаурусы в задачах информационного поиска. Изд-во Московского университета, 2011, 512 с.
Shavrina T., Shapovalova O. To the methodology of corpus construction for machine learning: “Taiga” syntax tree corpus and parser // Proceedings of the international conference “Corpus linguistics-2017”, 2017. P. 78–84.
Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020. P. 4717–4726.
Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, 2015. P. 320–332.
Straka M., Straková J. Tokenizing. POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe, 2017. https://doi.org/10.18653/v1/K17-3009
Honnibal M., Montani I. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing, 2017.
JSGFTools: Some tools for JSGF grammar expansion [https://github.com/syntactic/JSGFTools]. Дата обращения: 2023-05-10.
Дополнительные материалы отсутствуют.
Инструменты
Доклады Российской академии наук. Математика, информатика, процессы управления