Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 375-384

БЕЗОПАСНОЕ ПРЕДОБУЧЕНИЕ ГЛУБОКИХ ЯЗЫКОВЫХ МОДЕЛЕЙ НА СИНТЕТИЧЕСКОМ ПСЕВДОЯЗЫКЕ

Т. Е. Горбачева 1*, И. Бондаренко 1**

1 Новосибирский государственный университет
Новосибирск, Россия

* E-mail: t.gorbacheva@alumni.nsu.ru
** E-mail: i.bondarenko@g.nsu.ru

Поступила в редакцию 03.09.2023
После доработки 15.09.2023
Принята к публикации 24.10.2023

Аннотация

В данной работе проводится сравнение предварительного обучения трансформера на текстах естественного языка и на предложениях синтетического псевдоязыка. Искусственные тексты были автоматически сгенерированы по написанным нами правилам в контекстно-свободной грамматике. Результаты дообучения на выполнение заданий проекта RussianSuperGLUE статистически достоверно показали, что модели имеют одинаковые оценки, т.е. можно считать, что использование искусственных данных дает преимущество для “безопасности” искусственного интеллекта за счет возможности полностью контролировать состав выборки. Также мы можем говорить о том, что на этапе предобучения модели типа RoBERTa достаточно научиться распознавать только синтаксические и морфологические закономерности языка, которые могут быть успешно созданы довольно таким простым способом, как контекстно-свободная грамматика.

Ключевые слова: методы глубокого обучения, трансформеры, предварительное обучение, автоматическое создание текста, глубокие языковые модели, синтетические данные, “безопасность” нейросети

Список литературы

  1. Турдаков Д.Ю., Аветисян А.И., Архипенко К.В., Анциферова А.В., Ватолин Д.С., Волков С.С., Гасников А.В., Девяткин Д.А., Дробышевский М.Д., Коваленко А.П., Кривоносов М.И., Лукашевич Н.В., Малых В.А., Николенко С.И., Оселедец И.В., Перминов А.И., Соченков И.В., Тихомиров М.М., Федотов А.Н., Хачай М.Ю. Доверенный искусственный интеллект: вызовы и перспективные решения, 2022. doi:

  2. Shumailov I., Shumaylov Z., Kazhdan D., Zhao Y., Papernot N., Erdogdu M.A., Anderson R. Manipulating SGD with Data Ordering Attacks, 2021. https://doi.org/10.48550/arXiv.2104.09667

  3. Kataoka H., Okayasu K., Matsumoto A., Yamagata E., Yamada R., Inoue N., Nakamura A., Satoh Y. Pre-training without Natural Images, 2020. https://doi.org/10.48550/arXiv.2101.08515

  4. Liu Y., M Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A Robustly Optimized BERT Pretraining Approach, 2019. https://doi.org/10.48550/arXiv.1907.11692

  5. JSpeech Grammar Format https://www.w3.org/TR/2000/NOTE-jsgf-20000605/. Дата обращения: 2023-05-08.

  6. Баранов М.Т., Костяева Т.А., Прудникова А.В. Под ред. Н.М. Шанского Русский язык: Справ. материалы: Учеб. пособие для учащихся. 4-е изд. – M.: Просвещение, 1988. 288 с.

  7. Лукашевич Н.В. Тезаурусы в задачах информационного поиска. Изд-во Московского университета, 2011, 512 с.

  8. Shavrina T., Shapovalova O. To the methodology of corpus construction for machine learning: “Taiga” syntax tree corpus and parser // Proceedings of the international conference “Corpus linguistics-2017”, 2017. P. 78–84.

  9. Shavrina T., Fenogenova A., Emelyanov A., Shevelev D., Artemova E., Malykh V., Mikhailov V., Tikhonova M., Chertok A., Evlampiev A. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark // In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020. P. 4717–4726.

  10. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, 2015. P. 320–332.

  11. Straka M., Straková J. Tokenizing. POS Tagging, Lemmatizing and Parsing UD 2.0 with UDPipe, 2017. https://doi.org/10.18653/v1/K17-3009

  12. Honnibal M., Montani I. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing, 2017.

  13. JSGFTools: Some tools for JSGF grammar expansion [https://github.com/syntactic/JSGFTools]. Дата обращения: 2023-05-10.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления