Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 308-317

ПОИСК ИСКУССТВЕННО СГЕНЕРИРОВАННЫХ ТЕКСТОВЫХ ФРАГМЕНТОВ В НАУЧНЫХ ДОКУМЕНТАХ

Г. М. Грицай 12*, А. В. Грабовой 123**, А. С. Кильдяков 1***, Ю. В. Чехович 13****

1 Компания “Антиплагиат”
Москва, Россия

2 Московский физико-технический институт (национальный исследовательский университет)
Москва, Россия

3 Федеральный исследовательский центр “Информатика и управление” Российской академии наук
Москва, Россия

* E-mail: gritsai@ap-team.ru
** E-mail: grabovoy@ap-team.ru
*** E-mail: kildyakov@ap-team.ru
**** E-mail: chehovich@ap-team.ru

Поступила в редакцию 02.09.2023
После доработки 15.09.2023
Принята к публикации 18.10.2023

Аннотация

Недавние достижения в области текстовых генеративных моделей позволяют получать искусственные тексты, едва отличимые от написанных человеком при беглом прочтении. Прогресс подобных моделей ставит новые задачи перед научным сообществом, ведь их развитие влечет за собой появление и распространение ложной информации, спама, способствует распространению неэтичных практик. В области обработки естественного языка уже разработано большое количество методов для детектирования текстов, полученных при помощи моделей машинного обучения, включая большие языковые модели. Однако улучшению методов выявления искусственных текстов происходит одновременно с улучшением методов генерации текстов, поэтому требуется изучение появляющихся моделей, искусственных текстов – результатов их работы и модернизации существующих подходов к детекции. В настоящей работе представлен детальный анализ ранее созданных методов детекции, а также исследование лексических, синтаксических и стилистических особенностей генерируемых фрагментов. В вычислительном эксперименте сравниваются различные методы детектирования машинной генерации в документах с точки зрения их дальнейшего применения для научных и учебных текстов. Эксперименты проводились для русского и английского языков на собранных авторами наборах данных. Разработанные методы позволили довести качество детектирования до значения 0.968 по метрике F1-score для русского и до 0.825 для английского языков соответственно. Созданные методы используются в практических системах для выявления сгенерированных фрагментов в научных, исследовательских и выпускных работах.

Ключевые слова: машинно-сгенерированный текст, обработка естественного языка, множественная проверка гипотез, перефразирование, детекция сгенерированных текстов

Список литературы

  1. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Usz-koreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. Attention Is All You Need, CoRR. 2017.

  2. ChatGPT by OpenAI. Available at: https://chat.openai.com.

  3. Jasper. Available at: https://www.jasper.ai

  4. Google Bard. Available at: https://bard.google.com/?hl=ru

  5. GigaChat by SberDevices. Available at: https://developers.sber.ru/portal/products/gigachat

  6. YaGPT by Yandex. Available at: https://yandex.ru/project/alice/yagpt

  7. Lenta.ru Москвич защитил написанный нейросетью диплом. Доступ по ссылке: https://lenta.ru/news/2023/02/01/neiroset/

  8. Николаев В.В., Рахконен М.Е. Применение различных инструментов и использование чат-бота “ChatGpt” при написании научных работ, проверяемых в программе “Антиплагиат”, Профессиональное юридическое образование и наука. 2023. Т. 1 (9). С. 78–81.

  9. Yikang Liu, Ziyin Zhang, Wanyang Zhang, Shisen Yue, Xiaojing Zhao, Xinyuan Cheng, Yiwen Zhang, Hai Hu ArguGPT: evaluating, understanding and identifying argumentative essays generated by GPT models, arXiv, 2023.

  10. Yongqiang Ma, Jiawei Liu, Fan Yi, Qikai Cheng, Yong Hu-ang, Wei Lu, Xiaozhong Liu. AI vs. Human – Differentiation Analysis of Scientific Content Generation, arXiv, 2023.

  11. Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov. Unsupervised Cross-lingual Representation Learning at Scale, CoRR. 2019.

  12. Junjie Ye, Xuanting Chen, Nuo Xu, Can Zu, Zekai Shao, Shichun Liu, Yuhan Cui, Zeyang Zhou, Chao Gong, Yang Shen, Jie Zhou, Siming Chen, Tao Gui, Qi Zhang, Xuanjing Huang. A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models, arXiv, 2023.

  13. Badaskar Sameer, Agarwal Sachin, Arora Shilpa. Identifying Real or Fake Articles: Towards better Language Modeling, Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-II, 2008.

  14. Yoav Freund, Robert E. Schapire. A Short Introduction to Boosting, 1999.

  15. Verónica Pérez-Rosas, Bennett Kleinberg, Alexandra Lefevre, Rada Mihalcea. Automatic Detection of Fake News, CoRR. 2017.

  16. Ce Zhou, Qian Li, Chen Li, Jun Yu, Yixin Liu, Guan-gjing Wang, Kai Zhang, Cheng Ji, Qiben Yan, Lifang He, Hao Peng, Jianxin Li, Jia Wu, Ziwei Liu, Pengtao Xie, Caiming Xiong, Jian Pei, Philip S. Yu, Lichao Sun. A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT, 2023.

  17. Daphne Ippolito, Daniel Duckworth, Chris Callison-Burch, Douglas Eck. Automatic Detection of Generated Text is Easiest when Humans are Fooled, CoRR. 2019.

  18. Ganesh Jawahar, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan. Automatic Detection of Machine Generated Text: A Critical Survey, CoRR. 2020.

  19. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov. RoBERTa: A Robustly Optimized BERT Pretraining Approach, CoRR. 2019.

  20. Zhong Wanjun, Tang Duyu, Xu Zenan, Wang Ruize, Duan Nan, Zhou Ming, Wang Jiahai, Yin Jian. Neural Deepfake Detection with Factual Structure of Text, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020.

  21. Gritsay German, Grabovoy Andrey, Chekhovich Yury. Automatic Detection of Machine Generated Texts: Need More Tokens, 2022 Ivannikov Memorial Workshop (IVMEM). 2022.

  22. Hans W.A. Hanley, Zakir Durumeric. Machine-Made Media: Monitoring the Mobilization of Machine-Generated Articles on Misinformation and Mainstream News Websites, CoRR. 2023.

  23. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, CoRR. 2020.

  24. Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel. mT5: A massively multilingual pre-trained text-to-text transformer, CoRR. 2020.

  25. Yutian Chen, Hao Kang, Vivian Zhai, Liangze Li, Rita Singh, Bhiksha Raj. GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content, CoRR. 2023.

  26. Sture Holm. A Simple Sequentially Rejective Multiple Test Procedure, Board of the Foundation of the Scandinavian Journal of Statistics, Wiley, Volume 6. 1979.

  27. Yoav Benjamini, Yosef Hochberg. Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing, Journal of the Royal Statistical Society. Series B (Methodological), Volume 57. 1995.

  28. Rodriguez Juan Diego, Hay Todd, Gros David, Sham-si  Zain, Srinivasan Ravi. Cross-Domain Detection of GPT-2-Generated Technical Text, Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2022.

  29. Open access dataset for machine-generated text detection in Russian Available at: https://data.mendeley.com/datasets/4ynxfp3w53/1.

  30. Answers scraped from Yandex Q. Available at: https://huggingface.co/datasets/its5Q/yandex-q

  31. Dataset of ChatGPT-generated instructions in Russian. Available at: https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca

  32. Dataset of ChatGPT-generated chats in Russian. Available at: https://huggingface.co/datasets/IlyaGusev/ru_turbo_saiga

  33. Yafu Li, Qintong Li, Leyang Cui, Wei Bi, Longyue Wang, Linyi Yang, Shuming Shi, Yue Zhang. Deepfake Text Detection in the Wild, arXiv. 2023.

  34. Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao. Instruction Tuning with GPT-4, arXiv. 2023.

  35. Guo Biyang, Zhang Xin, Wang Ziyuan, Jiang Minqi, Nie Jinran, Ding Yuxuan, Yue Jianwei, Wu Yupeng. How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection, arXiv. 2023.

  36. Khachay M.Yu., Konstantinova N., Panchenko Al., Ignatov, Dmitry I., Labunets V.G. Morphological Analyzer and Generator for Russian and Ukrainian Languages, Springer International Publishing. 2015.

  37. Edward Loper, Steven Bird NLTK: The Natural Language Toolkit, CoRR. 2002.

  38. Google Translate Available at: https://translate.google.com/?hl=ru

  39. Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn. DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature, arXiv. 2023.

  40. Jiameng Pu, Zain Sarwar, Sifat Muhammad Abdullah, Abdullah Rehman, Yoonjin Kim, Parantapa Bhattacharya, Mobin Javed, Bimal Viswanath. Deepfake Text Detection: Limitations and Opportunities, arXiv. 2022.

  41. Paraphraser for Russian sentences Available at: https://huggingface.co/cointegrated/rut5-base-paraphraser

  42. Paraphraser for English sentences Available at: https://huggingface.co/ramsrigouthamg/t5_sentence_paraphraser

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления