Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 297-307

ПОИСК ТЕКСТОВЫХ ЗАИМСТВОВАНИЙ В РУКОПИСНЫХ ТЕКСТАХ

А. В. Грабовой 12*, М. С. Каприелова 123**, А. С. Кильдяков 1***, И. О. Потяшин 1****, Т. Б. Сейил 1*****, Е. Л. Финогеев 1******, Ю. В. Чехович 13*******

1 Компания Антиплагиат
Москва, Россия

2 Московский физико-технический институт
Москва, Россия

3 Федеральный исследовательский центр “Информатика и управление” Российской академии наук
Москва, Россия

* E-mail: grabovoy@ap-team.ru
** E-mail: kaprielova@ap-team.ru
*** E-mail: kildyakov@ap-team.ru
**** E-mail: potyashin@ap-team.ru
***** E-mail: seilov@ap-team.ru
****** E-mail: finogeev@ap-team.ru
******* E-mail: chehovich@ap-team.ru

Поступила в редакцию 02.09.2023
После доработки 15.09.2023
Принята к публикации 18.10.2023

Аннотация

Поиск заимствований в учебных работах становится в последнее время все более актуальной задачей. Повышение популярности онлайн-образования, активная экспансия онлайн-платформ, ориентированных на среднее образование, формируют потребность в инструменте, способном проверять на заимствования рукописные работы школьников. Существующие подходы к поиску рукописных заимствований не подходят для быстрой проверки значительного количества работ по большими коллекциям потенциальных источников. Это существенно ограничивает их применимость. Кроме того, на практике требуется обрабатывать изображения текстовых страниц посредственного качества, выполненные, как правило, с помощью фотокамер мобильных телефонов. Мы предлагаем метод, который позволяет выявлять заимствованные фрагменты текста в документах, представленных в виде изображений (фотографий) рукописных текстов, при сопоставлении с большими коллекциями источников. Метод включает в себя три этапа: распознавание символов рукописного текста, поиск кандидатов и последующий точный поиск источника заимствований. В работе приведены результаты экспериментов по оценке качества и производительности разработанной системы. Полнота поиска заимствований в рукописных документах достигает 83.3% при обработке изображений высокого качества и 77.4% при обработке изображений худшего качества. Время выполнения поиска для одного документа по коллекции источников из 100 000 документов составляет в среднем 3.2 с при использовании CPU. Результаты показали, что созданная нами система может быть масштабирована и использована для промышленных задач, требующих быстрой проверки сотен тысяч школьных сочинений по большому количеству потенциальных источников заимствований. Все эксперименты проводились на открытом наборе данных HWR200.

Ключевые слова: оптическое распознавание символов, рукописный текст, поиск текстовых заимствований, компьютерное зрение, распознавание рукописного текста

Список литературы

  1. Никитов А.В., Орчаков О.А., Чехович Ю.В. Плагиат в работах студентов и аспирантов: проблема и методы противодействия.// Университетское управление: практика и анализ. 2012. № 5 (81). С. 61–68.

  2. Roig Miguel. Avoiding plagiarism, self-plagiarism, and other questionable writing practices: A guide to ethical writing. 2011.

  3. Чехович Ю.В., Беленькая О.С. Методика внедрения и использования электронных средств обнаружения заимствований в системе среднего образования // Информатика и образование. 2021. № 10 (329). С. 5–14. https://doi.org/10.32517/0234-0453-2021-36-10-5-14

  4. Praveen K., Jawahar C.V. Matching handwritten document images. Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part I 14.

  5. Bakhteev O., Kuznetsova R., Khazov A., Ogaltsov A., Safin K., Gorlenko T., Suvorova M., Ivahnenko A., Botov P., Chekhovich Yu., Mottl V. Near-duplicate handwritten document detection without text recognition. Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue”. 2021. Issue 20. P. 47–57. https://doi.org/10.28995/2075-7182-2021-20-47-57

  6. Pandey Om, Gupta Ishan, Mishra Bhabani S.P. A Robust Approach to Plagiarism Detection in Handwritten Documents. Advances in Visual Computing: 15th International Symposium, ISVC 2020, San Diego, CA, USA, October 5–7, 2020, Proceedings, Part II 15.

  7. Coquenet D., Chatelain C., Paquet Th. End-to-end handwritten paragraph text recognition using a vertical attention network. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. V. 45 (1). P. 508–524.

  8. Rowtula V., Bhargavan V., Kumar M., Jawahar C.V. Scaling handwritten student assessments with a document image workflow system. Proceedings of the IEEE conference on computer vision and pattern recognition workshops. 2018. P. 2307–2314.

  9. Voigtlaender P., Doetsch P., Ney H. Handwriting recognition with large multidimensional long short-term memory recurrent neural networks, 15th international conference on frontiers in handwriting recognition (ICFHR). 2016. P. 228–233.

  10. Potanin M., Dimitrov D., Shonenkov A., Bataev V., Karachev D., Novopoltsev M., Chertok A. Digital Peter: New Dataset, Competition and Handwriting Recognition Methods. The 6th International Workshop on Historical Document Imaging and Processing, Lausanne, Switzerland, 2021. P. 43–48.

  11. Nurseitov D., Bostanbekov K., Kurmankhojayev D., Alimova A., Abdallah A., Tolegenov R. Handwritten Kazakh and Russian (HKR) database for text recognition. Multimedia Tools and Applications. 2021. V. 80. P. 33075–33097.

  12. Potyashin I., Kaprielova M., Chekhovich Y., Kildyakov A., Seil T., Finogeev E., Grabovoy A. HWR200: New open access dataset of handwritten texts images in Russian. Computational Linguistics and Intellectual Technologies, 2023. Papers from the Annual International Conference “Dialogue”. 2023. Issue 22. P. 452–458. https://doi.org/10.28995/2075-7182-2023-22-452-458

  13. Broder A.Z., Glassman S.C., Manasse M.S., Zweig G. Syntactic clustering of the web. Computer networks and ISDN systems. 1997. V. 29 (8-13). P. 1157–1166.

  14. Broder A.Z. On the resemblance and containment of documents. Proceedings. Compression and Complexity of SEQUENCES 1997 (Cat. No. 97TB100171). 1997. P. 21–29.

  15. Manber U., Myers G. Suffix arrays: a new method for on-line search, SIAM Journal on Computing. 2003. V. 22.

  16. Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V., Vanderplas J., Passos A., Cournapeau D., Brucher M., Perrot M., Duchesnay E. Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research. 2011. V. 12. P. 2825–2830.

  17. Marti U.-V., Bunke H. The IAM-database: an English sentence database for offline handwriting recognition. International Journal on Document Analysis and Recognition. 2002. V. 5. P. 39–46.

  18. Gatos B., Louloudis G., Causer T., Grint K., Romero V., Sánchez J.A., Toselli A.H., Vidal E. Ground-Truth Production in the Transcriptorium Project, 11th IAPR International Workshop on Document Analysis Systems. 2014. P. 237–241.

  19. Toselli A.H., Romero V., Villegas M., Vidal E., Sánchez J.A. HTR Dataset ICFHR. 2016. https://doi.org/10.5281/zenodo.1297399

  20. Potanin M., Dimitrov D., Shonenkov A., Bataev V., Karachev D., Novopoltsev M., Chertok A. Digital Peter: New dataset, competition and handwriting recognition methods. The 6th International Workshop on Historical Document Imaging and Processing. 2021. P. 43–48.

  21. School_notebooks (2021) Available at: https://github.com/ai-forever/htr_datasets/tree/main/school_notebooks.

  22. IDP-forms (2021) Available at: https://github.com/ai-forever/htr_datasets/tree/main/IDP-forms.

  23. Toiganbayeva N., Kasem M., Abdimanap G., Bostanbekov K., Abdallah A., Alimova A., Nurseitov D. KOHTD: Kazakh offline handwritten text dataset. Signal Processing: Image Communication. 2022. V. 108. P. 116827.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления