Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 417-430

ESGify: АВТОМАТИЗИРОВАННАЯ КЛАССИФИКАЦИЯ ЭКОЛОГИЧЕСКИХ, СОЦИАЛЬНЫХ И УПРАВЛЕНЧЕСКИХ РИСКОВ

А. Казаков 1, С. Денисова 1, И. Барсола 1, Е. Калугина 1, И. Молчанова 1, И. Егоров 1, А. Костерина 1, Е. Терещенко 1, Л. Шутихина 1, И. Дорощенко 1, Н. Сотириади 1, С. Будённый 12*

1 Сбер
Москва, Россия

2 Институт искусственного интеллекта AIRI
Москва, Россия

* E-mail: sanbudenny@sberbank.ru

Поступила в редакцию 24.08.2023
После доработки 15.09.2023
Принята к публикации 24.10.2023

Аннотация

Растущее признание значимости экологических, социальных и управленческих (ESG) факторов при принятии финансовых решений стимулирует потребность в эффективных и всеобъемлющих инструментах оценки ESG-рисков. В этом исследовании мы представляем модель обработки естественного языка (NLP) с открытыми весами, “ESGify”, основанную на архитектуре MPNet и предназначенную для классификации текстов об ESG-рисках. Мы также представляем иерархическую методологию классификации ESG-рисков, использующую опыт специалистов по ESG и лучшие мировые практики. ESGify разработана для автоматизации классификации ESG-рисков в соответствии с установленной методологией. Модель обучена на основании набора данных с несколькими метками, составленного вручную и состоящего из 2000 новостных статей, и адаптирована к ESG-тематике с использованием текстов отчетов об устойчивом развитии. Мы сравниваем методы аугментации, основанные на обратном переводе и больших языковых моделях (LLMs) для улучшения качества модели и достижения метрики качества, взвешенной F1 метрики, на уровне 0.5 на наборе данных с 47 классами. Для простых подсказок этот результат превосходит ChatGPT 3.5. Веса модели и документация размещены на Github https://github.com/sb-ai-lab/ESGify под лицензией Apache 2.0.

Ключевые слова: ESG, устойчивое развитие, LLM, NLP

Список литературы

  1. Gary Bell, Francesca, Vuuren. The impact of climate risk on corporate credit risk. Cogent Economics Finance, 10, 11 2022.

  2. Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie Yan Liu. Mpnet: Masked and permuted pre-training for language understanding, 2020.

  3. What are the principles for responsible investment? https://www.unpri.org/about-us/what-are-the-principles-for-responsible-investment.

  4. Ifc performance standards on environmental and social sustainability. https://www.ifc.org/en/types/insights-reports/2012/publications-handbook-pps.

  5. World Bank Environmental and Social Framework. World Bank, Washington, DC, 2016.

  6. EBRD Environmental, Social Risk Management Toolkit For Financial Intermediaries. The European Bank for Reconstruction and Development (EBRD), 2016.

  7. Consolidated Set of the GRI Standards. Global Reporting Initiative, 2023.

  8. SASB Standards. IFRS Foundation, 2023.

  9. ESG Ratings Methodology. MSCI ESG Research LLC, 2023.

  10. CSA Handbook 2023. Corporate Sustainability Assessment. S&P Global, 2023.

  11. Hanseon, Choi Hayoung, Cheon Minjong Lee, Ook, Joo. Proposing an integrated approach to analyzing esg data via machine learning and deep learning algorithms, 2022.

  12. Woojoo, Jung Sang-Uk Park, Joonbeom, Choi. Exploring trends in environmental, social, and governance themes and their sentimental value over time. Frontiers in Psychology, 13, 2022.

  13. Dogu Araci. Finbert: Financial sentiment analysis with pre-trained language models, 2019.

  14. Nicole, Leidner Jochen L. Nugent, Tim, Stelea. Detecting environmental, social and governance (esg) topics using domain-specific language models and data augmentation. Berlin, Heidelberg. Springer-Verlag, 2021.

  15. Jasmin Bogatinovski, Ljupčo Todorovski, Sašo Džeroski, Dragi Kocev. Comprehensive comparative study of multi-label classification methods. Expert Systems with Applications. 2022. V. 203. P. 117215.

  16. Abigail See, Peter J. Liu, Christopher D. Manning. Get to the point: Summarization with pointergenerator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073–1083, Vancouver, Canada, July 2017. Association for Computational Linguistics.

  17. Miguel, Wanner Leo P’erez-Mayos, Laura, Ballesteros. How much pretraining data do language models need to learn syntax? arXiv preprint arXiv:2109.03160, 2021.

  18. Duncan, Vollgraf Roland Akbik, Alan, Blythe. Contextual string embeddings for sequence labeling. In COLING 2018, 27th International Conference on Computational Linguistics. 2018. P. 1638–1649.

  19. Grigorios, Vlahavas Ioannis Sechidis, Konstantinos, Tsoumakas. On the stratification of multi-label data. Machine Learning, Knowledge Discovery in Databases. 2011. P. 145–158.

  20. Piotr Szymański, Tomasz Kajdanowicz. A network perspective on stratification of multi-label data. In Luís Torgo, Bartosz Krawczyk, Paula Branco, Nuno Moniz, editor, Proceedings of the First International Workshop on Learning with Imbalanced Domains: Theory, Applications, volume 74 of Proceedings of Machine Learning Research, pages 22–35, ECML-PKDD, Skopje, Macedonia, 2017. PMLR.

  21. Tshephisho Marivate, Vukosi, Sefara. Improving short text classification through global augmentation methods. In International Cross-Domain Conference for Machine Learning, Knowledge Extraction, Springer, 2020. P. 385–399.

  22. Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami andNaman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models, 2023.

  23. Budennyy S., Korovin A., Plosskaya O., Dimitrov Denis, Akhripkin V., Pavlov I., Oseledets Ivan, Barsola I., Ego-rov I., Kosterina A., Zhukov Leonid Lazarev, Vladimir, Zakharenko. eco2ai: Carbon emissions tracking of machine learning models as the first step towards sustainable ai. Doklady Mathematics, 106, 01 2023.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления