Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 196-211

БАРКОДЫ КАК РЕЗЮМЕ ТОПОЛОГИИ ФУНКЦИЙ ПОТЕРЬ

С. А. Баранников 13*, А. А. Коротин 12, Д. А. Оганесян 1, Д. И. Емцев 14, Е. В. Бурнаев 12

1 Сколковский институт науки и технологий
Москва, Россия

2 Научно-исследовательский институт искусственного интеллекта AIRI
Москва, Россия

3 CNRS, IMJ, Paris Cité University
Париж, Франция

4 ETH
Цюрих, Швейцария

* E-mail: s.barannikov@skoltech.ru

Поступила в редакцию 02.09.2023
После доработки 08.09.2023
Принята к публикации 18.10.2023

Аннотация

Статья посвящена изучению поверхностей потерь нейронных сетей с помощью методов топологического анализа данных. Мы применяем бар-коды комплексов Морса для исследования топологии поверхностей потерь. Описан алгоритм для расчета бар-кодов локальных минимумов функции потерь. Мы провели эксперименты по расчету бар-кодов локальных минимумов для бенчмарк функций и для поверхностей потерь небольших нейронных сетей. Наши эксперименты подтверждают два наших основных наблюдения для поверхностей потерь нейронных сетей. Во-первых, бар-коды локальных минимумов расположены в небольшой нижней части диапазона значений функции потерь нейронных сетей. Во-вторых, увеличение глубины и ширины нейронной сети уменьшает бар-коды локальных минимумов. Это дает естественные следствия для обучения нейронной сети и для ее обобщающих свойств.

Ключевые слова: поверхность потерь, персистентные гомологии, персистентные бар-коды, теория Морса, нейронные сети

Список литературы

  1. Li H., Xu Z., Taylor G., Studer C., Goldstein T. Visualizing the loss landscape of neural nets, in: Advances in Neural Information Processing Systems. 2018. P. 6389– 6399.

  2. Dauphin Y.N., Pascanu R., Gulcehre C., Cho K., Ganguli S., Bengio Y. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization, Advances in Neural Information Processing Systems. 2014. V. 27. P. 2933–2941.

  3. Choromanska A., Henaff M., Mathieu M., Arous G.B., LeCun Y. The loss surfaces of multilayer networks, JMLR Workshop and Conference Proceedings. 2015. V. 38.

  4. Bott R. Lectures on Morse theory, old and new, Bulletin of the american mathematical society. 1982. V. 7 (2). P. 331–358.

  5. Smale S. Differentiable dynamical systems, Bulletin of the American mathematical Society. 1967. V. 73 (6). P. 747–817.

  6. Thom R. Sur une partition en cellules associ’ee `a une fonction sur une vari’et’e, Comptes Rendus de l’Academie des Sciences. 1949. V. 228 (12). P. 973–975.

  7. Barannikov S. Framed Morse complexes and its invariants., Advances in Soviet Mathematics. 1994. V. 21. P. 93–116. https://doi.org/10.1090/advsov/021/03

  8. Le Peutrec D., Nier F., Viterbo C. Precise Arrhenius law for p-forms: The Witten Laplacian and Morse–Barannikov complex, Annales Henri Poincar’e. 2013. V. 14 (3). P. 567–610. https://doi.org/10.1007/s00023-012-0193-9

  9. Le Roux F., Seyfaddini S., Viterbo C. Barcodes and area-preserving homeomorphisms, arXiv:1810.03139. 2018. P. 1–109.

  10. Bergstra J., Bengio Y. Random search for hyper-parameter optimization, Journal of Machine Learning Research. 2012. V. 13. P. 281–305.

  11. Chung P.B.M.K., Kim P.T. Persistence diagrams of cortical surface data, Information Processing in Medical Imaging. 2009. V. 5636. P. 386–397.

  12. Sousbie T., Pichon C., Kawahara H. The persistent cosmic web and its filamentary structure – II. Illustrations, Monthly Notices of the Royal Astronomical Society. 2011. V. 414 (1). P. 384–403. https://doi.org/10.1111/j.1365-2966.2011.18395.x.

  13. Pun C.S., Xia K., Lee S.X. Persistent-homology-based machine learning and its applications – a survey, preprint arxiv: 1811.00252. 2018. arXiv:1811.00252.

  14. Dellago C., Bolhuis P.G., Geissler P.L. Transition Path Sampling, John Wiley & Sons, Ltd, 2003. P. 1–78. https://doi.org/10.1002/0471231509.ch1

  15. Oganov A.R., Valle M., How to quantify energy landscapes of solids, The Journal of Chemical Physics. 2009. V. 130 (10). P. 104504. https://doi.org/10.1063/1.3079326

  16. Chazal F., Guibas L., Oudot S., Skraba P. Scalar field analysis over point cloud data, Discrete & Computational Geometry. 2011. V. 46 (4). P. 743.

  17. Jamil M., Yang X.-S. A literature survey of benchmark functions for global optimization problems, International Journal of Mathematical Modelling and Numerical Optimisation. 2013. V. 4 (2). P. 150–194.

  18. Efrat A., Itai A., Katz M.J. Geometry helps in bottleneck matching and related problems, Algorithmica. 2001. V. 31 (1). P. 1–28.

  19. Kawaguchi K. Deep learning without poor local minima, in: Advances in neural information processing systems. 2016. P. 586–594.

  20. Gori M., Tesi A. On the problem of local minima in backpropagation, IEEE Transactions on Pattern Analysis & Machine Intelligence. 1992. V. 14 (1). P. 76–86.

  21. Cao J., Wu Q., Yan Y., Wang L., Tan M. On the flatness of loss surface for two-layered relu networks, in: Asian Conference on Machine Learning. 2017. P. 545–560.

  22. Yi M., Meng Q., Chen W., Ma Z.-m., Liu T.-Y. Positively scale-invariant flatness of relu neural networks, arXiv:1903.02237. 2019.

  23. Chaudhari P., Choromanska A., Soatto S., LeCun Y., Baldassi C., Borgs C., Chayes J., Sagun L., Zecchina R. Entropy-sgd: Biasing gradient descent into wide valleys, in: International Conference on Learning Representations (ICLR), 2017.

  24. Dinh L., Pascanu R., Bengio S., Bengio Y. Sharp minima can generalize for deep nets, in: Proceedings of the 34th International Conference on Machine Learning, Proceedings of Machine Learning Research, PMLR. 2017. P. 1019–1028.

  25. Alom M.Z., Taha T.M., Yakopcic C., Westberg S., Sidike P., Nasrin M.S., Hasan M., Van Essen B.C., Awwal A.A., Asari V.K. A state-of-the-art survey on deep learning theory and architectures, Electronics. 2019. V. 8 (3). P. 292.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления