Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 126-137

ТЕХНИКИ СЖАТИЯ АКТИВАЦИЙ СЛОЕВ И ГРАДИЕНТОВ ДЛЯ РАСПРЕДЕЛЕННОГО ОБУЧЕНИЯ МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

М. И. Рудаков 12*, А. Н. Безносиков 12**, Я. А. Холодов 1***, А. В. Гасников 12****

1 Университет Иннополис
Иннополис, Республика Татарстан, Россия

2 Московский физико-технический институт
Москва, Россия

* E-mail: m.rudakov@innopolis.university
** E-mail: beznosikov.an@phystech.edu
*** E-mail: ya.kholodov@innopolis.ru
**** E-mail: gasnikov.av@mipt.ru

Поступила в редакцию 01.09.2023
После доработки 15.09.2023
Принята к публикации 18.10.2023

Аннотация

Современные большие нейронные сети требуют для обучения огромных вычислительных ресурсов. В такой постановке параллелизация процесса обучения, когда последовательные слои модели разбиваются между устройствами, является популярным подходом для обучения больших моделей. Для уменьшения времени обмена данными между устройствами, часто являющимся узким местом в таких системах, применяется сжатие информации. В данной работе исследуется влияние одновременного сжатия активаций и градиентов в режиме параллелизации по модели на сходимость процесса обучения. Мы анализируем такие подходы, как квантизация и “жадное” TopK сжатие, а также экспериментируем с методами компенсации ошибки. Мы исследуем TopK сжатие с использованием подхода AQ-SGD с побатчевой компенсацией ошибки сжатия. Сравнения проводятся на задачах обучения ResNet18 и дообучения GPT-2. Полученные нами результаты показывают, что градиенты более чувствительны к степени сжатия, чем активации слоев модели. По нашим наблюдениям, K = 10% – это максимальный уровень сжатия TopK, который не оказывает сильного влияния на сходимость модели. Эксперименты также показывают, что модели, обученные с использованием сжатия TopK, хорошо работают только в том случае, если сжатие применяется и во время валидации. Мы обнаружили, что техники компенсации ошибки одновременно для активаций и градиентов не улучшают сходимость по сравнению с обычным сжатием. Наконец, применение подхода AQ-SGD с TopK сжатием сильнее, чем при K = 30%, значительно ухудшает качество модели.

Ключевые слова: распределенное обучение, параллелизм модели, сжатие активаций, сжатие градиентов, техники компенсации ошибки

Список литературы

  1. Open A.I., GPT-4 Technical Report, 2023. arXiv: 2303.08774 [cs.CL].

  2. Scao T.L., Fan A., Akiki C. et al. “BLOOM: A 176B-Parameter Open-Access Multilingual Language Model,” arXiv preprint arXiv:2211.05100, 2022.

  3. Laurencon H., Saulnier L., Wang T. et al. “The bigscience roots corpus: A 1.6 tb composite multilingual dataset,” в Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.

  4. Verbraeken J., Wolting M., Katzy J., Kloppenburg J., Verbelen T., Rellermeyer J.S. “A survey on distributed machine learning,” Acm computing surveys (csur). 2020. T. 53, № 2. C. 1–33.

  5. Shoeybi M., Patwary M., Puri R., LeGresley P., Casper J., Catanzaro B. “Megatron-lm: Training multi-billion parameter language models using model parallelism,” arXiv preprint arXiv:1909.08053, 2019.

  6. Rasley J., Rajbhandari S., Ruwase O., He Y. “Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters,” в Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020. C. 3505–3506.

  7. Borzunov A., Baranchuk D., Dettmers T. et al. “Petals: Collaborative Inference and Fine-tuning of Large Models,” arXiv preprint arXiv:2209.01188, 2022.

  8. Diskin M., Bukhtiyarov A., Ryabinin M. et al. “Distributed deep learning in open collaborations,” Advances in Neural Information Processing Systems. 2021. T. 34. C. 7879–7897.

  9. Dettmers T., Lewis M., Belkada Y., Zettlemoyer L. “Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale,” Advances in Neural Information Processing Systems. 2022. T. 35. C. 30 318–30 332.

  10. Evans R.D., Aamodt T. “Ac-gc: Lossy activation compression with guaranteed convergence,” Advances in Neural Information Processing Systems. 2021. T. 34. C. 27 434–27 448.

  11. Fu F., Hu Y., He Y. et al. “Don’t waste your bits! squeeze activations and gradients for deep neural networks via tinyscript,” в International Conference on Machine Learning, PMLR, 2020. C. 3304–3314.

  12. Stich S.U., Cordonnier J.-B., Jaggi M. “Sparsified SGD with memory,” Advances in Neural Information Processing Systems. 2018. T. 31.

  13. Beznosikov A., Horvath S., Richtarik P., Safaryan M. “On biased compression for distributed learning,” arXiv preprint arXiv:2002.12410, 2020.

  14. Bian S., Li D., Wang H., Xing E.P., Venkataraman S. Does compressing activations help model parallel training? 2023. arXiv: 2301.02654 [cs.LG].

  15. Gupta V., Choudhary D., Tang P. et al. “Training recommender systems at scale: Communication-efficient model and data parallelism,” в Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 2021. C. 2928–2936.

  16. Wang J., Yuan B., Rimanic L. et al., “Fine-tuning Language Models over Slow Networks using Activation Quantization with Guarantees,” Advances in Neural Information Processing Systems. 2022. T. 35. C. 19 215–19 230.

  17. Song J., Yim J., Jung J. et al. “Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression,” в Proceedings of the 28th ACM International Conference on Architectural Support for Programming Languages and Operating Systems. 2023. V. 2. C. 560–573.

  18. Alistarh D., Hoefler T., Johansson M., Konstantinov N., Khirirat S., Renggli C. “The convergence of sparsified gradient methods,” Advances in Neural Information Processing Systems. 2018. T. 31.

  19. Seide F., Fu H., Droppo J., Li G., Yu D. “1-bit stochastic gradient descent and its application to data-parallel distributed training of speech dnns,” в Fifteenth annual conference of the international speech communication association, 2014.

  20. Mishchenko K., Gorbunov E., Takač M., Richtarik P. “Distributed learning with compressed gradient differences,” arXiv preprint arXiv:1901.09269, 2019.

  21. Richtarik P., Sokolov I., Fatkhullin I. “EF21: A new, simpler, theoretically better, and practically faster error feedback,” Advances in Neural Information Processing Systems. 2021. T. 34. C. 4384–4396.

  22. He K., Zhang X., Ren S., Sun J. “Deep residual learning for image recognition,” в Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. C. 770–778.

  23. Krizhevsky A., Hinton G. et al., “Learning multiple layers of features from tiny images,” 2009.

  24. Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. et al., “Language models are unsupervised multitask learners,” OpenAI blog. 2019. T. 1. № 8. C. 9.

  25. Merity S., Xiong C., Bradbury J., Socher R. “Pointer Sentinel Mixture Models,” в International Conference on Learning Representations, 2016.

  26. Krizhevsky A. “One weird trick for parallelizing convolutional neural networks,” arXiv preprint arXiv:1404.5997, 2014.

  27. Shallue C.J., Lee J., Antognini J., Sohl-Dickstein J., Frostig R., Dahl G.E. “Measuring the effects of data parallelism on neural network training,” arXiv preprint arXiv:1811.03600, 2018.

  28. Sergeev A., Del Balso M. “Horovod: fast and easy distributed deep learning in TensorFlow,” arXiv preprint arXiv:1802.05799, 2018.

  29. Li S., Zhao Y., Varma R. et al., “Pytorch distributed: Experiences on accelerating data parallel training,” arXiv preprint arXiv:2006.15704, 2020.

  30. Huang Y., Cheng Y., Bapna A. et al., “Gpipe: Efficient training of giant neural networks using pipeline parallelism,” Advances in neural information processing systems. 2019. T. 32.

  31. Guan L., Yin W., Li D., Lu X. “XPipe: Efficient pipeline model parallelism for multi-GPU DNN training,” arXiv preprint arXiv:1911.04610, 2019.

  32. Harlap A., Narayanan D., Phanishayee A. et al., “Pipedream: Fast and efficient pipeline parallel dnn training,” arXiv preprint arXiv:1806.03377, 2018.

  33. Bernstein J., Wang Y.-X., Azizzadenesheli K., Anandkumar A. “signSGD: Compressed optimization for non-convex problems,” в International Conference on Machine Learning, PMLR, 2018. C. 560–569.

  34. Alistarh D., Grubic D., Li J., Tomioka R., Vojnovic M. “QSGD: Communication-efficient SGD via gradient quantization and encoding,” Advances in neural information processing systems. 2017. T. 30.

  35. Han S., Mao H., Dally W.J. “Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding,” arXiv preprint arXiv:1510.00149, 2015.

  36. Hong C., Kim H., Baik S., Oh J., Lee K.M. “Daq: Channel-wise distribution-aware quantization for deep image super-resolution networks,” в Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2022. C. 2675–2684.

  37. Wang H., Sievert S., Liu S., Charles Z., Papailiopoulos D., Wright S. “Atomo: Communication-efficient learning via atomic sparsification,” Advances in Neural Information Processing Systems. 2018. T. 31.

  38. Vogels T., Karimireddy S.P., Jaggi M. “PowerSGD: Practical low-rank gradient compression for distributed optimization,” Advances in Neural Information Processing Systems. 2019. T. 32.

  39. Gorbunov E., Burlachenko K.P., Li Z., Richt’arik P. “MARINA: Faster non-convex distributed learning with compression,” в International Conference on Machine Learning, PMLR, 2021. C. 3788–3798.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления