Физикохимия поверхности и защита материалов, 2023, T. 59, № 1, стр. 99-109

Применение алгоритма “случайный лес” для предсказаний коррозионных потерь алюминия за первый год экспозиции в различных регионах мира

М. А. Гаврюшина 1*, А. И. Маршаков 1, Ю. М. Панченко 1

1 Институт физической химии и электрохимии имени А.Н. Фрумкина Российской академии наук
119071 Москва, Россия

* E-mail: maleeva.marina@gmail.com

Поступила в редакцию 17.11.2022
После доработки 22.11.2022
Принята к публикации 09.12.2022

Полный текст (PDF)

Аннотация

С помощью алгоритма “случайный лес” (RF) получены две модели для предсказаний первогодовых коррозионных потерь (K1) алюминия в открытой атмосфере в различных регионах мира. Модель RF1 получена с использованием объединенных баз данных международных программ ISO CORRAG и MICAT и испытаний на территории России и предназначена для оценки K1 в различных типах атмосферы в различных регионах мира. Модель позволяет предсказать K1 только в континентальных районах мира. Для всех типов атмосфер проведено сравнение точности прогноза K1 по модели RF1 и функции “доза–ответ” (ФДО), представленной в стандарте ISO 9223. Для континентальных мест сравнение достоверности прогноза дано по модели RF2 и функциям “доза–ответ”, представленной в стандарте ISO 9223 и новой ФДО. Показано, что достоверность предсказаний по обеим моделям RF существенно лучше, чем с использованием функций “доза–ответ”.

Ключевые слова: атмосферная коррозия, машинное обучение, случайный лес, алюминий

1. ВВЕДЕНИЕ

Коррозионные потери металлов в атмосфере могут варьироваться в больших интервалах в зависимости от агрессивности окружающей среды. По этой причине оправдан интерес к аналитическим и численным моделям, которые позволяют предсказывать массопотери металлов в различных климатических регионах мира и типах атмосферы. Наличие в атмосфере значительного числа агрессивных агентов, многостадийность, нелинейность и взаимное влияние физико-химических процессов, протекающих в тонком слое электролита на поверхности металла, делают задачу создания предиктивных моделей атмосферной коррозии очень трудной. Вместе с тем, для решения инженерных задач, таких как предсказание коррозионной стойкости материала конструкций, срока их службы, выбора средств антикоррозионной защиты, требуется разработка моделей, которые использовали бы минимальный набор параметров атмосферы. В идеале, для предсказания коррозионных потерь должны использоваться параметры, которые определяются на метеорологических станциях и на станциях, следящих за загрязнениями атмосферы, на всей территории Земного шара. В настоящее время этому требованию отвечают функции доза-ответ (ФДО), которые позволяют предсказать массопотери металлов за первый год экспозиции (K1) в зависимости от ограниченного числа климатических и аэрохимических параметров атмосферы. Величины K1 необходимы для определения коррозионной агрессивности атмосферы [1] и для предсказаний долговременных коррозионных потерь в различных регионах мира без проведения натурных испытаний образцов металлов [2–4].

Модели для предсказания величин К1 типовых металлов, а именно, низкоуглеродистой стали, цинка, меди и алюминия, в различных регионах мира представлены в международном стандарте (ФДОC) [1]. Новые ФДО (ФДОH) для континентальных районов мира даны в [5]. ФДОC были получены регрессионным анализом баз данных, которые включали экспериментальные коррозионные первогодовые потери типовых металлов ($K_{1}^{{{\text{экс}}}}$), метеорологические и аэрохомические параметры мест испытаний по программе ISO CORRAG [6], проекту MICAT [7] и результатам российских исследований, проведенных в приморских и континентальных районах Дальнего Востока. При разработке ФДОН для стали и цинка использовались данные программ ЕСЕ ООН [8] и РФ [9], для меди – данные проекта MICAT и программ ЕСЕ ООН и РФ, для алюминия – данные проекта MICAT и программы РФ.

Предсказание коррозионных потерь алюминия с помощью ФДО является более сложной задачей по сравнению с предсказанием К1 других типовых металлов. Атмосферная коррозия алюминия имеет ярко выраженный локальный характер с относительно небольшими потерями массы, а образование питтингов, как стохастический процесс, прогнозируется с меньшей точностью в любых коррозионных средах. Поэтому предсказания К1 алюминия по стандарту [1] имеют больший допустимый интервал неопределенности, то есть, относительную ошибку в пределах от –50% до +100%, по сравнению с другими типовыми металлами, для которых допустимая ошибка предсказаний K1 находится в пределах от –30% до +50% [1]. Однако, сопоставление рассчитанных по ФДОС значений K1 алюминия с величинами $K_{1}^{{{\text{экс}}}}$, полученными в континентальных местах испытаний проекта MICAT и программы РФ, показало, что в значительном числе мест ошибка предсказаний K1 больше допустимой ошибки [5]. Предсказания К1 алюминия по ФДОН в континентальных районах являются, как правило, более достоверными [5], однако надо учесть, что ФДОН была разработана на основе базы данных вышеуказанных испытательных программ. В приморской атмосфере предсказания К1 алюминия с использованием ФДОС также имеют ошибку, значительно превышающую допустимый интервал неопределенности согласно стандарта [1], при этом не удалось разработать новую ФДО, применимую в приморских местах всего мира [10].

В связи с этим, представляется необходимым дальнейший поиск моделей для прогноза атмосферной коррозии алюминия. Для этого можно использовать алгоритм случайного леса (RF) – один из популярных методов машинного обучения [11].

Случайный лес состоит из отдельных деревьев – моделей. Дерево решений — это метод представления решающих правил в иерархической структуре, состоящей из элементов двух типов – узлов и листьев. В узлах находятся решающие правила и производится проверка соответствия примеров этому правилу по какому-либо атрибуту обучающего множества. Число деревьев является гиперпараметром модели.

Алгоритм RF использовался для построения предиктивных моделей атмосферной коррозии малолегированных сталей [12, 13]. Скорости коррозии сталей, предсказанные RF моделью, искусственной нейронной сетью, методами регрессии опорных векторов и логистической регрессии, были сопоставлены с экспериментальными значениями, полученными в 6 местах экспозиции на территории Китая [12]. Оценка достоверности предсказаний скорости коррозии по таким статистическим показателям, как коэффициент детерминации (R2), средняя абсолютная процентная ошибка (МАРЕ) и корень из среднеквадратичной ошибки (RMSE), показала преимущество RF модели [13]. RF модель, построенная на основе базы данных, полученной при экспозиции тринадцати видов низколегированной стали в трех местах Японии в открытой атмосфере и под навесом, также показала более точные предсказания скорости коррозии сталей по сравнению с другими методами машинного обучения [13]. В этом случае достоверность моделей оценивалась по величинам R2 и средней абсолютной ошибке (MAE). Надо отметить, что RF модель, обученная по данным двух мест экспозиции, показала существенно большую ошибку предсказаний в третьем месте экспозиции, данные которого не использовались для обучения этой модели [13].

Алгоритм RF позволяет определить наиболее значимые параметры атмосферы, влияющие на коррозию металлов [12–14]. Это позволяет уменьшить число параметров во входных наборах, которые используются другими методами машинного обучения. Модель, в которой были объединены RF и алгоритм машинного обучения с учителем, была использована для предсказаний скорости коррозии углеродистой стали в 10 местах на территории Китая и показала высокую точность предсказаний [14]. Вместе с тем, достоверность RF моделей [12–14] не была проверена в различных регионах мира, то есть, в местах испытаний, результаты которых не были использованы при разработке этих моделей. Необходимо отметить, что применение в вышеуказанных работах параметра R2 может приводить к неправильной оценке достоверности предсказанных величин К1 ($K_{1}^{{{\text{пр}}}}$) в сравнении с $K_{1}^{{{\text{экс}}}}$ [15].

Целью настоящей работы является разработка RF модели на основании результатов годовых коррозионных испытаний алюминия по программам [6, 7, 9], проведенных в различных регионах мира в местах с различным типом атмосферы, а также сопоставление величин К1 алюминия, предсказанных по RF модели и функциям доза–ответ [1, 5], с экспериментальными данными.

2. МЕТОДИКА РАБОТЫ

2.1. Базы данных натурных коррозионных испытаний алюминия

Для разработки RF моделей использованы базы данных одногодовых экспозиций в каждом месте испытаний по программе ISO CORRAG [6] (далее БД ISO), проекту MICAT [7] (далее БД MICAT) и по российским программам [9] (далее БД RUS).

Из БД ISO использованы 258 наборов данных, полученных в 46 местах за разные одногодовые испытания, включающих коррозионные потери алюминия, $K_{1}^{{{\text{экс}}}}$ (мкм) и соответствующие этому году среднегодовые значения параметров агрессивности атмосферы: температуры (Т, °С) и относительной влажности воздуха (RH, %), концентрации SO2 в воздухе ([SO2], мкг/м3) и скорости осаждения хлоридов Cl ([Cl], мг/(м2 сут)). Значения RH в отдельных местах приведены в соответствии с [16, 17]. В случае, если в местах экспозиции отсутствовали данные о концентрации SO2 и скорости осаждения хлоридов, а $K_{1}^{{{\text{экс}}}}$ были небольшие, то были приняты фоновые значения: [SO2] = 1 мкг/м3 и [Cl] = 1 мг/(м2 сут).

Из БД MICAT использовано 129 наборов данных, полученных в 52 местах испытаний. В набор данных входят величины $K_{1}^{{{\text{экс}}}}$, Т, RH, [SO2], [Cl] и среднегодовое количество атмосферных осадков (Prec, мм). В базу данных не включены результаты, полученные в местах испытаний с кодами А3, B1, B10, B11, B12, CO3, E5, M3. Обоснование выбраковки мест испытаний дано в [18].

БД RUS состоит из 38 наборов данных, полученных в 38 местах испытаний. В набор данных входят величины $K_{1}^{{{\text{экс}}}}$, Т, RH, [SO2], [Cl] и Prec.

Для разработки модели RF1 для всех типов атмосфер и сопоставления ее результатов с прогнозом К1, сделанным по модели ФДОС, объединены БД ISO, БД MICAT и БД RUS в общую базу данных (БД INT), которая включает 425 наборов данных. Коды мест испытаний в соответствии с программами представлены в табл. 1.

Таблица 1.  

Коды мест испытаний программ, данные которых использованы при разработке RF моделей. * отмечены континентальные места испытаний

Программа Код мест испытаний
ISO CORRAG [5] ARG1, ARG2, ARG3, ARG4, AGR5, CND1, CS1, CS2, CS3, D1, E1, E2, E3, E4, F1, F2, F3, F4, F5, F6, F7, F8, JAP1, JAP2, JAP3, N1, N2, N3, N4, N5, N6, S1, S2, S3, SF1, SF2, SF3, UK1, UK4, US1, US3, US6, SU1, SU2, SU3, SU4
MICAT [6] A1, A2*, A4*, A5, A6*, B2, B3, B4, B5, B6*, B7, B9, CH1, CH2, CH3, CH4, CO1, CO2*, CR1, CR2, CR3, CR4, CU1, CU2, CU3, E1*, E4*, E7, E8*, EC1*, EC3, EC5, M1*, M2*, M4, PE2, PE3, PE4*, PE5*, PE6*, PO1, PO2, PO3, U1*, U2, U3*, U4, U5, V3, V4, V5
RUS [4, 8] Армань, Апапельхино, Аян, Чумикан, о. Айон, Оха, Охотск, У-Хайрюзово, П‑Камч, о. Байдуков, м. Шмидта, Невельск, м. Чаплина, м. Гамов, Владивосток, ДВКС1, ДВКС2, ДВКС3, СКС1, СКС2, СКС3, Никольское, м. Лопатка, ГЦКИ1, ГЦКИ2, ГЦКИ3, Билибино*, Оймякон*, Усть-Омчуг*, Атка*, Сусуман*, Тында*, Ключи*, Алдан*, Победино*, Яковлевка*, Пограничный*, Комсомольк-на-Амуре*

Для разработки модели RF2 для континентальных мест и сопоставления ее результатов с предсказаниями К1, сделанными по модели ФДОС и ФДОН, объединены данные, полученные в континентальных местах испытаний по проекту MICAT и РФ, и сформирована база данных БД CON, которая включает 52 набора данных. Коды мест испытаний, которые попали в БД CON, отмечены в табл. 1 звездочкой.

В табл. 2 приведены интервалы среднегодовых параметров атмосферы и первогодовых коррозионных поражений алюминия, для мест испытаний, включенных в БД INT и БД CON.

Таблица 2.  

Параметры атмосферы и коррозионные потери алюминия, их символы, единицы измерения, интервалы среднегодовых значений для мест испытаний, включенных в БД INT и БД CON

Параметр Символ Единицы измерения Интервал
БД INT БД CON
Температура воздуха Т °С от –17.1 до +28.2 от –16.6 до +26.9
Относительная влажность воздуха RH % от 33 до 98 от 33 до 98
Количество атмосферных осадков Prec мм/год от 17 до 1810
Концентрация диоксида серы [SO2] мкг/м3 от 1 до 214.6 от 1 до 67.2
Скорость выпадения хлоридов [Cl] мг/(м2 сут) от 1 до 1093
Первогодовые коррозионные потери Al $K_{1}^{{{\text{экс}}}}$ мкм от 0.01 до 5.47 от 0.01 до 0.68

2.2 Функции доза–ответ

Для прогнозирования коррозионный потерь алюминия за первый год использованы функции доза-ответ, разработанные для двух температурных интервалов.

ФДОС для атмосфер, содержащих SO2 и Cl, представлены в виде уравнения (1) [1]:

(1)
$\begin{gathered} {{r}_{{corr}}} = {\text{ }}0.0042P_{d}^{{0.73}} \times \,\, \\ \times \,\,\exp \left[ {0.025RH + 0.009\left( {T--{\text{ }}10} \right)} \right] + \\ + \,\,{\text{ }}0.0018S_{d}^{{0.60}}\exp (0.02RH + 0.094Т), \\ {\text{при}}\,\,T \leqslant 10^\circ {\text{C}}, \\ {{r}_{{corr}}} = {\text{ }}0.0042P_{d}^{{0.73}} \times \\ \times \,\,\exp \left[ {0.025RH--0.043\left( {T--10} \right)} \right] + \\ + \,\,{\text{ }}0.0018S_{d}^{{0.60}}\exp (0.02RH + 0.094Т), \\ {\text{при}}\,\,\,\,Т > 10^\circ {\text{C}}, \\ \end{gathered} $
где rcorr(мкм/год) – скорость коррозии алюминия за первый год экспозиции; Т – среднегодовая температура, °С; RH – среднегодовая относительная влажность воздуха, %; Pd и Sd – среднегодовые выпадения SO2 и Cl соответственно, мг/(м2сут).

ФДОН для атмосфер, содержащих SO2, представлены в виде уравнения (2) [5,18]:

(2)
$\begin{gathered} K_{1}^{{{\text{пр}}}} = 0.01{{\left[ {{\text{S}}{{{\text{O}}}_{{\text{2}}}}} \right]}^{{0.67}}} \times \\ \times \,\,{\text{ехр}}{\kern 1pt} [0.039RH + 0.032(Т--10) - \\ --{\text{ }}\,\,0.0001{\kern 1pt} Prec],\,\,\,\,T \leqslant 10^\circ {\text{C}}, \\ K_{1}^{{{\text{пр}}}} = 0.01{{\left[ {{\text{S}}{{{\text{O}}}_{{\text{2}}}}} \right]}^{{0.67}}} \times \\ \times \,\,{\text{еxp}}{\kern 1pt} [0.039RH--0.065(Т--10) - \\ --\,\,{\text{ }}0.0001{\kern 1pt} Prec],\,\,\,\,T > {\text{ }}10^\circ {\text{C}}, \\ \end{gathered} $
где $K_{1}^{{{\text{пр}}}}$ (г/м2) – коррозионные массопотери алюминия за первый год экспозиции; [SO2] – среднегодовая концентрация SO2 в воздухе, мкг/м3; Prec – среднегодовое количество атмосферных осадков, мм/год.

Для пересчета К1, выраженной в г/м2 (2), в мкм использована плотность алюминия, равная 2.70 г/см3. Для (1) сделан пересчет скорости осаждения SO2 (Pd, мг/(м2сут)) в концентрацию SO2 в воздухе ([SO2], мкг/м3) по соотношению [1]: Pd = 0.8[SO2].

2.3. Модель “случайный лес”

В машинном обучении принята следующая терминология: каждый набор данных в БД является объектом, что соответствует местам испытаний. Объект характеризуется признаками (входные данные для модели, то есть параметры атмосферы) и величиной прогноза (выходные данные, то есть, величина К1).

Реализация алгоритма “случайный лес” проводилась при помощи библиотеки scikit-learn [19]. Обучение деревьев проводилось на основе обучающей выборки, которая составляет 70% от всей базы данных. Каждое из деревьев получало на вход свою подвыборку, которая с помощью бутстрапа получалась из исходной обучающей подвыборки. Бутстрап – один из популярных подходов к построению подвыборок. Он заключается в том, что из обучающей выборки длины L (длина выборки – количество принадлежащих ей объектов) выбирают с возвращением L объектов. При этом новая выборка также будет иметь длину L, но некоторые объекты в ней будут повторяться, а некоторые объекты из исходной выборки в нее не попадут.

Размер выборки был равен размеру обучающей выборки (т.е. часть данных дублировалась). Ветвление производили по случайно выбранным признакам (количество которых является гиперпараметром) до исчерпания данных. Ветвление производилось в согласии с критерием информативности (среднеквадратичной ошибкой) так, чтобы дисперсия значений в листе была минимальной.

В тестовой выборке (30% объектов БД) каждое из деревьев давало величину прогноза на основании признаков каждого объекта из этой выборки. В итоге прогнозом для объекта тестовой выборки становилось среднее значение прогноза по всем деревьям.

Значения глобальных гиперпараметров (число признаков для ветвления и число деревьев в лесу) подбирали с помощью функции GridSearchCV [20]: число деревьев в лесу от 50 до 600 с шагом 50, число признаков: от 1 до 5. Лучший набор соответствовал наименьшему значению средней относительной ошибки MAPE по пяти тестовым выборкам.

Расчет важности признаков, показывающих влияние каждого из признаков на величину прогноза коррозионных потерь, проводился с помощью библиотеки scikit-learn [19].

2.4. Статистические критерии достоверности прогноза

Для оценки достоверности предсказаний моделей использовали следующие статистические критерии

(1) Средняя абсолютная процентная ошибка (MAPE):

(3)
${\text{MAPE}}(x,y) = \frac{1}{N}\sum\limits_{i = 1}^N {\frac{{\left| {{{x}_{i}} - {{y}_{i}}} \right|}}{{\left| {{{x}_{i}}} \right|}} \times 100} ,$
где xi и yi – экспериментальное и прогнозное значения К1, соответственно, N – количество объектов в БД. Чем меньше MAPE, тем меньше модель ошибается в прогнозе.

(2) Симметричная средняя абсолютная процентная ошибка (SMAPE):

(4)
${\text{SMAPE }}(x,y) = \frac{2}{N}\sum\limits_{i = 1}^n {\frac{{\left| {{{x}_{i}} - {{y}_{i}}} \right|}}{{\left| {{{x}_{i}}} \right| + \left| {{{y}_{i}}} \right|}}} \times 100.$

Преимущество SMAPE по сравнению с MAPE в том, что SMAPE учитывает возможную погрешность не только прогноза, но и экспериментального значения.

(3) Обобществленный коэффициент детерминации ($R_{{{\text{нов}}}}^{2}$) [15]

(5)
$R_{{{\text{нов}}}}^{2} = 1 - \frac{{\sum\limits_{i = 1}^n {{{{({{y}_{i}} - \frac{{{{{(yx)}}_{{{\text{ср}}}}}}}{{{{{({{x}^{2}})}}_{{{\text{ср}}}}}}}{{x}_{i}})}}^{2}}} }}{{\sum\limits_{i = 1}^n {{{{({{y}_{i}} - {{x}_{i}})}}^{2}}} }},$
где ${{(yx)}_{{{\text{ср}}}}} = \frac{1}{n}\sum\nolimits_{i = 1}^n {{{y}_{i}}{{x}_{i}}} $, ${{({{x}^{2}})}_{{{\text{ср}}}}} = \frac{1}{n}\sum\nolimits_{i = 1}^n {x_{i}^{2}} $.

Коэффициент $R_{{{\text{нов}}}}^{2}$ показывает, насколько хорошо распределение точек c координатами xi и yi описывается функцией y = x. Значения $R_{{{\text{нов}}}}^{2}$ изменяются от 0 до 1; при $R_{{{\text{нов}}}}^{2}$ = 0 все точки (xi; yi) попадают на биссектрису, то есть, на прямую y = x. Увеличение коэффициента $R_{{{\text{нов}}}}^{2}$ показывает, что точки (xi; yi) наилучшим образом описываются прямой y = ax, где коэффициент a ≠ 1.

Необходимость использования коэффициента $R_{{{\text{нов}}}}^{2}$ связана с тем, что стандартный коэффициент детерминации (R2) не подходит для определения достоверности модели путем сравнения прогнозного и истинного значения [15]. Коэффициент R2 показывает, насколько хорошо линейная модель вида y = ax + b описывает данные в сравнении с моделью y = b, но при R2 = 1 условие a = 1 не обязано выполняться. Так, например, если прогноз будет всегда вдвое больше, чем ожидаемое значение, коэффициент R2 будет в точности таким же, как и в случае, когда прогноз совпадает с ожидаемым значением.

(4) Процент удовлетворительных значений у (PSV):

(6)
${\text{PSV}} = \frac{M}{N} \times 100,$
где M – число yi, значения которых находятся в интервале от 0.5xi до 2.0xi. На графике с координатами y = $K_{1}^{{{\text{пр}}}}$, x = $K_{1}^{{{\text{экс}}}}$ значения $K_{1}^{{{\text{пр}}}}$ должны находиться между линиями относительных ошибок $K_{1}^{{{\text{пр}}}}$, равных –50% и +100%, соответственно. Этот интервал относительных ошибок прогноза соответствуют интервалу неопределенности расчета первогодовых коррозионных потерь алюминия по стандарту [1]. Чем ближе PSV к единице, тем большее число $K_{1}^{{{\text{пр}}}}$ лежит между линиями указанных относительных ошибок прогноза, и, следовательно, модель является более достоверной.

3. РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ

3.1. Получение моделей “случайный лес” на объединенных базах данных БД INT и БД CON

Базы данных были случайном образом разделены на обучающую (70% объектов БД) и тестовую (30% объектов БД) выборки данных (табл. 3). Величины подобранных гиперпараметров для БД INT и БД CON представлены в табл. 3. Таким образом, на основе объединенных баз данных получены две модели “случайный лес”: RF1 и RF2. В дальнейшем эти модели будут применяться как к объединенным БД, так и к БД различных программ натурных испытаний.

Таблица 3.  

Гиперпараметры, использованные при построении моделей “случайный лес”

Название модели База данных Число объектов Гиперпараметры
обучающая выборка тестовая выборка число деревьев число признаков для ветвления
RF1 БД INT 297 128 50 3
RF2 БД CON 36 16 50 3

При обучении моделей были рассчитаны значения важности признаков – параметров атмосферы, которые представлены в табл. 4. Нужно отметить, что этот параметр не характеризует важность признаков для решения задачи, но лишь для настройки конкретной модели: RF1 или RF2. Видно, что в случае RF1 наибольшее влияние на величину коррозионных потерь оказывает относительная влажность воздуха, чуть меньшее – скорость осаждения хлоридов и содержание SO2, и еще меньше – температура воздуха. В случае RF2 величину коррозионных потерь в первую очередь определяет содержание SO2 в воздухе, в гораздо меньшей степени влияют количество осадков и температура, и еще меньше – относительная влажность воздуха.

Таблица 4.  

Важность признаков моделей, полученных на основе алгоритма “случайный лес”

Модель Значение важности признака
[SO2] [Cl] T RH Prec
RF1 0.240 0.280 0.140 0.340
RF2 0.65 0.126 0.030 0.194

3.2. Сравнение достоверности моделей RF1 и ФДОС для БД INT

Величины $K_{1}^{{{\text{пр}}}}$ были рассчитаны в соответствии с моделью RF1 и ФДОС (1), используя БД INT. Сопоставляя предсказанные величины с экспериментальными значениями $K_{1}^{{{\text{экс}}}}$ (рис. 1), были рассчитаны показатели достоверности этих моделей (табл. 5). Сплошная линия на рис. 1 отвечает условию $K_{1}^{{{\text{пр}}}}$ = $K_{1}^{{{\text{экс}}}}$.

Рис. 1.

БД INT. Соответствие между экспериментальными и предсказанными значениями К1: по RF1 (а) и ФДОС (б). Линия соответствует $K_{1}^{{{\text{пр}}}}$ = $K_{1}^{{{\text{экс}}}}$. Выделенная область показывает относительную ошибку предсказаний в интервале от –50% до + 100%.

Таблица 5.  

Значения статистических критериев достоверности модели RF1 и ФДОС, полученных на БД INT

Модель Число объектов Характер выборки $R_{{{\text{new}}}}^{2}$ MAPE, % SMAPE, % PSV, %
RF1 425 БД INT 0.44 47 32 85
297 Обучение 0.46 35 23 93
128 Тест 0.59 76 52 68
ФДОС 425 БД INT 0.30 125 70 53
128 Тест 0.52 101 71 50

Модель RF1 была получена на 70% объектов БД INT (обучающая выборка), а ее проверка на оставшихся 30% объектов (тестовая выборка) этой базы данных. ФДОС была получена, используя наборы данных, большая часть которых входит в БД INT. Поэтому для корректного сравнения достоверности моделей RF1 и ФДОС, значения К1пр были рассчитаны по обеим моделям, как для всей базы данных, так и для тестовой выборки. Тестовая выборка, на которой определялись критерии достоверности моделей RF1 и ФДОС, включала одни и те же объекты.

Полученные результаты (табл. 5) свидетельствуют, что предсказания по модели RF1 для всей БД INT являются более точными, чем для ФДОС: коэффициенты MAPE и SMAPE имеют меньшие значения, а PSV – большее, величины $R_{{{\text{new}}}}^{2}~$ сопоставимы. Применение обеих моделей к тестовым выборкам данных показывает, что RF1 также имеет лучшие значения PSV, MAPE и SMAPE (табл. 5). Величины $R_{{{\text{new}}}}^{2}$ сопоставимы и значительно больше нуля, что можно объяснить несимметричным расположением точек относительно линии $K_{1}^{{{\text{экс}}}}$ = $K_{1}^{{{\text{пр}}}}$ (рис. 1а).

Модель RF1 дает значения PSV = 85 и 68% для всей базы данных и тестовой выборки, соответственно. Это означает, большая часть значений $K_{1}^{{{\text{пр}}}}$ лежит в интервале от 0.5$K_{1}^{{{\text{экс}}}}$ до 2.0$K_{1}^{{{\text{экс}}}}$. Функция “доза-ответ” может предсказать не более 50–53% значений $K_{1}^{{{\text{пр}}}}$, которые попадают в интервал допустимых ошибок прогноза [1].

3.3. Сравнение достоверности моделей RF2, функций “доза–ответ” ФДОН и ФДОС

Сопоставление рассчитанных по модели RF2 и функциям ФДОН и ФДОС значений первогодовых коррозионных потерь алюминия в континентальных местах испытаний (БД CON) с соответствующими экспериментальными величинами $K_{1}^{{{\text{экс}}}}$ показано на рис. 2. Значения статистических критериев достоверности всех моделей были рассчитаны как для всей БД CON, так и для 30% тестовой выборки объектов этой базы данных (табл. 6). Как видно, в обоих случаях модель RF2 дает более точный прогноз $K_{1}^{{{\text{пр}}}}$: низкие значения $R_{{{\text{new}}}}^{2}$, меньшие значения MAPE, SMAPE и большее значение PSV. При использовании RF2 величина $R_{{{\text{new}}}}^{2}$ близка к нулю, то есть, прогноз $K_{1}^{{{\text{пр}}}}$ дает наиболее симметричный разброс точек вокруг линии $K_{1}^{{{\text{пр}}}}$ = $K_{1}^{{{\text{экс}}}}$ как при малых, так и при больших величинах $K_{1}^{{{\text{пр}}}}$. Это означает, что RF2 точнее предсказывает коррозионные потери алюминия, если рассматривать весь диапазон полученных экспериментальных данных (рис. 2а).

Рис. 2.

БД CON. Соответствие между экспериментальными и предсказанными значениями К1 по RF2 (а), ФДОН (б) и ФДОС (в).

Таблица 6.  

БД CON. Значения статистических критериев достоверности модели RF2, ФДОН и ФДОС

Модель Число точек Характер выборки $R_{{{\text{new}}}}^{2}$ MAPE, % SMAPE, % PSV, %
RF2 52 БД CON 0.20 38 30 89
36 Обучение 0.39 33 25 92
16 Тест 0.001 49 42 81
ФДОН 52 БД CON 0.27 56 48 65
16 Тест 0.03 51 53 56
ФДОС 52 БД CON 0.87 50 69 60
16 Тест 0.71 51 76 56

Сравнивая достоверность двух функций доза–ответ, можно отметить, что разброс значений $K_{1}^{{{\text{пр}}}}$, рассчитанных по ФДОН, более симметричен вокруг линии $K_{1}^{{{\text{пр}}}}$ = $K_{1}^{{{\text{экс}}}}$ по сравнению с разбросом предсказаний по ФДОС (рис. 2б и 2в), поэтому $R_{{{\text{new}}}}^{2}$ для тестовой выборки БД CON равен 0.03 и 0.71 для ФДОН и ФДОС, соответственно (табл. 2). Величины MAPE и PSV для обоих ФДО примерно равны, а значения SMAPE для ФДОН меньше как для тестовой выборки, так и для всей БД CON (табл. 2). Следовательно, по совокупности статистических критериев ФДОН является более достоверной функцией доза–ответ.

3.4. Оценка достоверности моделей “случайный лес” и ФДО на базах данных различных программ натурных испытаний

Программы натурных испытаний типовых металлов ISO CORRAG, MICAT и РФ, результаты которых были объединены в БД INT и БД CON, были проведены в разные годы в различных климатических регионах мира. Естественно, что БД отдельных испытательных программ существенно отличаются, и достоверность предсказаний $K_{1}^{{{\text{пр}}}}$ может быть различна. Необходимо проверить достоверность моделей RF1 и RF2 в случае их применения к БД различных испытательных программ. Как и в случае объединенных баз данных (п. 3.2 и 3.3), достоверность $K_{1}^{{{\text{пр}}}}$ по моделям RF сравнивали с точностью предсказаний $K_{1}^{{{\text{пр}}}}$, полученных при использовании ФДОС и ФДОН. ФДОС применяли для мест испытаний с любым типом атмосферы, ФДОН – только для континентальных мест.

БД ISO. В эту БД вошли 258 результатов испытаний с любым типом атмосферы. Для предсказаний К1 использовали RF1 и ФДОС. Соответствие фактических и прогнозных значений К1 представлено на рис. 3. Статистические критерии достоверности моделей даны в табл. 7. Ошибки MAPE и SMAPE для модели RF1 более, чем в 2 раза меньше, чем для ФДОС. 90% предсказанных моделью RF1 значений $K_{1}^{{{\text{пр}}}}$ укладываются в допустимый интервал ошибок (табл. 7). Величины $R_{{{\text{new}}}}^{2}$ для обеих моделей примерно одинаковы и близки к нулю.

Рис. 3.

БД ISO. Соответствие между экспериментальными и предсказанными значениями К1 по RF1 (а) и ФДОС (б).

Таблица 7.  

Значения статистических критериев достоверности моделей, примененных к различным базам данных

БД Модель Число точек Признаки $R_{{{\text{new}}}}^{2}$ MAPE, % SMAPE, % PSV, %
ISO RF1 258 T, RH, [SO2], [Cl] 0.0004 44 29 90
ФДОС 258 0.002 156 71 53
MICAT RF1 129 T, RH, [SO2], [Cl] 0.63 57 40 75
ФДОС 129 0.75 85 65 58
RF2 40 T, RH, [SO2], Prec 0.20 46 36 85
ФДОН 40 0.31 66 56 58
RUS RF1 38 T, RH, [SO2], [Cl] 0.0008 37 25 90
ФДОС 38 0.94 56 83 39
RF2 12 T, RH, [SO2], Prec 0.15 11 12 100
ФДОН 12 0.0001 24 21 92

БД MICAT. Статистические критерии были рассчитаны для всей базы данных проекта MICAT (129 объектов) по моделям RF1 и ФДОС и только для континентальных мест испытаний (40 объектов) по моделям RF2 и ФДОН (табл. 7). Соответствие фактических и прогнозных значений К1 представлено на рис. 4. Все критерии достоверности модели RF1 для БД MICAT несколько хуже, чем для БД ISO (табл. 7). Однако, модель RF1 дает более точные предсказания К1 в местах испытаний проекта MICAT, чем ФДОС: ошибка MAPE и SMAPE меньше, а коэффициент PSV – больше. Для континентальной выборки БД MICAT статистические критерии достоверности модели RF2 также лучше, чем для ФДОН (табл. 7).

Рис. 4.

БД MICAT. Соответствие между экспериментальными и предсказанными значениями К1 по RF1 (а), ФДОС (б), RF2 (в), ФДОН (г).

БД RUS. Статистические критерии достоверности всех моделей были рассчитаны для полной базы данных (38 объектов) и континентальной выборки (12 объектов). Соответствие фактических и прогнозных значений К1 представлено на рис. 5. Для полной БД RUS точность прогноза К1 при использовании RF1 значительно выше, чем для ФДОС (рис. 5а, 5б). Результат прогноза по модели RF1 характеризуют меньшие значения MAPE и SMAPE, чем для ФДОС (табл. 7). Число предсказанных К1, которые имеют допустимую ошибку для обеих моделей отличается значительно: коэффициент PSV = 90 и 39% для RF1 и ФДОС, соответственно.

Рис. 5.

БД RUS. Соответствие между измеренными и предсказанными значениями по RF1 (а), ФДОС (б), RF2 (в), ФДОН (г).

Для континентальных объектов БД RUS предсказания К1 по обеим моделям сопоставимы и достаточно высоки (рис. 5в, 5г), что отражается в показателях достоверности моделей (табл. 7). Так, число предсказанных по ФДОН значений К1, которые имеют допустимую ошибку, равно 92%, что является лучшим результатом для функций “доза–ответ” для всех рассмотренных баз данных. Однако, все значения К1, рассчитанные по RF2 попадают в интервал допустимых ошибок (PSV = 100%). Величины MAPE и SMAPE при использовании модели RF2 равны 11 и 12%, соответственно, и примерно в 2 раза ниже, чем для модели ФДОН.

ЗАКЛЮЧЕНИЕ

С помощью алгоритма “случайный лес” получены две модели RF для предсказаний первогодовых коррозионных потерь (К1) алюминия в открытой атмосфере в различных регионах мира. Модель RF1 получена на объединенной базе данных, которая включает данные программ ISO CORRAG, MICAT и RUS, и предсказывает величины К1 по значениям T, RH, [SO2], [Cl]. Модель RF2 получена на объединенной базе данных, которая включает данные, полученные в континентальных местах испытаний программ MICAT и RUS, и предсказывает величины К1 по значениям T, RH, Prec, [SO2].

Достоверность предсказаний моделей RF оценивалась по совокупности статистических критериев: обобщенному коэффициенту детерминации $R_{{{\text{new}}}}^{2}$, МАРЕ, симметричной средней относительной ошибке SМАРЕ и коэффициенту CRV. Коэффициент CRV был предложен в этой работе и показывает долю предсказаний К1, относительная ошибка которых не выходит за интервал ошибок, допустимый в соответствии со стандартом [1].

Проведено сравнение точности предсказаний К1 по моделям RF и двум функциям “доза–ответ” (ФДО): ФДО стандарта [1] для всех типов атмосферы и новой ФДО [5] для не морской атмосферы. Показано, что для объединенных баз данных достоверность обоих моделей RF лучше, чем ФДО.

Сопоставление точности прогнозов коррозионных потерь по моделям RF и ФДО, проведенное на базах данных отдельных испытательных программ, подтвердило, что модели RF дают более точный прогноз.

Список литературы

  1. ISO 9223:2012(E). Corrosion of metals and alloys. Corrosivity of atmospheres. Classification, determination and estimation, International Standards Organization, Geneve, 2012.

  2. ISO 9224:2012(E) Corrosion of metals and alloys. Corrosivity of atmospheres. Guiding values for the corrosivity categories, 2012.

  3. Panchenko Yu.M., Marshakov A.I. // Corr. Sci. 2016. V. 109. P. 217.

  4. Abramova M.G., Panchenko Y.M., Vetrova E.Y. et al. // Prot. Met. Phys. Chem. Surf. 2021. V. 57. № 7. P. 1272–1282.

  5. Panchenko Yu.M., Marshakov A.I., Nikolaeva L.A., Igonin T.N. // Civil Eng. J. 2020. V. 6. № 8. P. 1503.

  6. Knotkova D., Boschek P., Kreislova K. In Atmospheric Corrosion, Kirk W.W. and Lawson H.H., Eds., Philadelphia, PA, USA: American Soc. Test. Mater., 1995. P. 38.

  7. Morcillo M., In Atmospheric Corrosion, Kirk W.W. and Lawson H.H., Eds., Philadelphia, PA, USA: American Soc. Test. Mater. 1995. P. 257.

  8. Tidblad J., Kucera V., Mikhailov A.A., Henriksen J., Kreislova K., Yaites T., Stöckle B., Schreiner M. // Water, Air, and Soil Pollution. 2001. V. 130. P. 1457.

  9. Панченко Ю.М., Шувахина Л.А., Михайловский Ю.Н. // Защита металлов. 1982. Т. 18. С. 575.

  10. Panchenko Yu.M., Marshakov A.I., Nikolaeva L.A., Igonin T.N. // Corr. Eng. Sci. Tech. 2020. V. 55. № 8. P. 655.

  11. Breiman L. // Machine Learning. 2001. V. 45. P. 5.

  12. Zhi Y., Fu D., Zhang D., Yang T., Li X. // Metals. 2019. V. 9. № 3. P. 383.

  13. Yan L., Diao Y., Gao K. // Materials. 2020. V. 13. № 15. P. 3266.

  14. Zhi Y., Jin Z., Lu L., Yang T., Zhou D., Pei Z., Wu D., Fu D., Zhang D., Li X. // Corrosion Science. 2021. V. 178. № 109084.

  15. Panchenko Yu.M., Marshakov A.I., Bardin I.V., Shklyaev A.V. // Prot. Metals Phys. Chem. Surf. 2019. V. 55. №. 4. P. 753.

  16. Mikhailov A.A., Tidblad J., Kucera V. // Prot. Metals. 2004. V. 40. № 6. P. 541.

  17. Tidblad J., Kucera V., Mikhailov A.A., Knotkova D. In Outdoor Atmospheric Corrosion, Townsend H.E., Eds., West Conshohocken, PA, USA: American Soc. Test. Mater., 2002, p. 73.

  18. Panchenko Yu.M., Marshakov A.I., Nikolaeva L.A., Kovtanyuk V.V. // AIMS Materials Sci. 2018. V. 5. № 4. P. 624.

  19. Scikit-learn. Machine Learning in Python // https://scikit-learn.org/stable/index.html

  20. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

Дополнительные материалы отсутствуют.