Журнал вычислительной математики и математической физики, 2022, T. 62, № 4, стр. 597-615
Прямо-двойственный метод Ньютона с наискорейшим спуском для линейной задачи полуопределенного программирования. итерационный процесс
1 ФИЦ ИУ РАН
117333 Москва, ул. Вавилова, 40, Россия
2 МФТИ
141700 М. о., Долгопрудный, Институтский пер., 9, Россия
* E-mail: zhadan@ccas.ru
Поступила в редакцию 02.04.2021
После доработки 02.04.2021
Принята к публикации 16.12.2021
- EDN: XTKXZH
- DOI: 10.31857/S0044466922040135
Аннотация
Рассматривается прямо-двойственный метод Ньютона для решения линейной задачи полуопределенного программирования. При этом как прямые переменные, так и слабые двойственные переменные могут иметь неполный ранг и принадлежать границам допустимых множеств. Приводятся формулы для определения направлений перемещения, а также исследуются свойства этих направлений. Описывается способ выбора шагов перемещения, приводящий к уменьшению ранга симметризованного произведения прямой и слабой двойственной переменных. Библ. 16.
ВВЕДЕНИЕ
Настоящая статья является продолжением работы [1], в которой рассматривался прямо-двойственный метод Ньютона для решения линейной задачи полуопределенного программирования и были выведены уравнения для определения направлений перемещений. Основная особенность при получении данных уравнений заключалась в том, что точки, в которых они выводились, могли принадлежать границам допустимых множеств. В таких точках ньютоновская система линейных уравнений для определения направлений перемещений принимает специальный вид. Было показано, что в пространстве симметричных матриц можно выделить четыре подпространства, которым должны принадлежать данные перемещения.
Цель настоящей работы заключается в получении точных аналитических формул для ньютоновских направлений как в пространстве прямых переменных, так и в пространстве слабых двойственных переменных, а также в построении итерационного процесса. Исследуются свойства ньютоновских направлений, рассматривается вопрос о выборе шага перемещения. Показывается, что в ходе итерационного процесса ранг симметризованного произведения прямой переменной и слабой двойственной переменной может только уменьшаться. Данный ранг характеризует выполнение условия комплементарности, которое входит в условия оптимальности для линейных задач полуопределенного программирования.
Приведем некоторые обозначения, введенные ранее в [1] и используемые в данной работе. Ниже ${{\mathbb{S}}^{n}}$ – пространство симметричных матриц порядка $n$, и $\mathbb{S}_{ + }^{n}$ – конус положительно-полуопределенных матриц из ${{\mathbb{S}}^{n}}$. Конус $\mathbb{S}_{ + }^{n}$ самосопряженный и задает в ${{\mathbb{S}}^{n}}$ частичный порядок $ \succcurlyeq $, используя который будем писать $X \succcurlyeq 0$, если $X \in \mathbb{S}_{ + }^{n}$. Размерность пространства ${{\mathbb{S}}^{n}}$ равняется “треугольному” числу ${{n}^{\Delta }} = \frac{1}{2}n(n + 1)$.
Скалярное (внутреннее) произведение между матрицами $X \in {{\mathbb{S}}^{n}}$ и $Y \in {{\mathbb{S}}^{n}}$ определяется по Фробениусу: $X \bullet Y = {\text{tr}}\left( {{{X}^{{\text{т}}}}Y} \right)$. Обычное евклидово скалярное произведение в ${{\mathbb{R}}_{n}}$ обозначается с помощью угловых скобок. Символ ${{J}^{n}}$ обозначает множество индексов от $1$ до $n$. Через $X \circ Y$ обозначается симметризованное произведение между матрицами из ${{\mathbb{S}}^{n}}$, определяемое как $X \circ Y = \frac{1}{2}\left( {XY + YX} \right)$.
Линейная задача полуопределенного программирования ставится стандартным образом
(1)
$\min \;C \bullet X,\quad {{A}_{i}} \bullet X = {{b}^{i}},\quad i \in {{J}^{m}},\quad X \succcurlyeq 0.$(2)
$\max \langle b,u\rangle ,\quad Y = C - \sum\limits_{i = 1}^m {{{u}^{i}}} {{A}_{i}},\quad Y \succcurlyeq 0,$Пусть ${{\mathcal{F}}_{P}}$ и ${{\mathcal{F}}_{D}}$ – допустимые множества в задачах (1) и (2) соответственно. Если $X \in {{\mathcal{F}}_{P}}$ и $[u,Y] \in {{\mathcal{F}}_{D}}$ – решения (1) и (2), то они удовлетворяют системе равенств
(3)
$X \circ Y = 0,\quad {{A}_{i}} \bullet X = {{b}^{i}},\quad i \in {{J}^{m}},\quad Y = C - \sum\limits_{i = 1}^m {{{u}^{i}}} {{A}_{i}}.$(4)
$X \circ Y = 0,\quad {{A}_{i}} \bullet X = {{b}^{i}},\quad i \in {{J}^{m}},\quad {{K}_{j}} \bullet Y = {{c}^{j}},\quad j \in {{J}^{l}}.$1. НЬЮТОНОВСКАЯ СИСТЕМА В ВЕКТОРНОМ ВИДЕ
Пусть имеется допустимая пара $[X,Y] \in {{\mathbb{S}}^{n}} \times {{\mathbb{S}}^{n}}$. Это означает, что $X \succcurlyeq 0$, $Y \succcurlyeq 0$ и выполнены последние два равенства из (4). Считаем также, что пара $[X,Y]$ является согласованной, т.е. $X \circ Y \succcurlyeq 0$. Если для $[X,Y]$ первое равенство в (4) не выполняется, другими словами, пара не является комплементарной, то она неоптимальная, т.е. $X$ и $Y$ вместе с соответствующей двойственной переменной $u$ не являются решениями задач (1) и (2). В этом случае желательно перейти в новую допустимую согласованную пару $[\bar {X},\bar {Y}]$, используя для этой цели направления перемещения $\Delta X$ и $\Delta Y$. В качестве $\Delta X$ и $\Delta Y$ могут быть взяты ньютоновские направления, получающиеся из применения метода Ньютона для решения системы (4). В [1] построена специальная система линейных уравнений для нахождения таких $\Delta X$ и $\Delta Y$. Дадим ее краткое описание.
Для симметричной матрицы $X \circ Y$ имеет место разложение: $X \circ Y = UD(\lambda ){{U}^{{\text{т}}}}$, где $U$ – ортогональная матрица порядка $n$, $D(\lambda )$ – диагональная матрица с вектором собственных значений $X \circ Y$ на диагонали. Пусть ${{n}_{P}}$ – ранг матрицы $X \circ Y$ и пусть $\lambda = [{{\lambda }_{P}};{{\lambda }_{O}}]$, где ${{\lambda }_{P}}$ – ненулевые собственные значения, ${{\lambda }_{O}}$ – нулевые собственные значения. Тогда $U = [{{U}_{P}},{{U}_{O}}]$, где подматрица ${{U}_{P}}$ состоит из ${{n}_{P}}$ столбцов $U$.
Введем в рассмотрение еще три матрицы ${{U}_{B}}$, ${{U}_{N}}$ и ${{U}_{Z}}$, зависящие от образов матриц $X \in \mathbb{S}_{ + }^{n}$ и $Y \in \mathbb{S}_{ + }^{n}$, а также от их нуль-пространств. Матрица ${{U}_{B}}$ задает ортонормированный базис в пересечении образа матрицы $X$ с нуль-пространством матрицы $Y$. Соответственно, матрица ${{U}_{N}}$ задает ортонормированный базис в пересечении образа матрицы $Y$ с нуль-пространством матрицы $X$. Если пересечение нуль-пространств матриц $X$ и $Y$ имеет положительную размерность, то такие пары $[X,Y]$ называются особыми, в противном случае они называются неособыми. В неособых парах матрица ${{U}_{Z}}$ отсутствует. Неособая регулярная пара $[X,Y] \in \mathbb{S}_{ + }^{n} \times \mathbb{S}_{ + }^{n}$ – это такая пара, когда ${{U}_{O}} = \left[ {{{U}_{B}},{{U}_{N}}} \right]$. В особой регулярной паре ${{U}_{O}} = \left[ {{{U}_{B}},{{U}_{N}},{{U}_{Z}}} \right]$.
Предположим сначала для простоты, что неоптимальная пара $[X,Y] \in \mathbb{S}_{ + }^{n} \times \mathbb{S}_{ + }^{n}$ регулярная и неособая. В этом случае ${{\lambda }_{P}}{{ > 0}_{{{{n}_{P}}}}}$. При этих предположениях, как показано в [1], матрицы ${{X}_{U}} = {{U}^{{\text{т}}}}XU$ и ${{Y}_{U}} = {{U}^{{\text{т}}}}YU$ имеют блочно-диагональный вид
(5)
${{X}_{U}} = \left[ {\begin{array}{*{20}{c}} {{{X}_{{{{U}_{P}}}}}}&0&0 \\ 0&{{{X}_{{{{U}_{B}}}}}}&0 \\ 0&0&{{{X}_{{{{U}_{N}}}}}} \end{array}} \right],\quad {{Y}_{U}} = \left[ {\begin{array}{*{20}{c}} {{{Y}_{{{{U}_{P}}}}}}&0&0 \\ 0&{{{Y}_{{{{U}_{B}}}}}}&0 \\ 0&0&{{{Y}_{{{{U}_{N}}}}}} \end{array}} \right]$(6)
$\Delta {{X}_{U}} = \left[ {\begin{array}{*{20}{c}} {\Delta {{X}_{{{{U}_{P}}}}}}&0&0 \\ 0&{\Delta {{X}_{{{{U}_{B}}}}}}&0 \\ 0&0&{\Delta {{X}_{{{{U}_{N}}}}}} \end{array}} \right],\quad \Delta {{Y}_{U}} = \left[ {\begin{array}{*{20}{c}} {\Delta {{Y}_{{{{U}_{P}}}}}}&0&0 \\ 0&{\Delta {{Y}_{{{{U}_{B}}}}}}&0 \\ 0&0&{\Delta {{Y}_{{{{U}_{N}}}}}} \end{array}} \right].$В случае блочно-диагональных приращений (6) из ньютоновской системы уравнений для равенств (4) следует, что $\Delta {{X}_{{{{U}_{N}}}}}{{ = 0}_{{{{n}_{N}}}}}$ и $\Delta {{Y}_{{{{U}_{B}}}}}{{ = 0}_{{{{n}_{B}}}}}$, а сама система сводится к следующей:
(7)
$\begin{gathered} {{Y}_{{{{U}_{P}}}}} \circ \Delta {{X}_{{{{U}_{P}}}}} + {{X}_{{{{U}_{P}}}}} \circ \Delta {{Y}_{{{{U}_{P}}}}} = - D({{\lambda }_{P}}), \\ {{A}_{{i,{{U}_{P}}}}} \bullet \Delta {{X}_{{{{U}_{P}}}}} + {{A}_{{i,{{U}_{B}}}}} \bullet \Delta {{X}_{{{{U}_{B}}}}} = 0,\quad i \in {{J}^{m}}, \\ {{K}_{{j,{{U}_{P}}}}} \bullet \Delta {{Y}_{{{{U}_{P}}}}} + {{K}_{{j,{{U}_{N}}}}} \bullet \Delta {{Y}_{{{{U}_{N}}}}} = 0,\quad j \in {{J}^{{{{l}_{U}}}}}. \\ \end{gathered} $Чтобы решить систему линейных матричных уравнений (7), представим ее в векторном виде. Для этого введем дополнительные обозначения.
Пусть vec M обозначает вектор длины ${{n}^{2}}$, являющийся прямой суммой столбцов квадратной матрицы $M$ порядка $n$. В случае симметричной матрицы $M$ будем пользоваться также вектором ${\text{svec}}\,M$ длины ${{n}^{\Delta }}$. В данный вектор в отличие от $\operatorname{vec} M$ помещаются столбцы не полностью, а только их части, начинающиеся с главного элемента, причем все элементы, не стоящие на диагонали матрицы $M$, при помещении в ${\text{svec}}\,M$ умножаются на $\sqrt 2 $.
Для перехода от $\operatorname{vec} M$ к $\operatorname{svec} M$ и для обратного перехода нам потребуются специальные элиминационные и дуплицирующие матрицы (см. [2], [3]), которые обозначим как ${{\tilde {\mathcal{L}}}_{n}}$ и ${{\tilde {\mathcal{D}}}_{n}}$ соответственно. Обе матрицы ${{\tilde {\mathcal{L}}}_{n}}$ и ${{\tilde {\mathcal{D}}}_{n}}$ являются матрицами полного ранга и имеют соответственно размеры ${{n}^{\Delta }} \times {{n}^{2}}$ и ${{n}^{2}} \times {{n}^{\Delta }}$. Если $M$ – симметричная матрица порядка $n$, то
Матрице $M \in {{\mathbb{S}}^{n}}$ можно поставить в соответствие ее кронекеровскую сумму ${{M}^{ \otimes }}$, определяемую как
где знак $ \otimes $ между матрицами обозначает их произведение по Кронекеру. Матрица ${{M}^{ \otimes }}$ симметричная и имеет порядок ${{n}^{2}}$. Ниже через ${{\tilde {M}}^{ \otimes }}$ обозначается квадратная матрица ${{\tilde {\mathcal{L}}}_{n}}{{M}^{ \otimes }}{{\tilde {\mathcal{D}}}_{n}}$, имеющая уже порядок ${{n}^{\Delta }}$. Если $M$ – неособая матрица, то матрицы ${{M}^{ \otimes }}$ и ${{\tilde {M}}^{ \otimes }}$ также неособые. Более того, неособой оказывается и матрица ${{\tilde {\mathcal{L}}}_{n}}(M \otimes M){{\tilde {\mathcal{D}}}_{n}}$, причем для обратной матрицы справедлива формула (см. [2])(8)
${{\left[ {{{{\tilde {\mathcal{L}}}}_{n}}(M \otimes M){{{\tilde {\mathcal{D}}}}_{n}}} \right]}^{{ - 1}}} = {{\tilde {\mathcal{L}}}_{n}}\left( {{{M}^{{ - 1}}} \otimes {{M}^{{ - 1}}}} \right){{\tilde {\mathcal{D}}}_{n}}.$(9)
$\operatorname{vec} {{M}_{1}}{{M}_{2}}{{M}_{3}} = (M_{3}^{{\text{т}}} \otimes {{M}_{1}})\operatorname{vec} {{M}_{2}}.$С помощью формулы (9) получаем, что равенство ${{X}_{{{{U}_{P}}}}} \circ {{Y}_{{{{U}_{P}}}}} = D({{\lambda }_{P}})$ может быть записано следующим образом:
(10)
$\operatorname{svec} \left( {{{X}_{{{{U}_{P}}}}} \circ {{Y}_{{{{U}_{P}}}}}} \right) = \tilde {X}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} {{Y}_{{{{U}_{P}}}}}\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} {{X}_{{{{U}_{P}}}}} = \operatorname{svec} D({{\lambda }_{P}}).$Если матрицы $\tilde {X}_{{{{U}_{P}}}}^{ \otimes }$ и $\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }$ неособые, то неформально через $\tilde {X}_{{{{U}_{P}}}}^{{ - \otimes }}$ и $\tilde {Y}_{{{{U}_{P}}}}^{{ - \otimes }}$ будем обозначать их обратные матрицы, т.е. ${{\left( {\tilde {X}_{{{{U}_{P}}}}^{ \otimes }} \right)}^{{ - 1}}}$ и ${{\left( {\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }} \right)}^{{ - 1}}}$ соответственно. Обозначим также для упрощения записи ${{\mathcal{G}}_{P}} = \tilde {Y}_{{{{U}_{P}}}}^{{ - \otimes }}\tilde {X}_{{{{U}_{P}}}}^{ \otimes }$. Тогда на основании (10) получаем
(11)
$\operatorname{svec} {{X}_{{{{U}_{P}}}}} = {{\mathcal{G}}_{P}}\operatorname{svec} {{Y}_{{{{U}_{P}}}}} = \tilde {Y}_{{{{U}_{P}}}}^{{ - \otimes }}\operatorname{svec} D({{\lambda }_{P}}),$(12)
$\operatorname{svec} {{Y}_{{{{U}_{P}}}}} = \mathcal{G}_{P}^{{ - 1}}\operatorname{svec} {{X}_{{{{U}_{P}}}}} = \tilde {X}_{{{{U}_{P}}}}^{{ - \otimes }}\operatorname{svec} D({{\lambda }_{P}}).$Пусть $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}$ и $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ – матрицы, строками которых являются соответственно векторы ${\text{svec}}\;{{A}_{{i,{{U}_{P}}}}}$ и ${\text{svec}}\;{{A}_{{i,{{U}_{B}}}}}$, $i \in {{J}^{m}}$. Аналогично, $\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}}$ и $\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}$ – матрицы, строками которых являются соответственно векторы $\operatorname{svec} {{K}_{{j,{{U}_{P}}}}}$ и $\operatorname{svec} {{K}_{{j,{{U}_{N}}}}}$, $j \in {{J}^{{{{l}_{U}}}}}$. Тогда, используя равенства
(13)
$\operatorname{svec} \left( {{{Y}_{{{{U}_{P}}}}} \circ \Delta {{X}_{{{{U}_{P}}}}}} \right) = \tilde {Y}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} \Delta {{X}^{{{{U}_{P}}}}},\quad \operatorname{svec} \left( {{{X}_{{{{U}_{P}}}}} \circ \Delta {{Y}_{{{{U}_{P}}}}}} \right) = \tilde {X}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}},$(14)
$\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} + \tilde {X}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} = - \operatorname{svec} D({{\lambda }_{P}}),$(15)
$\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} + \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}}{{ = 0}_{m}},$(16)
$\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} + \mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}\operatorname{svec} \Delta {{Y}_{{{{U}_{N}}}}}{{ = 0}_{{{{l}_{U}}}}}.$Обозначим через $\Psi $ матрицу системы (14)–(16), через $f$ – ее правую часть, т.е. положим
В [1] дано определение невырожденной пары $[X,Y]$, где $X \in \mathbb{S}_{U}^{n}$, $Y \in \mathbb{S}_{U}^{n}$. В невырожденной паре $[X,Y]$ строки матриц $\left[ {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}},\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right]$ и $\left[ {\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}},\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}} \right]$ линейно независимы. Более того, пара $[X,Y]$ является невырожденной в том и только в том случае, когда выполняются неравенства $m \geqslant n_{B}^{\Delta } \geqslant m - n_{P}^{\Delta }$. Если ${{n}_{B}} > 0$, то матрицы ${{A}_{{i,{{U}_{B}}}}}$, $i \in {{J}^{m}}$, порождают все пространство ${{\mathbb{S}}^{{{{n}_{B}}}}}$. Аналогично, если ${{n}_{N}} > 0$, то матрицы ${{K}_{{j,{{U}_{N}}}}}$, $j \in {{J}^{{{{l}_{U}}}}}$, порождают все пространство ${{\mathbb{S}}^{{{{n}_{N}}}}}$.
Утверждение 1. Пусть допустимая пара $[X,Y] \in \mathbb{S}_{U}^{n} \times \mathbb{S}_{U}^{n}$ регулярная и согласованная. Пусть, кроме того, она является невырожденной парой. Тогда матрица $\Psi $ неособая.
Доказательство. Так как при сделанных предположениях матрицы ${{X}_{{{{U}_{P}}}}}$ и ${{Y}_{{{{U}_{P}}}}}$, имеющие порядок ${{n}_{P}}$, неособые, то матрицы $\tilde {X}_{{{{U}_{P}}}}^{ \otimes }$ и $\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }$ также неособые порядка $n_{P}^{\Delta }$. Учитывая это, умножим первую строку матрицы $\Psi $ на матрицу $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\tilde {Y}_{{{{U}_{P}}}}^{{ - \otimes }}$ и вычтем ее из второй строки. В результате приходим к матрице
В случае, когда ${{n}_{B}} = 0$ и, следовательно, $n_{B}^{\Delta } = 0$, матрица ${{\Psi }_{2}}$ имеет вид
Обратимся к линейной однородной системе
Пусть $\mu = [{{\mu }_{P}};{{\mu }_{N}}]$. Тогда, как следует из уравнения $\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}}{{\mu }_{P}} + \mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}{{\mu }_{N}} = 0$, вектор $\mu $ должен принадлежать ортогональному дополнению к подпространству, порожденному строками матрицы $\left[ {K_{{{\text{svec}}}}^{{{{U}_{P}}}},K_{{{\text{svec}}}}^{{{{U}_{N}}}}} \right]$. Но данное ортогональное дополнение согласно определению матриц ${{K}_{{j,{{U}_{P}}}}}$ и ${{K}_{{j,{{U}_{N}}}}}$, $j \in {{J}^{{{{l}_{U}}}}}$, порождается строками матрицы $\left[ {A_{{{\text{svec}}}}^{{{{U}_{P}}}},A_{{{\text{svec}}}}^{{{{U}_{N}}}}} \right]$. Поэтому решение $\mu $ должно иметь видПерейдем теперь к рассмотрению общего случая, когда ${{n}_{B}} > 0$. Так как пара $[X,Y]$ невырожденная, то выполняется неравенство $n_{B}^{\Delta } \leqslant m$.
Если $n_{B}^{\Delta } = m$, то матрица $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ квадратная порядка $m$. Опять же в силу невырожденности пары $[X,Y]$ матрицы ${{A}_{{i,{{U}_{B}}}}}$, $i \in {{J}^{m}}$, порождают все пространство ${{\mathbb{S}}^{{{{n}_{B}}}}}$. Поэтому матрица $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$, стоящая в левом верхнем углу ${{\Psi }_{2}}$, обязательно должна быть неособой. Кроме того, матрица $\left[ {\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}},\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}} \right]$, стоящая в нижней строке ${{\Psi }_{2}}$, также оказывается квадратной порядка ${{l}_{U}} = n_{P}^{\Delta } + n_{N}^{\Delta }$, причем в силу линейной независимости матриц $K_{j}^{{{{U}_{N}}}}$, $j \in {{J}^{{{{l}_{U}}}}}$, следующей из невырожденности пары $[X,Y]$, она неособая. Поэтому вся матрица ${{\Psi }_{2}}$, будучи квадратной и имеющей порядок $n_{P}^{\Delta } + n_{B}^{\Delta } + n_{N}^{\Delta }$, оказывается неособой.
Рассмотрим наконец случай, когда $0 < n_{B}^{\Delta } < m$, и покажем, что однородная система уравнений ${{\Psi }_{2}}\mu {{ = 0}_{{{{n}_{U}}}}}$ с квадратной матрицей ${{\Psi }_{2}}$ порядка ${{n}_{U}}$ также может иметь только тривиальное решение.
Пусть ${{d}_{B}} = m - n_{B}^{\Delta } > 0$. Разобьем вектор $\mu $ на три подвектора, а именно, $\mu = \left[ {{{\mu }_{B}};{{\mu }_{P}};{{\mu }_{N}}} \right] \in {{\mathbb{R}}^{{{{n}_{U}}}}}$. Система ${{\Psi }_{2}}\mu = 0$ распадается на две подсистемы:
(18)
$\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}{{\mu }_{B}} - \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}{{\mathcal{G}}_{P}}{{\mu }_{P}}{{ = 0}_{m}},$(19)
$\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}}{{\mu }_{P}} + \mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}{{\mu }_{N}}{{ = 0}_{{{{l}_{U}}}}}.$Пусть ${{\mathcal{L}}_{B}}$ – подпространство в ${{\mathbb{R}}^{m}}$, порожденное столбцами матрицы $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ и пусть ${{E}_{B}}$ – матрица некоторого базиса в подпространстве $\mathcal{L}_{B}^{ \bot }$, являющeмся ортогональным дополнением ${{\mathcal{L}}_{B}}$. Поскольку опять в силу невырожденности пары $[X,Y]$ матрицы ${{A}_{{i,{{U}_{B}}}}}$, $i \in {{J}^{m}}$, порождают пространство ${{\mathbb{S}}^{{{{n}_{B}}}}}$, то матрица $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ имеет полный ранг, равный $n_{B}^{\Delta }$. Поэтому у матрицы ${{E}_{B}}$ размер $m \times {{d}_{B}}$.
Покажем, что общее решение подсистемы (19) имеет вид
Число столбцов матрицы ${{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}{{E}_{B}}$ не больше числа строк. Действительно, иначе выполнялось бы неравенство ${{d}_{B}} = m - n_{B}^{\Delta } > n_{P}^{\Delta }$ или $m > n_{B}^{\Delta } + n_{P}^{\Delta }$, которое противоречит неравенству $m \leqslant n_{B}^{\Delta } + n_{P}^{\Delta }$, следующему из предположения о невырожденности пары $[X,Y]$. Таким образом, ранг матрицы ${{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}{{E}_{B}}$ не превышает ${{d}_{B}}$. На самом деле, он равен ${{d}_{B}}$. Пусть это не так, тогда ${{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}{{E}_{B}}h{{ = 0}_{{n_{P}^{\Delta }}}}$ для некоторого ненулевого вектора $h \in {{\mathbb{R}}^{{{{d}_{B}}}}}$. Но это означает, что ненулевой вектор ${{E}_{B}}h$, принадлежащий нуль-пространству матрицы ${{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right)}^{{\text{т}}}}$, принадлежит одновременно нуль-пространству матрицы ${{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}$. Последнее невозможно, из-за того, что в силу предположения о невырожденности пары $[X,Y]$ строки матрицы $\left[ {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}},\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right]$ линейно независимы.
Подставим найденное выражение для ${{\mu }_{P}}$ в подсистему (18), в результате получаем следующее уравнение:
(20)
$\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}{{\mu }_{B}} - \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}{{\mathcal{G}}_{P}}{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}{{E}_{B}}\nu {{ = 0}_{m}},$Мы установили, что ${{\mu }_{P}}{{ = 0}_{{n_{P}^{\Delta }}}}$ и ${{\mu }_{N}}{{ = 0}_{{n_{N}^{\Delta }}}}$. Кроме того, из (20) в силу линейной независимости столбцов матрицы $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ получаем, что ${{\mu }_{B}}{{ = 0}_{{n_{B}^{\Delta }}}}$. Таким образом, однородная система ${{\Psi }_{2}}\mu {{ = 0}_{{{{n}_{U}}}}}$ имеет только нулевое решение. Следовательно, матрица ${{\Psi }_{2}}$ неособая. Утверждение доказано.
2. РЕШЕНИЕ НЬЮТОНОВСКОЙ СИСТЕМЫ
Рассмотрим разные случаи решения системы (14)–(16) в зависимости от ранга ${{n}_{B}}$ матрицы ${{U}_{B}}$. Предполагаем, что текущая допустимая пара $[X,Y] \in \mathbb{S}_{U}^{n} \times \mathbb{S}_{U}^{n}$ является невырожденной, а также регулярной и согласованной.
Случай 1: $n_{B}^{\Delta } = m$. При выполнении этого равенства матрица $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ квадратная порядка $m$, причем из-за предположения о невырожденности пары $[X,Y]$ данная матрица неособая. Имеем
(21)
$\Delta {{Y}_{U}} = - \sum\limits_{i = 1}^m \Delta {{u}^{i}}\left[ {\begin{array}{*{20}{c}} {{{A}_{{i,{{U}_{P}}}}}}&0&0 \\ 0&{{{A}_{{i,{{U}_{B}}}}}}&0 \\ 0&0&{{{A}_{{i,{{U}_{N}}}}}} \end{array}} \right]$Так как $D({{\lambda }_{P}}) = {{X}_{{{{U}_{P}}}}} \circ {{Y}_{{{{U}_{P}}}}}$, то в силу (10) $\operatorname{svec} D({{\lambda }_{P}}) = \tilde {Y}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} {{X}_{{{{U}_{P}}}}}$. Поэтому выражение для $\operatorname{svec} \Delta {{X}^{{{{U}_{P}}}}}$ упрощается
Зная ${\text{svec}}\;\Delta {{X}_{{{{U}_{P}}}}}$, из второго уравнения (15) находим(23)
$\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}} = {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right)}^{{ - 1}}}\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} {{X}_{{{{U}_{P}}}}} = {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right)}^{{ - 1}}}b - \operatorname{svec} {{X}_{{{{U}_{B}}}}}.$Случай 2: $0 < n_{B}^{\Delta } < m$. При этом предположении матрица $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$ становится прямоугольной, причем число столбцов в ней меньше числа строк. Обозначим через $\mathcal{M}$ пространство столбцов матрицы $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$, через ${{\mathcal{M}}^{ \bot }}$ – его ортогональное дополнение. Пусть ${{E}_{B}}$ – матрица некоторого базиса в подпространстве ${{\mathcal{M}}^{ \bot }}$, она имеет размер $m \times {{d}_{B}}$, где ${{d}_{B}} = m - n_{B}^{\Delta }$. Так как, по-прежнему, $\Delta {{Y}_{{{{U}_{B}}}}}{{ = 0}_{{{{n}_{B}}{{n}_{B}}}}}$, то
(24)
$\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}{{E}_{B}}q,\quad \operatorname{svec} \Delta {{Y}_{{{{U}_{N}}}}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{N}}}}} \right)}^{{\text{т}}}}{{E}_{B}}q.$Умножим обе части уравнения (14) слева на матрицу $\tilde {Y}_{{{{U}_{P}}}}^{{ - \otimes }}$ и подставим в получившееся уравнение $\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}}$ из (24). В результате приходим к следующему выражению для $\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}$:
Подставляя найденное $\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}$ в уравнение (15) и умножая далее (15) слева на матрицу $E_{B}^{{\text{т}}}$, с учетом того, что $E_{B}^{{\text{т}}}\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}{{ = 0}_{{{{d}_{B}}}}}$, получаем
(25)
$\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} = \left[ {{{\mathcal{G}}_{P}}{{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}}^{{\text{т}}}}\tilde {\Phi }_{P}^{{ - 1}}\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}} - {{I}_{{n_{P}^{\Delta }}}}} \right]\operatorname{svec} {{X}_{{{{U}_{P}}}}}.$(26)
$\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} = {{\mathcal{G}}_{P}}{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}\tilde {\Phi }_{P}^{{ - 1}}b - \operatorname{svec} {{X}_{{{{U}_{P}}}}}.$Кроме того, из (15) получаем
(27)
$\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}} = {{\left[ {{{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right)}}^{{\text{т}}}}\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right]}^{{ - 1}}}{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right)}^{{\text{т}}}}\left( {{{I}_{m}} - {{\mathcal{H}}_{P}}\tilde {\Phi }_{P}^{{ - 1}}} \right)b - \operatorname{svec} {{X}_{{{{U}_{B}}}}}.$Далее, используя соотношение ${\text{svec}}\;\Delta {{Y}_{U}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{U}} \right)}^{{\text{т}}}}\Delta u$, вычисляем соответствующие направления в $Y$-пространстве:
(28)
$\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}\tilde {\Phi }_{P}^{{ - 1}}b,\quad \operatorname{svec} \Delta {{Y}_{{{{U}_{N}}}}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{N}}}}} \right)}^{{\text{т}}}}\tilde {\Phi }_{P}^{{ - 1}}b.$Случай 3: ${{n}_{B}} = 0$. При этом предположении $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} {{X}_{{{{U}_{P}}}}} = b$, а из уравнения (15) следует, что $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}{{ = 0}_{m}}$. Имеем $\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}\Delta u$ для некоторого $m$-мерного вектора $\Delta u$. Тогда уравнение (14) с учетом (11) сводится к
(29)
$\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} - {{\mathcal{G}}_{P}}{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}\Delta u = - \operatorname{svec} {{X}_{{{{U}_{P}}}}}.$(30)
$\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} = {{\mathcal{G}}_{P}}{{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}\mathcal{H}_{P}^{{ - 1}}b - \operatorname{svec} {{X}_{{{{U}_{P}}}}}.$С помощью соотношения $\operatorname{svec} \Delta {{Y}_{U}} = - {{\left( {\mathcal{A}_{{{\text{svec}}}}^{U}} \right)}^{{\text{т}}}}\Delta u$ определяем дополнительно
Нами получены формулы для приращений $\Delta X$ и $\Delta Y$, в которых присутствуют матрицы ${{A}_{{i,{{U}_{P}}}}}$ и ${{A}_{{i,{{U}_{B}}}}}$, $i \in {{J}^{m}}$. Можно также вывести формулы для приращений $\Delta X$ и $\Delta Y$, в которых присутствуют только матрицы ${{K}_{{j,{{U}_{P}}}}}$ и ${{K}_{{j,{{U}_{N}}}}}$, $j \in {{J}^{{{{l}_{U}}}}}$. При нахождении таких приращений вместо (15) используется уравнение (16).
3. СВОЙСТВА НЬЮТОНОВСКИХ НАПРАВЛЕНИЙ
Рассмотрим некоторые простейшие свойства, которыми обладают ньютоновские направления $\Delta {{X}_{U}}$ и $\Delta {{Y}_{U}}$. Эти свойства являются характерными для метода Ньютона, когда он используется для решения оптимизационных задач.
Утверждение 2. Направления $\Delta {{X}_{U}}$ и $\Delta {{Y}_{U}}$ ортогональны друг другу, т.е.
Доказательство. Равенство (31) в эквивалентной форме записывается в виде
(32)
$\left\langle {\operatorname{svec} \Delta {{X}_{U}},\operatorname{svec} \Delta {{Y}_{U}}} \right\rangle = 0.$(33)
$\left\langle {\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}},\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}}} \right\rangle = 0.$Покажем, что равенство (33) действительно имеет место, причем считаем, что направления ${\text{svec}}\;\Delta {{X}_{{{{U}_{P}}}}}$ и ${\text{svec}}\;\Delta {{Y}_{{{{U}_{P}}}}}$ берутся равными соответственно (26) и (28). Подставляя их, получаем
Введем в рассмотрение функцию
где $\alpha \geqslant 0$.Утверждение 3. Пусть $[X,Y]$ – регулярная допустимая согласованная пара. Тогда
Доказательство. Поскольку $X \succcurlyeq 0$, $Y \succcurlyeq 0$, то $\varphi (0) = X \bullet Y \geqslant 0$, причем равенство возможно только в том случае, когда пара $[X,Y]$ оптимальная. Имеем
Так как
Приращение $\operatorname{svec} \Delta {{Y}_{U}}$ связано с приращением двойственной переменной $\Delta u$ формулой: $\operatorname{svec} \Delta {{Y}_{U}} = - {{\left( {A_{{{\text{svec}}}}^{U}} \right)}^{{\text{т}}}}\Delta u$, причем, как следует из вышесказанного, имеем
(35)
$\Delta u = \left\{ \begin{gathered} {{0}_{m}},\quad n_{B}^{\Delta } = m, \hfill \\ {{E}_{B}}\Phi _{P}^{{ - 1}}E_{B}^{{\text{т}}}b,\quad 0 < n_{B}^{\Delta } < m, \hfill \\ \mathcal{H}_{P}^{{ - 1}}b,\quad {{n}_{B}} = 0. \hfill \\ \end{gathered} \right.$Условие ${{A}_{1}}$. Не существует матрицы $Z \in {{\mathcal{F}}_{A}}$ ранга $r$ такой, что ${{r}^{\Delta }} < m$.
Утверждение 4. Пусть $[X,Y] \in \mathbb{S}_{U}^{n} \times \mathbb{S}_{U}^{n}$ – регулярная допустимая согласованная пара. Пусть, кроме того, выполнено условие ${{A}_{1}}$. Тогда $\left\langle {b,\Delta u} \right\rangle \geqslant 0$, причем равенство возможно только при $\Delta u{{ = 0}_{m}}$.
Доказательство. Рассмотрим только общий случай формулы (35) для приращения $\Delta u$, когда $0 < n_{B}^{\Delta } < m$. Как уже отмечалось, третий случай $n_{B}^{\Delta } = m$ сводится ко второму, если в качестве матрицы ${{E}_{B}}$ взять единичную матрицу ${{I}_{m}}$. Имеем
(36)
$\left\langle {b,\Delta u} \right\rangle = \left\langle {E_{B}^{{\text{т}}}b,\Phi _{P}^{{ - 1}}E_{B}^{{\text{т}}}b} \right\rangle \geqslant 0,$Пусть $Z \in {{\mathbb{S}}^{n}}$ – матрица, у которой соответствующая матрица ${{Z}_{U}} = {{U}^{{\text{т}}}}ZU$ принадлежит пространству $\mathbb{S}_{U}^{n}$, является блочно-диагональной, причем с единственным ненулевым диагональным блоком ${{Z}_{{{{U}_{B}}}}}$. Считаем также, что $\operatorname{svec} {{Z}_{{{{U}_{B}}}}} = z$. Ранг $r$ матрицы $Z$ не больше, чем ${{n}_{B}}$, и на основании (37) получаем
Утверждение 5. Пусть $[X,Y]$ – регулярная допустимая согласованная пара. Тогда верно
причем равенство возможно только при $\Delta {{X}_{U}} = 0$.Доказательство. Рассмотрим общий случай, когда направления $\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}$ и $\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}}$ вычисляются согласно (26) и (28). Неравенство (38) перепишем в виде
(39)
$\left\langle {\operatorname{svec} {{C}_{U}},\operatorname{svec} \Delta {{X}_{U}}} \right\rangle \leqslant 0.$(40)
$\begin{array}{*{20}{c}} {\left\langle {\operatorname{svec} {{C}_{U}},\operatorname{svec} \Delta {{X}_{U}}} \right\rangle = \left\langle {\operatorname{svec} {{C}_{{{{U}_{P}}}}},\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}} \right\rangle + \left\langle {\operatorname{svec} {{C}_{{{{U}_{B}}}}},\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}}} \right\rangle .} \end{array}$Имеем c учетом того, что ${{Y}_{{{{U}_{B}}}}}{{ = 0}_{{{{n}_{B}}{{n}_{B}}}}}$,
(41)
$\operatorname{svec} {{C}_{{{{U}_{P}}}}} = \operatorname{svec} {{Y}_{{{{U}_{P}}}}} + {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}} \right)}^{{\text{т}}}}u,\quad \operatorname{svec} {{C}_{{{{U}_{B}}}}} = {{\left( {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}} \right)}^{{\text{т}}}}u.$(42)
$\left\langle {\operatorname{svec} {{C}_{{{{U}_{P}}}}},\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}} \right\rangle = \left\langle {\operatorname{svec} {{Y}_{{{{U}_{P}}}}},\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}} \right\rangle + \left\langle {u,\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}}} \right\rangle ,$Для второго слогаемого в (40) выполняется
(43)
$\left\langle {\operatorname{svec} {{C}_{{{{U}_{B}}}}},\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}}} \right\rangle = \left\langle {u,\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}}} \right\rangle .$На основании (26) имеем
Из (12) и (26) следует, что
Найдем собственные значения $\xi $ матрицы $Z$. Они удовлетворяют уравнению
(44)
$\left( {{{\mathcal{G}}_{P}}{{{(\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}})}}^{{\text{т}}}}\tilde {\Phi }_{P}^{{ - 1}}\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}{{\mathcal{G}}_{P}} - {{\mathcal{G}}_{P}}} \right)y = \xi y,$Предположим далее, что $E_{B}^{{\text{т}}}\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}y = 0$. В этом случае вектор $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}y$ принадлежит подпространству $\mathcal{M}$, являющемся пространством столбцов матрицы $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$, т.е. $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}y = \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}\rho $ для некоторого $\rho $.
Умножим скалярно равенство (44) на вектор $\mathcal{G}_{P}^{{ - T}}y$. Тогда
Таким образом, у матрицы $Z$ все собственные значения действительные и неположительные. Следовательно, неравенство $C \bullet \Delta X \leqslant 0$ действительно имеет место.
Равенство $C \bullet \Delta X = 0$ выполняется тогда и только тогда, когда $Zz = 0$. В этом случае
4. ИТЕРАЦИОННЫЙ ПРОЦЕСС И ВЫБОР ШАГА
Предположим, что задана начальная допустимая регулярная согласованная пара $\left[ {{{X}^{0}},{{Y}^{0}}} \right]$. Пусть, кроме того, на $k$-м шаге итерационного процесса найдена пара $\left[ {{{X}^{k}},{{Y}^{k}}} \right]$, также являющаяся допустимой регулярной согласованной парой. Обозначим через $U$ ортогональную матрицу порядка $n$ такую, что ${{X}^{k}} \circ {{Y}^{k}} = UD(\lambda ){{U}^{{\text{т}}}}$. Считаем, для определенности, что $U = [{{U}_{P}},{{U}_{B}},{{U}_{N}}]$, где ранги матриц ${{U}_{P}}$, ${{U}_{B}}$ и ${{U}_{N}}$ равны соответственно ${{n}_{P}}$, ${{n}_{B}}$ и ${{n}_{N}}$. Для вектора собственных значений $\lambda $ матрицы $U$ выполняется: $\lambda = [{{\lambda }_{P}};0]$, ${{\lambda }_{P}} \in {{\mathbb{R}}^{{{{n}_{P}}}}}$. Для ${{X}^{k}}$ и ${{Y}^{k}}$ справедливы представления
(45)
$X_{U}^{k} = \left[ {\begin{array}{*{20}{c}} {X_{{{{U}_{P}}}}^{k}}&0&0 \\ 0&{X_{{{{U}_{B}}}}^{k}}&0 \\ 0&0&{X_{{{{U}_{N}}}}^{k}} \end{array}} \right],\quad Y_{U}^{k} = \left[ {\begin{array}{*{20}{c}} {{{Y}_{{U_{P}^{k}}}}}&0&0 \\ 0&{Y_{{{{U}_{B}}}}^{k}}&0 \\ 0&0&{Y_{{{{U}_{N}}}}^{k}} \end{array}} \right],$Возьмем симметричные блочно-диагональные матрицы
Имея формулы для ньютоновских направлений $\Delta X_{U}^{k}$ и $\Delta Y_{U}^{k}$, построим итерационный процесс
(46)
$X_{U}^{{k + 1}} = X_{U}^{k} + {{\alpha }_{k}}\Delta X_{U}^{k},\quad Y_{U}^{{k + 1}} = Y_{U}^{k} + {{\alpha }_{k}}\Delta Y_{U}^{k},$Для того, чтобы $X_{U}^{{k + 1}} \succcurlyeq 0$, должны выполняться неравенства
(47)
$X_{{{{U}_{P}}}}^{{k + 1}} = X_{{{{U}_{P}}}}^{k} + {{\alpha }_{k}}\Delta X_{{{{U}_{P}}}}^{k} \succcurlyeq 0,\quad X_{{{{U}_{B}}}}^{{k + 1}} = X_{{{{U}_{P}}}}^{k} + {{\alpha }_{k}}\Delta X_{{{{U}_{B}}}}^{k} \succcurlyeq 0.$(48)
$X_{{{{U}_{P}}}}^{k} = {{F}_{{{{X}_{P}}}}}D({{\eta }_{{BN}}})F_{{{{X}_{P}}}}^{{\text{т}}},\quad X_{{{{U}_{B}}}}^{k} = D({{\eta }_{{BB}}}),$Пусть
Обе матрицы $D({{\eta }_{{BN}}})$ и ${{W}_{{{{X}_{P}}}}}$ являются симметричными, причем первая матрица положительно-определенная. Поэтому с помощью конгруэнтного преобразования обе они могут быть приведены к диагональному виду [16]. Пусть ${{\mathcal{T}}_{{{{X}_{P}}}}}$ – неособая матрица, осуществляющая такое преобразование:
(49)
$X_{{{{U}_{P}}}}^{{k + 1}} = {{F}_{{{{X}_{P}}}}}\mathcal{T}_{{{{X}_{P}}}}^{{ - 1}}\left[ {\left( {1 - {{\alpha }_{k}}} \right)D(\bar {e}) + {{\alpha }_{k}}D({{\sigma }_{P}})} \right]{{\mathcal{T}}_{{{{X}_{P}}}}}F_{{{{X}_{P}}}}^{{\text{т}}}.$(50)
$X_{{{{U}_{B}}}}^{{k + 1}} = \mathcal{T}_{{{{X}_{B}}}}^{{ - 1}}\left[ {\left( {1 - {{\alpha }_{k}}} \right)D(\bar {e}) + {{\alpha }_{k}}D({{\sigma }_{B}})} \right]{{\mathcal{T}}_{{{{X}_{B}}}}},$Обратимся ко второму рекуррентному соотношению из (46). Наряду с (47) должны выполняться соотношения
Проведем с помощью неособых матриц ${{\mathcal{T}}_{{{{Y}_{P}}}}}$ и ${{\mathcal{T}}_{{{{Y}_{N}}}}}$ конгруэнтные преобразования:
Пусть ${{Z}^{k}} = {{X}^{k}} \circ {{Y}^{k}}$. Из разложения ${{Z}^{k}} = {{U}_{P}}D({{\lambda }_{P}})U_{P}^{{\text{т}}}$ и равенства
следует, что $\Delta Z_{{{{U}_{P}}}}^{k} = U_{P}^{{\text{т}}}\Delta {{Z}^{k}}{{U}_{P}} = - D({{\lambda }_{P}})$. Поэтому ${{Z}^{k}} + {{\alpha }_{k}}\Delta {{Z}^{k}} \succcurlyeq 0$ для $0 \leqslant {{\alpha }_{k}} \leqslant 1$.На основании вышесказанного приходим к следующему результату.
Утверждение 6. Пусть $0 \leqslant {{\alpha }_{k}} \leqslant 1$. Тогда
Определение 1. $k$-ю итерацию назовем активной, если $\operatorname{rank} {{Z}^{{k + 1}}} < \operatorname{rank} {{Z}^{k}}$.
Так как допустимая пара $[X,Y]$ является оптимальной, если ${\text{rank}}\;X \circ Y = 0$, то в случае, когда метод находит решение задач (1) и (2), то он находит это решение за не более чем $n$ активных итераций.
Согласно утверждению 7, если пара $\left[ {{{X}^{k}},{{Y}^{k}}} \right]$ была допустимой, регулярной, согласованной и неособой, то следующая пара $\left[ {{{X}^{{k + 1}}},{{Y}^{{k + 1}}}} \right]$ является допустимой, регулярной и согласованной. Однако она может оказаться особой. В этом случае, следует решить вспомогательную линейную полуопределенную задачу дополнительности, о которой пойдет речь в следующем разделе.
В заключение данного раздела рассмотрим вопрос о матрице $\tilde {\Phi }_{P}^{{ - 1}}$. Чтобы ее вычислить, надо знать матрицу ${{\mathcal{G}}_{P}} = \tilde {Y}_{{{{U}_{P}}}}^{{ - \otimes }}\tilde {X}_{{{{U}_{P}}}}^{ \otimes }$. Найдем выражение для $Y_{{{{U}_{P}}}}^{{ - \otimes }}$.
Матрица $\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }$ представима в виде
(51)
${{\left( {{{F}_{{{{Y}_{P}}}}}D({{\theta }_{{NB}}})F_{{{{Y}_{P}}}}^{{\text{т}}}} \right)}^{ \otimes }} = ({{F}_{{{{Y}_{P}}}}} \otimes {{F}_{{{{Y}_{P}}}}}){{D}^{ \otimes }}({{\theta }_{{NB}}})\left( {F_{{{{Y}_{P}}}}^{{\text{т}}} \otimes F_{{{{Y}_{P}}}}^{{\text{т}}}} \right),$Воспользуемся далее формулами, имеющими место для любой квадратной матрицы $M$ порядка ${{n}_{P}}$ (см. [2]):
(52)
${{\tilde {\mathcal{D}}}_{{{{n}_{P}}}}}{{\tilde {\mathcal{L}}}_{{{{n}_{P}}}}}(M \otimes M){{\tilde {\mathcal{D}}}_{{{{n}_{P}}}}} = (M \otimes M){{\tilde {\mathcal{D}}}_{{{{n}_{P}}}}},$(53)
${{\tilde {\mathcal{D}}}_{{{{n}_{P}}}}}{{\tilde {\mathcal{L}}}_{{{{n}_{P}}}}}{{M}^{ \otimes }}{{\tilde {\mathcal{D}}}_{{{{n}_{P}}}}} = {{M}^{ \otimes }}{{\tilde {\mathcal{D}}}_{{{{n}_{P}}}}}.$5. ВСПОМОГАТЕЛЬНАЯ ЗАДАЧА ДОПОЛНИТЕЛЬНОСТИ
Полученные в разд. $2$ ньютоновские направления $\Delta {{X}_{U}}$ и $\Delta {{Y}_{U}}$ вычислялись в парах $[X,Y]$, которые являлись неособыми, т.е. пересечение нуль-пространств матриц $X$ и $Y$ имело нулевую размерность. Предположим, теперь, что пара $[X,Y]$ особая, в таких парах размерность указанного подпространства положительная. Предполагаем также, что $U = [{{U}_{P}},{{U}_{B}},{{U}_{N}},{{U}_{Z}}]$ и ранг матрицы ${{U}_{Z}}$ равен ${{n}_{Z}} > 0$.
Ньютоновская система (7) в особой паре видоизменяется
(54)
$\begin{gathered} {{Y}_{{{{U}_{P}}}}} \circ \Delta {{X}_{{{{U}_{P}}}}} + {{X}_{{{{U}_{P}}}}} \circ \Delta {{Y}_{{{{U}_{P}}}}} = - D({{\lambda }_{P}}), \\ {{A}_{{i,{{U}_{P}}}}} \bullet \Delta {{X}_{{{{U}_{P}}}}} + {{A}_{{i,{{U}_{B}}}}} \bullet \Delta {{X}_{{{{U}_{B}}}}} + {{A}_{{i,{{U}_{Z}}}}} \bullet \Delta {{X}_{{{{U}_{Z}}}}} = 0,\quad i \in {{J}^{m}}, \\ {{K}_{{j,{{U}_{P}}}}} \bullet \Delta {{Y}_{{{{U}_{P}}}}} + {{K}_{{j,{{U}_{N}}}}} \bullet \Delta {{Y}_{{{{U}_{N}}}}} + {{K}_{{j,{{U}_{Z}}}}} \bullet \Delta {{Y}_{{{{U}_{Z}}}}} = 0,\quad j \in {{J}^{{{{l}_{U}}}}}. \\ \end{gathered} $(55)
$\tilde {Y}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} + \tilde {X}_{{{{U}_{P}}}}^{ \otimes }\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} = - \operatorname{svec} D({{\lambda }_{P}}),$(56)
$\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{P}}}}} + \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{B}}}}} + \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{Z}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{Z}}}}}{{ = 0}_{m}},$(57)
$\mathcal{K}_{{{\text{svec}}}}^{{{{U}_{P}}}}\operatorname{svec} \Delta {{Y}_{{{{U}_{P}}}}} + \mathcal{K}_{{{\text{svec}}}}^{{{{U}_{N}}}}\operatorname{svec} \Delta {{Y}_{{{{U}_{N}}}}} + \mathcal{K}_{{{\text{svec}}}}^{{{{U}_{Z}}}}\operatorname{svec} \Delta {{Y}_{{{{U}_{Z}}}}}{{ = 0}_{{{{l}_{U}}}}},$Система (55)–(57) недоопределена и, следовательно, имеет целое множество решений. Зафиксируем $\operatorname{svec} \Delta {{X}_{{{{U}_{Z}}}}}$ и $\operatorname{svec} \Delta {{Y}_{{{{U}_{Z}}}}}$. Тогда решение системы относительно остальных переменных единственное и может быть получено аналогично тому, как это делается в разд. 2. При этом выражения для $\Delta {{X}_{{{{U}_{P}}}}}$, $\Delta {{X}_{{{{U}_{B}}}}}$, $\Delta {{Y}_{{{{U}_{P}}}}}$ и $\Delta {{Y}_{{{{U}_{N}}}}}$ полностью сохраняются с единственной заменой $b$ на ${{b}_{1}} = b - \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{Z}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{Z}}}}}$, т.е. становятся зависимыми от ${\text{svec}}\;\Delta {{X}_{{{{U}_{Z}}}}}$.
Пусть $\Delta {{X}_{{{{U}_{Z}}}}}$ и $\Delta {{Y}_{{{{U}_{Z}}}}}$ – матрицы, которым соответствуют векторы $\operatorname{svec} \Delta {{X}_{{{{U}_{Z}}}}}$ и ${\text{svec}}\;\Delta {{Y}_{{{{U}_{Z}}}}}$. Распорядимся приращением $\Delta {{X}_{{{{U}_{Z}}}}}$ таким образом, чтобы
Обозначим через ${{\mathcal{A}}_{{{{U}_{Z}}}}}$ матрицу ${{\mathcal{A}}_{{{{U}_{Z}}}}} = \left[ {{{A}_{{1,{{U}_{Z}}}}};\; \ldots ;\;{{A}_{{m,{{U}_{Z}}}}}} \right]$. Здесь, как и в случае с векторами, знак точки с запятой между матрицами означает, что эти матрицы помещаются одна под другой в виде матрицы-столбца. Под ${{\mathcal{A}}_{{{{U}_{Z}}}}} \bullet \Delta {{X}_{{{{U}_{Z}}}}}$ будем понимать $m$-мерный вектор
Согласно своему определению
Теперь для $\Delta u$ при $0 \leqslant n_{B}^{\Delta } < m$ выполняется(58)
$\Delta {{Y}_{{{{U}_{Z}}}}} = - \sum\limits_{i = 1}^m {{{{\left( {\tilde {\Phi }_{P}^{{ - 1}}b} \right)}}^{i}}} {{A}_{{i,{{U}_{Z}}}}} + \sum\limits_{i = 1}^m {{{{\left[ {\tilde {\Phi }_{P}^{{ - 1}}\left( {{{\mathcal{A}}_{{{{U}_{Z}}}}} \bullet \Delta {{X}_{{{{U}_{Z}}}}}} \right)} \right]}}^{i}}} {{A}_{{i,{{U}_{Z}}}}}.$Обозначим далее
Введем в рассмотрение вспомогательную задачу, которая является линейной полуопределенной задачей дополнительности
(59)
$\begin{gathered} \Delta {{X}_{{{{U}_{Z}}}}} \bullet \Delta {{Y}_{{{{U}_{Z}}}}} = 0, \\ \Delta {{Y}_{{{{U}_{Z}}}}} = {{\Lambda }_{{\mathcal{A},{{{\tilde {\Phi }}}_{P}}}}}(\Delta {{X}_{{{{U}_{Z}}}}}) + \Theta , \\ \Delta {{X}_{{{{U}_{Z}}}}} \succcurlyeq 0,\quad \Delta {{Y}_{{{{U}_{Z}}}}} \succcurlyeq 0. \\ \end{gathered} $Утверждение 7. Пусть допустимая особая пара $[X,Y]$ такова, что матрицы
(60)
$\left[ {\begin{array}{*{20}{c}} {{{A}_{{i,{{U}_{B}}}}}}&0 \\ 0&{{{A}_{{i,{{U}_{Z}}}}}} \end{array}} \right],\quad i \in {{J}^{m}},$Доказательство. Поставим в соответствие задаче дополнительности (59) задачу квадратичного программирования
(61)
$\begin{gathered} \Delta {{X}_{{{{U}_{Z}}}}} \bullet ({{\Lambda }_{{\mathcal{A},{{{\tilde {\Phi }}}_{P}}}}}(\Delta {{X}_{{{{U}_{Z}}}}}) + \Theta ) \to \min , \\ {{\Lambda }_{{\mathcal{A},{{{\tilde {\Phi }}}_{P}}}}}(\Delta {{X}_{{{{U}_{Z}}}}}) + \Theta \succcurlyeq 0,\quad \Delta {{X}_{{{{U}_{Z}}}}} \succcurlyeq 0. \\ \end{gathered} $Покажем, что матрица $\tilde {\Phi }_{P}^{{ - 1}}$ такова, что $\left\langle {q,\tilde {\Phi }_{P}^{{ - 1}}q} \right\rangle > 0$ для любых ненулевых $q$. Действительно, так как матрица $\Phi _{P}^{{ - 1}}$ положительно определена, то $\left\langle {q,\tilde {\Phi }_{P}^{{ - 1}}q} \right\rangle = 0$ в том и только в том случае, когда $E_{B}^{{\text{т}}}q = 0$, т.е. вектор $q = {{\mathcal{A}}_{{{{U}_{Z}}}}} \bullet \Delta {{X}_{{{{U}_{Z}}}}} = \mathcal{A}_{{{\text{svec}}}}^{{{{U}_{Z}}}}\operatorname{svec} \Delta {{X}_{{{{U}_{Z}}}}}$ принадлежит ядру матрицы $E_{B}^{{\text{т}}}$. Но данное ядро совпадает с образом матрицы $\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}}$. Поэтому столбцы матрицы $\left[ {\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{B}}}},\mathcal{A}_{{{\text{svec}}}}^{{{{U}_{Z}}}}} \right]$ оказываются линейно зависимыми, что противоречит предположению о линейной независимости матриц (60).
Матрица $\Phi _{P}^{{ - 1}}$ является положительно-определенной, поэтому квадратичная функция $\left\langle {w,\Phi _{P}^{{ - 1}}w} \right\rangle $, где $w = E_{B}^{{\text{т}}}q$, является сильно выпуклой и, следовательно, достигает своего минимального значения по $w$, причем единственного, на любом выпуклом замкнутом множестве. Отсюда следует достижение минимального значения функции
Согласно необходимым условиям минимума
Замечание 1. Пусть $\tilde {\Phi }_{P}^{{ - 1}} = \left[ {{{\phi }^{{kl}}}} \right]$, $1 \leqslant k$, $l \leqslant m$. Тогда производная компоненты $\lambda _{{\mathcal{A},{{{\tilde {\Phi }}}_{P}}}}^{i}\left( {\Delta {{X}_{{{{U}_{Z}}}}}} \right)$ по $\Delta X_{{{{U}_{Z}}}}^{{pq}}$, $1 \leqslant p$, $1 \leqslant p,q, \leqslant {{n}_{Z}}$, равна
Замечание 2. Если пара $[X,Y]$ невырожденная, то $n_{P}^{\Delta } + n_{B}^{\Delta } \geqslant m$. При выполнении предположения (60) должно выполняться неравенство $n_{B}^{\Delta } + n_{Z}^{\Delta } \leqslant m$. Отсюда следует оценка сверху на число ${{n}_{Z}}$, определяющее размерность задачи дополнительности (59), а именно, ${{n}_{Z}} \leqslant {{n}_{P}}$.
Решение задачи дополнительности (59) единственное. Подставляя найденные $\Delta {{X}_{{{{U}_{Z}}}}}$ и $\Delta {{Y}_{{{{U}_{Z}}}}}$ в систему (54), получаем, что она становится зависимой только от остальных переменных и однозначным образом разрешима относительно них. Как уже отмечалось, формулы для определения этих направлений отличаются от полученных в разд. $2$ только заменой вектора правых частей $b$ на вектор ${{b}_{1}}$.
ЗАКЛЮЧЕНИЕ
Предложенный алгоритм предназначен для решения линейных задач полуопределенного программирования в стандартной постановке. Вычисления ведутся в пространствах прямых переменных и слабых двойственных переменных, хотя несложно переписать формулы для вычислений в пространстве двойственных переменных. Все текущие приближения в итерационном процессе принадлежат допустимым множествам, поэтому метод можно трактовать как метод внутренней точки, но не строго внутренней точки, так как точки могут принадлежать границам допустимых множеств. Это принципиальное отличие от методов внутренней точки в традиционном понимании позволяет уменьшать вычислительные затраты при приближении к решениям прямой и двойственной задач. Делается это за счет более точного выполнения условия комплементарности между ними. Поэтому особенно эффективно алгоритм должен работать на конечной стадии вычислений, когда текущие точки находятся вблизи решений задач.
Список литературы
Жадан В.Г. Прямо-двойственный метод Ньютона с наискорейшим спуском для линейной задачи полуопределенного программирования. Ньютоновская система уравнений // Ж. вычисл. матем. и матем. физ. 2022. Т. 62. № 2. С. 22–38.
Magnus J.R., Neudecker H. The elimination matrix: some lemmas and applications // SIAM J. Alg. Disc. Meth. 1980. V. 1. № 4. P. 422–449.
Магнус Я.Р., Нейдеккер Ч. Матричное дифференциальное исчисление с приложениями к статистике и эконометрике. М.: Физматлит, 2002.
Nesterov Yu.E., Nemirovski A.S. Interior Point Polynomial Algorithms in Convex Programming // Philadelphia: SIAM Publications, SIAM, 1994.
Alizadeh F. Interioe point methods in semidefinite programming with applications to combinatorial optimization // SIAM J. Optim. 1995. V. 5. P. 13–51.
Vandenberghe L., Boyd S. Semidefinite programming // SIAM Rev. 1996. V. 38. P. 49–95.
Todd M.J. Semidefinite optimization // Acta Numer. 2001. V. 10. P. 515–560.
Wolkowicz H., Saigal R., Vandenberghe L. (eds). Handbook of Semidefinite Programming. Boston: Kluwer Academic Publishers, 2000.
Laurent M., Rendle F. Semidefinite Programming and Integer Programming. Centrum voor Wiskunde en Informatica, 2002.
de Klerk E. Aspects of Semidefinite Programming. Interior Point Algorithms and Selected Applications. Kluwer Academic Publishers, 2004.
Monteiro R.D.C. First- and second-order methods for semidefinite programming // Mathematical programming, Series B. 2003. V. 97. № 1–2. P. 209–244.
Жадан В.Г. Прямо-двойственный метод Ньютона для задач линейного программирования // Ж. вычисл. матем. и матем. физ. 1999. Т. 39. № 1. С. 17–32.
Жадан В.Г. О сходимости прямо-двойственного метода Ньютона для задачи линейного программирования // Ж. вычисл. матем. и матем. физ. 1999. Т. 39. № 5. С. 431–445.
Арнольд В.И. О матрицах, зависящих от параметров // Успехи матем. наук. 1971. Т. 26. вып. 2 (158). С. 101–114.
Alizadeh F., Haeberly J.-P.F., Overton M.L. Complementarity and nondegeneracy in semidefinite programming // Math. Program., Series B. 1997. V. 77. № 2. P. 129–162.
Тыртышников Е.Е. Матричный анализ и линейная алгебра. М.: Физматлит, 2007.
Дополнительные материалы отсутствуют.
Инструменты
Журнал вычислительной математики и математической физики