Автоматика и телемеханика, № 7, 2020
Управление в социально-экономических
системах
© 2020 г. Г.И. АЛГАЗИН, д-р физ.-мат. наук (algaz46@yandex.ru),
Д.Г. АЛГАЗИНА, канд. техн. наук (darya.algazina@mail.ru)
(Алтайский государственный университет, Барнаул)
ПРОЦЕССЫ РЕФЛЕКСИИ И РАВНОВЕСИЕ
В МОДЕЛИ ОЛИГОПОЛИИ С ЛИДЕРОМ
Проводится аналитическое исследование динамических процессов ре-
флексивного поведения в модели олигополии с лидером в классе линей-
ных функций спроса и издержек агентов. Обосновываются динамические
процессы принятия решений при неточных представлениях агентов о вы-
боре конкурентов, осуществляемые не путем оптимальных ответов на их
ожидаемые действия, а как повторяемые статические игры на диапазоне
допустимых ответов. Агенты от игры к игре, наблюдая сложившееся со-
стояние рынка и учитывая текущие условия по конкурентоспособности
и прибыли, в рамках своей информированности уточняют объемы вы-
пуска, делая шаги в направлении текущего положения цели. Получены
достаточные условия на величины шагов, выбираемые лидером по Шта-
кельбергу и независимо друг от друга агентами с реакцией по Курно, для
сходимости динамик к равновесию.
Ключевые слова: равновесие Штакельберга, рефлексивное коллективное
поведение, конкурентоспособность, валовая прибыль, уточнение объемов
выпуска, условия сходимости.
DOI: 10.31857/S0005231020070077
1. Введение
В ¾классической¿ теоретико-игровой модели Штакельберга [1] фирма, вы-
ступившая в роли единоличного лидера рынка, в точности знает реакцию на
его действия ведомых агентов, конкурирующих по Курно [2] объемами вы-
пуска однородной продукции. Это позволяет фирме выбрать равновесное по
Нэшу [3] действие, которое при наличии общего знания максимизирует ее
прибыль. Однако исследования и опыт применения теоретико-игровых мо-
делей свидетельствует о том, что имеет место фундаментальная проблема
априорной неосведомленности агентов о выборе действий другими агентами
(см., например, [4-9]). Если лидер не располагает достоверной информаци-
ей для построения функции реакции, а ведомые агенты, делая свой выбор,
не располагают точными и полными представлениями о выборе конкурен-
тов, их реакция на действия лидера не будет для него ожидаемой, а сам
лидер может не получить ожидаемой прибыли. В этих условиях лидер и дру-
гие фирмы-агенты вынуждены делать прогнозы действий своих конкурентов
(осуществлять рефлексию).
113
В последнее время исследователи обращают внимание на модели рефлек-
сивного коллективного поведения [10, 11], которые при достаточно слабых
предположениях об информированности агентов и достаточно неадекватных
предсказаниях действий конкурентов дают возможность строить процессы,
приводящие к равновесию (см., например, [4, 7, 12-15]). Используемые до это-
го в модели с лидером по Штакельбергу различные численные методы дости-
жения равновесия, в частности метод однопараметрической прогонки [16],
аппроксимация функции реакции лидера с решением задач математическо-
го программирования с одним ограничением, зависящим от параметра [17],
двухуровневая оптимизация на многогранном множестве с помощью метода
штрафных функций с использованием алгоритма симплициального разбие-
ния [18] и др., не совсем адекватно отражали процессы принятия решений.
Основные результаты по исследованию равновесия Штакельберга с приме-
нением моделей рефлексивного коллективного поведения относятся к выяв-
лению условий существования равновесия, его единственности и сходимости
процессов рефлексии. Аналитические решения, в основном, получены для са-
мой распространенной и простейшей модели коллективного поведения мо-
дели индикаторного поведения [7, 10, 12, 13, 15], в которой не учитываются
экономические ограничения; для более сложных моделей [6, 8, 9, 11, 14] явно
преобладают качественные и численные методы.
В данной статье предложены динамические процессы принятия решений
при неточных представлениях агентов о выборе конкурентов. Решается зада-
ча аналитического оценивания диапазонов допустимых ответов, выбираемых
лидером по Штакельбергу и независимо друг от друга агентами с реакцией
по Курно, таких что динамики сходятся к истинному равновесию. Во вни-
мание принимается начальное состояние олигополии, а в условиях допусти-
мости текущих решений учитываются такие экономические категории, как
конкурентоспособность и убыточность агентов.
2. Базовая модель олигополии и информированность агентов
Пусть i ∈ N = {1, . . . , n} агенты, конкурирующие на рынке объемами
выпуска однородной продукции. Агенты продают произведенный ими вы-
пуск qi по единой рыночной цене p(Q), которая определяется суммарным∑
объемом выпуска Q = qi. Действия агентов направлены на максимизацию
i∈N
прибыли:
(1)
Πi(p(Q),qi) = p(Q)qi - φi(qi) → max,
i∈N.
qi
Цена p(Q) и полные издержки агентов φi(qi) заданы линейными функ-
циями:
(2)
p(Q) = a - bQ, φi(qi) = ciqi + di
,
i∈N,
где a, b
параметры спроса; ci, di
предельные и постоянные издержки
агентов.
114
Предпосылки базовой модели: 1) дискретность процесса; 2) однородность
продукции; 3) конкуренция объемами выпусков, весь выпуск реализуется;
4) единая рыночная цена; 5) произвольное число агентов на рынке; 6) линей-
ность функций спроса и полных затрат агентов, имеющих различные пре-
дельные издержки; 7) отсутствие ограничений мощности и коалиций; 8) ра-
циональное поведение агентов, направленное на максимизацию собственной
прибыли; 9) первый агент (i = 1) занимает лидирующее положение среди
остальных агентов за счет того, что ¾предсказывает¿ их ответ на его выбор
объема выпуска; 10) остальные агенты выбирают свои действия по Курно,
считая, что все другие агенты не меняют свои объемы выпуска; 11) одновре-
менный порядок ходов.
Поясним предпосылки 9)-11) и информированность агентов. Здесь выбор
реальных действий всеми агентами осуществляется синхронно (одновремен-
но). Подобный прием упрощает реальный процесс последовательных реак-
ций. Он использован, например, в [7, 8, 12] и, как отмечается в [8], адекватен
в случае, когда достигнутое равновесие стабильно. В отличие от классической
игры Штакельберга, когда лидер делает первым ход, который становится из-
вестен другим агентам, здесь агенты с реакцией по Курно не знают ход лиде-
ра, синхронный своему ходу. Более того, они не знают, что у них есть лидер,
полагая, что он, как и другие агенты, оставит свой объем выпуска неизмен-
ным (например, считая остальных агентов менее ¾интеллектуальными¿, чем
они сами, либо что оппоненты достигли равновесия и им не выгодно от него
отклониться). Полагаем, что агенты, действующие по Курно, не знают, что
другие такие же агенты действуют так же.
Также полагаем, что в базовой модели все агенты точно знают собственные
затраты и целевую функцию, собственную функцию реакции, включающую
параметры спроса a и b, а также уже произведенный выпуск (достаточно
только суммарный) другими агентами. Лидер также знает общее число аген-
тов на рынке. При необходимости, зная формулу (2), агенты могут оценить
сложившуюся на рынке цену. Полагаем также, что агенты не располагают до-
стоверной априорной информацией относительно множеств допустимых дей-
ствий, функций затрат и целевых функций конкурентов, а также об ожида-
емых объемах их выпуска.
Формально предположения лидера и остальных агентов в условиях ука-
занных предпосылок можно записать в виде следующих соотношений для
предположительных вариаций [1, 2]:
∂qj
1
∂qj
=-
,
j =1
и
= 0, i = 1, i = j (i, j ∈ N).
∂q1
n
∂qi
Отсюда
∂Q-1
n-1
(3)
=-
;
∂q1
n
∂Q-i
(4)
= 0, i = 1, i ∈ N.
∂qi
115
Здесь обозначено
(5)
Q-i = qj
,
i, j ∈ N.
j=i
Следуя определениям рангов рефлексии в общей модели рефлексивного
коллективного поведения [4, 19], можно полагать, что агенты, выбирающие
действия по Курно, обладают низким (¾нулевым¿) рангом рефлексии. Пер-
вый агент обладает более высоким (¾первым¿) рангом рефлексии, считая
всех остальных нерефлексирующими (агентами с нулевым рангом рефлек-
сии), и в соответствии с этим предсказывает их выбор. Его выбор будет ори-
ентирован на наилучший ответ на ту обстановку, которая, по его мнению,
должна сложиться. Предполагается, что все агенты не допускают существо-
вание агентов, имеющих такой же или более высокий ранг рефлексии, чем
они сами.
3. Анализ и постановка проблемы
Традиционный процесс пошаговой рефлексии предполагает, что агенты
выбирают оптимальный отклик в соответствии со своей функции реакции.
Оптимальный отклик i-го агента находится из условия ∂Πi/∂qi = 0 с уче-
том (2):
hi - Q-i
(6)
qi =
(i ∈ N),
2 + ∂Q-i/∂qi
где обозначено
a-ci
(7)
hi =
b
Если система условий (3)-(7) имеет решение, то соответствующее ему со-
стояние рынка определяется как равновесие Штакельберга [1].
Тогда из (3), (4), (6) имеем выражения для оптимального отклика (см.,
например, [7, 12]):
n(h1 - Q-1)
(8)
q1 =
,
1+n
hi - Q-i
(9)
qi =
,
i ∈ N \{1}.
2
Приведем соответствующий динамический процесс рефлексивного коллек-
тивного поведения:
1. Первый агент, используя наблюдаемые выпуски остальных агентов qti
и полагая, что в текущем (t + 1)-м моменте времени они будут действовать
по Курно, на основе (8) рассчитывает свой текущий оптимальный выпуск
(оптимальный отклик) xt1:
n(h1 - Qt-1)
(10)
xt1 =
1+n
116
Каждый из остальных агентов, используя наблюдаемые выпуски конку-
рентов qti и полагая, что в текущем (t + 1)-м моменте времени все они, вклю-
чая первого, выберут те же выпуски, какие выбрали в предыдущем t-м мо-
менте, на основе (9) рассчитывает свой текущий оптимальный выпуск (опти-
мальный отклик на действия конкурентов) xti:
hi - Qt-i
(11)
xti =
,
i ∈ N \{1}.
2
Начальный вектор выпусков q0 = (q01, . . . , q0n) считается заданным. Осталь-
ные правила процесса рефлексии определяются условиями базовой модели
олигополии 1)-9) в разделе 2.
2. Каждый агент рассчитывает свой выпуск в текущем (t + 1)-м моменте
времени по формуле
(12)
qt+1i = xti
(i ∈ N; t = 0, 1, 2, . . .).
Затем процесс повторяется с п.1.
Определим (10)-(12) как процесс 1. Его можно рассматривать как имита-
цию автоматов, формально осуществляющих выбор действия.
К достоинствам процесса можно отнести его выраженную целевую направ-
ленность, так как агент в каждый момент выбирает наилучший ответ. К ос-
новным недостатком процесса относятся: отсутствие сходимости при n ≥ 3
(соответствующее утверждение приведено в разделе 5 и доказано в Прило-
жении), для него не гарантируются текущие неотрицательные выпуски, по-
ложительная валовая прибыль агентов, положительная цена товара.
4. Адаптивная динамика в модели олигополии с лидером
Приведем (1) с учетом (2) и (7) к виду Πi = b(hi - Q-i - qi)qi - di. Ра-
циональный агент при ожиданиях hi - Q-i > 0 выбирает положительный
выпуск, который определяется выражениями (8) и (9). При ожиданиях
hi - Q-i ≤ 0 положительный выпуск дает отрицательную валовую прибыль
(т.е. прибыль без учета постоянных издержек di), и, чтобы минимизировать
потери, агент выбирает нулевой выпуск.
Принимая во внимание эти положения, достоинства и недостатки процес-
са (10)-(12), рассмотрим следующий динамический процесс рефлексивного
коллективного поведения (процесс 2):
1. Агенты рассчитывают текущее положение своей цели так же, как в
процессе 1: лидер по формуле (10), агенты с реакцией по Курно по (11).
2. Каждый агент рассчитывает свой выпуск в текущем (t + 1)-м момен-
те времени, делая шаг от выпуска за предыдущий t-й момент времени по
направлению к текущему оптимальному выпуску xti по формуле
{
qti + γt+1i(xti - qti), xti > 0;
(13)
qt+1i =
(i ∈ N; t = 0, 1, 2, . . .).
0,
xti ≤ 0
117
Здесь: γt+1i ∈ [0; 1]
параметры, определяющие величины шагов. В этом
процессе в отличие от процесса 1 допускается ¾неполный¿ шаг.
Затем процесс повторяется с п. 1.
Достоинства такого процесса: его целевая направленность, поскольку
агент в каждый момент выбирает шаг в направлении текущей цели; эконо-
мическая содержательность процесса, выраженная в том, что условиями (13)
гарантируются неотрицательный текущий выпуск (конкурентоспособность)
и неотрицательная текущая валовая прибыль агентов.
В теории коллективного поведения формула (13) без условия на xti опи-
сывает динамику выбора решений, основанную на аксиоме индикаторного
поведения [10].
5. Основные результаты
Приведем основные, доказанные в Приложении, утверждения для процес-
сов (10)-(12) и (10), (11), (13).
Утверждение 1. Процесс (10)-(12)
а) сходится при n = 2;
б) сходится при n ≥ 3, если x1 =y1y0 ,y0=0.Здесь:x1большийкорень
уравнения x2 - px - g = 0 при p =2-n2 и g =n(n-1)2(1+n) , а y0, y1
начальные
значения последовательности yt = qt+11 - qt1;
в) в остальных случаях при n ≥ 3 расходится.
Утверждение 2. Процесс (10), (11), (13), в котором допустимые от-
веты агентов учитывают сложившиеся текущие условия по их кон-
курен
(
]
(
]
2
γt+1i
0;
для агентов с реакцией по Курно и при γt+11
0;1
1+n
n
{ля лидер}по Штакельбергу (t = 0, 1, 2, . . .) и любых начальных выпусках
q0i, i ∈ N
В Приложении также формулируются и доказываются леммы, используе-
мые для доказательства утверждений 1 и 2.
Следует также отметить, что некоторые результаты, полученные в При-
ложении при доказательстве утверждения 2, отчасти повторяют результа-
ты авторов статьи для олигополии Курно [20], но сами доказательства этих
результатов имеют специфику, обусловленную различием моделей рынка и
процессов рефлексии.
6. Заключение
На конкурентных рынках агенты, как правило, не раскрывают друг дру-
гу свои истинные возможности и намерения. В представленной в статье
теоретико-игровой модели олигополии агенты, не располагая достоверной ин-
формацией о выборе действий конкурентами, разыгрывают повторяющуюся
игру с лидером по Штакельбергу. В классе линейных функций спроса и из-
118
держек агентов проведено аналитическое исследование двух моделей рефлек-
сивного принятия решений:
в первой модели агенты выбирают оптимальные ответы на ожидаемые
действия окружения в соответствии со своей функцией реакции. Аналитиче-
ски доказано, что такой процесс рефлексии сходится при n = 2, а при n ≥ 3
расходится. Ранее этот факт подтверждался численным моделированием;
во второй модели рефлексивного коллективного поведения допускаются
неоптимальные ответы, осуществляемые агентами в направлении их текущих
целей. Условия допустимости ответов учитывают не только величину ¾шага¿
движения в направлении текущей цели, но и сложившиеся текущие условия
по конкурентоспособности и прибыли агентов. Для такого процесса в ста-
тье получены аналитические оценки для диапазонов ответов, при которых
процесс сходятся к равновесию.
Результаты численного моделирования указывают на перспективность
аналитических исследований в направлении расширения диапазонов ¾ша-
гов¿, гарантирующих сходимость процессов рефлексии. Так, эксперименты
показали [21], что, в частности, при n = 3 правая граница диапазона сходи-
мости может быть доведена до 0,8 ÷ 0,9, при n = 4 до 0,6 ÷ 0,7, при n = 5
до 0,5 ÷ 0,6, . . ., при n = 9 до 0,3 ÷ 0,4. Это превышает почти в 2 раза гра-
ницы по утверждению 2 и говорит о потенциале к развитию аналитических
методов. Также актуален и перспективен поиск аналитических решений для
нелинейных моделей рынка.
ПРИЛОЖЕНИЕ
Доказательство утверждения 1. Из (5), (11) и (12) для агентов,
действующих по Курно, имеем
1
(
)
(Π.1)
qt+1i =
hi - Qt + qti
2
По двум соседним периодам имеем разность
1
(
)
1
(
)
qt+1i - qti =
qti - qt-1i
-
Qt - Qt-1
2
2
Суммируя по индексу i (i = 2, . . . , n) полученное выражение, приходим к
равенству
n-2
(
)
n-1
(
)
(Π.2)
Qt+1-1 - Qt-1 = -
Qt-1 - Qt-1-1
-
qt1 - qt-11
2
2
Для лидера по Штакельбергу из (10) и (12) получаем
n
(
)
(Π.3)
qt+11 =
h1 - Qt-1
1+n
Из (П.3) следуют равенства
1+n
1+n
(Π.4)
Qt-1 -Qt-1-1 = -
(qt+11 - qt1), Qt+1-1 - Qt-1 = -
(qt+21 - qt+11
).
2
2
119
Подставляя полученные выражения в (П.2), получим
2-n
(
)
n(n - 1)
(
)
(Π.5)
qt+21 - qt+11 =
qt+11 - qt1
+
qt1 - qt-11
2
2(1 + n)
Введем обозначения
2-n
(Π.6)
p=
,
2
n(n - 1)
(Π.7)
g=
,
2(1 + n)
(Π.8)
yt = qt+11 - qt1.
Тогда (П.5) представляет собой линейную рекуррентную последователь-
ность с постоянными коэффициентами и начальными значениями y0 = q11-
-q01, y1 = q21 - q11, имеющую вид
(Π.9)
yt+2 = pyt+1 + gyt
(t ≥ 0).
Известно [22], что для линейной рекуррентной последовательности с по-
стоянными коэффициентами имеет место соотношение
(Π.10)
yt = s1(x1)t + s2(x2)t.
В (П.10) индекс “t” обозначает временной период и является показателем
степени для корней x1 и x2 характеристического уравнения x2 - px - g = 0,
а значения s1 и s2 находятся из решения системы линейных уравнений
{
y0 = s1x1 + s2x2,
(Π.11)
y1 = s1 (x1)2 + s2 (x2)2 .
Далее будут полезны записи этих корней:
2
p
p
p
p2
(Π.12)
x1 =
+
+ g, x2 =
-
+ g.
2
4
2
4
Лемма П.1. Корни x1 и x2 характеристического уравнения x2 - px-
-g = 0 а) различны, б) действительные, в) не равны нулю, г) имеют раз-
1
ные знаки, д) при n = 2 больший корень x1 =
, меньший x2 =
, е) при
3
3
n ≥ 3 большим по модулю является отрицательный корень и его модуль
больше единицы, ж) положительный корень меньше единицы.
(2-n)2
Доказательство леммы П.1. Подкоренное выражение
+
16
+ n(n-1)2(1+n) в (П.12) положительно, т.е. корни уравнения простые и действитель-
ные. Допустим, есть равные нулю корни. Тогда из x2 - px - g = 0 следует, что
g = 0. Но по (П.7) такое возможно только при n = 1. Положения а), б) и в)
доказаны.
120
Имеем x1x2 = -g = -n(n-1)2(1+n) . Поэтому следует г). При n = 2 имеем
(
)
(
)
1
11-1
11-1
x=
,
, если n = 3, то x =
,-
. При n ≥ 4 будет
3
3
4
4
x1x2 < -1. Поэтому справедливы положения д) и е). Докажем ж). По (П.12)
(2-n)2
(2-n)2
x1 =2-n4 +
+ n(n-1)2(1+n). Имеем x1 < 1, так как
+n(n-1)2(1+n) <
16
16
< 1 - 2-n4 илиn(n-1)2(1+n) < 1 - 2-n2 = n2.
Лемма П.1 доказана.
Лемма П.2. Если больший простой корень x1 характеристического
уравнения последовательности yt+2 = pyt+1 + gyt равенy1y0 (y0=0),топо-
следовательность сходится к нулю.
Доказательство леммы П.2. Пусть x1 =y1y0 (y0=0).Полемме1
x1 = 0. Из системы уравнений (П.11) имеем s2x2(x1 - x2) = 0. Поскольку кор-
ни различны и x2 = 0, то s2 = 0. Тогда по (П.10) будет yt = s1(x1)t. По лем-
ме П.1 x1 < 1, поэтому {yt} сходится к нулю.
Лемма П.2 доказана.
Ниже верхним индексом “(s)” обозначим показатели в статическом равно-
весии Штакельберга для базовой модели (1), (2).
Лемма П.3. Если yt =qt+11-qt1 → 0 при t→ ∞, то а) qt1 → q(s)1, б) qti → q(s)i
∀i ∈ N \{1}.
Доказательство леммы П.3. По (П.4) следует Qt-1 - Qt-1-1 → 0. По-
(
)
кажем, что qt1 → q(s)1. Преобразуем (П.1) к виду qt+1i - qti =12
hi - Qt - qti
Суммируя это выражение по i (i = 2, . . . , n), получим
(
)
1
Qt+1-1 - Qt-1 =
hi - nQt + qt
=
1
2
i=2
(
)
1
=
nh1 - nQt - qt1 + hi - nh1 + 2qt
1
2
i=2
(
)
1
По (П.3) qt+11 - qt1 =
nh1 - nQt - qt1
. Поэтому nh1 - nQt - qt1 → 0 и
n+1
(
)
(s)
qt112
nh1 - hi
= Q(s). Часть а)
= q(s)1. Итак, qt1 → q(s)1 и Qt → h1 - q1n
i=2
доказана.
(
)
Из (П.1) и Qt → Q(s) следует, что qt+1i -12 qti =12
hi - Qt
{
и qt+1i -2}qi
(
)
1
12
hi - Q(s)
. Поэтому сходятся последовательности
qti -14qt-‘1i
, а так-
2
{
}
же
qt+1i -14qt-1i
как суммы сходящихся последовательностей. По той же
{1
}
{
}
причине сходятся
qt-1i -18qt-2i
и
qt+1i -18qt-2i
и т.д. Приходим к то-
4
{
}
{
}
1
му, что сходятся
qt+1i -
q0i
и
qt+1i
. Тогда из (П.1) следует, что
2t+1
qti → q(s)i = hi - Q(s) (i ∈ N \{1}).
Лемма П.3 доказана.
Теперь вернемся непосредственно к доказательству утверждения 1.
121
При n = 2 из (П.10) и положения д) леммы П.1 следует yt = qt+11 - qt1 → 0.
Тогда по лемме П.3 qt1 → q(s)1 и qt2 → q(s)2. При n ≥ 3 и x1 =y1y0 ,y0=0полем-
ме П.2 yt = qt+11 - qt1 → 0, и по лемме П.3 qti → q(s)i ∀i ∈ N. Части а) и б)
утверждения доказаны.
При n ≥ 3 и x1 =y1y0 в(П.10)s2=0.ПолеммеП.10<x1<1иx2<-1.
Поэтому yt = qt+11 - qt1 не сходится к нулю.
Утверждение 1 доказано.
Примечание. Если y0 = 0 и s2 = 0, то из системы уравнений (П.11)
имеем s1 = 0 и yt ≡ 0. Процесс будет ¾стоять на месте¿ и сходиться не
может.
Доказательство утверждения 2. Введем функции-индикаторы
[11], характеризующие отклонения текущих выпусков от текущих оптиму-
мов, αti = 2(xti - qti) для агентов с реакцией по Курно и αt1 =1+nn (xt1 - qt1) для
лидера. Коэффициенты ¾2¿ и ¾1+nn ¿ введены для последующих удобств. Ис-
(s)
пользуя (7) и что по (10), (11) hi = Q(s) + q(s)i (i ∈ N \ {1}) и h1 = Q(s) +q1n,
имеем
(Π.13)
αti = Q(s) + q(s)i - Qt - qti
,
i ∈ N \{1},
1
(Π.14)
αt1 = Q(s) +
q(s)1 - Qt -1qt1.
n
n
Решением однородной системы уравнений (П.13), (П.14) является равно-
весный выпуск qti = q(s)i (i ∈ N). Будет показано, что наряду с функциями-
индикаторами важную роль в исследовании и{доказат}льстве сходимости
процесса (10), (11), (13) играет выражение max
αti - αt
j
i,j∈N
{
}
{
}
Введем обозначения: Nt1 =
ixti > 0, i ∈ N
, Nt2 =
i| xti ≤ 0, i ∈ N
. То-
гда Nt1
⋂Nt2 =⊗иNt1⋃Nt2 =N.
С учетом введенных обозначений, а также (7), (10), (11), (П.13) и (П.14)
запишем (14) как
γt+1i
qti +
αti, i ∈ Nt1 \{1} , γt+1i ∈ [0;1] ,
(Π.15)
qt+1i =
2
0,
i ∈ Nt2 \{1};
γt+11n
qt1 +
αt1, 1 ∈ Nt1, γt+11 ∈ [0; 1],
(Π.16)
qt+11 =
1+n
0,
1∈Nt2.
Для последующих преобразований удобно переопределить параметры γ
t+1
2n
следующим образом: λt+1i = γt+1i, i ∈ N \ {1}; λt+11 =γ1
(t = 0, 1, 2, . . .).
1+n
122
Тогда:
λt+1
j
(Π.17)
Qt+1 = Qt +
αtj -
qtj;
2
j∈Nt1
j∈Nt
2
Q(s) + q(s)i - Qt+1 - qt+1i =
=Q(s) +q(s)i -Qt -qtii+1αti - Qt+1 + Qt, i ∈ Nt1 \{1} ;
2
1
1
t+11
Q(s) +
q(s)1 -Qt+1 -1qt+11 = Q(s) +
q(s)1 -Qt -1qt1 -
αt1 -Qt+1 +Qt;
n
n
n
n
n
2
(
)
λt+1i
(Π.18)
αt+1i =
1-
αti - Qt+1 + Qt =
2
(
)
λt+1
λt+1i
j
=
1-
αti -
αtj +
qtj,
i ∈ Nt1 \{1};
2
2
j∈Nt1
j∈Nt
2
(
)
λt+11
(Π.19)
αt+11 =
1-
αt1 - Qt+1 + Qt =
2n
(
)
λt+1
λt+11
j
=
1-
αt1 -
αtj +
qtj,
1∈Nt1;
2n
2
j∈Nt1
j∈Nt
2
Q(s) +q(s)i -Qt+1 -qt+1i = Q(s) +q(s)i -Qt -qti +qti -Qt+1 +Qt, i ∈ Nt2 \{1} ;
1
1
1
Q(s) +
q(s)1 - Qt+1 -1qt+11 = Q(s) +
q(s)1 - Qt -1qt1 +
qt1 - Qt+1 + Qt;
n
n
n
n
n
λt+1
j
(Π.20)
αt+1i = αti +qti -Qt+1 +Qt = αti +qti -
αtj +
qtj, i ∈ Nt2
\{1};
2
j∈Nt1
j∈Nt
2
λt+1
1
1
j
(Π.21) αt+11 = αt1 +
qt1 -Qt+1 +Qt = αt1 +
qt1 -
αtj +
qtj,
1∈Nt2.
n
n
2
j∈Nt1
j∈Nt
2
Лемма}П.4. Если для процесса (10), (11), (13) в последовательности
{
αti, i ∈ N
есть не только положительные члены, то
{
}
{
}
max
αt+1i - αt+1
< max
αti - αtj
j
i,j∈N
i,j∈N
Доказательство лемм{ы П.4. Воз}ожны 4 случая для агентов i и j,
на которых достигается max
αt+1i - αt+1
: 1) i, j ∈ Nt1; 2) i ∈ Nt1, j ∈ Nt2;
j
i,j∈N
3) i ∈ Nt2, j ∈ Nt1; 4) i, j ∈ Nt2.
Рассмотрим первый случай. Пусть i, j ∈ Nt1. Для определенности поло-
жим, что i, j ∈ Nt1 \ {1}. Когда i ∈ Nt1 \ {1}, j = 1 или i = 1, j ∈ Nt1 \ {1},
{
}
доказательства аналогичны. Обозначим: αt+1
= max
αt+1i,i ∈ Nt1
и
Mt+11
i
123
{
}
αt+1
= min
αt+1i,i ∈ Nt1
. По (П.18)
mt+11
i
1
λt+
t+1
λt+1
M1
mt+11
αt
αt
αt+1
t+1
=1 -
-1 -
Mt+11
mt+11
Mt+11
mt+1
2
2
1
Но αtMt+1
≤αtMt >0и αtmt+1
≥ αtmt ≤ 0. Поэтому
1
1
{
}
{
}
max
αt+1i - αt+1
tMt+1
- αtmt < αtMt - αtmt = max
αti - αtj
j
i,j∈Nt1
1
i,j∈N
Рассмотрим второй случай, когда i ∈ Nt1, j ∈ Nt2. Пусть для определенно-
сти i ∈ Nt1 \ {1}, j = 1. Когда i = 1, j ∈ Nt2 \ {1} или i ∈ Nt1 \ {1}, j ∈ Nt2 \ {1},
доказательства аналогичны. По (П.18) и (П.21) имеем, что
1
(
)
λt+
t+1
M1
1
αt+1
t+1
=1 -
αt
- αtmt+1
+
qtmt+1
Mt+11
mt+12
Mt+11
2
2
n
2
{
}
Здесь αt+1
= min
αt+1i,i ∈ Nt2
,mt+12 =1 иαtMt+1
≤ αtMt > 0. Тогда
mt+12
i
1
{
}
{
}
max
αt+1i - αt+1
< αtMt - αtmt+1
≤ αtMt - αtmt = max
αti - αtj
j
i∈Nt1,j∈Nt2
2
i,j∈N
Рассмотрим случай i ∈ Nt2, j ∈ Nt1. Пусть для определенности i = 1,
j ∈ Nt1 \{1}. Когда i ∈ Nt2 \{1}, j = 1 или i ∈ Nt2 \{1}, j ∈ Nt1 \{1}, дока-
зательства аналогичны. Тогда Mt+12 = 1. Ввиду
(10) и xt1 ≤ 0, (П.14) и
(s)
h1 = Q(s) +q1nимеемα1 +nq1 =h1-Q−1-q1 <0<αMt.Тогдапо(П.21)
и (П.18) получим
(
)
1
λt+
t+1
1
m
1
αt
αt+1
t+1
= αtMt+1
+
qtMt+1
-1 -
<
Mt+12
mt+11
mt+1
2
n
2
2
1
1
λt+
t+1
{
}
m
1
αt
< αtMt - 1 -
< αtMt - αtmt = max
αti - αtj
mt
2
i,j∈N
Пусть теперь i, j ∈ Nt2. Возьмем для определенности i = 1, j ∈ Nt2 \ {1}.
Когда i ∈ Nt2 \ {1}, j = 1 или i ∈ Nt2 \ {1}, j ∈ Nt2 \ {1}, доказательства
аналогичны. По (П.20) и (П.21) αt+1i - αt+1j = (αti +1qti) - (αtj + qtj). Име-
n
{
}
{
}
ем max
αt+1i - αt+1
< max
αt+1i - αt+1
, так как i = Mt+12 = 1 и
j
j
i,j∈Nt2
i∈Nt1,j∈Nt
2
αt1 +1nqt1 < αtMt. Обобщая все случаи, получаем
{
{
}
{
}
{
}
max
αt+1i - αt+1
= max max
αt+1i - αt+1
,
max
αt+1i - αt+1
,
j
j
j
i,j∈N
i,j∈Nt1
i∈Nt1,j∈Nt
2
}
{
}
{
}
{
}
max
αt+1i - αt+1
, max
αt+1i - αt+1
< max
αti - αtj
j
j
i∈Nt2,j∈Nt1
i,j∈Nt2
i,j∈N
124
Лемма П.4 доказана.
(
]
2
Лемма П.5. Пусть для процесса (10), (11), (13) γt+1i
0;
для аген-
1+n
(
]
тов с реакцией по Курно и γt+11
0;1n
для лидера по Штакельбергу. Тогда
{
}
а) если в последовательности
αti,i ∈ N
есть положительные члены, то
{
}
в последовательности
αt+1i,i ∈ N
также будут положительные члены,
{
}
б) если в последовательности
αti,i ∈ N
есть отрицательные или нулевые
{
}
члены и Nt1 = N, то в
αt+1i,i ∈ N
будут отрицательные члены.
Доказательство леммы П.5. Докажем часть а). Имеем αtMt > 0 и
Mt ∈ Nt1. По (П.18) и (П.19)
(
)
t+1
λ
λt+1j
λt+1
λt+1j
Mt
1-
Mt
,
αt+1Mt >
1-
αtMt - αt
t
-
Mt
Mt
2
2
2
2
j∈Nt1
j∈Nt
1
если Mt ∈ Nt1 \ {1}, или
(
)
t+1
λ
λt+1j
λt+1
λt+1j
Mt
1-
Mt
,
αt+1Mt >
1-
αtMt - αt
t
-
Mt
Mt
2n
2
2n
2
j∈Nt1
j∈Nt
1
t+1
λt+1j
> 0, что имеет место с уче-
если Mt = 1 ∈ Nt1. Если 1 -λMt2 -
2
j∈Nt
1
том введенного ранее переопределения параметров, то αt+1
> 0 при λt+1i =
Mt
(
]
t+1
(
]
2
2n
2
= γt+1i
0;
(i ∈ N \ {1}) и λt+11 =γ1
0;
1+n
1+n
1+n
Часть б) леммы доказывается аналогичным образом на основе формул
(П.18) и (П.19).
Лемма П.5 доказана.
Лемма П.6. Для процесса
(10), (11), (13) справедливы неравенства:
а) Q(s) - Qt > Q(s) - Qt+1 > 0, если αti, αt+1i ≥ 0 (∀i ∈ N) и есть отличные
от нуля αti и αt+1i; б) Qt - Q(s) > Qt+1 - Q(s) > 0, если αtit+1i ≤ 0 (∀i ∈ N)
и есть отличные от нуля αti и αt+1i.
Доказательство леммы П.6. По (П.17) Q(s) - Qt+1 = Q(s) - Qt -
λt+1
j
-
αtj +
qtj. При условиях на αti в части а) леммы Nt2 будет пу-
2
j∈Nt1
j∈Nt
2
сто и Q(s) - Qt > Q(s) - Qt+1. Если также αt+1i ≥ 0 и не все равны нулю, то
с учетом (П.13), (П.14)
αt+1i + nαt+11 = 2n(Q(s) - Qt+1) > 0 и поэтому
i∈N \{1}
Q(s) - Qt > Q(s) - Qt+1 > 0. Часть б) леммы доказывается аналогичным об-
разом.
Лемма П.6 доказана.
В следую}щей лемме доказываются результаты относительно смены знаков
{
в
αti,i ∈ N
при переходе из t-го в (t + 1)-й момент времени.
125
Лемма П.7. Если в процессе (10), (11), (13) a) некоторый отрицатель-
ный член последовательности {αti, i ∈ N} в {αt+1i, i ∈ N} станет положи-
тельным, то все положительные члены {αti, i ∈ N} сохранят свои знаки
в {αt+1i, i ∈ N}; б) некоторый положительный член последовательности
ti, i ∈ N} в {αt+1i, i ∈ N} станет отрицательным, то все отрицательные
члены {αti, i ∈ N} сохранят свои знаки в {αt+1i, i ∈ N}.
Доказательство леммы П.7. Докажем часть a). Пусть k индекс
отрицательного члена, переходящего в положительный, и k ∈ Nt1. Тогда по
(П.18) и (П.19) знаки положительных αti не изменятся. Пусть k ∈ Nt2. Учи-
тывая, что 2xtk = αtk + 2qtk ≤ 0 (k = 1) или1+nn xt1 = αt1 +1+nn qt1 ≤ 0 (k = 1), по
(П.20) и (П.21) знаки положительных αti (i ∈ Nt2), а по (П.18) и (П.19) знаки
положительных αti (i ∈ Nt1) не изменятся. Часть a) доказана. Часть б) дока-
зывается аналогичным образом.
Лемма П.7 доказана.
После доказательства вспомогательных лемм вернемся непосредственно к
доказательству утверждения 2.
Вначале обратим внимание на последовательности только с отрицатель-
ными и нулевыми членами. Такая последовательность может в очередной
момент времени перейти в последовательности: 1) имеющие положительные
члены, 2) не имеющие положительных членов.
Если имеет место первый случай, то последовательность только с отрица-
тельными и нулевыми членами далее не встретится, так как согласно лем-
ме П.5 пос
(
]
(
]
2
при γt+1i
0;
(i ∈ N \ {1}) и γt+11
0;1n
перейти в последовательность
1+n
только с отрицательными и нулевыми членами. Поэтому во всех последую-
щих последовательностях будут положительные члены.
Если реализуется второй случай, то согласно лемме П.6 будет 0 < Qt+1-
-Q(s) < Qt - Q(s). Опять возможно, что в (t + 2)-й момент времени окажутся
только отрицательные и нулевые члены. Таким образом, последовательности
только с отрицательными и нулевыми членами могут быть либо в начальной
стадии процесса, либо на протяжении всего процесса. Последнее рассмот-
рим подробнее. Последовательное применение леммы П.6 дает цепочку нера-
венств Q0 - Q(s) > Q1 - Q(s) > . . . > Qt - Q(s) > Qt+1 - Q(s) > . . . > 0 (t > 1), из
которой следует Qt → Q(s) иi∈N\{1} αti + nαt1 = 2n(Q(s) - Qt) → 0. Поэто-
му αti → 0, а по (П.13) и (П.14) qti → q(s)i (i ∈ N). Процесс сходится.
Пусть теперь αti > 0 (∀i ∈ N). Поскольку αti = 2(xti - qti), то xti > 0 ∀(i ∈ N)
и все агенты рассчитывают свой текущий выпуск по формуле (13). Тогда из
леммы П.6 следует неравенство Q(s) - Qt+1 < Q(s) - Qt. Если и в последую-
щие моменты знаки всех членов останутся положительными, то из цепочки
неравенств Q(s) - Qt > Q(s) - Qt+1 > . . . > Q(s) - Qt+k > Q(s) - Qt+k+1 >
... > 0 (k > 1) следует последовательное приближение суммарного объема
выпуска к равновесному, т.е. Qt → Q(s). Тогда αti → 0 и qti → q(s)i (i ∈ N).
{
}
Пусть в
αti,i ∈ N
есть не только положительные члены. По лем-
ме П.4 процесс сделает последовательное приближение к равновесию, так
126
{
}
{
}
{
}
как max
αt+1i - αt+1
< max
αti - αt
. По лемме П.5 в
αt+1i,i ∈ N
бу-
j
j
i,j∈N
i,j∈N
дут положительные члены. Если в ней есть также отрицательные или
нулевые {лены, то п}оцесс сд{лает следу}щее приближение к равнове-
сию max
αt+2i - αt+2
< max
αt+1i - αt+1
. Если подобная ситуация по-
j
j
i,j∈N
i,j∈N
{
}
вторяется на протяжении всего процесса, то имеем max
αt+1i - αt+1
<
j
i,j∈N
{
}
{
}
{
}
< max
αti - αt
< max
αt-1i - αt-1
< ... < max
α0i - α0
. Таким обра-
j
j
j
i,j∈N
i,j∈N
i,j∈N
{
}
зом, max
αti - αt
→ 0 при t → ∞. Поскольку знаки αtmt и αt не совпа-M
j
t
i,j∈N
дают, то ∀i ∈ N αti → 0 при t → ∞ и Qt → Q(s), qti → q(s)i. Процесс сходится.
В дополнение отметим ряд полезных результато{ связанн}х со сменой или
сохранением знаков членов последовательностей
αti,i ∈ N
, которые приве-
дены в лемме П.7.
Таким образом, показана с{одимост}процесса (10), (11), (13) при любых
начальных выпусках агентов
q0i,i ∈ N
Утверждение 2 доказано.
СПИСОК ЛИТЕРАТУРЫ
1.
Stackelberg H. Market Structure and Equilibrium: 1st Edition. Translation into En-
glish, Basin, Urch&Hill. Springer, 2011. (Original 1934.)
2.
Cournot A. Researches into the Mathematical Principles of the Theory of Wealth.
London: Hafner, 1960. (Original 1838.)
3.
Nash J. Non-Cooperative Games // Ann. Math. 1951. No. 54. P. 286-295.
4.
Novikov D.A., Chkhartishvili A.G. Reflexion and Control: Mathematical Models.
Leiden: CRC Press, 2014.
5.
Berger U., de Silva H., Ferner-Rohling G. Cognitive Hierarchies in the Minimizer
Game // J. Econom. Behavior Organizat. 2016. V. 130. P. 337-348.
6.
Айзенберг Н.И., Зоркальцев В.И., Мокрый И.В. Исследование нестационарных
олигопольных рынков // Сиб. журн. индустр. мат. 2017. Т. 20. № 1. С. 11-20.
7.
Алгазин Г.И., Алгазина Д.Г. Коллективное поведение в модели Штакельберга
в условиях неполной информации // АиТ. 2017. № 9. C 91-105.
Algazin G.I., Algazina D.G. Collective Behavior in the Stackelberg Model under
Incomplete Information // Autom. Remote Control. 2017. V. 78. No. 9. P. 1619-
1630.
8.
Гераськин М.И., Чхартишвили А.Г. Анализ игровых моделей рынка олигополии
при ограничениях по мощности и конкурентоспособности агентов // АиТ. 2017.
№ 11. С. 105-121.
Geras’kin M.I., Chkhartishvili A.G. Analysis of Game-Theoretic Models of an
Oligopoly Market under Constrains on the Capacity and Competitiveness of
Agents // Autom. Remote Control. 2017. V. 78. No. 11. P. 2025-2038.
9.
Гераськин М.И. Моделирование рефлексии в нелинейной модели трехагентной
олигополии Штакельберга для телекоммуникационного рынка России // АиТ.
2018. № 5. С. 83-106.
127
Geras’kin M.I. Modeling Reflection in the Non-Linear Model of the Stakelberg Three-
Agent Oligopoly for the Russian Telecommunication Market // Autom. Remote Con-
trol. 2018. V. 79. No. 5. P. 841-859.
10.
Опойцев В.И. Равновесие и устойчивость в моделях коллективного поведения.
М.: Наука, 1977.
11.
Малишевский А.В. Качественные модели в теории сложных систем. М.: Наука,
1998.
12.
Алгазин Г.И., Алгазина Д.Г. Информационное равновесие в модели динамики
коллективного поведения на конкурентном рынке // Управление большими си-
стемами. 2016. № 64. С. 112-136.
13.
Васин А.А., Васина П.А., Рулева П.Ю. Об организации рынков однородных
товаров // Изв. РАН. Теория и системы управления. 2007. № 1. С. 98-112.
14.
Корепанов В.О., Новиков Д.А. Метод рефлексивных разбиений в моделях груп-
пового поведения и управления // Проблемы управления. 2011. № 1. С. 21-32.
15.
Новиков Д.А., Чхартишвили А.Г. Модели рефлексивных игр в задачах управ-
ления эколого-экономическими системами // Управление большими системами.
2015. № 55. С. 362-372.
16.
Булавский В.А., Калашников В.В. Метод однопараметрической прогонки для
исследования состояния равновесия // Экономика и мат. методы. 1994. Т. 30.
№ 4. С. 129-138.
17.
Sherali H., Soyster A., Murphy F. Stackelberg-Nash-Cournot Equilibria: Character-
izations and Computations // Oper. Res. 1983. V. 31(2). P. 253-276.
18.
Harker P., Choi S.-C. A Penalty Function Approach for Mathematical Programs
with Variational Inequality Constraints // Inform. Decision Technolog. 1991. V. 17.
P. 41-50.
19.
Новиков Д.А. Модели стратегической рефлексии // АиТ. 2012. № 1. С. 3-18.
Novikov D.A. Models of Strategic Behavior // Autom. Remote Control. 2012. V. 73.
No. 1. P. 1-19.
20.
Алгазин Г.И., Алгазина Ю.Г. Рефлексивная динамика в условиях неопределен-
ности олигополии Курно // АиТ. 2020. № 2. С. 115-133.
Algazin G.I., Algazina Yu.G. Reflexive Dynamics in the Cournot Oligopoly under
Uncertainty // Autom. Remote Control. 2020. No. 81(2). P. 345-359.
21.
Алгазин Г.И., Коптевич Е.В. Возвратные последовательности в исследовании
конкурентных рынков // МАК-2019 ¾Математики - Алтайскому краю¿: сб.
тр. Всероссийской конф. по математике с междунар. участием. Барнаул, 2019.
С. 119-123.
22.
Маркушевич А.А. Возвратные последовательности. М.: Гос. изд-во техн.-теорет.
лит-ры, 1950.
Статья представлена к публикации членом редколлегии Д.А. Новиковым.
Поступила в редакцию 14.08.2019
После доработки 18.01.2020
Принята к публикации 30.01.2020
128