Автоматика и телемеханика, № 12, 2022

(antciperov@cplire.ru)

(Институт радиотехники и электроники

им. В.А. Котельникова РАН, Москва)

ГЕНЕРАТИВНАЯ МОДЕЛЬ АВТОКОДИРОВЩИКОВ,

САМООБУЧАЮЩИХСЯ НА ИЗОБРАЖЕНИЯХ,

ПРЕДСТАВЛЕHНЫХ ВЫБОРКАМИ ОТСЧЕТОВ¹

В работе обосновывается концепция автокодировщиков, ориентирован-

ных на автоматическую генерацию сжатых изображений. Предлагается

решение задачи синтеза подобных автокодировщиков в контексте мето-

дов машинного обучения, понимаемого здесь как обучение по выборке из

самих же данных. Для этих целей разработано специальное представле-

ние изображений с помощью выборок отсчетов контролируемого размера

(выборочных представлений). Основываясь на специфике данного пред-

ставления формализуется порождающая (генеративная) модель автоко-

дировщиков, которая затем конкретизуется до вероятностной параметри-

ческой модели отсчетов в виде смеси компонент. На основе концепции ре-

цептивных полей обсуждается редукция общей модели смеси компонент

до сеточной модели финитных компонент экспоненциального семейства,

допускающего синтез реалистических с вычислительной точки зрения ал-

горитмов кодирования.

Ключевые слова: машинное обучение, автокодировщики, генеративная

модель, смеси распределений, EM алгоритм, рецептивные поля.

DOI: 10.31857/S0005231022120091, EDN: KSXBRK

1. Введение

Настоящее время характеризется как эпоха больших данных (Big Data).

Большие данные, содержащиеся, например, в сети интернет, включают запи-

си медицинских наблюдений, данные регистрации аудио-, фото- и видеопото-

ков, сканированные документы, графические презентации и т.д. Эти данные

поступают из разных источников, поэтому характеризуются высокой разно-

родностью (variety). Сверх того, более 80% этих данных являются неструк-

турированными, что сильно затрудняет их передачу, хранение и использова-

ние. Большинство изображений в глобальной сети также относятся к катего-

рии неструктурированных данных [1]. Учитывая, что сеть интернет является

крупнейшим мировым репозитарием изображений, можно только сожалеть о

том, что невозможно в полной мере воспользоваться имеющимися ресурсами.

¹ Работа выполнена за счет бюджетного финансирования в рамках государственного

задания в ИРЭ им. В.А. Котельникова РАН (ГЗ “РЭЛДИС”).

108

Существует несколько подходов к преодолению означенной выше пробле-

мы больших данных [2]. Например, ввиду того, что исходные изображения

часто имеют высокое качество, а для многих приложений этого не требует-

ся, целесообразно передавать, хранить и использовать изображения в сжатом

виде. Эта нехитрая мысль объединяет тем не менее огромный пласт практи-

ческих исследований. Отметим, что объем этих исследований в последнее вре-

мя только возрос в связи с замечательными успехами в областях нейронных

сетей, глубокого обучения, искусственного интеллекта и т.д. (см. обзор [3]).

Вместе с тем, несмотря на целый ряд новых идей, привнесенных из области

машинного обучения в практику сжатия изображений, большинство новых

методов по-прежнему базируются на фундаментальных идеях Клода Шенно-

на, составляющих основу теории передачи данных с потерями (rate-distortion

theory) [4]. Последняя, по сути, посвящена фундаментальному компромиссу

между стремлением увеличить скорость передачи некоторого закодирован-

ного представления исходных данных и стремлением уменьшить искажения,

обусловленные возможными потерями части информации в процессе сжа-

тия / кодирования. Изначально полагалось, что цель теории состоит в том,

чтобы найти такой способ кодирования исходных (входных) данных, который

максимально минимизировал бы отклонение от них восстановленных (выход-

ных) данных при заданной скорости передачи. Однако известно, что в обла-

сти сжатия (кодирования) изображений минимизация отклонений сама по

себе не обязательно ведет к хорошему качеству восприятия восстановленных

изображений. Например, показано, что использование методов кодирования

в генеративно-состязательных сетях может приводить к заметному улучше-

нию качества восприятия изображения, хотя искажение исходного изобра-

жения может быть не минимальным [5]. В связи с этим в последнее время

был предпринят ряд попыток включения в теорию кодирования изображе-

ний дополнительных элементов, повышающих результирующее качество их

восприятия [6, 7].

Кардинальному пересмотру в новых подходах подверглись классические

методы оценивания качества изображений с помощью функций искажения

(distortion functions), которые определяются обычно как абсолютные или

квадратичные отклонения восстановленной версии изображения от оригина-

ла. Это связано с тем, что подобные простые функциональные метрики мало

адекватны особенностям восприятия изображений человеком, и по этим при-

чинам вплоть до недавнего времени визуальное качество изображений оцени-

валось специалистами, как правило, с помощью категориальных шкал, свя-

занных с субъективными оценками в группах зрителей. По этой причине пер-

вые попытки корректировки теории были направлены на поиски тех нетра-

диционных метрик, которые были бы объективно связаны с визуальным ка-

чеством. Основным требованием к таким метрикам была их высокая кор-

реляция с известными категориальными оценками качества. Среди наиболее

известных перцептивных метрик (perceptual metrics [2]) можно отметить мет-

рику структурного подобия (SSIM) [8] / метрику многомасштабного струк-

109

турного подобия (MS-SSIM) [9], метрику на основе визуальной информации

(VIF) [10], метрику на основе пространственного и временного наиболее оче-

видного искажения (MAD) [11].

Однако наибольших успехов в повышении качества восприятия восста-

новленных изображений удалось достичь не с помощью усовершенствова-

ния метрик искажений, а на пути пересмотра самой концепции искажений.

Речь идет о генеративном моделировании (generative modeling), набирающем

все большую популярность в машинном обучении [12]. Генеративные модели

рассматривают всю совокупность (входных / выходных) данных как набор

случайных переменных и в отличие от дискриминантных моделей (discrimi-

native models) ориентированы на их совместные вероятностные распределе-

ния, нежели на условные. К генеративным моделям, в частности, относятся

генеративно-состязательные сети (GAN) [13], вариационные автокодировщи-

ки (VAE) [14], глубокие сети доверия (DBN) [15] и т.д.

Практическая успешность генеративных моделей теоретически выяснена

не полностью, однако, часто приходится слышать суждение о том, что это

может быть связано с более адекватным моделированием особенностей есте-

ственного интеллекта [16]. Действительно, по мере развития перечисленных

выше подходов [13-15] каждый новый этап разработки добавлял новые эле-

менты, моделирующие особенности иерархической архитектуры коры, глубо-

кого обучения с подкреплением, рабочей памяти в рекуррентных корковых

сетях, долговременной памяти и т.д. В этой связи следует сделать особый

акцент на роли представлений данных. Моделирование функций и структу-

ры коры само в значительной степени предопределяют представления вход-

ных - промежуточных - выходных данных и их взаимосвязи. Вместе с тем

существует ряд примеров, когда именно удачный выбор представлений дан-

ных позволил существенно повысить эффективность реализуемых на их ос-

нове функций [13-15]. Исходя из этого вопросы выбора представлений дан-

ных должны по-видимому играть не последнюю роль в разработке новых

методов кодирования изображений, ориентированных на высокое качество

восприятия.

В данной работе, основываясь на генеративной модели обучения без учи-

теля [12], предлагается новый подход к задачам кодирования изображений

на основе данных самих же изображений посредством рекуррентных авто-

кодировщиков. Предлагаемый подход строится на основе ранее разработан-

ного специального представления изображений (входных данных) с помо-

щью выборки отсчетов контролируемого размера (выборочных представле-

ний) [17, 18]. Поскольку в рамках генеративной модели полное статистиче-

ское описание выборочных представлений задается произведением плотно-

стей распределения вероятностей отдельных отсчетов, в основе предлагае-

мого подхода лежит, по существу, статистическая проблема оценки плот-

ностей распределения вероятностей (density estimation) [19]. В данной ра-

боте ограничимся классом параметрических процедур оценивания [19], что

подразумевает задание некоторого параметрического семейства распределе-

110

ний вероятностей. В качестве последнего предлагается использовать модель

смеси компонент из семейства экспоненциальных распределений (exponen-

tial family distributions) [20]. Соответственно в качестве кодированных изоб-

ражений (выходных данных) используется совокупность оценок параметров

компонент и их весов, вычисляемых по выборочному представлению (вход-

ным данным). В данном контексте оптимальное кодирование синтезирует-

ся на основе метода максимального правдоподобия. Показано, что решение

уравнения максимального правдоподобия для модели смеси компонент при-

водит к рекуррентной процедуре кодирования, которая на каждой итерации,

подобно популярному EM-алгоритму [21], включает два шага. На первом ша-

ге (мягкого) разбиения выборки осуществляется стохастическая ассоциация

отсчетов с компонентами смеси, а на втором производится пересчет оценок.

Для целей алгоритмической (компьютерной) реализации процедуры коди-

рования вводится представление модели в виде системы рецептивных полей,

представляющих собой локальные плотности распределения вероятностей от-

счетов, покрывающих в совокупности все поле изображения. Предложенное

представление позволяет значительно снизить требования алгоритма коди-

рования к вычислительным ресурсам. Кроме того, за счет некоторого упро-

щения представления, подобного используемому, например, в вариационном

EM [22], процедура кодирования сводится к хорошо известным алгоритмам

брегмановской мягкой / жесткой сегментации [23], LBG алгоритму вектор-

ного квантования [24], K-means кластеризации [25] и самоорганизующимся

картам Кохонена [26]. Перечисленные взаимосвязи позволяют рассматривать

предлагаемую процедуру как обобщение по нескольким направлениям хоро-

шо известных методов машинного обучения. Теоретические аспекты пред-

ложенного подхода перцептивного сжатия изображений иллюстрируются по

ходу статьи результатами компьютерного моделирования.

2. Представление изображений выборками случайных отсчетов

В нескольких предыдущих работах (см., например, [17, 18]) было пред-

ложено представление изображений наборами случайных отсчетов (photon-

counting statistics [27]). Данное представление мотивировано, с одной сторо-

ны, прогрессом в развитии SPAD-матриц на основе однофотонных лавинных

диодов [28], а с другой стороны, постоянно растущей тенденцией моделиро-

вания механизмов зрительного восприятия в задачах цифровой обработки

изображений [29]. Отсчетное представление предполагает соответствующее

устройство формирования изображения (photon counting imaging system [27]),

содержащее большое число точечных детекторов, причем предполагается,

что последние настолько малы, что каждый из них может регистрировать

одиночные фотоны падающего излучения.

Формально под идеальным устройством формирования изображения бу-

дем понимать плоскую 2D-поверхность Ω, на которой вплотную друг к другу

расположены идентичные точечные детекторы, или “джоты” в терминах [28],

111

Падающая

интенсивность I(x)

x₂

Идеальное устройство

формирования изображения

Регистрируемые

отсчеты x_i

x₁

Рис. 1. Идеальное устройство формирования изображения и результат реги-

страции падающего излучения интенсивности I(x) в виде набора фотоотсче-

тов X = (x₁, . . .,x_n).

(см. рис. 1), имеющие малую площадь ds светочувствительной поверхности.

Соответственно, общее количество детекторов будет N = S/ds, где S общая

площадь поверхности Ω. Идеально, в предположении, что S фиксирована,

а ds → 0, число детекторов N → ∞. Таким образом, идеальное устройство

формирования изображения это почти непрерывная чувствительная по-

верхность Ω с координатами x = (x₁, x₂), задающими положения идеальных

точечных детекторов, как это представлено на рис. 1.

Регистрация падающего на Ω излучения интенсивности I(x, t) проявляет-

ся, согласно современным физическим представлениям [30], в происходящих

на микроуровне случайных событиях, связанных с поглощением фотонов.

Эти события, в зависимости от типа используемых фотодетекторов, могут

состоять в высвобождении фотоэлектронов из p-n переходов полупроводни-

ковых детекторов, в изменении конформации молекул родопсина рецепторов

сетчатки, в образовании атомов металлического Ag из галогенидов сереб-

ра в фотопленках и т.д. Все подобные события обычно объединяются об-

щим термином фотоотсчеты, или просто отсчеты (по поводу терминологии

см. [27]). В модели идеального устройства формирования изображений от-

счеты являются событиями случайными в смысле классической теории веро-

ятностей и задаются пространственными координатами случайными век-

торами x ∈ Ω (совпадающими с координатами соответствующих точечных

детекторов) и случайными же моментами времени регистрации t ∈ (t, t + dt).

В полуклассическом приближении [30] вероятность отсчета за время dt → 0

равна P₁(x) = αI(x, t)ds dt, где α = η(hν)^-1, hν средняя энергия регистри-

руемого фотона (h постоянная Планка, ν характерная частота излуче-

112

ния), безразмерный коэффициент η < 1 является квантовой эффективностью

материала детектора.

На основе модели идеального устройства формирования изображений

можно сформулировать модель идеального изображения [17, 18]. Под иде-

альным изображением понимается (упорядоченный) набор X = (x₁, . . . , x_n)

n случайных отсчетов, регистрируемых идеальным устройством в течение

времени экспозиции T . Таким образом, идеальное изображение представляет

собой даже при заданной (детерминированной) интенсивности I(x, t) случай-

ный объект. При этом случайный характер идеального изображения опре-

деляется не только случайными координатами x_i отсчетов, но и случайным

числом n их общего количества в наборе X.

Полное статистическое описание идеальных изображений в виде всех ко-

нечномерных плотностей распределений ρ(x₁, . . . , x_n, n|I(x, t)) может быть

получено в предположении условной независимости отсчетов x_i (при за-

данной регистрируемой интенсивности I(x)). Стандартный вывод стати-

стического описания, опирающегося на пуассоновскую аппроксимацию при

ds → 0, N → ∞, Nds = S = const совместной вероятности большого ансам-

бля бернулиевских точечных детекторов (успех регистрация фотоотсче-

та с вероятностью P₁(x), неудача отсутствие регистрации с вероятностью

P₀(x) = 1 - P₁(x)), можно найти, например, в [31]. Приведем здесь лишь

окончательный результат, отвечающий стационарному случаю (I(x, t) =

= I(x)):

ρ(x₁, . . . , x_n, n | I(x)) = ρ(x₁, . . . , x_n | n, I(x)) × P_n(I(x)) =

∏

= ρ(x_i | I(x)) × P_n(I(x)),

(1)

i=1

∫∫

P_n(I(x)) =

exp(-n), n = αT

I(x)ds,

где n среднее число всех отсчетов, ρ(x_i | I(x))

плотность вероятности

отсчета:

I(x)

(2)

ρ(x_i | I(x)) =

∫∫

I(x)ds

Отметим, что полное статистическое описание (1), (2) совпадает с рас-

пределением вероятностей событий 2D-точечного пуассоновского процесса

на Ω [31], интенсивность событий которого λ(x) с точностью до αT совпа-

дает с интенсивностью I(x) зарегистрированного излучения.

Из (2) следует, что плотность распределения вероятностей отсчета x ∈ Ω

при регистрации излучения идеальным устройством формирования изоб-

ражений совпадает с нормированной интенсивностью I(x) этого излучения

на Ω. Отметим в этой связи универсальный характер (2): условная плотность

113

распределения вероятностей не зависит ни от квантовой эффективности ма-

териала детекторов η, ни от спектра (в том числе характерной частоты ν

излучения), ни от времени экспозиции T . Более того, она не зависит и от

единиц измерения I(x), будь то абсолютные физические единицы или услов-

ные, полученные в результате оцифровки.

Модель идеального изображения и статистическое описание (1), (2) часто

используются при низких интенсивностях I(x) излучений, например, в об-

ластях флуоресцентной микроскопии, позитронно-эмиссионной томографии

(ПЭТ), однофотонной эмиссионной компьютерной томографии (ОФЭКТ),

оптической и инфракрасной астрономии и т.д. [32]. Однако при обычных

интенсивностях, соответствующих, например, дневному свету, практическое

использование модели идеального изображения оказывается проблематич-

ным. Дело в том, что потоки фотонов, например, от солнца в ясный день

огромны на площадке S ∼ 1mm² на поверхности земли они составляют

n ∼ 10¹⁵-10¹⁶ фотонов/с. Очевидно, что работа с такими потоками данных

потребует в практических задачах слишком больших ресурсов. Поэтому для

задач представления изображений с помощью отсчетов желательно скоррек-

тировать приведенную выше модель идеального изображения.

Некоторое время назад было предложено следующее решение пробле-

мы отсчетных представлений [17]. Зафиксируем с самого начала некото-

рое приемлемое значение размеров представления k ≪ n и, рассматривая

идеальное изображение X = (x₁, . . . , x_n) как некоторую генеральную сово-

купность случайных отсчетов, осуществим из нее, в полном соответствии

с традициями классической статистики, случайную выборку в k отсче-

тов X_k = (xj1 , . . . , xjk ). Очевидно, такое “выборочное” представление по-

прежнему, хотя и при гораздо меньшем размере данных, представляет ис-

ходное изображение X. Назовем X_k представлением изображения выборкой

случайных отсчетов или, короче, выборочным представлением. Статистиче-

ское описание выборочных представлений легко следует из (1), (2) в резуль-

тате интегрирования ρ(x₁, . . . , x_n), n | I(x) по невыбранным в X_k отсчетам и

суммирования результатов по их числу l = n - k = 0, 1, . . . :

∏

ρ(X_k | I(x)) =

ρ(x_j | I(x)) × P_n≥k(I(x)),

j=1

(3)

∑

P_n≥k(I(x)) =

P_k+l(I(x)),

l=0

где P_n≥k(I(x)) обозначает вероятность того, что в идеальном изображении

содержится более, чем k отсчетов. Учитывая пуассоновский характер веро-

ятностей P_n и их асимптотическое стремление при n → ∞ к гауссовому рас-

пределению со средним n, несложно показать, что в случае n ≫ 1 вероятность

P_n<k(I(x)) будет меньше ε, как только k < 2εn и, соответственно, P_n≥k(I(x))

будет отличаться от единицы менее, чем на ε. Считая далее, что для пред-

114

ставления изображений выборками случайных отсчетов X_k размеры послед-

них удовлетворяют k ≪ n и полагая P_n≥k(I(x)) = 1, с точностью до малого

ε = k/2n, получим из (3):

∏

(4)

ρ(X_k | I(x)) =

ρ(x_j

| I(x)).

j=1

Заметим, что (4) формально следует из (2) в предположении, что иде-

альное устройство формирования изображений при регистрации излучения

интенсивности I(x) практически наверное содержит (гораздо) больше отсче-

тов, чем размер выборочного представления k. Именно, предполагая в этих

обстоятельствах условную независимость произвольных k отсчетов

x_j ∈ Ω,

придем сразу же к (4), перемножив плотности распределений (2).

Статистическое описание

(4) для выборочных представлений X_k =

= (x₁, . . . , x_k) имеет ряд привлекательных свойств (новая нумерация соот-

ветствует номерам выбранных отсчетов, а не отсчетам идеального изоб-

ражения X, как это было выше). Это описание, во-первых, фиксирует

условную независимость и одинаковое условное распределение (iid свойство)

всех k отсчетов {x_j}. Во-вторых, плотности распределений отдельных от-

счетов ρ(x_j | I(x)) кратны распределению интенсивности I(x) по поверхно-

сти Ω изображения (см. (2)). И, в-третьих, как это было отмечено выше,

описание (4) также обладает свойством универсальности не зависит ни от

квантовой эффективности материала детекторов η, ни от спектра излучения,

ни от времени экспозиции T . Таким образом, перечисленные свойства выбо-

рочных представлений осуществляют удобную форму представления вход-

ных данных для многих хорошо разработанных статистических подходов и

методов машинного обучения, включая наивный байесов подход.

Более того, ввиду независимости распределений ρ(x_j | I(x)) в (4) от аб-

солютных значений интенсивности (см. (2)) статистические описания выбо-

рочных представлений X_k также не зависят от единиц измерения интенсив-

ности I(x). В частности, если интенсивность зарегистрированного излучения

задана пикселами {m_i} некоторого цифрового изображения, описание (4) не

зависит от величины порога квантования Q = ΔI, а будет определяться толь-

ко битовой глубиной пикселов υ (или числом уровней квантования 2^υ).

В связи с последним замечанием отметим, что процедуру формирования

выборочного представления для цифровых изображений можно по существу

свести к нормировке π_i = m_i/Σm_i значений пикселей m_i ∼ I_i/Q изображения

и последующему семплированию k отсчетов из полученного распределения

вероятностей ρ(x_j | I(x)) ≈ π_i. Если учесть, что в области машинного обуче-

ния существует целый арсенал методов семплирования, объединенных общим

названием методов Монте-Карло [33], то формирование выборочных пред-

ставлений цифровых изображений можно с алгоритмической точки зрения

рассматривать как применение стандартных процедур.

115

500 000

1000 000

5 000 000

Рис. 2. Представление изображения “Cameraman” выборками случайных от-

счетов: a исходное изображение в формате TIFF; б, в, г представления

выборками размеров, соответственно, 500 000, 1 000 000, 5 000 000 отсчетов.

Для примера на рис. 2 приведены представления выборками случай-

ных отсчетов стандартного тестового изображения

“Cameraman”, широ-

ко используемого в публикациях по обработке изображений. Изображение

“Cameraman” задано изначально в формате TIFF, имеет размеры s × s =

= 512 × 512 пикселей (72 dpi), серое, с глубиной цвета υ = 8 бит. Сем-

плирование выборочных представлений в k = 500 000, 1 000 000, 5 000 000 от-

счетов осуществлялось одним из самых простых методов

семплирова-

нием с отклонением (rejection sampling [33]) при равномерном вспомога-

тельном распределении g(x) = 1/s × s = 512^-2 и верхнеграничной константе

M = 2^υ/m = 256/m, где m = Σm_i/s × s среднее значение пикселей изобра-

116

жения. Алгоритмическая реализация приведенной процедуры сводится, та-

ким образом, к случайному выбору равномерно распределенных на поверхно-

сти изображения Ω с координатами (x₁, x₂) числами с плавающей точкой

случайных векторов x_j и включения их в выборку отсчетов X_k при выпол-

нении теста u_j < m_i , где i индекс содержащего x_j пикселя изображения,

а u_j реализация случайной, равномерно распределенной на (0,2^υ) величи-

ны. Отметим, что для этой процедуры нормировка пикселей не требуется.

В связи с приведенным примером еще раз подчеркнем различие в при-

роде цифровых изображений и их выборочных представлений. Всякое циф-

ровое изображение, например растровое (bitmap), является детерминирован-

ным объектом, представляющим собой раз и навсегда зафиксированную ре-

ализацию (вообще говоря случайного) процесса регистрации излучения. Лю-

бая обработка такого изображения фильтрация, децимация, выравнивание

гистограммы и т.д. всегда будет приводить при заданном алгоритме к од-

ному и тому же результату. Наоборот, как отмечалось выше, выборочные

представления X_k = (x₁, . . . , x_k) являются случайными объектами и каждая

новая процедура их формирования будет давать реализацию, слегка отлич-

ную от предыдущих. Соответственно, обработка разных реализаций приве-

дет к несколько отличающимся результатам. Трактовать эти отличия следует

статистически, как это делается, например, в теории статистического оцени-

вания. В частности, при увеличении размера выборочного представления k

следует ожидать, что относительные отклонения по реализациям будут стре-

миться к нулю, демонстрируя проявление закона больших чисел. Некоторое

представление об асимптотическом поведении выборочных представлений да-

ет рис. 2.

3. Кодирование и декодирование изображений,

представленных выборками случайных отсчетов

В области машинного обучения автокодировщики (автоэнкодеры, АЭ) рас-

сматриваются как особый класс искусственных нейронных сетей [34], но для

целей данной работы желательно определить их с более общей точки зрения.

А именно, будем рассматривать АЭ как некоторый класс информационных

систем, понимая под последними интегрированные системы компонент для

сбора, хранения и обработки данных. В контексте настоящей работы под дан-

ными естественно подразумеваются изображения. Традиционно АЭ имеют

симметричную трехуровневую структуру вход внутреннее представление

(код) выход, симметрия подразумевает подобие выхода входу.

Пары соседних уровней составляют в АЭ две взаимные компоненты: ко-

дер, включающий уровни вход-код, и декодер, включающий уровни код-вы-

ход [35]. Цель AЭ

восстановить данные на выходе, соблюдая при этом

определенные ограничения, накладываемые на внутреннюю кодировку. Вви-

ду имеющихся ограничений не разрешается просто копировать данные со

ввода на выход. Типичные ограничения связаны с уменьшением размерно-

117

сти промежуточных данных z. В свете подходов машинного обучения коди-

рование z осуществляется на основе обучения АЭ без учителя (unsupervised

learning) [35]. Отметим, что термин “автокодировщик” часто используется как

синоним автоассоциативных, репликативных и др. нейронных сетей.

Для конкретизации АЭ в контексте данной работы возьмем за основу

формально-математическую структуру абстрактного АЭ [36]. Структура АЭ

включает множество G возможных изображений, полученных при регистра-

ции излучения интенсивности I(x) и множество F их внутренних (кодовых)

представлений. Также она включает классы операторов f : G → F (кодеры)

и g : F → G (декодеры), согласованные по размерностям с G и F и с заданны-

ми ограничениями. Кроме того, структура АЭ предполагает количественную

меру D(I(x), I_r(x)) расхождения (искажения) между изображением I(x) на

входе и некоторым его восстановленным вариантом I_r(x) на выходе. Обычно

эту меру называют функцией потерь [35]. В рамках приведенной структуры

задачей АЭ является минимизация функции потерь по отношению к опера-

торам f и g

(

)

(5)

{f^∗, g^∗} = arg min D

I(x), g ◦ f(I(x))

f,g

Любое решение f^∗ уравнения (5) рассматривается как желаемое кодирова-

ние для последующего оптимального восстановления g^∗ изображения. К со-

жалению, решение (5) в общем виде задача нереальная. Поэтому при изуче-

нии практических задач необходимо конкретизировать некоторые элементы

общей структуры АЭ. Различные виды АЭ могут быть получены в зависи-

мости от выбора множеств G и F , специальных классов операторов f и g,

явного вида функции потерь D, а также наличия дополнительных ограниче-

ний, таких как гладкость, размерность и пр.

В рамках данной работы входными данными АЭ являются k-выборки слу-

чайных отсчетов выборочные представления X_k = (x₁, . . . , x_k), порожден-

ные плотностью распределения вероятностей координат отсчетов ρ(x | I(x)),

кратной регистрируемой интенсивности I(x) (2). Таким образом, вполне ра-

зумно выбрать в качестве множества входных изображений G множество

плотностей распределения {ρ(x | I(x))}, x ∈ Ω. Это автоматически подводит

к порождающим (генеративным) моделям АЭ [35]. В отличие от дискрими-

нантных АЭ, которые наиболее естественно интерпретировать как регуляри-

зирующие операторы, автокодировщики в генеративной парадигме рассмат-

ривают внутренние данные (код) F как латентные переменные, а операцию

кодирования как процедуру статистического вывода (нахождения кодовых

представлений по заданному выборочному представлению X_k). В связи с

этим генеративные модели учатся скорее восстанавливать по обучающим вы-

борочным наблюдениям (выборочному представлению) X_k порождающие их

вероятностные распределения, нежели отображать входные данные в выход-

ные. В качестве примеров генеративных подходов отметим вариационные ав-

токодировщики (VAE) [14] и генеративные стохастические сети (GSN) [37].

118

Чтобы формализовать порождающую модель для выборочных представ-

лений изображений X_k = (x₁, . . . , x_k), рассмотрим множество G как некото-

рое параметрическое семейство G = {ρ(x |θ}, x ∈ Ω,θ ∈ Θ ⊂ R^p плотностей

распределения вероятностей отсчета x. Параметризация G является распро-

страненным подходом, упрощающим общую задачу функциональной опти-

мизации (5) до задачи оценки оптимальных параметров. Обучение без учи-

теля для генеративной модели АЭ заключается в нахождении тех оптималь-

ных параметровθ∗ ∈ Θ, которые определяют выход АЭ в виде плотности

ρ(x |θ∗) ∈ G наилучшим образом соответствующей представлению X_k как

выборке данных на входе.

Формально представление X_k не является элементом G и не может рас-

сматриваться как вход для АЭ, задаваемый некоторыми параметрамиθ (по-

средством ρ(x |θ) ∈ G). Однако, рассуждая в духе байесовского подхода,

предполагая некоторое распределение параметров ρ(θ | X_k) при заданной

выборке X_k, можно выразить связанное с обучением вероятностное распре-

деление в виде:

∫∫

(

)

(6)

x | X_k = (x₁,...,x_k)

= ρ(x |θ)ρ(θ | X_k)dθ

Далее, согласно (Π.8), из Приложения плотность распределения апостери-

орной вероятности ρ(θ | X_k) является, по крайней мере асимптотически, при

k ≫ 1 более узкой функцией θ, чем ρ(x | θ). Поскольку максимум ρ(θ | X_k)

приходится при этом на оценку максимального правдоподобияθML, плот-

ность ρ(x |θ) может быть вынесена из последнего интеграла в (6) как

ρ(x |θML), что приводит к следующему соотношению:

(

)

(

)

(7)

x | X_k = (x₁,...,x_k)

=ρ

x | θML (x₁,...,x_k)

Тем самым, предполагая что на входе имеется некоторая плотность рас-

(

)

пределения ρ

x|θ

, задачей АЭ является формирование таких парамет-

ровθ∗, максимально близких кθML, которые бы на выходе дали плотность

(

)

x|θ∗

максимально подобную, в соответствии с (7), входной. Другими сло-

вами, задача автокодировщика в генеративной парадигме сводится к реше-

нию уравнений максимального правдоподобия Р. Фишера [38]:

θML = arg max L(θ; Xk),

θ∈Θ





(8)

(

)

∏

∑

(

)

L(θ; X_k) = ln

ρ(X_k |θ)

= ln ρ(x_j | θ) = ln

ρ(x_j |θ)

j=1

где традиционно использована функция логарифмического правдоподобия

выборочного представления L(θ; X_k), которая представляет собой ввиду (4)

119

сумму функций логарифмического правдоподобия по всем отсчетам выбор-

ки X_k. Отметим, что формально (8) можно получить, если использовать в

качестве функции потерь D(. . .) (5) дивергенцию Кульбака-Лейблера [39]

между эмпирическим распределением ρ(x | X_k)

(6) и параметрическим

ρ(x |θ) ∈ G [19].

Кажущаяся элегантность сформулированной основной задачи АЭ (8) в

рамках генеративной модели связана с переносом акцента с проблемы ко-

дирования входных данных на проблему вычисления оценок максимального

правдоподобия. Последняя задача, известная более ста лет, начиная с осново-

полагающих работ Р. Фишера [38], в реальных приложениях может оказать-

ся не проще (с вычислительной точки зрения), чем синтез дискриминантных

кодировщиков. По этим причинам сделаем еще один шаг в уточнения гене-

ративной модели АЭ, основанной на специфических особенностях архитек-

туры, связанных с внутренними переменными z ∈ F , составляющими про-

межуточное представление данных на входе. Для этих целей уточним гене-

ративную модель автокодировщиков G = {ρ(x |θ)} как модель смеси компо-

нент, в которой внутренние (скрытые) переменные z возникают естественным

образом.

4. Генеративная модель автокодировщика

в виде семейства смеси компонент

Возьмем в качестве параметрического семейства

G = {ρ(x | θ},

x ∈ Ω,

θ∈ Θ ⊂ R^p

плотностей распределения вероятностей отсчета x семейство смесей из K

компонент [20] вида

∑

(9)

ρ(x |θ) =

w_iρ_i(x |θ),

i=1

где {w_i}, w_i ≥ 0, i = 1, . . . , K являются нормированными весами компонент в

∑

смеси и связаны условием

w_i = 1, а {ρ_i(x |θ)}, ρ_i(x |θ) ≥ 0, i = 1,... ,K

i=1

являются плотностями распределения вероятностей x ∈ Ω для каждой из

компонент. С точки зрения статистики, смесь (9) формально можно интер-

претировать как маргинальное распределение по x, если для всех отсчетов

наряду с координатами x ввести случайные скрытые (латентные) целочислен-

ные переменные z ∈ {1, . . . , K}, ассоциирующие отсчет с компонентой i = z

смеси. При этом, интерпретируя веса {w_i} как априорное распределение ве-

роятностей z, a плотности ρ_i(x |θ) как условные распределения ρ(x | z = i,θ),

слагаемые w_iρ_i(x |θ) = w_iρ(x | z = i,θ) = ρ(x, z = i |θ) в (9) можно интерпре-

тировать как совместные распределения вероятностей “полных” наборов дан-

120

ных {x, z}, а ρ(x |θ) как маргинальное по отношению к нему распределение

ρ(x, z |θ) = w_zρ_z(x |θ),

(10)

∑

ρ(x |θ) =

ρ(x, z |θ).

z=1

Обычно априорные вероятности {w_i} являются частью множества пара-

метровθ смеси. В отношении же оставшихся параметров предполагается, что

они могут быть разбиты на K непересекающихся групп {ν_i}, i = 1, . . . , K,

νi ∈ Ξ ⊂ R^q так, что от параметров z-й группы, и только от них зависят услов-

ные распределения ρ_z(x |θ) = ρ_z(x |

ν_z) . Таким образом, полный набор пара-

метров моделиθ = {{w_i}, {ν_i}} ∈ Θ ⊂ R^p, i = 1, . . . , K, p = K(q + 1) рассмат-

ривается как объединение наборов весов {w_i} и параметров {ν_i} компонент.

Отметим, что вθ по крайней мере часть параметров

{w_i} зависимы свя-

заны условием нормировки. В сделанных предположениях модель смеси (10)

уточняется посредством ρ(x, z |θ) = w_zρ_z(x |

ν_z).

С учетом (10) задача нахождения максимума функции правдоподобия (8)

для смесей принимает вид (в предположении, что помимо условия нормиров-

ки для {w_i} другие ограничения на параметры отсутствуют):

∑

(

)

∇_⃗

∇

L(θ∗;X_k) =

θ ln

ρ(x_j |θ∗)

j=1

∑

∇_⃗

ρ(x_j, z_j |θ∗) =

ρ(x_j |θ∗

j=1

) z_j=1

(11)

∑

(

)

∑ ρ(x_j , z_j | θ∗)

∇_⃗

ρ(x_j , z_j |θ∗)

ρ(x_j |θ∗)

j=1 z_j=1

∑

(

)

ρ(z_j | x_j ,θ∗)∇⃗ln

ρ(x_j , z_j |θ∗)

= λℑ,

j=1 z_j=1

где ρ(z | x,θ) = ρ(x, z |θ)/ρ(x |θ) апостериорная вероятность скрытых пе-

ременных z, а векторℑ является индикатором частных производных по

параметрам-весам: он состоит из нулей, кроме единиц, на местах соответ-

ствующих ∂L(θ∗; X_k)/∂w_i в левой части (11). Кратныйℑ вектор λℑ возникает

при применении метода неопределенных множителей Лагранжа для условной

максимизации L(θ; X_k) с ограничением нормировки на {w_i}. Cоответственно

∑

неопределенный множитель λ находится из условия w^∗i(λ) = 1.

i=1

Уравнения максимального правдоподобия

(11) содержат в левой ча-

сти линейную комбинацию градиентов логарифмических функций прав-

∇_⃗

доподобия отсчетов (функций вкладов

score functions)

l(θ; x_j , z_j ) =

121

(

)

= ∇_⃗θln

ρ(x_j , z_j |θ)

, которую обычно проще анализировать, чем саму лога-

рифмическую функцию правдоподобия L(θ; X_k). Действительно, используя

ρ(x_j, z_j |θ) = wzj ρzj (x_j | ν_z) (см. (10) и далее), получим

∂l(θ∗;x_j,z_j)

δzjz

∂w_z

w^∗

(12)

z_j

(

)

ρzj (x_j | ν^∗z

)

∇νz l(θ∗; xj , zj ) =∇νzj ln

δzjz,

где δzj z

символ Кронекера.

Подстановка (12) в (11) упрощает уравнения максимального правдоподо-

бия до:

∑

)

ρ(z | x_j,θ∗

∂L(θ∗;X_k)

j=1

= λ,

∂w_z

w^∗z

(13)

∑

(

)

∇νz L(θ∗; Xk) =

ρ(z | x_j ,θ∗)∇⃗νz ln

ρ_z(x_j | ν^∗z)

=0.

j=1

Домножая уравнения, содержащие λ каждое на w^∗z и суммируя их по z,

получим, вследствие условий нормировки {w^∗i} и апостериорных распреде-

лений ρ(z | x,θ), что значением неопределенного множителя является λ = k.

Это позволяет освободиться от λ в уравнениях (13) и придать им следующую

компактную форму: 0

z = 1,...,K,

∑

w^∗z =

ρ(z | x_j,θ∗),

(14)

j=1

∑

(

)

ρ(z | x_j ,θ∗)∇⃗ν

ρ_z(x_j | ν^∗z)

=0.

j=1

Дальнейшее уточнение уравнений (14) максимально-правдоподобного вос-

становления изображений по выборке X_k = (x₁, . . . , x_k) зависит от выбора ви-

да зависимости плотностей (условного) распределения вероятностей отсчетов

ρ_z(x_j | ν_z) от параметров ν_z для каждой из z-компонент (от конкретизации

параметрической модели смеси (10)). Основная идея, лежащая в основе пред-

лагаемой ниже модели, связана с теорией рецептивных полей.

5. Генеративная модель автокодировщика

с компонентами смеси в виде рецептивных полей

Теория рецептивных полей позволяет использовать в задачах обработки

изображений современные представления о механизмах восприятия челове-

122

x₂

компоненты

в узлах решетки

D_l

D_m

m_k

m_l

m_m

отсчет x и его

D-окрестность

x₁

базовый носитель

D > d

Рис. 3. Простейшая геометрия расположения носителей компонент {Δ_z } в уз-

лах {µ_z } прямоугольной сетки, покрывающей Ω. Показаны базовый носитель

Δ и Δ-окрестность произвольной точки x ∈ Ω с принадлежащими им узлами

сетки.

ком зрительных образов. Основная концепция теории заключаются в том, что

извлекаемая из изображений информация содержится не в значениях интен-

сивности, зарегистрированной отдельными рецепторами, а формируется на

основе анализа кооперативной активности рецеторов, составляющих опреде-

ленные локальные области [40, 41]. Основными доводами, согласно которым

необходимо анализировать интенсивность по областям изображения, а не по

отдельным точечным детекторам, являются, с одной стороны, необходимость

накопления стимула по группам рецепторов для формирования значимого

суммарного сигнала для выходных нейронов сетчатки, а с другой стороны,

необходимость сжатия полного потока данных от рецепторов ввиду ограни-

ченной пропускной способности зрительного канала. Подобные локальные

области, составляющие зоны ответственности отдельных выходных зритель-

ных нейронов, традиционно называют рецептивными полями. Функциональ-

ное описание рецептивных полей и способы их алгоритмического описания

можно найти в [42].

В соответствии с концепцией рецептивных полей примем, что компонен-

ты плотности совместных распределений ρ_z(x | ν_z) (10) имеют финитные,

не зависящие от параметров ν_z носители Δ_z = {x | ρ_z(x | ν_z) > 0}, располо-

женные в узлах µ_z некоторой воображаемой сетки, покрывающей область

изображения Ω (см. рис. 3). Предполагается, что совокупность всех носите-

⋃_K

лей {Δ_z} составляет покрытие области изображения: Ω ⊂

Δ_z. Таким

z=1

123

образом, множество носителей компонент {Δ_z} играет роль совокупности ре-

цептивных полей.

Предположим далее для простоты, что набор компонент является одно-

родным в области Ω c точностью до расположений узлов {µ_z} все услов-

ные распределения {ρ_z (x | ν_z)} принадлежат одному общему параметриче-

скому семейству плотностей g = {η(ξ | ν)}, ν ∈ Ξ ⊂ R^q, так что ρ_z(x | ν_z) =

= η(x - µ_z | ν_z). В этом случае параметрическое семейство смесей (10) имеет

трансляционно-инвариантный по отношению к сетке вид

∑

(15)

ρ(x |θ) =

w_zη(x - µ_z | ν_z

z=1

Предполагается также, что все элементы семейства g = {η(ξ | ν)} имеют

общий финитный носитель Δ, который будет в дальнейшем называться ба-

зовым носителем. Поскольку компоненты (15) являются перемещенными в

узлы сетки {µ_z} элементами семейства, их носители {Δ_z} также будут пе-

ремещенными в узлы сетки копиями базового носителя Δ. Сам же базовый

носитель, расположенный в окрестности начала координат R², будет пред-

полагаться симметричным в том смысле, что вместе с каждой своей точкой

ξ ∈ Δ он содержит также и -ξ, в частности, содержит начало координат 0.

Характерный размер базового носителя обозначим как D. Примером сим-

метричного базового носителя является прямоугольный носитель Δ размеров

D × D на рис. 3.

Для перекрытия (носителей) соседних компонент необходимым условием

является D > d, где d шаг сетки. Это же условие необходимо для при-

нятого предположения о покрытии области Ω объединением носителей всех

компонент {Δ_z}. Отметим здесь, что для прямоугольной сетки в случае пря-

моугольной формы базового носителя условие D > d также и достаточно, для

√

круглой формы носителя достаточно D >

2d.

При покрытии Ω совокупностью носителей {Δ_z} каждая точка x ∈ Ω при-

надлежит хотя бы одному из носителей. Поэтому множество узлов сетки, но-

сители которых содержат x, не пусто. Обозначим множество индексов этих

узлов посредством δ_x = {z | x ∈ Δ_z} и назовем его сеточным окружением x.

Заметим, что в силу симметричности базового носителя Δ, в δ_x попадут те и

только те узлы сетки, которые содержатся в области, полученной смещением

в точку x базового носителя Δ (см. рис. 3). Поскольку в смеси (15) компо-

ненты, носители которых не содержат x, обращаются в ноль, представление

смеси с использованием сеточного окружения δ_x можно записать в сжатом

виде

∑

(16)

ρ(x |θ) =

w_zη(x - µ_z | ν_z

z∈δ_x

где в отличие от (15) область суммирования по скрытым переменным z зави-

сит от x. При размерах сеточных окружений |δ_x| ≪ K в смеси (16) для каждой

124

точки x слагаемых будет намного меньше K (как формально предполагается

в (15)).

Последним предположением относительно параметрического семейства

смесей (16) является уточнение явного вида семейства g = {η(ξ | ν)}. Доста-

точно гибким и удобным с вычислительной точки зрения выбором представ-

ляется семейство экспоненциально-cкошенных распределений (family of ex-

ponentially tilted densities) [43]. Семейство экспоненциально-cкошенных рас-

пределений задается некоторой, не зависящей от параметров ν плотностью

распределения вероятностей ρ₀(ξ) и ее экспоненциально-скошенными, зави-

сящими от параметров ν ∈ Ξ ⊂ R² версиями:

(17)

η(ξ | ν) = exp{ξT ν - A(ν)}ρ₀(ξ),

где T операция векторного транспонирования.

Отметим, что нормировка плотностей ρ₀(ξ) и η(ξ | 0) в (17) ведет к усло-

вию A(0) = 0, или ρ₀ = η(ξ | 0). Другими словами, определяющая семейство

плотность ρ₀(ξ) сама является элементом семейства. Более того, как следу-

ет из (17), носитель ρ₀(ξ) задает базовый носитель Δ для всего семейства.

В частности, ограниченность и симметрия Δ будут обеспечены, если ρ₀(ξ),

финитная и симметричная плотность, что в дальнейшем предполагается вы-

полненным.

Функция параметров A(ν) в (17) обеспечивает нормировку плотностей

η(ξ | ν) при любых ν, что равносильно выполнению условия





∫



(18)

A(ν) = ln

exp(ξT ν)ρ₀(ξ)dξ





Из (18) следует ввиду симметричности ρ₀(ξ), что A(ν) также является

симметричной функцией. Далее, ввиду финитности ρ₀(ξ), функция парамет-

ров A(ν) определена и аналитична на всей плоскости R² (и даже на C²).

Из (18) также следует, что A(ν) является логарифмом двумерного преобра-

зования Лапласа от ρ₀(ξ), что характеризует ее как производящую функцию

кумулянтов [44] для ρ₀(ξ) (см. в этой связи Приложение (Π.9)). Впрочем,

через A(ν) достаточно просто выражается и производящая функция куму-

лянтов ψ(ν^′) самого распределения η(ξ | ν) (17): ψ(ν^′) = A(ν^′ + ν) - A(ν),

что для первых моментовζ⃗ν и R_⃗ν дает:

∫

∇ν ′ ψ(0) =∇A(ν) =ζν =

ξη(ξ | ν)dξ,

(19)

∫

∇ν ′∇ν ′ ψ(0) =∇∇T A(ν) = Rν =

(ξ -ζ⃗ν)(ξ -ζ⃗ν)^T η(ξ | ν)dξ.

125

Как следует из (19), матрица Гесса∇∇T A(ν) при любых ν является корре-

ляционной матрицей R_ν распределения (17), поэтому она всюду положитель-

но определена и, как следствие, всюду строго выпукла. Последнее обстоятель-

ство обеспечивает взаимную однозначность отображения ν →ζ⃗ν =∇A(ν).

Ввиду этой взаимной однозначности можно вместо параметров ν, называе-

мых в контексте экспоненциальных семейств натуральными (или канониче-

скими) [44], пользоваться параметрами среднихζ. Заметим, что в соответ-

ствии ν ↔ζ в силу симметрии A(ν) ноль отображается в ноль.

Переход к параметрам средних в (17) тесно связан с преобразованием Ле-

жандра [43] функции A(ν) (18):

(

)

(20)

A^∗(ζ) = max

ζ ^Tν - A(ν)

ν∈Ξ

Максимум в (20) достигается на решении уравнения∇A(ν_⃗ζ) =ζ, а его ве-

личина A^∗(ζ) равна значению выраженияζT ν_⃗

- A(ν_⃗). Отметим, что для

симметричной A(ν) ее дуальная по Лежандру функция A^∗(ζ) также симмет-

рична.

Если переобозначить в (20)ζ →ξ, можно с учетом явного вида дуальной

по Лежандру функции A^∗(ζ) преобразовать показатель экспоненты в (17)

следующим образом:

ξ^Tν - A(ν) = ξT(ν - ν_⃗) - A(ν) + A(ν⃗) + A∗(ξ) =

(21)

= -B_A(ν,ν_⃗) + A∗(ξ),

где введена связанная с A(ν) дивергенция Брегмана (Bregman divergence) [45]:

(22)

B_A(ν,ν^′) = A(ν) - A(ν^′) -∇T A(ν^′)(ν - ν^′

Аналогично дивергенции B_A(. . .) (22) можно ввести дивергенцию Брегма-

на B_A∗ (. . .), связанную с дуальной функцией A^∗(ζ) (20). Оказывается, что

обе эти дивергенции также связаны соотношением дуальности B_A(ν, ν^′) =

= B_A∗(ζ′,ζ), где предполагаетсяζ = ∇ A(ν), ζ′ = ∇ A(ν ^′) [45]. Поэтому, на

основе (21), (22) семейство скошенных распределений (17) можно переписать

в параметрах средних в виде

(23)

η(ξ |ζ) = η(ξ | ν_⃗) = exp{-BA∗(ξ,ζ)}exp{A∗(ξ)}ρ0(ξ).

Отметим, что хотя форма (23) распределений семейства не столь явно

как (17) выражает деформацию симметричной плотности ρ₀(ξ), она также

содержит некоторую трактовку cкошенных распределений, ввиду следующей

из (19) интерпретацииζ как среднего отξ. Именно форма (23) представляет

плотности семейства как произведение факторов exp{-B_A∗ (ξ,ζ)} купо-

ла-подобной функции, достигающей максимума вξ =ζ и exp{A^∗(ξ)}ρ₀(ξ)

126

симметричной функции, имеющей максимум в нуле. Эту трактовку можно

подчеркнуть еще больше, если воспользоваться приближенным выражени-

ем (Π.15) из Приложения для фактора exp{A^∗(ξ)}ρ₀(ξ) ≃ 1/2πD², где D

стандартное отклонение для плотности ρ₀(ξ), которое также можно интер-

претировать как характерный размер базового носителя Δ:

(24)

η(ξ |ζ) =

exp{-B_A∗ (ξ,ζ)}.

2πD²

Приближенная форма (24) в еще большей степени подчеркивает интер-

претацию η(ξ |ζ) в параметрах средних как смещенное в точкуζ симметрич-

ное распределение ρ₀(ξ). Отметим, что для (не финитных) симметричных

гауссовых плотностей, для которых R_ν = R₀ = D²E, форма (24) оказывается

точной.

Возвращаясь к системе уравнений максимального правдоподобия (14), вы-

разим входящие в эти уравнения градиенты логарифмических функций прав-

(

)

(

)

доподобия ln

ρ_z(x | ν_z)

= ln

η(x - µ_z | ν_z

через средние параметрыζz со-

гласно (23) и воспользуемся тем обстоятельством, чтоζz =∇A(ν_z ) и, следо-

вательно, ∥∇νz ζ^Tz ∥ =∇∇T A(ν_z)

(

)

η(x - µ_z | ν_z

=∥∇νzζ^Tz∥∇⃗

{-B_A∗(x - µ_z,ζz)} =

∇νz ln

ζz

(25)

= -∇ ∇ TA(ν_z)∇ ⃗

B_A∗(x - µ_z,ζz) = x - µ_z -ζz.

ζz

где учтено, что согласно (22)∇⃗BA∗(ξ,ζ) = -∇∇T A∗(ζ)(ξ -ζ) и матрицы

∇∇^T A^∗(ζ) и∇∇T A(ν) взаимнообратны. Отметим, что получившееся в ре-

зультате простое выражение в правой части (25) является главным аргумен-

том перехода к параметрам средних. Однако здесь следует сделать важное

замечание. На самом деле соотношения (25) выполняются не для всех x,

а только для тех, которые принадлежат носителю Δ_z данной компоненты.

Для прочих x целесообразно положить градиенты (25) равными нулю.

Подставляя (25) в (14), окончательно получим систему уравнений мак-

симального правдоподобия для нахождения оптимальных параметровθ∗ =

= {{w^∗z}, {ν∗z}} ∈ Θ

z = 1,...,K,

∑

w^∗z =

ρ(z | x_j ,θ∗),

x_j∈Δz

(26)

∑

)

(x_j - µ_z)ρ(z | x_j,θ∗

x_j∈Δz

ζ∗

∑

ρ(z | x_j,θ∗)

x_j∈Δz

127

где при суммировании по отсчетам x_j учтено, что плотность ρ(z | x_j,θ∗) ∼

∼ ρ(x_j, z | θ∗) отлична от нуля только в Δ_z.

Система уравнений (26) является относительно простой нелинейной си-

стемой, выражающей искомое решениеθ∗ через функцию от него же и от

отсчетов выборки (выборочного представления) X_k = {x_j }:

(27)

θ^∗ = H(θ∗, X_k

Простейшим методом решения уравнений вида (27) является метод по-

следовательных приближений (successive approximations) [46], который по

ν-приближениюθ(ν) итеративно находит следующее приближениеθ(ν+1) =

= H(θ(ν),X_k). Существует много методов численного решения подобных

уравнений [47]. Особенности каждого из этих методов определяются особен-

ностями итерирующей функции H(. . .).

В случае системы (26) особенностью функции H(θ, X_k) является то, что

она зависит отθ только через плотности апостериорных распределений

ρ(z | x,θ). Поэтому естественно разбить вычисления каждой итерации на два

шага: на первом вычислить все апостериорные распределения:

j = 1,...,k, z ∈ δxj

(

)

(

)

(

) w^νzρz

x_j |θ(ν)

w^νzη

x_j - µ_z | ζzν)

ρ^(ν+1)j(z) = ρ z | x_j,θ(ν)

P^(ν)j

P^(ν)

{

(

)}

w^νz

exp

-B_A∗

x_j - µ_z,ζ(ν)

exp {A^∗(x_j - µ_z)} ρ₀ (x_j - µ_z) ,

(ν)

(28)

(

)

∑

(

)

P^(ν)j = ρ

x_j

|θ^(ν)

= w^νiη x_j -µ_i | ζ^(ν)

i∈δ_xj

∑

{

(

)}

= w^νi exp

-B_A∗

x_j - µ_i,ζ(ν)

exp {A^∗(x_j - µ_i)} ρ₀ (x_j - µ_i) ,

i∈δ_xj

а уже на втором шаге пересчитать текущее приближение

z = 1,...,K

∑

w^(ν+1)z =

ρ^(ν+1)j(z),

x_j∈Δz

(29)

∑

(z)

(x_j - µ_z)ρ^(ν+1)j

x_j∈Δz

ζ(ν+1)

∑

ρ^(ν+1)j(z)

x_j∈Δz

128

Двухшаговая итеративная вычислительная схема I (28) и II (29) соответ-

ствует шагам E и M известного EM-алгоритма для смесей распределений

экспоненциального семейства [48]. Известно, что EM-алгоритм, когда число

компонент K относительно невелико (∼ 10-100) вполне стабилен и позволяет

в обозримое время находить максимально-правдоподобные оценкиθ∗. К со-

жалению, при больших объемах данных k и больших размерах моделей K,

например, для стандартных цифровых изображений, применение традици-

онного EM-алгоритма оказывается проблематичным. Проблемы эти связаны

с высокими требованиями к объему памяти k × K и соответственно с боль-

шим объемом вычислений, а также с низкой скоростью сходимости (линей-

ной) EM-алгоритма [21]. В предложенной нами модели рецептивных полей,

ввиду уменьшения требуемого объема памяти до k × |δ|, где |δ| ≪ K сред-

нее число узлов в решеточных окружениях отсчетов, и сокращения объема

вычислений ввиду ограниченного суммирования по компонентам в (28) и от-

счетам в (29), требования к ресурсам гораздо меньше, чем для EM-алгоритма

в общей версии, особенно при большом числе K компонент.

Вместе с тем, несмотря на очевидную экономию ресурсов, при очень боль-

ших K ∼ 10⁴-10⁶, представляющих интерес для реальных изображений, объ-

ем вычислений в предложенной схеме может оказаться по-прежнему высо-

ким. В этом случае можно несколько снизить объем памяти и вычислений,

если воспользоваться аппроксимацией (24). Используя ее, вычисления на ша-

ге I (28) можно организовать следующим образом:

j = 1,...,k, z ∈ δxj

{

}

w^νz exp

-B_A∗(x_j - µ_z,

)

ρ^(ν+1)(z) =

{

(

)} =

(30)

∑

w^νi exp

-B_A∗

x_j - µ_i,ζ(ν)

i∈δ_xj

({

(

)

})

= softmax_z ln(wνi ) - B_A∗

x_j - µ_i,ζ(ν)

|i∈δxj

где softmax_z

z-компонента softmax-функции [49]. Вместе с шагом II (29)

шаг I (30) почти совпадает со схемой мягкой брегмановской кластеризации

(Bregman Soft Clustering), обсуждавшейся в [23]. Отличие состоит лишь в том,

что в I (30) для расчета апостериорных плотностей ρ^(ν+1)j(z) используются

брегмановские дивергенции между локальными по отношению к компонен-

те z координатами отсчетов x_j - µ_z и локальными же координатами центрои-

да

тех отсчетов x_j, которые принадлежат носителю Δ_z этой компоненты

∑

(z)

x_jρ^(ν)j

x_j∈Δz

ζ(ν)

(31)

-µ_z.

∑

ρ^(ν)j(z)

x_j∈Δz

129

В схеме же мягкой брегмановской кластеризации [23] используются брег-

мановские дивергенции B_A∗ (x,Mz) между собственно координатами отсче-

тов x и их несмещенными центроидами

M_z =

+ µ_z. Поскольку в об-

щем случае дивергенция Брегмана не является трансляционно-инвариантной

функцией: B_A∗ (x_j - µ_z,

)=B_A∗(x_j,

+ µ_z), обсуждаемые схемы вы-

числений не тождественны. Они совпадают только в одном частном случае

квадратичных по разности аргументов дивергенций Брегмана, соответству-

ющих случаю гауссовских компонент. Таким образом, предложенная схема

вычисления максимально-правдоподобных оценок параметровθ∗ отличается

свойством локальности обучения в отличие от известных процедур мягкой

брегмановской кластеризации [23].

Оказывается, можно еще более сэкономить вычислительные ресурсы, если

воспользоваться “жестким” приближением значений softmax функции в (30),

аппроксимировав нулями все ее z-компоненты кроме максимальной, для ко-

торой выбирается значение 1. При этом шаг I (30) сведется к задаче макси-

мизации:

j = 1,...,k, z ∈ δxj

{

(

)}

i^∗ = arg max ln(w^νi) - B_A∗

x_j - µ_i,ζ(ν)

(32)

i∈δ_xj

ρ^(ν+1)j(z) = δ_i∗_z.

Жесткая аппроксимация ρ^(ν+1)j(z) (32) приводит к однозначной ассоциа-

ции отсчетов x_j c узлами сетки µ_i∗ , или, что эквивалентно, разбиению отсче-

{

тов выборки X_k = (x₁, . . . , x_k) на K непересекающихся подгрупп

X^(ν+1) =_k

(

)}

xj1,... ,xjkz

, где k_z

число отсчетов x_j объединенных в группу X^(ν+1)k

согласно ассоциации ρ^(ν+1)j(z) = 1 (некоторые из X^(ν+1) могут быть пустыми)._k

В терминах результирующего разбиения вычисления на шаге II (29) также

упрощаются и принимают вид

z = 1,...,K

k_z

w^(ν+1)z =

(33)

∑

ζ(ν+1)

(x_j - µ_z).

k_z

x_j∈X^(ν+1)

Интересно в этой связи отметить, что если исключить веса {w_z} из числа

параметровθ, предписав им равномерное распределение w_z = 1/K, то схема

130

жестких вычислений I (32)-II (33) принимает форму:

j = 1,...,k, z ∈ δxj :

{ (

)}

z = arg min B_A∗

x_j - µ_i,ζ(ν)

i∈δ_xj

⋃

k_z = k_z + 1, X^(ν+1)k

=X^(ν+1)k

x_j,

(34)

z = 1,...,K :

∑

ζ (ν+1)

x_j - µ_z,

k_z

x_j∈X^(ν+1)

k_z = 0, X^(ν+2) = ∅._k

Схема (34) практически совпадает (с точностью до нюансов, обсужденных

выше) с алгоритмом жесткой Брегмановской кластеризации (Bregman Hard

Clustering) [23]. Интересно отметить, что там же приводится замечание о том,

что при конкретных выборах дивергенции Брегмана B_A∗ (ξ,ζ) получаются по-

пулярные методы кластеризации. Именно, классический алгоритм K-средних

(K-means), алгоритм LBG [24] и алгоритм теоретико-информационной кла-

стеризации [50] являются частными случаями жесткой кластеризации, когда

B_A∗(ξ,ζ) имеет вид квадрата евклидова расстояния, расстояния Итакуры-

Сайто или дивергенции Кульбака-Лейблера [39].

С целью продемонстрировать возможности кодирования и восстановления

предложенными в работе генеративными автокодировщиками заданных вы-

борочными представлениями изображений, был использован пример простых

рецептивных полей гауссовского типа [42] (см. (24)):

{

}

{

}

η(ξ |ζ) =

exp

-(ξ -ζ)²/2D²

= exp

ξ^Tν - A(ν) ρ₀(ξ),

2πD²

(35)

{

}

ρ₀(ξ) =

exp

-ξ2/2D²

, A(ν) = D²ν²/2,

ζ= D²ν.

2πD²

На рис. 4 приведены результаты кодирования-восстановления изображе-

ния “Cameraman”, содержащего 1 000 000 отсчетов (рис. 2). Кодирование осу-

ществлялось по схеме жесткой аппроксимации вычислений I (32) II (33)

с разбиением выборочного представления X_k = (x₁, . . . , x_k) на K = l × l непе-{

}

ресекающихся сеточных кластеров X^(ν)

⊂ Δ_z , соответствующих узлам

прямоугольной сетки, размерами l узлов по вертикали и l узлов по гори-

зонтали изображения Ω (рис. 3). Число итераций схемы полагалось равным{

{

}}

∗

ν_max = 10. По вычисленным в результате параметрамθ∗ =

{w^∗z},

вос-

становление плотности распределения вероятностей отсчета x ∈ Ω (совпадаю-

щей с нормированной интенсивностью I(x) излучения на Ω в данном случае

131

ной в отношении открывающихся с еe помощью новых возможностей по син-

тезу реальных алгоритмов кодирования-восстановления изображений. Разра-

ботанное для этих целей специальное представление изображений с помощью

выборок отсчетов (выборочных представлений) позволяет, с одной стороны,

избежать связанных с идеальными изображениями проблем вычислительных

ресурсов, а с другой стороны, открывает широкие возможности по адаптации

методов машинного обучения к задачам, подобным рассмотренным в работе.

Основываясь на специфике выборочных представлений, удалось сформу-

лировать генеративную (порождающую) модель автокодировщиков, которая

почти автоматически выводит на такие разделы машинного обучения, как на-

ивный байесов подход, методы максимального правдоподобия, итеративные

алгоритмы типа EM-алгоритма поиска оценок максимально-правдоподобных

оценок для смесей, алгоритмы кластеризации типа K-means, LBG алгоритмы

векторного квантования и т.д. В этой связи в работе представлено несколько

различающихся по сложности примеров итеративных алгоритмических схем

кодирования-восстановления изображений.

Особенностью предложенных схем является активно используемая в них

концепция рецептивных полей. Она позволяет эффективно обходить извест-

ные трудности итеративных алгоритмов, обрабатывающих смеси с большим

числом компонент, например порядка 10⁴-10⁶, что по порядку соответствует

числу рецептивных полей в сетчатке глаза. Апелляция к зрительному вос-

приятию здесь не случайна, поскольку, как подчеркнуто в работе, качеству

восприятия изображений и адаптации механизмов зрительного восприятия

человека к задачам цифровой обработке изображений сегодня уделяется по-

вышенное внимание.

В связи с изложенным выше отметим, что практически все приведенные

в работе алгоритмы были численно апробированы, проведенные эксперимен-

ты подтвердили их эффективность по отношению к памяти и времени вы-

числения. К примеру, выбранные для иллюстрации отсчетные изображения

“Cameraman” (см. рис. 2) потребовали на вычисление восстановленных изоб-

ражений времени менее секунды даже в случае наиболее плотной сетки в

150 × 150 узлов (22 500 компонент).

В целом, основываясь на полученных результатах, хотелось бы выразить

надежду, что предложенные в работе подходы найдут в ближайшее время

как дальнейшее теоретическое развитие, так и плодотворное использование

в прикладных задачах.

ПРИЛОЖЕНИЕ

Асимптотический вид апостериорного распределения параметров

для выборки k независимых, одинаково распределенных (iid) отсчетов

Пусть дана выборка из k независимых одинаково распределенных (iid) слу-

чайных отсчетов X_k = (x₁, . . . , x_k), плотность распределения вероятностей

133

каждого из ко

{

}

семейства G = ρ(x |θ)

, x ∈ Ω, θ ∈ Θ ⊂ R^p. Пусть существует точка θML ∈

∈ Θ, в которой имеет место максимум по θ логарифма функции правдоподо-

бия совместной плотности распределения отсчетов X_k

∇_⃗L(θML;Xk) = 0,





(Π.1)

(

)

∏

L(θ; X_k) = ln

ρ(X_k |θ)

= ln ρ(x_j | θ) .

j=1

Запишем в окрестностиθML тейлоровское разложение логарифма функ-

ции правдоподобия (Π.1):

(

)

∂²L(θML;X_k)

(Π.2)

L(θ;X_k) = L(θML;X_k)+1(θ-θML)T

(θ-θML

∂θp∂θq

На основании (Π.1) для матрицы вторых частных производных в (Π.2)

можно записать следующее представление





(

)

∑

∂²L(θML;X_k)

∂² ln ρ(x_j |θML)

(Π.3)

.

∂θp∂θq

j=1

Рассматривая вторые производные ∂² ln ρ(x_j |θML)/∂θp∂θq в (Π.3) как слу-

чайные величины функции от случайных x_j, можно асимптотически при

k ≫ 1 заменить выборочное среднее в правой части (Π.3) соответствующим

средним по распределению ρ(x |θ)

∫

∑

∂² lnρ(x_j |θML)

(Π.4)

≃ ρ(x |θ)∂2 lnρ(x|θML)

dx.

∂θp∂θq

j=1

Если учесть асимптотическую несмещенностьθML ∼θ, то нетрудно заме-

тить, что правая часть (Π.4) представляет собой с точностью до знака инфор-

мационную матрицу Фишера ℑ(θ) распределения ρ(x |θ). Подставляя (Π.4)

в (Π.3), а затем в (Π.2), получаем следующую форму разложения логариф-

мической функции правдоподобия

(Π.5)

L(θ; X_k) ≃ L(θML; X_k) -k(θ -θML)T ℑ(θ)(θ -θML

Экспонирование (Π.5) дает асимптотику самой функции правдоподобия

{

}

(Π.6)

ρ(X_k |θ) ≃ ρ(X_k |θML) exp

(θ -θML)^T ℑ(θ)(θ -θML)

134

Отθ в правой части (Π.6) зависит только экспоненциальный сомножи-

тель, посколькуθML в первом сомножителе является функцией от X_k =

= (x₁, . . . , x_k) и отθ не зависит. Следовательно, поведение ρ(X_k | θ) в за-

висимости отθ определяется только квадратичной формой в экспоненте с

большим коэффициентом k ≫ 1. Отсюда асимптотически ρ(X_k |θ) имеет ост-

рый пик в точкеθML, что может быть использовано для вычисления других

распределений. Например, предполагая некоторое априорное распределение

параметров P (θ), более широкое, чем ρ(X_k |θ), можно последовательно найти

∫

ρ(X_k) = ρ(X_k |θ)P (θ)dθ ≈ ρ(X_k |θML)C(θML)P (θML),

(Π.7)

∫

{

}

C(θML) = exp

(θ -θML)^T ℑ(θ)(θ -θML) dθ,

а затем

ρ(θ | X_k) =ρ(Xk |θ)P(θ)

≈

ρ(X_k)

{

}

P(θ)

(Π.8)

≈

exp

(θ -θML)^T ℑ(θ)(θ -θML)

≈

C(θML) P(θML)

{

}

≈

exp

(θ -θML)^T ℑ(θ)(θ -θML)

C(θML)

что представляет собой узкое, гауссова типа распределение, стремящееся к

δ(θ -θML)-функции Дирака при k → ∞.

Приближение седловой точки для аппроксимации плотности

распределения вероятностей случайной векторной величины

Приближение седловой точки является хорошо известным инструментом в

статистике и достаточно широко используется при асимптотической аппрок-

симации поведения выборочного среднего большого числа k независимых,

одинаково распределенных случайных величин [51]. Для анализа распреде-

лений отдельных случайных величин данное приближение используется су-

щественно реже [43]. Ниже, с целью адаптации к рассматриваемым задачам

метода седловой точки в случае одной (векторной) случайной величины, при-

водятся основные шаги обоснования этого приближения.

Пусть случайный векторξ задан на некоторой области Δ ⊂ R², являю-

щейся носителем плотности распределения вероятностей ρ₀(ξ). Для простоты

будем пол{гать плотно}ь симметричной, финитной функцией, так что носи-

тель Δ =

ξ | ρ₀(ξ) > 0 является открытым, ограниченным, симметричным

относительно начала координат множеством в R². В этом случае для любых

135

(в том числе комплексных) векторов ν ∈ C² существует двумерное преобра-

зование Лапласа плотности ρ₀(ξ) [52], которое может быть представлено в

виде

∫

(Π.9)

F (ν) = exp(-ξT ν)ρ₀(ξ)dξ = exp(ξT ν)ρ₀(ξ)dξ,

где использован тот факт, что для симметричных ρ₀(ξ) и Δ преобразование

Лапласа F (ν) также симметрично.

Плотность ρ₀(ξ) в свою очередь может быть выражена с помощью обрат-

ного преобразования Лапласа [52] от F (ν) (Π.9)

∫

ρ₀(ξ) =

exp(ξT ν)F (ν)dν =

(2πi)2

-i∞ -i∞

(Π.10)

∫

exp(A(ν) -ξT ν)dν,

(2πi)2

-i∞ -i∞

гдеi

мнимая единица, A(ν) = ln F (ν) производящая функция кумулян-

тов. В (Π.10) также использован факт симметричности ρ₀(ξ).

Интеграл в (Π.10) можно приближенно найти с помощью метода седловой

точки, если деформировать путь интегрирования так, чтобы он прошел через

(седловую) точку ν_⃗

, обращающую градиент (A(ν)-ξT ν) в ноль: ∇A(ν_⃗) = ξ.

При этом, разлагая показатель экспоненты в (Π.10) с точностью до членов

второго порядка по (ν - ν_⃗), можно получить следующий приближенный ре-

зультат:

∫

}

exp(A(ν_⃗)-ξTν⃗)

[

]

ρ₀(ξ)≈

exp

(ν - ν_⃗)T

∇∇^TA(ν_⃗)

(ν - ν_⃗) dν =

(2πi)2

−i∞ -i∞

∫

∞

∫

∞

{

}

[

]

exp(A(ν_⃗ξ) -ξT ν_⃗ξ)

exp

(η +iν⃗)T

∇∇^TA(ν_⃗)

(η +iν⃗) dη =

(2π)²

−∞ -∞

{

}

(Π.11)

exp A(ν_⃗ξ) -ξTν⃗ξ

√

2π det ∇∇^T A(ν_⃗)

где переход к гауссовому интегралу осуществлен в результате замены пере-

менных интегрирования ν =iη.

136

Учитывая, что выражение в числителе (Π.11) с точностью до знака сов-

падает со значением сопряженной по Лежандру к A(ν) функции A^∗(ξ) [43]

(Π.12)

A^∗(ξ) =ξT ν_⃗ξ - A(ν_⃗ξ),

∇A(ν_⃗ξ) =ξ,

и тот факт, что A(ν) и A^∗(ξ) имеют взаимно обратные матрицы Гесса:

∇∇^T A^∗(ξ) = [∇∇^T A(ν_⃗)]-1 получим приближение седловой точки для плот-

ности ρ₀(ξ) [43]

√

{

}

det ∇∇^T A^∗(ξ)

(Π.13)

ρ₀(ξ) ≈

exp

-A^∗(ξ)

2π

Соотношение (Π.13) можно переписать в эквивалентном виде

{

}

√

(Π.14)

ρ₀(ξ)exp A^∗(ξ) ≈

det ∇∇^T A^∗(ξ),

2π

который позволяет записать приближенное выражение для левой части через

квадратный корень из определителя матрицы Гесса ∇∇^T A^∗(ξ).

Дальнейшее приближение может быть получено, если вспомнить, что

A(ν) является производящей функцией кумулянтов для ρ₀(ξ). Это значит,

что ∇∇^T A(0) = R₀ корреляционная функция ρ₀(ξ), определитель кото-

[

]_-1

рой приближенно равен кварату площади Δ. Тем самым det ∇∇^T A^∗(0)

= det∇∇^T A(0) = detR₀ ≈ |Δ|² ≈ D⁴, где D характерный размер Δ. Пола-

гая det ∇∇^T A^∗(ξ) ≈ det ∇∇^T A^∗(0) ≈ D^-4, можно приблизить правую часть

(Π.14) следующим выражением:

{

}

(Π.15)

ρ₀(ξ)exp A^∗(ξ) ≈

2πD²

СПИСОК ЛИТЕРАТУРЫ

1. Ezhilraman V., Srinivasan S. State of the art in image processing & big data ana-

lytics: issues and challenges // International J. of Engineering & Technology. 2018.

V. 7. P. 195-199. https://doi.org/10.14419/ijet.v7i2.33.13885

2. Bull D.R., Zhang F. Intelligent image and video compression: communicating pic-

tures. 2nd ed. London: Academic Press, 2021.

3. Zeyu Y., Fei W., Rendong Y., et al. On Perceptual Lossy Compression: The Cost

of Perceptual Reconstruction and An Optimal Training Framework // Proc. of the

38-th International Conference on Machine Learn., PMLR. 2021.

https://doi.org/10.48550/arXiv.2106.02782

4. Shannon C.E. Coding Theorems for a Discrete Source with a Fidelity Criterion -

Institute of Radio Engineers, International Convention Record. V. 7, 1959 // in

C.E. Shannon: Collected Papers. 1993. P. 325-350.

https://doi.org/10.1109/9780470544242.ch21

137

Tschannen M., Agustsson E., Lucic M. Deep Generative Models for Distribution-

Preserving Lossy Compression // Proc. of the 32nd International Conference on

Neural Inform. Processing Systems (NIPS). 2018. P. 5933-5944.

Blau Y., Michaeli T. Rethinking Lossy Compression: The Rate-Distortion-

Perception Tradeoff // Proc. of the 36th International Conference on Machine

Learn., PMLR. 2019. V. 97. P. 675-685.

Matsumoto R. Introducing the perception-distortion tradeoff into the rate-distortion

theory of general information sources // IEICE Commun. Express.

2018. V. 7.

No. 11. P. 427-431. https://doi.org/10.1587/comex.2018XBL0109

Wang Z., Bovik A., Sheikh H., Simoncelli E. Image quality assessment: from error

visibility to structural similarity // IEEE Trans. Image Process. 2004. V. 13. No. 4.

P. 600-612. https://doi.org/10.1109/TIP.2003.819861

Wang Z., Bovik A. Video quality assessment based on structural distortion mea-

surement // Signal processing. Image commun. 2004. V. 19. No. 2. P. 121-132.

https://doi.org/10.1016/S0923-5965(03)00076-6

10.

Sheikh H., Bovik A., de Veciana G. An information fidelity criterion for image quality

assessment using natural scene statistics // IEEE Trans. on image processing. 2005.

V. 14. No. 12. P. 2117-2128. https://doi.org/10.1109/TIP.2005.859389

11.

Larson E.C., Chandler D.M. Most apparent distortion: full-reference image quality

assessment and the role of strategy // J. Electron. Imaging. 2010. V. 19. No. 1.

P. 011006-011006. https://doi.org/10.1117/1.3267105

12.

Bishop C.M., Lasserre J. Generative or Discriminative? Getting the Best of Both

Worlds // Bayes. Statist. 2007. V. 8. P. 3-24.

13.

Goodfellow I., Pouget-Abadie J., Mirza M., et al. Generative Adversarial Net-

works // Commun. ACM. 2020. V. 63. No. 11. P. 139-144.

https://doi.org/10.1145/3422622

14.

Kingma D.P., Welling M. Auto-Encoding Variational Bayes // arXiv:1312.6114.

arxiv.org. 2013.

15.

Hinton G.E., Osindero S., The Y.-W. A Fast-Learning Algorithm for Deep Belief

Nets // Neural Computation. 2006. V. 18. No. 7. P. 1527-1554.

https://doi.org/10.1162/neco.2006.18.7.1527

16.

Hassabis D., Kumaran D., Summerfield C., Botvinick M. Neuroscience-Inspired

Artificial Intelligence // Neuron. 2017. V. 95. No. 2. P. 245-258.

https://doi.org/10.1016/j.neuron.2017.06.011

17.

Antsiperov V.E. Representation of Images by the Optimal Lattice Partitions of

Random Counts // Patt. Recogn. and Image Anal. 2021. V. 31. No. 3. P. 381-393.

https://doi.org/10.1134/S1054661821030044

18.

Antsiperov V.E., Kershner V.A. Image Coding by Count Sample, Motivated by the

Mechanisms of Light Perception in the Visual System // Commun. Comput. Inform.

Sci. 2022. V. 1534. P. 715-729. https://doi.org/10.1007/978-3-030-96040-7 54

19.

Scott D.W. Multivariate Density Estimation. Hoboken: John Wiley & Sons, Inc.

1992. https://doi.org/10.1002/9780470316849

20.

Rufo M.J., Martin J., Perez C.J. Bayesian analysis of finite mixture models of dis-

tributions from exponential families // Comput. Statist.

2006. V. 21. No. 3-4.

P. 621-637. https://doi.org/10.1007/s00180-006-0018-8

138

21.

McLachlan G.J., Krishnan T. The EM Algorithm and Extensions. 2nd ed. Hoboken:

John Wiley & Sons, Inc. 2007.

22.

Tzikas D., Likas A., Galatsanos N. The variational approximation for Bayesian in-

ference // IEEE Signal Proc. Magazine. 2008. V. 25. No. 6. P. 131-146.

https://doi.org/https://doi.org/10.1109/msp.2008.929620

23.

Banerjee A., Merugu S., Dhillon I.S., Ghosh J. Clustering with Bregman Diver-

gences // J. Machine Learn. Res. 2005. V. 6. P. 1705-1749.

https://doi.org/10.1137/1.9781611972740.22

24.

Linde Y., Buzo A., Gray R.M. An algorithm for vector quantizer design // IEEE

Trans. Commun. 1980. V. 28. No. 1. P. 84-95.

https://doi.org/10.1109/TCOM.1980.1094577

25.

Lloyd S. Least squares quantization in PCM // IEEE Trans Inform. Theory. 1982.

V. 28. No. 2. P. 129-137. https://doi.org/10.1109/TIT.1982.1056489

26.

Kohonen T. Self-Organized Formation of Topologically Correct Feature Maps // Bi-

olog. Cybernet. 1982. V. 43. No. 1. P. 59-69. https://doi.org/10.1007/bf00337288

27.

Barrett H.H., Myers K.J. Foundations of image science. Hoboken: John Wiley &

Sons, Inc. 2004.

28.

Fossum E. The Invention of CMOS Image Sensors: A Camera in Every Pocket //

2020 Pan Pacific Microelectronics Symposium (Pan Pacific). 2020. P. 1-6.

https://doi.org/10.23919/PanPacific48324.2020.9059308

29.

Gabriel C.G., Perrinet L., Keil M. Biologically Inspired Computer Vision: Funda-

mentals and Applications. Weinheim: Wiley-VCH. 2015.

30.

Fox M. Quantum Optics: An Introduction. Oxford, New York: Oxford University

Press, 2006.

31.

Streit R.L. Poisson Point Processes. Imaging, Tracking and Sensing. New York:

Springer. 2010.

32.

Bertero M., Boccacci P., Desidera G., Vicidomini G. Image deblurring with Poisson

data: from cells to galaxies // Inverse Problems. 2009. V. 25. No. 12. P. 123006.

https://doi.org/10.1088/0266-5611/25/12/123006

33.

Robert C.P., Casella G. Monte Carlo Statistical Methods.

2nd ed. New York:

Springer-Verlag. 2004. https://doi.org/10.1007/978-1-4757-4145-2

34.

Hinton G.E., Zemel R.S. Autoencoders, minimum description length and Helmholtz

free energy // Proc. of the 6th International Conference on Neural Inform. Process-

ing Systems (NIPS’93). 1993. P. 3-10.

35.

Goodfellow I., Bengio Y., Courville A. Autoencoders // Deep Learning. MIT Press.

2016.

36.

Baldi P. Autoencoders, unsupervised learning and deep architectures // JMLR:

Workshop and Conference Proceedings. 2012. V. 27. P. 37-49.

37.

Alain G., Bengio Y., Yao L., et.al. GSNs: Generative Stochastic Networks //

arXiv:1503.05571. arXiv.org. 2015.

38.

Aldrich J. R.A. Fisher and the Making of Maximum Likelihood 1912-1922 // Sta-

tistical Science. 1997. V. 12. No. 3. P. 162-176.

39.

Van Erven T.T., Harremoes P. Renyi Divergence and Kullback-Leibler Divergence //

IEEE Trans. on Inform. Theory. 2014. V. 60. No. 7. P. 3797-3820.

https://doi.org/10.1109/TIT.2014.2320500

139

40.

Schiller P.H., Tehovnik E.J. Vision and the Visual System // Oxford: Oxford Uni-

versity Press. 2015. https://doi.org/10.1093/acprof:oso/9780199936533.001.0001

41.

Cooler S., Schwartz G.W. An offset ON-OFF receptive field is created by gap junc-

tions between distinct types of retinal ganglion cells // Nat Neurosci. 2021. V. 24.

P. 105-115. https://doi.org/10.1038/s41593-020-00747-8

42.

Young R.A. Oh say, can you see? The physiology of vision // Proc. of SPIE. 1991.

V. 1453. No. 1. P. 92-123. https://doi.org/10.1117/12.44348

43.

McCullagh P. Tensor methods in statistics. London, New York: Chapman and

Hall/CRC. 1987. https://doi.org/10.1201/9781351077118

44.

Brown L.D. Fundamentals of Statistical Exponential Families // Hayward IMS. 1986.

45.

Frigyik A.B., Srivastava S., Gupta M.R. Functional Bregman divergence // IEEE

Int. Symposium on Inform. Theory. 2008. P. 1681-1685.

https://doi.org/10.1109/ISIT.2008.4595274

46.

Rheinbold W.C. Methods for Solving Systems of Nonlinear Equations. 2nd ed. So-

ciety for Industrial and Applied Mathematics. 1998.

47.

Ortega J.M., Rheinboldt W.C. Iterative solution of nonlinear equations in several

variables. Society for Industrial and Applied Mathematics. 2000.

48.

Redner R.A., Walker H.F. Mixture Densities, Maximum Likelihood and the EM

Algorithm // SIAM Review. 1984. V. 26. No. 2. P. 195-239.

https://doi.org/10.1137/1026034

49.

Bridle J.S. Probabilistic Interpretation of Feedforward Classification Network Out-

puts, with Relationships to Statistical Pattern Recognition // Neurocomputing.

1990. V. 68. P. 227-236. https://doi.org/10.1007/978-3-642-76153-9 28

50.

Dhillon I., Mallel S., Kumar R. A divisive information-theoretic feature clustering

algorithm for text classification // J. of Machine Learn. Res. 2003. V. 3. No.

P. 1265-1287. https://doi.org/10.1162/153244303322753661

51.

Reid N. Saddlepoint Methods and Statistical Inference // Statistical Science. 1988.

V. 3. No. 2. P. 213-227. https://doi.org/10.1214/ss/1177012906

52.

Ditkin V.A., Prudnikov A.P. Operational calculus in two variables and its applica-

tions. New York: Dover Publications, Inc. 2017.

Статья представлена к публикации членом редколлегии А.А. Лазаревым.

Поступила в редакцию 02.02.2022

После доработки 24.06.2022

Принята к публикации 29.06.2022

140