Известия РАН. Теория и системы управления, 2021, № 2, стр. 62-70

ПОВЫШЕНИЕ ПРОСТРАНСТВЕННОГО РАЗРЕШЕНИЯ ПАНХРОМАТИЧЕСКИХ СПУТНИКОВЫХ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ГЕНЕРАТИВНЫХ НЕЙРОСЕТЕЙ

В. Ю. Игнатьев ad*, И. А. Матвеев a**, А. Б. Мурынин ab***, А. А. Усманова bc, В. И. Цурков a****

a ФИЦ ИУ РАН
Москва, Россия

b НИИ АЭРОКОСМОС
Москва, Россия

c МФТИ
Долгопрудный, МО, Россия

d Сколковский ин-т науки и технологий
Москва, Россия

* E-mail: vladimir.ignatiev.mipt@gmail.com
** E-mail: matveev@ccas.ru
*** E-mail: amurynin@bk.ru
**** E-mail: tsurkov@ccas.ru

Поступила в редакцию 31.08.2020
После доработки 05.09.2020
Принята к публикации 30.11.2020

Полный текст (PDF)

Аннотация

Генеративно-состязательные нейронные сети применены для повышения разрешения спутниковых изображений определенного класса без привлечения дополнительных данных. Оценка качества получаемых изображений повышенного разрешения проводится отношением сигнал/шум и мерой структурного сходства. На основе известных функций потерь, используемых для обучения генеративно-состязательных нейронных сетей, получена функция, специфичная для решаемой задачи. Обучение и тестирование ведется на примере изображений объектов железнодорожной инфраструктуры, выборка представляет около 78 км железных дорог.

Введение. Информация, получаемая из спутниковых изображений, имеет важное значение для решения многих задач, в частности, для управления пространственно распределенной инфраструктурой железнодорожного транспорта на различных этапах жизненного цикла [1]. Полезность спутниковой информации определяется в первую очередь пространственным разрешением, которое здесь понимается как количество пикселей изображений, приходящихся на единицу площади подстилающей поверхности [2]. Актуальна разработка методов получения изображений более высокого разрешения, чем непосредственно регистрируемые аппаратурой. Существуют различные способы восполнения недостающих данных при повышении разрешения. Как правило, привлекаются дополнительные источники информации: растровые изображения более высокого разрешения другого спектрального диапазона [3], векторные данные, полученные при подспутниковых измерениях и из других источников [4, 5]. Хорошо развиты методы слияния растровых изображений (паншарпенинга), основанные на математической морфологии [6], вероятностном и пространственно-спектральном подходах [7, 8].

Существуют приложения, в которых дополнительная информация недоступна. Подходы, используемые в этом случае, развивались от передискретизации полиномиальными методами [910] и фильтрами Ланцоша [11] до нелинейных моделей, существенно зависящих от области применения, таких, как анизотропная диффузия [1214], эвристики с выделением контуров [1516], пространственно-спектральный синтез [7]. Новые возможности здесь появились в связи с развитием машинного обучения с применением искусственных нейронных сетей. На сегодняшний день направление глубоких нейросетей является наиболее перспективным ввиду появления в открытом доступе большого количества данных дистанционного зондирования Земли субметрового пространственного разрешения [1721], на которых такие сети могут тренироваться.

Подходы на основе модификации генеративно-состязательных нейросетей (ГСН) превосходят по качеству другие нейросетевые ахритекутры при двух-четырехкратном повышении пространственного разрешения изображений [2225]. Размеры обучающих выборок (датасетов) изображений с фотоаппаратов, на которых тестировались ГСН и иные подходы повышения разрешения, исчисляются десятками тысяч. Например, в наборе VOC2012 [26] примерно 17 000 цветных и черно-белых снимков для 20 различных классов объектов, размеченных для решения задач классификации сцены, сегментации и детектирования объектов на изображениях, классификации действий.

В данной работе исследуется возможность повышения разрешения панхроматических спутниковых снимков субметрового пространственного разрешения без привлечения дополнительной информации при помощи ГСН. Одной из вспомогательных задач стало создание обучающей выборки для конкретной прикладной области изображений объектов железнодорожного транспорта.

1. ГСН в задаче повышения качества изображений. ГСН (от англ. generative adversarial network – GAN) впервые были предложены Я. Гудфеллоу в 2014 г. [27]. ГСН состоит из двух нейросетей, генератора и дискриминатора, соревнующихся друг с другом. Задачей генератора $G$ является формирование объектов, максимально схожих с объектами обучающей выборки. Задача дискриминатора $D$ – отличать объекты обучающей выборки от сгенерированных. Генератор и дискриминатор тренируются параллельно, формируя и обучаясь отличать объекты, которые имеют все более сложное распределение, приближающееся к истинному. На рис. 1 показана схема тренировки и работы ГСН.

Рис. 1.

Общая схема ГСН

Для тренировки используется обучающая выборка X, содержащая примеры истинных объектов, обозначим вектор признаков через $\vec {x}$; можно считать, что признаки берутся из некоторого распределения с плотностью вероятности $p(\vec {x})$. На каждом шаге тренировки на вход генератора G поступает вектор $\vec {z} \sim p(\vec {z})$, который может быть набором случайных чисел. Генератор выдает признаки $\vec {\hat {x}} = G(\vec {z})$, моделирующие истинный объект. Дискриминатор $D$ получает на вход или признаки истинного объекта $\vec {x} \in X$, взятые из обучающей выборки, или сгенерированные $\vec {\hat {x}}$ и выдает оценку (вероятность) $P = D(\vec {x})$ того, что на вход поданы истинные признаки. В зависимости от величины P и того, какие признаки использовались на самом деле, происходит обучение генератора и дискриминатора. Штриховой рамкой на рисунке выделен “рабочий цикл”, все остальные блоки используются на этапе тренировки. Тренировка ГСН может быть представлена как задача оптимизации:

(1.1)
$\begin{gathered} \mathop {min}\limits_{{{\theta }_{G}}} \mathop {max}\limits_{{{\theta }_{D}}} V(G,D), \\ V(G,D) = {{\mathbb{E}}_{{p(\vec {x})}}}\left[ {logD(\vec {x})} \right] + {{\mathbb{E}}_{{p(\vec {z})}}}\left[ {log\left\{ {1 - D\left( {G(\vec {z})} \right)} \right\}} \right], \\ \end{gathered} $
где ${{\theta }_{G}}$ и ${{\theta }_{D}}$ – параметры (веса связей между нейронами) нейросетей $G$ и $D$ соответственно, ${{\mathbb{E}}_{a}}(b)$ – матожидание b по распределению a.

Эта общая схема несколько изменена для задачи повышения разрешения. Введем следующие определения.

Изображение высокого разрешения (high resolution image, ${{I}^{{HR}}}$) – изображение из обучающей выборки, ${{I}^{{HR}}} \in X$. На рис. 2, а представлен пример такого изображения.

Рис. 2.

Примеры изображений: a – исходное ${{I}^{{HR}}}$, б – низкого разрешения ${{I}^{{LR}}}$, в – результат $G({{I}^{{LR}}})$ при обучении (1.2), г – результат $G({{I}^{{LR}}})$ при обучении (3.3)

Изображение низкого разрешения (low resolution image, ILR) – это исходное изображение на этапе работы, на этапе тренировки оно получается из изображения обучающей выборки. На рис. 2б представлен пример такого изображения.

Изображение со сверхразрешением (super resolution image, ${{I}^{{SR}}}$) получается из ${{I}^{{LR}}}$ процедурой повышения разрешения, здесь такой процедурой является использование нейросети-генератора $G$: ${{I}^{{SR}}} = G({{I}^{{LR}}})$.

Загрубленное изображение (downsampled image, ${{I}^{{DS}}}$) получается из ${{I}^{{SR}}}$ снижением разрешения аналогично тому, как из ${{I}^{{HR}}}$ вычисляется ILR.

Растровое изображение может быть представлено как вектор, значениями которого являются значения яркости пикселей, взятые в порядке развертки. Это называется векторизацией: $\vec {x} = vec(I)$. Далее для простоты будем опускать это обозначение. В задаче сверхразрешения генератор $G$ получает на вход изображение низкого разрешения ILR и пытается восстановить из него ${{I}^{{HR}}}$ – это “рабочий цикл” (рис. 3). Для тренировки было бы оптимально использовать пары (изображение высокого разрешения; изображение низкого разрешения), зарегистрированные одновременно, с тем, чтобы ГСН обучалась наиболее правдоподобным образом восстанавливать первое из второго. Однако в действительности такие данные крайне редко доступны. Поэтому применяется следующий способ, описанный также в [7]. Для тренировки используется выборка изображений высокого разрешения ${{I}^{{HR}}}$. Изображения низкого разрешения ILR получаются из них специальной процедурой снижения разрешения L, моделирующей регистрацию изображения менее качественной аппаратурой. В данной работе снижение разрешения производится при помощи бикубической интерполяции [28].

Рис. 3.

Схема ГСН для повышения разрешения

Таким образом можно переписать целевую функцию (1.1) в виде

(1.2)
$V(G,D) = {{\mathbb{E}}_{{p({{I}^{{HR}}})}}}[logD({{I}^{{HR}}})] + {{\mathbb{E}}_{{p({{I}^{{HR}}})}}}[log\{ 1 - D(G(L({{I}^{{HR}}})))\} ].$

Сеть, оптимизирующую функцию (1.2), назовем ГСН сверхразрешения (ГСНСР, super resolution GAN, SRGAN).

2. Выбор функции потерь. В этом разделе описаны функции потерь (ФП), используемые в задаче повышения разрешения изображений на основе ГСНСР. Описано влияние исследуемых ФП на результат обучения выбранных моделей, на основании которого предлагается усовершенствованная ФП для данной модели.

2.1. Функция потерь общих изменений. ФП общих изменений (total variation loss) используется для обеспечения пространственной непрерывности сгенерированных изображений. Впервые она предложена для задачи повышения разрешения в [29], в ГСНСР она используется на одном из наборов данных. ФП общих изменений задается в виде

(2.1)
${{U}_{{TVL}}}({{I}^{{SR}}}) = \frac{1}{{hwc}}\sum\limits_{i,j,k} \,\sqrt {{{{(I_{{i,j + 1,k}}^{{SR}} - I_{{i,j,k}}^{{SR}})}}^{2}} + {{{(I_{{i + 1,j,k}}^{{SR}} - I_{{i,j,k}}^{{SR}})}}^{2}}} ,$
где h, w, c – высота, ширина и количество каналов сгенерированного изображения соответственно, $I_{{i,j,k}}^{{SR}}$ – значение пикселя изображения ${{I}^{{SR}}}$ с координатами (i, j, k).

2.2. Функция потерь согласованности цикла. ФП согласованности цикла (cycle consistency loss) предложена в задаче перевода одного изображения в другое [30], к задаче повышения разрешения применена в [31]. Ее идея заключается в том, что сгенерированное изображение ${{I}^{{SR}}}$ снова приводится к изображению низкого разрешения ${{I}^{{DS}}}$, которое должно быть идентично исходному изображению низкого разрешения ${{I}^{{LR}}}$. ФП согласованности цикла вычисляется как среднеквадратичное отклонение:

(2.2)
${{U}_{{cycle}}}({{I}^{{DS}}},{{I}^{{LR}}}) = \frac{1}{{hwc}}\sqrt {\sum\limits_{i,j,k} \,{{{(I_{{i,j,k}}^{{DS}} - I_{{i,j,k}}^{{LR}})}}^{2}}} .$

К модели ГСНСР, использующей также ФП общих изменений, добавлялась ФП согласованности цикла с различными весами.

В табл. 1 приведены меры качества, полученные при добавлении к целевой функции ФП согласованности цикла с различными весами.

Таблица 1.

Влияние ФП согласованности цикла

Вес ФП PSNR SSIM
0 25.09 0.746
10–5 25.35 0.754
10–4 25.64 0.761
10–3 25.17 0.742
10–2 24.69 0.727
10–1 24.72 0.729
1 24.77 0.726

2.3. Функция потерь текстуры. ФП текстуры (texture loss), предложенная в [32], является основной составляющей в задаче передачи стиля изображения [33]. К задаче повышения разрешения эта ФП впервые применена в [34].

Текстура изображения определяется из корреляции между значениями функции активации по разным каналам одного и того же слоя, при прохождении изображения через сверточную нейронную сеть VGG [35]. Используется матрица Грама ${{G}^{{(l)}}} \in {{\mathbb{R}}^{{{{c}_{l}} \times {{c}_{l}}}}}$ (l – номер слоя сети VGG, cl – количество каналов в этом слое), которая отражает сходство между каждой парой векторов: если два вектора похожи друг на друга, то их скалярное произведение будет большим и, следовательно, матрица Грама будет иметь большие значения. Необходимо минимизировать расстояние между двумя матрицами Грама, соответствующими реальному и сгенерированному изображениям [36]. Компоненты матрицы ${{G}^{{(l)}}}$ задаются как

(2.3)
$G_{{ij}}^{{(l)}}(I) = \left\langle {\phi _{i}^{{(l)}}(I),\phi _{j}^{{(l)}}(I)} \right\rangle ,$
где $\phi _{i}^{{(l)}}$ – карта признаков i-го канала в l-м слое, $\left\langle { \cdot , \cdot } \right\rangle $ – скалярное произведение (сумма произведений соответствующих значений) слоев сети. Тогда сама ФП текстуры выглядит следующим образом:

(2.4)
${{U}_{{texture}}}({{I}^{{SR}}},{{I}^{{HR}}}) = \sum\limits_{{{c}_{l}},l \in \Lambda } \,\frac{1}{{c_{l}^{2}}}\sqrt {\sum\limits_{i,j} \,{{{(G_{{ij}}^{{(l)}}({{I}^{{SR}}}) - G_{{ij}}^{{(l)}}({{I}^{{HR}}}))}}^{2}}} .$

Внешнее суммирование берется на выходе слоев активации, в используемой конфигурации сети VGG19 – это слои с номерами $\Lambda = \left\{ {8,17,26,35} \right\}$. К модели ГСНСР, применяющей также ФП общих изменений, добавлялась ФП текстуры с различными весами. В табл. 2 приведены меры качества, полученные при добавлении к целевой функции ФП текстуры с различными весами.

Таблица 2.

Влияние ФП потерь текстуры

Вес ФП PSNR SSIM
0 25.09 0.746
10–4 25.25 0.756
10–3 25.18 0.738
10–2 25.34 0.762
10–1 26.84 0.811
1 25.23 0.753

На рис. 4 представлена схема расчета ФП согласованности цикла и ФП текстуры.

Рис. 4.

Схема вычисления ФП

2.4. Комбинация ФП. Произведена попытка скомбинировать исследуемые функции: к модели ГСНСР, использующей также ФП общих изменений, добавлены ФП текстуры и согласованности цикла с коэффицентами, показавшими наилучший результат в разд. 2.2 и 2.3.

3. Численные эксперименты. Вычислительные эксперименты проводились на специально собранной базе изображений железнодорожной инфраструктуры. Показателями качества работы были выбраны стандартные меры, также применялась визуальная оценка. Экспериментально подобраны весовые коэффициенты при целевой функции, используемой при тренировке ГСНСР, такие, что обученная сеть показывает оптимальный результат.

3.1. Оценка качества изображений. Качество получаемых изображений оценивается как с привлечением численных критериев, так и путем визуального анализа. Для количественной оценки использовались меры, описанные ниже.

Пиковое отношение сигнала к шуму (peak signal-to-noise ratio, PSNR) вычисляется как отношение квадрата максимальной яркости изображения $B$ и среднего квадрата разности между сгенерированным изображением ${{I}^{{SR}}}$ и изображением высокого разрешения IHR. Для простоты обозначив $I = {{I}^{{HR}}}$ и $\hat {I} = {{I}^{{SR}}}$, запишем:

(3.1)
${\text{PSNR}}(\hat {I},I) = 10log\frac{{N{{B}^{2}}}}{{\sum\limits_{i = 1}^N \,\mathop {(\hat {I}(i) - I(i))}\nolimits^2 }},$
где $I(i)$ – яркость i-го пикселя изображения, N – число пикселей, B = 255 в случае 8-битовых изображений.

Индекс структурного сходства (structural similarity index, SSIM) учитывает структуру изменения информации, т.е. взаимосвязь между пикселями, располагающимися пространственно близко друг к другу:

(3.2)
${\text{SSIM}}(\hat {I},I) = \frac{{(2{{\mu }_{I}}{{\mu }_{{\hat {I}}}} + {{c}_{1}})(2{{\sigma }_{I}}{{\sigma }_{{\hat {I}}}} + {{c}_{2}})}}{{(\mu _{I}^{2} + \mu _{{\hat {I}}}^{2} + {{c}_{1}})(\sigma _{I}^{2} + \sigma _{{\hat {I}}}^{2} + {{c}_{2}})}},$
где значения
${{\mu }_{I}} = \frac{1}{N}\sum\limits_{i = 1}^N \,I(i),\quad {{\sigma }_{I}} = \sqrt {\frac{1}{{N - 1}}\sum\limits_{i = 1}^N \,{{{(I(i) - {{\mu }_{I}})}}^{2}}} $
оценивают яркость и контрастность изображения. Константы ${{c}_{1}} = {{({{k}_{1}}B)}^{2}}$ и ${{c}_{2}} = {{({{k}_{2}}B)}^{2}}$ служат для избежания нестабильности, ${{k}_{1}} = 0.01,$ ${{k}_{2}} = 0.03$ определены экспериментально [37].

Принимая во внимание, что назначением разрабатываемого метода является улучшение качества изображений объектов транспортной инфраструктуры, целесообразно помимо численных характеристик использовать визуальный анализ качества восстановленных изображений. Показатели визуального качества можно сформулировать следующим образом [2]: сохранение спектральных особенностей в изображениях (внешний вид объектов обработанного изображения проверяется на основании внешнего вида тех же самых объектов на оригинальном изображении); резкость границ объектов на восстановленном изображении; отсутствие артефактов на восстановленном изображении.

3.2. Сбор и подготовка обучающих данных. Исследование имеет прикладную направленность и зависит от особенностей предметной области. Целевыми являются изображения объектов железнодорожного транспорта: железнодорожное полотно, вагоны, объекты капитального строительства, находящиеся в непосредственной близости к железной дороге, и т.д. Поэтому сбор и подготовка обучающих данных проводятся специальным образом.

В качестве исходных данных выбрано панхроматическое изображение высокого разрешения (линейный размер пикселя 0.3 м, разрядность 16 бит), на котором представлен фрагмент московского региона площадью около 53 кв. км., содержащий около 78 км железнодорожных линий. Использованы данные некоммерческого проекта OpenStreetMap [38]. Для получения разметки железнодорожных объектов на исходной карте применялся веб-инструмент Overpass turbo [39], основанный на данных OpenStreetMap. Далее на исходном изображении выделялись точки – центры фрагментов, которые вырезались и служили изображениями обучающей выборки.

Изображения обучающей выборки имеют размер 512 × 512 пикселей. Этот размер выбран, исходя из характерных размеров целевых объектов на изображениях. Взято 8000 фрагментов, представляющих железнодорожную инфраструктуру РФ, и 2000 случайно выбранных посторонних для предотвращения переобучения.

Вычислительные эксперименты проводились на персональном компьютере со следующими характеристиками: графический ускоритель: NVIDIA Tesla K80; центральный процессор: Intel(R) Xeon(R) CPU @ 2.30GHz; оперативная память: 12 Гб.

3.3. Особенности процесса обучения. Приведение исходного изображения в низкое разрешение осуществлялось при помощи уменьшения размера в 4 раза посредством бикубическоей интерполяции.

Для оптимизации использовался алгоритм градиентного спуска Adam [40]. Размер тренировочной выборки составляет 9500 изображений, валидационной – 500 изображений. Количество эпох для полного обучения модели: 100. Время обучения одной эпохи равно около 90 с, время одной эпохи с валидацией и сохранением результатов – около 270 с, полное время обучения – около 8 ч.

3.4. Тестирование. Тестирование качества работы модели на основе архитектуры ГСНСР и комбинированной ФП осуществляется на наборе изображений, не участвовавших в процессе обучения. Средние значения мер качества PSNR и SSIM, рассчитанные на тестовом наборе, приведены в табл. 1 и 2.

ФП согласованности цикла, примененная в модели ГСНСР, влияет на качество изображения (разд. 2.2). Наилучшее качество в данном эксперименте демонстрирует модель с коэффициентом 10–5, а также максимальные значения PSNR и SSIM и наилучшее визуальное качество.

ФП текстуры значительно влияет на качество изображения в модели ГСНСР (разд. 2.3). По количественным мерам PSNR и SSIM получили значительный прирост при коэффициенте 0.1, но по визуальному восприятию наиболее качественное изображение получили при коэффициенте 0.01.

На основе экспериментов выбраны оптимальные коэффициенты, с которыми дополнительные ФП входят в оптимизируемый функционал:

(3.3)
$U = V(G,D) + 2 \times {{10}^{{ - 8}}}{{U}_{{TVL}}} + {{10}^{{ - 2}}}{{U}_{{texture}}}.$
ФП согласованности цикла в итоге не вошла в оптимальную комбинацию. На рис. 2, в представлен пример изображения, полученного при обучении с использованием исходной целевой функции $V(G,D)$ (1.2) в сети [23], на рис. 2, г – результат использования модифицированной ФП (3.3).

Заключение. ГСН применены в задаче повышения качества аэрокосмических изображений субметрового разрешения. Качество изображений повышенного разрешения, генерируемых нейросетью, оценивалось количественными мерами (отношением сигнал/шум и мерой структурного сходства), а также визуально. На основании нескольких применявшихся ранее в родственных задачах ФП разработана новая ФП, показывающая лучший результат как при сравнении количественными мерами качества, так и при визуальном анализе. Отработка алгоритмов повышения разрешения проведена на коллекции изображений объектов железнодорожной инфраструктуры.

Список литературы

  1. Левин Б.А. Комплексный мониторинг транспортной инфраструктуры // Наука и технологии железных дорог. 2017. № 1. С. 14–21.

  2. Milanfar P. Super-Resolution Imaging. Boca Raton, USA: CRC Press, 2011.

  3. Бондур В.Г. Современные подходы к обработке больших потоков гиперспектральной и многоспектральной аэрокосмической информации // Исследование Земли из космоса. 2014. № 1. С. 4–16.

  4. Желтов С.Ю., Себряков Г.Г., Татарников И.Б. Компьютерные технологии создания геопространственных трехмерных сцен, использующих комплексирование географической информации и синтезированных пользовательских данных // Авиакосмическое приборостроение. 2003. № 8. С. 2–10.

  5. Мурынин А.Б., Трекин А.Н., Игнатьев В.Ю., Кульченкова В.Г., Ракова К.О. Метод повышения разрешения космических изображений ригидных объектов // Машинное обучение и анализ данных. 2019. № 5. С. 296–308.

  6. Визильтер Ю.В., Выголов О.В., Желтов С.Ю., Рубис А.Ю. Комплексирование многоспектральных изображений для систем улучшенного видения на основе методов диффузной морфологии // Изв. РАН. ТиСУ. 2016. № 4. С. 103–114.

  7. Бочкарева В.Г., Матвеев И.А., Мурынин А.Б., Цурков В.И. Методы улучшения качества изображений, основанные на пространственном спектральном анализе // Изв. РАН. ТиСУ. 2015. № 6. С. 115–123.

  8. Гороховский К.Ю., Игнатьев В.Ю., Мурынин А.Б., Ракова К.О. Поиск оптимальных параметров вероятностного алгоритма повышения пространственного разрешения мультиспектральных спутниковых изображений // Изв. РАН. ТиСУ. 2017. № 6. С. 112–124.

  9. Роджерс Д., Адамс Дж. Математические основы машинной графики. М.: Мир, 2001.

  10. Getreuer P. Linear Methods for Image Interpolation // Image Processing On Line. 2011. № 1. P. 238–259.

  11. Turkowski K., Gabriel S. Filters for Common Resampling Tasks // Andrew Glassner: Graphics Gems I. Boston: Acad. Press, 1990. P. 147–165.

  12. Carrato S., Ramponi G., Marsi S. A Simple Edge-Sensitive Image Interpolation Filter // Proc. IEEE Intern. Conf. Image Processing, Lausanne, Switzerland, 1996. V. 3. P. 711–714.

  13. Li X., Orchard M.T. New Edge-Directed Interpolation // IEEE Trans. Image Processing. 2001. V. 10. P. 1521–1527.

  14. Цурков В.И. Аналитическая модель сохранения кромки при подавлении шумов посредством анизотропной диффузии // Изв. РАН. ТиСУ. 2020. № 3. С. 107–110.

  15. Su D., Willis P. Image Interpolation by Pixel Level Data-Dependent Triangulation // Computer Graphics Forum. 2004. V. 23. № 2. P. 189–201.

  16. Tappen M.F., Russell B.C., Freeman W.T. Efficient Graphical Models for Processing Images // Proc. IEEE Conf. Computer Vision and Pattern Recognition. Washington, DC, USA, 2004. P. 673–680.

  17. Van E.A., Lindenbaum D., Bacastow T.M. Spacenet: A Remote Sensing Dataset and Challenge Series // 2018. URL: https://arxiv.org/pdf/1807.01232.pdf

  18. Kaggle Inc. DSTL Satellite Imagery Feature Detection Challenge // URL: https://www.kaggle.com/c/dstl-satellite-imagery-feature-detection/

  19. Rottensteiner F., Sohn G., Gerke M. et al. ISPRS Semantic Labeling Contest // URL: http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html.

  20. Maggiori E., Tarabalka Y., Charpiat G. et al. Can Semantic Labeling Methods Generalize to any City? The INRIA Aerial Image Labeling Benchmark // Proc. IEEE Intern. Geoscience and Remote Sensing Sympos. Fort Worth, TX, USA, 2017. P. 3226–3229.

  21. Aeronetlab, Skoltech Open Dataset for Building Height Estimation // URL: https://github.com/aeronetlab/open-datasets.

  22. Ledig C., Theis L., Husza F. et al. Photo-realistic Single Image Super- Resolution Using a Generative Adversarial Network // Proc. IEEE Conf. Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017. P. 105–114.

  23. Wang X., Yu K., Wu S. et al. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks // Computer Vision – ECCV 2018 Workshops. Lecture Notes in Computer Science. V. 11133 / Eds L. Leal-Taixe, S. Roth. Springer, Cham, 2018.

  24. Jiang K., Wang Z., Yi P. et al. Edge-Enhanced GAN for Remote Sensing Image Superresolution // IEEE Trans. Geoscience and Remote Sensing. 2019. V. 57. № 8. P. 5799–5812.

  25. Ma W., Pan Z., Guo J., Lei B. Super-Resolution of Remote Sensing Images Based on Transferred Generative Adversarial Network // Proc. IEEE Intern. Geoscience and Remote Sensing Sympos. Valencia, Spain, 2018. P. 1148–1151.

  26. Everingham M., Eslami S.M.A., Van Gool L. et al. The Pascal Visual Object Classes Challenge: A Retrospective // Intern. J. Comput Vis. 2015. V. 111. P. 98–136.

  27. Goodfellow I., Pouget-Abadie J., Mirza M. et al. Generative Adversarial Networks // Proc. Intern. Conf. Neural Information Processing Systems. Montreal, Canada, 2014. P. 2672–2680.

  28. Keys R. Cubic Convolution Interpolation for Digital Image Processing // IEEE Trans. Acoustics, Speech, and Signal Processing. 1981. V. 29. № 6. P. 1153–1160.

  29. Aly H.A., Dubois E. Image Up-sampling Using Total-variation Regularization with a New Observation Model // IEEE Trans. Image Processing. 2005. V. 14. № 10. P. 1647–1659.

  30. Zhu J., Park T., Isola P., Efros A.A. Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks // Proc. IEEE Intern. Conf. Computer Vision. Venice, Italy, 2017. P. 2242–2251.

  31. Yuan Y., Liu S., Zhang J. et al. Unsupervised Image Super-resolution Using Cycle-in-cycle Generative Adversarial Networks // Proc. IEEE/CVF Conf. Computer Vision and Pattern Recognition Workshops. Salt Lake City, USA, 2018. P. 814–81409.

  32. Gatys L., Ecker A.S., Bethge M. Texture Synthesis Using Convolutional Neural Networks // Proc. Intern. Conf. Neural Information Processing Systems. Montreal, Canada, 2015. V. 1. P. 262–270.

  33. Gatys L., Ecker A.S., Bethge M. Image Style Transfer Using Convolutional Neural Networks // Proc. IEEE Conf. Computer Vision and Pattern Recognition. Las Vegas, USA, 2016. P. 2414–2423.

  34. Sajjadi M.S., Scholkopf B., Hirsc M. Enhancenet: Single Image Super-resolution through Automated Texture Synthesis // Proc. Intern. Conf. Computer Vision. Venice, Italy, 2017. P. 4501–4510.

  35. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition // 2014. URL: https://arxiv.org/abs/1409.1556

  36. Dalvadi J. A Survey on Techniques of Image Super Resolution // Intern. J Innovative Research in Computer and Communication Engineering. 2016. V. 4. № 3. P. 3084–3089.

  37. Wang Z., Bovik A.C., Sheikh H.R., Simoncelli E.P. Image Quality Assessment: from Error Visibility to Structural Similarity // IEEE Trans. Image Processing. 2004. V. 13. № 4. P. 600–612.

  38. OpenStreetMap community https://www.openstreetmap.org/about/ Дата обращения 2020.08.30.

  39. Overpass turbo http://overpass-turbo.eu/ Дата обращения 2020.08.30.

  40. Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization // Proc. Intern. Conf. Learning Representations. San Diego, CA, USA, 2015.

Дополнительные материалы отсутствуют.