ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
ЭЛЕКТРОННАЯ КОМПОНЕНТНАЯ БАЗА, ФОТОНИКА
И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ УПРАВЛЕНИЯ
УДК 004.032.26
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СУЩЕСТВУЮЩИХ
НЕЙРОСЕТЕВЫХ МЕТОДОВ РЕЗЮМИРОВАНИЯ ТЕКСТОВ
© 2021 г. А.Г. Сбоев1,2, А.А. Селиванов2, Р.Б. Рыбка1,*,
И.А. Молошников1, А.В. Грязнов1
1 Национальный исследовательский центр «Курчатовский институт», Москва, Россия
2 Национальный исследовательский ядерный университет «МИФИ», Москва, Россия
* E-mail: Rybka_RB@nrcki.ru
В исследовании рассмотрены достижения последних лет в области автоматического резюмирования текстов
на основе глубоких нейронных сетей, в том числе с применением обучения с подкреплением. Показано, что
модели на основе экстрактивного подхода дают более высокую точность по метрике ROUGE, однако отме-
чено, что абстрактивный подход концептуально более перспективен. Отмечено, что текущие точности мето-
дов на основе обучения с подкреплением ниже, чем у методов на основе классического обучения, что может
быть объяснено использованием менее совершенных моделей в качестве агентов и значительно возрастающей
вычислительной сложностью. Указаны недостатки, свойственные классическим метрикам оценки на основе
совпадения подстроки (rouge, blue), представлено описание альтернативных метрик, которые могут в перспек-
тиве лечь в основу более совершенных моделей резюмирования текстов, но на текущем этапе также обладают
рядом недостатков.
Рассмотрены наборы данных, которые используются в литературе для оценки методов автоматического резю-
мирования текстов. В результате сравнения заявленных точностей на новостных статьях CNN/Dailymail, мож-
но сделать вывод, что на текущем этапе наиболее совершенным методом резюмирования текстов (по оценке
на основе метрики rouge-l) является метод с использованием языковой модели типа BART и механизма реду-
цирования коллапса представления (BART+R3F), который достигает значения rouge-l, равного 41.17. В работе
выделены технические решения в разных методах, совместное использование которых может обеспечить при-
рост в точности решения задачи резюмирования текстов.
ВВЕДЕНИЕ
В данной работе будут рассмотрены подходы к
В настоящее время доступный объём текстовой
автоматическому резюмированию текстов на ос-
информации в открытом доступе растёт (научные и
нове искусственных нейронных сетей и метрики
новостные статьи, тексты в социальных сетях, отзы-
оценки этих методов (раздел 2); современные ме-
вы), что делает её своевременный анализ трудоём-
тоды автоматического резюмирования текстов на
ким или вовсе невозможным. Одним из вариантов
основе нейронных сетей (раздел 3), которые реали-
решения данной проблемы является использование
зуют различные подходы; наборы данных, которые
методов автоматического резюмирования текстов.
используются в современных работах для оценки
Под автоматическим резюмированием текста
методов резюмирования текстов (раздел 4), резуль-
(в англ. литературе: text summarization) понимают
таты на наиболее популярном наборе данных мето-
генерацию текста, длина которого меньше изна-
дов, вошедших в обзор (раздел 5).
чального, а информативность сопоставима с рефе-
ратом, составленным людьми.
ПОДХОДЫ К АВТОМАТИЧЕСКОМУ
Перспективными для решения данной задачи
РЕЗЮМИРОВАНИЮ ТЕКСТОВ
являются методы на основе нейронных сетей, кото-
Методы автоматического резюмирования тек-
рые зарекомендовали себя в широком спектре задач
стов реализуют следующие основные подходы:
обработки естественного языка (Natural Language
экстрактивный, абстрактивный или гибридный.
Processing, NLP).
Экстрактивный подход предполагает создание ре-
42
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СУЩЕСТВУЮЩИХ НЕЙРОСЕТЕВЫХ МЕТОДОВ РЕЗЮМИРОВАНИЯ ТЕКСТОВ
43
зюме на основе извлечения слов и фраз исходно-
использовании обучения с подкреплением, где в
го текста. Абстрактивный подход предполагает
качестве награды рассматривается метрика оценки,
генерацию резюме с использованием стороннего
а в качестве действий агента - генерация слов или
словаря, что позволяет включать в резюме слова и
предложений для итогового резюме.
фразы, которые отсутствуют в исходном тексте. Ги-
бридный подход является объединением двух пре-
МЕТОДЫ АВТОМАТИЧЕСКОГО
дыдущих подходов.
РЕЗЮМИРОВАНИЯ ТЕКСТОВ
В литературе модели резюмирования текстов
1) Экстрактивные методы
оцениваются на основе совпадения подстроки сге-
HSASRL [8]
нерированного и эталонного резюме: метрики Rouge
Данный метод реализует экстрактивный подход
1, Rouge 2, Rouge L [1], BLEU [2]. Rouge 1 и Rouge
на основе обучения с подкреплением.
2 сравнивают униграммы и биграммы соответствен-
Основная идея метода - ранжирование предло-
но, BLEU использует и униграммы, и биграммы, а
жений по значимости на основе прямой оптимиза-
Rouge L использует наиболее длинную общую под-
ции метрики оценки метода (rouge) и модели, кото-
строку для оценки сгенерированного резюме.
рая создаёт векторное представление предложений.
Недостатками данного класса метрик является,
Векторное представление формируется на основе
во-первых, привязка к конкретным словам этало-
biLSTM с механизмом внимания. Слова изначаль-
на - если в сгенерированном резюме та же мысль
но представлены с помощью дистрибутивной мо-
выражена иными словами, оценка окажется низ-
дели word2vec, полученные вектора используются,
кой, во-вторых, слабый учёт порядка слов в резю-
чтобы создать внутреннее векторное представле-
ме, особенно в случае с метриками на униграммах.
ние слов с учётом контекста. Данные вектора ис-
То есть некорректное предложение, которое содер-
пользуются для получения векторного представле-
жит те же слова, что и эталон, но в случайном по-
ния предложений.
рядке, получит высокую оценку.
На основе векторов предложений, информации
В качестве возможных перспективных решений
об исходном тексте и уже сгенерированной части
описанных проблем рассматриваются метрики на
резюме вычисляются производные характеристики
основе языковых моделей: Rouge-w, METEOR [3],
предложений с использованием полносвязных сло-
BLEURT [4]. Данные метрики используют допол-
ёв: содержательность предложения (Cj) (см. форму-
нительные модели, которые оценивают смысловую
лу 1), значимость предложения во входном тексте
близость эталонного и сгенерированного резюме
(Mj) (см. формулу 2), новизна предложения относи-
на основе их векторного представления. Rouge
тельно уже сформированного резюме (Nj) (см. фор-
w использует модель word2vec [5]; METEOR -
мулу 3), векторного представления позиции пред-
лексическую базу данных WordNet; BertScore и
ложения в тексте (Pj) (см. формулу 4).
BLEURT - контекстные языковые модели на осно-
ве топологии Transformer [6], предварительно обу-
Cj = Wc sj ;
(1)
ченные на больших корпусах текстов (BERT [7]).
Недостатками данных метрик является, во-пер-
T
M
=s
W
d;
(2)
вых, большая вычислительная сложность по срав-
j
j
s
нению с методами на основе совпадения подстро-
T
N
=s
W
tanh
o
(3.1)
ки, во-вторых, необходимость подбора языковой
j
j
r
(
j
);
модели и её параметров, чтобы оценка работала
j1
корректно, в-третьих, отсутствие гарантии эффек-
o
=
s
P
(
y
=1s
,o
, d
)
;
(3.2)
j
i=1
i
i
i
i
тивности работы при переносе метрики с одного
набора данных на другой, в-четвёртых, часто такие
Pj = Wp pj ;
(4)
модели являются привязанными к языку, что не по-
зволяет, к примеру, использовать оригинальные мо-
где sj - векторное представление предложения;
дели BertScore и BLEURT для русского языка.
d - векторное представление документа;
Все описанные метрики не являются дифферен-
o - векторное представление уже сформированного
цируемыми, а значит не могут быть оптимизиро-
резюме;
ваны напрямую в канве классического обучения
p - позиционное кодирование предложения в виде
нейронных сетей. Прямая оптимизация этих ме-
конкатенации закодированных векторов индексов
трик при обучении нейронной сети возможна при
позиции предложения от начала и от конца текста;
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
44
А.Г. СБОЕВ и др.
W - матрицы весов полносвязных слоёв, которые
Именованные сущности в тексте заменяют-
отвечают за Cj, Mj, Nj и Pj соответственно.
ся на особые токены («Person_A», «Person_B»,
Результаты конкатенируются и подаются в пол-
«Place_A» и т.д.). Для слов каждое вхождение сло-
носвязный слой с функцией активации Softmax,
ва представляется отдельным узлом. Каждый узел
выходные активности которого определяют вероят-
предложения отражает информацию об одном
ность включения предложения в резюме.
предложении.
В процессе обучения для каждого документа ге-
В графе четыре типа связей:
нерируется множество вариантов реферата, чтобы
1. Направленные связи от именованных сущно-
ускорить процесс обучения и сходимость алгорит-
стей к словам предложения (Next);
ма, это пространство сокращается до наиболее ве-
2. Узлы слов и сущностей имеют направленные
роятных вариантов.
связи с предложением (In);
Изначально на каждой итерации обучения из
3. Одинаковые именованные сущности соединя-
документа выбирается k предложений с наиболь-
ются связью (Same);
шим значением метрики оценки (rouge). Из данных
4. Два узла предложения, если они имеют об-
предложений формируются все возможные после-
щую триграмму, связью (Similar).
довательности длины L, которая рассчитывается
Полученный граф разбивается на три подгра-
как средняя длина эталона в предложениях в рас-
фа: граф уровня слов, граф уровня слов и пред-
сматриваемом наборе данных (например, 3 предло-
ложений, граф уровня предложений, каждый из
жения для корпуса CNN/DM).
которых обрабатывается отдельным графовым
Данное множество потенциальных рефератов ис-
свёрточным слоем с механизмом внимания (Graph
пользуется для расчёта награды и функции потерь:
Attention Layer, GAT) [11]. В результате получает-
ся векторное представление предложений с учётом
m
контекста.
y
L θ)≈-r
y
logp
s
,d,θ
,
(
)
(
i
i
)
i=1
На основе векторного представления предложе-
ний определяется, какие предложения включать в
где L - функция потерь;
резюме - для этого используется ещё два слоя GAT
r - функция награды (rouge);
и полносвязный слой с сигмоидальной активацией.
si - предложение i;
В резюме включаются предложения с активностью
Y
- предсказанная метка для предложения i (вклю-
выше эмпирически подбираемого порога.
i
чать или нет в резюме);
Таким образом, следующие технологические
d - текущий рассматриваемый документ;
решения из метода HAHSum следует отметить:
θ - параметры модели.
1. Представление текста в виде гетерогенного
Таким образом, из метода HSASRL примеча-
графа, включающего узлы слов, предложений и
тельными технологическими решениями являются:
именованных сущностей, что позволяет учитывать
• вычисляемые признаки предложения (содер-
информацию о структуре текста;
жательность, новизна относительно уже сгене-
2. Использование именованных сущностей, что
рированной части резюме, значимость предло-
даёт дополнительную информацию для модели ре-
жения в документе и позиция предложения в
зюмирования текстов, как правило, значимую для
документе);
резюме (личности, названия мест, организаций и
• функция потерь, которая при обучении сети
так далее).
учитывает не всю совокупность возможных ре-
2) Абстрактивные методы
зюме, которую генерирует модель, что позволя-
Deep Communicating Agents for Abstractive Sum-
ет ускорить работы модели и сходимость.
marization [12]
Данный метод реализует абстрактивный подход
HAHSum [9]
на основе обучения с подкреплением.
Данный метод реализует экстрактивный подход
Концепция метода заключается в анализе текста
на основе графовых слоёв нейронной сети.
по частям несколькими агентами, которые пред-
Входной текст представляется в виде гетероген-
ставляют собой блоки нейронной сети. Каждый
ного графа и векторного представления слов на ос-
блок состоит из трёх слоёв biLSTM, которым на
нове языковой модели ALBERT [10]. Граф включа-
вход дополнительно подаётся внутреннее состоя-
ет три типа узлов: именованные сущности, слова,
ние других агентов для поддержания общего гло-
предложения.
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СУЩЕСТВУЮЩИХ НЕЙРОСЕТЕВЫХ МЕТОДОВ РЕЗЮМИРОВАНИЯ ТЕКСТОВ
45
бального контекста у каждого агента (развитие то-
тексте, которые генерируются на выходе агентов,
пологии CommNet [13]).
на каждой итерации работы сети критик добавляет
Выходные вектора слов от каждого агента взве-
к своему резюме слово с максимальным весом.
шиваются на основе каскада механизмов внима-
Таким образом, в методе DCA следует отметить
ния, таким образом формируется сначала вектор
следующие технологические решения:
контекста агента, а затем единый вектор контекста.
1. Множественные агенты с обменом инфор-
Текущий вектор контекста конкатенируется с век-
мацией для анализа разных частей текста (что в
тором, полученным на предыдущем шаге, и пода-
частности позволяет обрабатывать тексты большой
ётся на вход «декодировщику» - одностороннему
длины);
LSTM, который создаёт векторное представление
2. Инкрементальная награда по предложениям,
для генерации нового слова реферата. Данный век-
которая позволяет учесть вклад каждого предложе-
тор передаётся в полносвязный слой, размерность
ния в информативность резюме, а значит обучать
которого соответствует словарю модели. Таким об-
сеть генерировать текст, в котором каждое пред-
разом выход данного слоя позволяет выбрать, ка-
ложение вносит дополнительную информацию в
кое слово включить в реферат на текущем этапе.
резюме;
Дополнительно используется механизм копиро-
3. Механизм самокритики, который позволяет
вания [14], который позволяет включать в реферат
обучаться модели генерировать лучше, чем вы-
слова из исходного текста, в том числе если они от-
бранная модель критика, которая в данном случае
сутствуют в словаре модели.
имеет общую часть с основной моделью;
Сеть настраивается на основе обучения с под-
4. Механизм копирования, как дополнение к ме-
креплением, в качестве награды используется ме-
тоду абстрактивного резюмирования, что позволя-
трика оценки работы модели (rouge). На каждом
ет улучшить резюме в том числе дополняя его сло-
шаге работы сети вычисляется разность между
вами, которые отсутствуют в словаре модели.
оценкой резюме с последним сгенерированным
предложением и без него, что позволяет оценить
BART + R3F [15]
вклад в резюме последнего сгенерированного
Данный метод реализует абстрактивный подход
предложения:
на основе тонкой настройки (fine tuning) предобу-
ченной языковой модели.
o
o
В качестве языковой модели для генерации ре-
r
o
=
r
,...,o
r
,...,o
inc
(
q
)
(
1
q
)
(
1
q1
)
,
ферата используется BART [16]. Модель BART
основана на слоях типа Transformer и состоит из
где rinc - инкрементальная награда на текущий шаг
кодировщика и декодировщика. Кодировщик пред-
генерации;
назначен для создания векторного представления
слов входного текста с учётом контекста. Декоди-
o
- сгенерированное предложение под номером q;
q
ровщик использует как векторное представление
o
слов, так и информацию об уже сгенерированном
r
(
1
,...,o
q
)
- награда за резюме с учётом послед-
резюме, чтобы генерировать каждое следующее
него сгенерированного предложения;
слово резюме.
o
r
,...,o
- награда за резюме без использова-
В данной статье на стадии тонкой настройки
(
1
q1
)
языковой модели используется дивергенция Куль-
ния последнего сгенерированного предложения.
бака-Лейблера, рассчитанная между векторами, ко-
Ещё одной частью алгоритма является механизм
торые были получены до и после тонкой настройки
критики, который на основе более простой модели
модели. Эта мера используется как дополнитель-
генерирует резюме, награда за которое вычитается
ный член в функции ошибки, что позволяет огра-
из награды основной модели. Польза от данного
ничить изменение весов языковой модели в ходе
механизма заключается в том, что основная модель
тонкой настройки, таким образом не «испортив»
«соревнуется» с критиком, стремится генерировать
её изначальное состояние. Данный механизм назы-
резюме лучше.
вают «редуцированием коллапса представления».
В случае с «механизмом самокритики» модель
Коллапс представления (representational collapse) -
критика имеет общую с основной моделью часть.
деградация обобщающего представления пре-
В рассматриваемом алгоритме механизм самокри-
добученной модели на этапе тонкой настройки.
тики построен на весах внимания каждого слова в
Иными словами, это явление, при котором в ре-
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
46
А.Г. СБОЕВ и др.
зультате дообучения модели снижается её обобща-
няя длина текста в словах - 530, средняя длина
ющая способность.
резюме в словах - 38.
Данный метод может быть использован с лю-
На русском языке корпус для задачи резюмиро-
быми языковыми моделями, а также совместно с
вания текстов был представлен на соревновании
иными функциями ошибки, в том числе с учётом
«Диалог» [23], корпус содержит 1003869 текстов
награды в процессе обучения с подкреплением.
новостного ресурса «Россия Сегодня» [24].
НАБОРЫ ДАННЫХ
РЕЗУЛЬТАТЫ
При разработке новых моделей резюмирования
В разделе 3 описаны методы, которые реали-
текстов их оценку производят обычно на одном из
зуют различные подходы к автоматическому ре-
популярных корпусов. Наиболее часто используе-
зюмированию текстов, при этом в рамках подхо-
мым среди них является корпус новостей ресурсов
да достигают наибольшей точности (по метрикам
CNN и DailyMail, CNN/DM [17,18].
rouge-1, rouge-2, rouge-l) на корпусе данных CNN/
Корпус содержит 312084 новостных текстов,
DM. Результаты представлены в таблице 1.
средняя длина текста - 781 слово, средняя дли-
На основе результатов таблицы можно сделать
на эталонного резюме - 3.75 предложений или 56
слов. У набора данных существует стандартное
Таблица 1. Точность решения задачи резюмирования текстов
разбиение на тренировочную (287226 текстов),
на наборе данных CNN/DM
валидационную (13368) и тестировочную (11490)
Метод
Тип метода
Rouge-1
Rouge-2
Rouge-L
части. Существуют версии корпуса с анонимиза-
BART+R3F
абстрактивный
44.38
21.53
41.17
цией именованных сущностей (заменой личностей,
HAHSum
экстрактивный
44.68
21.30
40.75
организаций, географических точек на уникальные
DCA
RL, абстрактивный
41.69
19.47
37.92
идентификаторы вида «@entity5»).
HSASRL
RL, экстрактивный
41.5
19.5
37.9
Менее распространено использование таких
корпусов, как:
• Reddit TIFU short [19] - корпус текстов из со-
вывод о том, что перспективным является исполь-
циальной сети Reddit, из раздела, в котором
зование технологических решений из наиболее
пользователи описывают неудачные истории,
точных методов на основе абстрактивного и экс-
которые произошли с ними. В качестве эталон-
трактивного подходов для разработки новых мето-
ного резюме рассматривается краткая выжим-
дов резюмирования текстов, а также использование
ка истории за авторством самого пользователя.
обучения с подкреплением совместно с данными
Число текстов: 79949, средняя длина текста -
технологическими решения для достижения более
342.4 слова, резюме - 9.33 слова;
высокого качества решения задачи.
• Reddit TIFU long [19] - содержит более длин-
ные тексты и резюме, чем Reddit TIFU short.
БЛАГОДАРНОСТИ
Число текстов: 42984, средняя длина текста:
Исследование выполнено при финансовой под-
432.6, средняя длина резюме - 23 слова.
держке внутреннего гранта НИЦ «Курчатовский
• PubMed [20] - корпус медицинских научных
Институт» (приказ
№1055) с использованием
статей,
133000 статей, средняя длина тек-
оборудования центра коллективного пользования
ста в словах - 3016, средняя длина резюме в
«Комплекс моделирования и обработки данных
словах - 203;
исследовательских установок мега-класса» НИЦ
• Arxiv [20] - корпус научных статей на раз-
«Курчатовский институт», http://ckp.nrcki.ru/.
ные темы, 215000 статей, средняя длина тек-
ста в словах - 4938, средняя длина резюме в
ЗАКЛЮЧЕНИЕ
словах - 220;
В настоящее время наибольшая точность (по
• Big Patent [21] - корпус текстов заявок на па-
метрикам ROUGE-1-f, ROUGE-2-f, ROUGE-L-f)
тент в США, включая рефераты, написанные
достигается экстрактивными подходами, что ча-
специалистами патентного бюро. Число тек-
стично может быть объяснено природой метрик, по
стов - 1341362, средняя длина текста в словах -
которым оценивается качество моделей. С другой
3572.8, средняя длина резюме в словах - 116.5.
стороны, абстрактивные подходы развиваются как
• New York Times [22] - корпус новостных статей
более перспективные за счет возможной генерации
журнала New York Times, 655000 текстов, сред-
резюме из слов, отсутствующих в исходном тексте.
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СУЩЕСТВУЮЩИХ НЕЙРОСЕТЕВЫХ МЕТОДОВ РЕЗЮМИРОВАНИЯ ТЕКСТОВ
47
Среди экстрактивных подходов лучшим явля-
4. Sellam T., Das D., Parikh A. BLEURT: Learning
ется метод HAHSum - метод на основе гетероген-
Robust Metrics for Text Generation. InProceedings
ного графа с использованием информации об име-
of the 58th Annual Meeting of the Association for
нованных сущностях, графовых слоёв внимания и
Computational Linguistics 2020 Jul. (pp. 7881-7892).
языковой модели ALBERT, точность (ROUGE-1-f/
5. Mikolov T., Chen K., Corrado G., Dean J. Efficient
ROUGE-2-f/ROUGE-L-f): 44.68 / 21.30 / 40.75.
estimation of word representations in vector space.
Наиболее точным методом на основе абстрак-
arXiv preprint arXiv:1301.3781. 2013 Jan. 16.
тивного подхода является BART+R3F, ключевая
6. Vaswani A., Shazeer N., Parmar N., Uszkoreit J.,
особенность - использование механизма предот-
Jones L., Gomez A.N., Kaiser L., Polosukhin I.
вращения коллапса представления, что обеспечи-
Attention is All you Need. InNIPS 2017 Jan. 1.
вает более эффективную процедуру дообучения
7. Devlin J., Chang M.W., Lee K., Toutanova K. BERT:
языковой модели. Достигнутая точность (ROUGE-
Pre-training of Deep Bidirectional Transformers for
1-f/ROUGE-2-f/ROUGE-L-f): 44.38 / 21.53 / 41.17.
Language Understanding. InProceedings of the 2019
Текущий уровень может быть улучшен за счет ис-
Conference of the North American Chapter of the
пользования RL методов в совокупности с State-of-
Association for Computational Linguistics: Human
the-art моделями резюмирования текстов, что до
Language Technologies, Volume 1 (Long and Short
настоящего времени не исследовалось.
Papers) 2019 Jun. (pp. 4171-4186).
Перспективными для такого исследования явля-
ются следующие методы обучения с подкреплени-
8. Mohsen F., Wang J., Al-Sabahi K. A hierarchical
ем: инкрементальное награждение по сгенериро-
self-attentive
neural
extractive
summarizer
ванным частям резюме, что позволяет учесть вклад
via reinforcement learning (HSASRL). Applied
в результат (по выбранным метрикам) каждой сге-
Intelligence. 2020 Mar. 16:1-4.
нерированной части резюме; дополнение функ-
9. Jia R., Cao Y., Tang H., Fang F., Cao C., Wang S.
ции потерь дистанцией между сгенерированными
Neural Extractive Summarization with Hierar-
частями для сокращения избыточности резюме;
chical Attentive Heterogeneous Graph Network.
механизм «многорукого бандита», который обеспе-
InProceedings of the 2020 Conference on Em-pirical
чивает оптимизацию нескольких функций потерь в
Methods in Natural Language Processing (EMNLP)
рамках процесса обучения; добавление в награду
2020 Nov. (pp. 3622-3631).
обратной связи, при котором на каждой итерации
10. Sharma S.G., Lan R.S., Chen M. ALBERT: A Lite
обучения человек оценивает качество полученного
BERT for Self-supervised Learning of Language
резюме.
Representations. InSubmitted to International
В рамках дальнейших работ предполагается
Conference on Learning Representations. https://
развитие единого подхода на основе набора опи-
openreview. net/forum 2020.
санных выше методов для эффективного решения
11. Veličković P., Cucurull G., Casanova A., Romero A.,
задачи автоматического резюмирования текстов.
Lio P., Bengio Y. Graph attention networks. arXiv
preprint arXiv:1710.10903. 2017 Oct. 30.
СПИСОК ЛИТЕРАТУРЫ
12. Celikyilmaz A., Bosselut A., He X., Choi Y.
1. Lin, Chin-Yew. «Rouge: A package for automatic
Deep Communicating Agents for Abstractive
evaluation of summaries». In Text summarization
Summarization. InProceedings of the 2018 Conference
branches out, pp. 74-81. 2004.
of the North American Chapter of the Association
2. Papineni K., Roukos S., Ward T., Zhu W.J. Bleu:
for Computational Linguistics: Human Language
a method for automatic evaluation of machine
Technologies, Volume 1 (Long Papers) 2018 Jun.
translation. InProceedings of the 40th annual meeting
(pp. 1662-1675).
of the Association for Computational Linguistics 2002
13. Sukhbaatar S., Szlam A., Fergus R. Learning
Jul. (pp. 311-318).
multiagent communication with backpropagation.
3. Banerjee S., Lavie A. METEOR: An automatic metric
Advances in Neural Information Processing Systems.
for MT evaluation with improved correlation with
2016:2252-60.
human judgments. InProceedings of the acl workshop
14. Gu J., Lu Z., Li H., Li V.O. Incorporating Copying
on intrinsic and extrinsic evalu-ation measures for
Mechanism in Sequence-to-Sequence Learning.
machine translation and/or summarization 2005 Jun.
InProceedings of the
54th Annual Meeting of the
(pp. 65-72).
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021
48
А.Г. СБОЕВ и др.
Association for Computational Linguistics (Volume 1:
North American Chapter of the Association for
Long Papers) 2016 Aug. (pp. 1631-1640).
Computational Linguistics: Human Language
Technologies, Volume 1 (Long and Short Papers) 2019
15. Aghajanyan A., Shrivastava A., Gupta A.,
Jun. (pp. 2519-2531).
Goyal N., Zettlemoyer L., Gupta S. Better fine-tuning
by reducing representational collapse. arXiv preprint
20. Cohan A., Dernoncourt F., Kim D.S., Bui T.,
arXiv:2008.03156. 2020 Aug 6.
Kim S., Chang W., Goharian N. A Discourse-Aware
16. Lewis M., Liu Y., Goyal N., Ghazvininejad M.,
Attention Model for Abstractive Summarization of
Mohamed A., Levy O., Stoyanov V., Zettlemoyer L.
Long Documents. InProceedings of NAACL-HLT 2018
BART: Denoising Sequence-to-Sequence Pre-training
(pp. 615-621).
for Natural Language Generation, Translation, and
21. Sharma E., Li C., Wang L. BIGPATENT: A
Comprehension. InProceedings of the 58th Annual
Large-Scale Dataset for Abstractive and Coherent
Meeting of the Association for Computational
Summarization. InProceedings of the 57th Annual
Linguistics 2020 Jul. (pp. 7871-7880).
Meeting of the Association for Computational
17. Hermann K.M., Kočiský T., Grefenstette E.,
Linguistics 2019 Jul. (pp. 2204-2213).
Espeholt L., Kay W., Suleyman M., Blunsom P.
22. Li J.J., Thadani K., Stent A. The role of discourse
Teaching machines to read and comprehend. Advances
units in near-extractive summarization. InProceedings
in Neural Information Processing Systems.
2015
of the 17th Annual Meeting of the Special Interest Group
Dec. 5;28.
on Discourse and Dialogue 2016 Sep. (pp. 137-147).
18. Nallapati R., Zhou B., dos Santos C., glar Gulçehre
23. Malykh V.A., Kalaidin P.S. Headline Generation
Ç., Xiang B. Abstractive Text Summarization using
Shared Task on Dialogue’2019 report.
Sequence-to-sequence RNNs and Beyond. CoNLL
24. Gavrilov D., Kalaidin P., Malykh V. Self-attentive
2016. 2016 Aug. 11:280.
model for headline generation. InEuropean Conference
19. Kim B., Kim H., Kim G. Abstractive Summarization
on Information Retrieval 2019 Apr. 14 (pp. 87-93).
of Reddit Posts with Multi-level Memory Networks.
Springer, Cham.
InProceedings of the
2019 Conference of the
ВЕСТНИК ВИТ «ЭРА», том 2, номер 2, 2021