Доклады Российской академии наук. Математика, информатика, процессы управления, 2022, T. 503, № 1, стр. 16-22

О ДЛИНЕ ФРАГМЕНТОВ ДЛЯ ОДНОЗНАЧНОГО ВОССТАНОВЛЕНИЯ ПЕРИОДИЧЕСКОГО СЛОВА ПО ПОЛНОМУ МУЛЬТИМНОЖЕСТВУ ФРАГМЕНТОВ ФИКСИРОВАННОЙ ДЛИНЫ

В. А. Алексеев 1*, Ю. Г. Сметанин 2

1 Московский физико-технический институт (национальный исследовательский университет)
Долгопрудный, Московская обл., Россия

2 Федеральный исследовательский центр “Информатика и управление” Российской академии наук
Москва, Россия

* E-mail: vasiliy.alekseyev@phystech.edu

Поступила в редакцию 23.03.2021
После доработки 27.01.2022
Принята к публикации 17.02.2022

Полный текст (PDF)

Аннотация

Рассмотрена задача о восстановлении слов из конечного алфавита по мультимножеству их фрагментов одной длины. При этом ставится следующее ограничение на восстанавливаемые слова: они должны быть либо периодическими, либо должны содержать периодическое слово как подслово. Показано, что периодическое слово с периодом p восстановимо мультимножеству фрагментов длины k при $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt p } \right\rfloor + 5$. Для слова, состоящего из периодического префикса с периодом q, повторяющегося m раз, и периодического суффикса с периодом p, повторяющегося l раз, получена оценка $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$, где $P = {\text{max(}}p,~q{\text{)}}$, при условии $l \geqslant m{{q}^{{\left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5}}}$.

Ключевые слова: слово, фрагмент, подслово, периодическое слово, восстановление по неполной информации, восстановление слова, реконструкция слова, мультимножество подслов

В общем случае задачу о восстановлении объекта некоторой природы по неполной информации о его “частях” можно рассматривать как задачу распознавания образов [1]. В частности, когда объектами выступают слова как последовательности символов над определенным алфавитом, возникает вопрос о возможности восстановления слова по множеству или мультимножеству его подслов. Эта задача лежит в области дискретной математики, называемой комбинаторикой слов [26], где исследуется связь между последовательностями символов и множествами их подпоследовательностей.

Можно отметить несколько приложений, которые имеет задача о восстановлении слов по подсловам. Так, в символьном кодировании произвольная информация представляется в виде последовательности символов и слов [7]. Такой способ представления информации используется, например, при передаче данных по каналам связи [8], когда важно обеспечить надежную передачу такой закодированной информации, исключающую потери, или позволяющую восстановить исходное слово по доступным фрагментам, если потери случаются [9]. Символьное кодирование также используется, например, в области анализа временных рядов [10], в биоинформатике [11].

В работах [12, 13] получены оценки для длины фрагмента, достаточной для того, чтобы произвольное слово можно было восстановить по мультимножеству всех его подслов.

В данной же работе на восстанавливаемые слова накладывается ограничение, состоящее в том, что слова должны содержать периодическое подслово. Это позволяет получить более низкую оценку на достаточную для восстановления слова длину фрагментов. Так, в [17] представлен результат о восстановлении слова с периодическим суффиксом и непериодическим префиксом. Настоящая же работа теоремой 3 о восстановлении слова с периодическим суффиксом и периодическим префиксом усиливает указанный результат, полученный в [17]. Теоремы 1 и 2, связанные с восстановимостью периодических слов, повторяют аналогичные теоремы из [17]. В настоящей работе рассматривается еще несколько случаев слов, не являющихся периодическими, но содержащих периодическое слово или подслова. А именно, сформулированы и доказаны теоремы о восстановимости для слова с непериодическим подсловом между периодическими префиксом и суффиксом (теорема 4) и для периодического слова с ограничением на повторяющееся подслово (теорема 5). Каждая из этих теорем, в свою очередь, включает результат теоремы 3 как частный случай.

1. ПОСТАНОВКА ЗАДАЧИ

Введем следующие обозначения и определения. Греческими буквами будем обозначать слова, малыми латинскими – символы алфавита. Пусть $E_{2}^{n}$ – множество слов длины $n$ из алфавита {0, 1}. Для слова $\alpha = \left( {{{a}_{1}}{{a}_{2}} \ldots {{a}_{n}}} \right) \in E_{2}^{n}$ символом $\left| \alpha \right|$ обозначается сумма его элементов: $\left| \alpha \right| = {{a}_{1}} + {{a}_{2}}$ + + ... + an. Пусть λ означает пустое слово, т.е. слово, длина которого равна нулю. Возведение слова α в степень s является краткой записью для слова, состоящего из $s$ повторов слова α, т.е. αs = = ${{\beta }_{1}}{{\beta }_{2}} \ldots {{\beta }_{s}}$, где ${{\beta }_{i}} = \alpha ,i \in \left\{ {1,~2,~ \ldots ,s} \right\}$.

Для заданного слова $\alpha = \left( {{{a}_{1}}{{a}_{2}} \ldots {{a}_{n}}} \right) \in E_{2}^{n}$ и заданного опорного вектора ${v} = \left( {{{{v}}_{1}}{{{v}}_{2}} \ldots {{{v}}_{n}}} \right)$, где ${{{v}}_{i}} \in \{ 0,~1\} $, $~i \in \{ 1,~2, \ldots ,~n\} $ операция фрагментирования $\langle \alpha \cdot {v}\rangle $ строит слово длины $\left| {v} \right|$ по следующему правилу:

$\langle \alpha \cdot {v}\rangle = \left\{ {\begin{array}{*{20}{c}} {{{a}_{i}},\quad {{{v}}_{i}} = 1} \\ {\lambda ,\quad {{{v}}_{i}} = 0} \end{array}} \right.$

Фрагментом, или подсловом, слова α = = $({{a}_{1}}{{a}_{2}} \ldots {{a}_{n}})\, \in \,E_{2}^{n}$ будем называть слово $\tilde {\alpha } \in E_{2}^{n}$ следующего вида:

$\tilde {\alpha } = \left( {{{a}_{{{{i}_{1}}}}}{{a}_{{{{i}_{2}}}}} \ldots {{a}_{{{{i}_{k}}}}}} \right),\quad 1 \leqslant {{i}_{1}} < \,\,~{{i}_{2}} < \ldots < {{i}_{k}} \leqslant n.$

Пусть $f{\text{*}}\left( \alpha \right)$ – это наименьшая длина фрагментов k, при которой гарантирована однозначность восстановления слова α длины n по мультимножеству его подслов длины k.

Задача. В общем виде задача о восстановлении слова по мультимножеству подслов формулируется следующим образом. Заданы:

набор опорных векторов $V = \{ {{{v}}^{1}},~{{{v}}^{2}},~ \ldots ,~{{{v}}^{N}}\} $, ${{{v}}^{i}} \in E_{2}^{n},{\text{|}}{{{v}}^{i}}{\text{|}} = k,i \in \{ 1,~2,~ \ldots ,~N\} $,

и множество слов $X = \{ {{\chi }^{1}},~{{\chi }^{2}},~ \ldots ,~{{\chi }^{N}}\} $, ${{\chi }^{i}} \in E_{2}^{k}$, $i \in \{ 1,~2, \ldots ,~N\} $.

Требуется проверить, является ли набор векторов X набором фрагментов фиксированной длины некоторого неизвестного слова $\alpha \in E_{2}^{n}$, построенных с помощью операции фрагментирования векторами из V, и найти все возможные решения.

При этом все оценки, получаемые для случая двоичного алфавита, остаются верными и для произвольного алфавита [3], так как в случае алфавита $\left\{ {0,1, \ldots ,~k} \right\}$ задача сводится к набору из k задач в двоичном алфавите с помощью отображений:

$\left\{ {\begin{array}{*{20}{c}} {{{\varphi }_{i}}:x \mapsto \left\{ {\begin{array}{*{20}{c}} {1,\quad x = i,} \\ {0,\quad x \ne i,} \end{array}} \right.} \\ {i \in \left\{ {0,~1,~ \ldots ,~k} \right\}.} \end{array}} \right.$

Поэтому далее будут рассмотрены только двоичные слова $\alpha = \left( {{{a}_{1}}{{a}_{2}} \ldots {{a}_{n}}} \right),~{{a}_{i}} \in \left\{ {0,~1} \right\}$. Более того, нас будут интересовать периодические слова.

Слово $\alpha = \left( {{{a}_{1}}{{a}_{2}} \ldots {{a}_{n}}} \right),~{{a}_{i}} \in \left\{ {0,~1} \right\}$ называется периодическим с периодом p, если

(1)
$\alpha = {{({{a}_{1}}{{a}_{2}} \ldots {{a}_{p}})}^{l}},\quad {{a}_{i}} \in \left\{ {0,~1} \right\}.$

При этом подслово $\tilde {\alpha } = {{a}_{1}}{{a}_{2}} \ldots {{a}_{p}}$ будем называть порождающим подсловом для слова α вида (1).

2. СОСТОЯНИЕ ЗАДАЧИ

Для задачи о восстановлении слова по подсловам известно ее сведение к проверке единственности решения диофантовых уравнений определенного вида [2]. Показано, что задача о существовании и единственности решения является NP-полной.

В случае полного мультимножества фрагментов ($V = E_{2}^{n}$) установлено [14], что для однозначного восстановления слова $\alpha $ длины $n$ необходима длина $k \geqslant {\text{exp}}\left( {\Omega \left( {\log n} \right)} \right)$.

Для того же случая полного мультимножества фрагментов известны следующие оценки на достаточную длину [3, 13, 12 ]: $k\,\, \geqslant \,\,\left\lfloor {\frac{n}{2}} \right\rfloor $, $k\,\, \geqslant \,\,(1\,\, + \,\,o(1))\sqrt {n{\text{log}}n} $, $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt n } \right\rfloor + 5$.

Было изучено несколько частных случаев. Так, показано [15], что для слов, состоящих из l серий, достаточно фрагментов длины l.

3. РЕЗУЛЬТАТЫ

Сформулируем первую теорему.

Теорема 1. Для однозначного восстановления периодического слова длины n с периодом p по мультимножеству всех его фрагментов длины k достаточно выполнения условия

$k \geqslant \left( {1 + o\left( 1 \right)} \right)\sqrt {p{\text{log}}p} .$
Перед доказательством введем следующее

Определение 1. Пусть ${{N}_{\beta }}\left( \alpha \right)$ – это число фрагментов, равных β, в слове α.

В [2] показано, что по ${{N}_{\beta }}\left( \alpha \right)$ для всех двоичных слов β длины k однозначно восстанавливаются числа фрагментов всех длин меньше k. Далее сформулируем и докажем лемму, которая непосредственно следует из системы уравнений в [2].

Лемма 1. Для любого слова α по набору его фрагментов вида ${{x}^{j}}1$ однозначно определяется набор его моментов вида $\mathop \sum \limits_{r = 1}^n {{a}_{r}}{{r}^{j}}$.

Доказательство. Получим формулы для ${{N}_{{{{x}^{j}}1}}}\left( \alpha \right)$ при разных j:

$\begin{array}{*{20}{c}} {{{N}_{1}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^n {{a}_{r}},} \\ \begin{gathered} {{N}_{{x1}}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^n \left( {r - 1} \right){{a}_{r}} = \\ = \mathop \sum \limits_{r = 1}^n {{a}_{r}}r - {{N}_{1}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^n {{a}_{r}}r - {{f}_{1}}\left( {{{N}_{1}}\left( \alpha \right)} \right), \\ \end{gathered} \\ \ldots \\ \begin{gathered} {{N}_{{{{x}^{{k - 1}}}1}}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^n \left( {\begin{array}{*{20}{c}} {r - 1} \\ {k - 1} \end{array}} \right){{a}_{r}} = \frac{1}{{\left( {k - 1} \right)!}}\mathop \sum \limits_{r = 1}^n {{a}_{r}}{{r}^{{k - 1}}} - \\ - \,{{f}_{{k - 1}}}\left( {{{N}_{1}}\left( \alpha \right),{{N}_{{x1}}}\left( \alpha \right),~ \ldots ,{{N}_{{{{x}^{{k - 2}}}1}}}\left( \alpha \right)} \right). \\ \end{gathered} \end{array}$

Функции ${{f}_{2}},~{{f}_{3}},~ \ldots ,~{{f}_{{k - 1}}}$ вычисляются на основе комбинаторных соотношений. Например, найдем выражение функции ${{f}_{p}}({{N}_{1}}(\alpha ),~ \ldots ,{{N}_{{{{x}^{{p - 1}}}1}}}(\alpha ))$, $~2 \leqslant p \leqslant k - 1$, через полученные на предыдущих шагах ${{f}_{1}},~ \ldots ,~{{f}_{{p - 1}}}$ (при этом можно положить ${{f}_{0}} \equiv 0$):

Так как, по предположению, все ${{f}_{1}},~ \ldots ,~{{f}_{{p - 1}}}$ известны, то известна и ${{f}_{p}}\left( {{{N}_{1}}\left( \alpha \right),~ \ldots ,{{N}_{{{{x}^{{p - 1}}}1}}}\left( \alpha \right)} \right)$.

Теперь мы можем перейти к доказательству теоремы 1.

Доказательство. Итак, доказательство базируется на результатах, полученных в [13] для достаточной для однозначной реконструкции слова длины фрагментов в случае произвольных слов. Оценка величины f*(α) в [13] получена на основе анализа следующей системы уравнений:

(2)
$\left\{ {\begin{array}{*{20}{c}} {\mathop \sum \limits_{r = 1}^n {{a}_{r}}{{r}^{j}} = {{s}_{j}}\left( \alpha \right),} \\ {0 \leqslant j \leqslant k - 1,} \end{array}} \right.$
для которой при $f{\text{*}}\left( \alpha \right) \leqslant \left( {1 + o\left( 1 \right)} \right)\sqrt {n~{\text{log}}~n} $ решение единственно.

Пусть слово α состоит из $l = \frac{n}{p}$ периодов: $\alpha = {{({{a}_{1}}{{a}_{2}} \ldots {{a}_{p}})}^{l}}$. Тогда нулевое уравнение $\mathop \sum \limits_{r = 1}^n {{a}_{r}}$ = = s0(α) можно переписать в виде $\mathop \sum \limits_{r = 1}^p {{a}_{r}} = \frac{{{{s}_{0}}\left( \alpha \right)}}{l}$. И для произвольного индекса $k'$ от 1 до k – 1 включительно:

$\begin{gathered} \sum\limits_{r = 1}^n {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}}} \, = \,\sum\limits_{r = 1}^p {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}}} \, + \,\sum\limits_{r = p + 1}^{2p} {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}}} \, + ... + \,\sum\limits_{r = (l - 1)p + 1}^{lp} {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}}} \, = \\ = \sum\limits_{r = 1}^p {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}}} \, + \,\sum\limits_{r = 1}^p {{{a}_{r}}{{{(p + 1)}}^{{k{\kern 1pt} '}}}} + ... + \sum\limits_{r = 1}^p {{{a}_{r}}{{{((l - 1)p + r)}}^{{k{\kern 1pt} '}}}} = \\ = \sum\limits_{r = 1}^p {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}} + \sum\limits_{r = 1}^p {\sum\limits_{j = 0}^{k{\kern 1pt} '} {\left( \begin{gathered} k{\kern 1pt} ' \\ j \\ \end{gathered} \right){{p}^{j}}{{r}^{{k{\kern 1pt} ' - j}}}{{a}_{r}} + ... + } } } \\ \end{gathered} $
$\begin{gathered} + \sum\limits_{r = 1}^p {\sum\limits_{j = 0}^{k'} {\left( \begin{gathered} k{\kern 1pt} ' \\ j \\ \end{gathered} \right)} } {{((l - 1)p)}^{j}}{{r}^{{k' - j}}}{{a}_{r}} = l \cdot \sum\limits_{r = 1}^p {{{a}_{r}}{{r}^{{k'}}} + } \\ + \sum\limits_{j = 1}^{k'} {\sum\limits_{r = 1}^p {\left( \begin{gathered} k{\kern 1pt} ' \\ j \\ \end{gathered} \right){{{((l - 1)p)}}^{j}}{{r}^{{k' - j}}}{{a}_{r}}} = } \\ = {{f}_{{k'}}}\left( {\sum\limits_{r = 1}^p {{{a}_{r}}{{r}^{{k'}}},...,\sum\limits_{r = 1}^p {{{a}_{r}}} } } \right), \\ \end{gathered} $
где ${{f}_{{k'}}}$ – линейная функция, и далее доказательство теоремы в точности повторяет доказательство из [13].

Сформулируем более сильное утверждение.

Теорема 2. Для однозначного восстановления периодического слова длины n с периодом p по мультимножеству всех его фрагментов длины k достаточно выполнения условия

$k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt p } \right\rfloor + 5.$

Доказательство. Доказательство основано на [12], где авторы доказывают возможность однозначной реконструкции слова по его подсловам не из анализа системы уравнений (2), как было проделано в [13], но из анализа похожей системы следующего вида:

(3)
$\left\{ {\begin{array}{*{20}{c}} {\mathop \sum \limits_{r = 1}^n {{a}_{r}}{{r}^{j}} = \mathop \sum \limits_{r = 1}^n {{b}_{r}}{{r}^{j}},} \\ {0 \leqslant j \leqslant k - 1,} \end{array}} \right.$
выписанной для двух слов $\alpha = {{a}_{1}} \ldots {{a}_{n}}$ и $\beta = {{b}_{1}} \ldots {{b}_{n}}$. Доказывается, что слова α и ${{\beta }}$ имеют одинаковые мультимножества подслов длины k тогда и только тогда, когда система (3) имеет нетривиальное решение $\left( {{{a}_{1}}, \ldots ,{{a}_{n}},{{b}_{1}}, \ldots ,{{b}_{n}}} \right)$. Таким образом, доказательство сводится к поиску условия, при котором система диофантовых уравнений (3) имеет только тривиальное решение. Авторы [12] затем ссылаются на [16], где получен следующий результат:

$k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt n } \right\rfloor + 5.$

Для случая же периодических слов ранее в данной работе при доказательстве теоремы 1 показано, как систему (3) можно переписать в переменных только ${{a}_{1}}, \ldots ,{{a}_{p}},{{b}_{1}}, \ldots ,{{b}_{p}}$, где p – период слова. Таким образом, оценка на достаточную для однозначного восстановления исходного слова длину подслов получается равной

$k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt p } \right\rfloor + 5.$

Реконструкция слова остается возможной и тогда, когда само слово непериодическое, но состоит из нескольких подслов, по крайней мере одно из которых периодическое. Далее мы рассмотрим несколько случаев таких слов. Каждый случай будет оформлен в виде отдельной теоремы, доказательство которой будет опираться на уже доказанное ранее для периодического слова (теорема 2).

Теорема 3. Пусть слово $\alpha $ состоит из двух подслов: префикса и суффикса. Причем оба подслова периодические:

(4)
$\alpha = {{({{a}_{1}}{{a}_{2}} \ldots {{a}_{q}})}^{m}}{{({{a}_{{q + 1}}}{{a}_{{q + 2}}} \ldots {{a}_{{q + p}}})}^{l}}.$

Тогда при $l \geqslant m{{q}^{{\left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5}}}$, где $P \equiv {\text{max}}\left( {p,q} \right)$, для однозначного восстановления слова (4) достаточно длины фрагментов $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$.

Доказательство. Найдем ${{s}_{0}}\left( \alpha \right)$:

$\mathop \sum \limits_{r = 1}^n {{a}_{r}} = m\mathop \sum \limits_{r = 1}^q {{a}_{r}} + l\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}} = {{s}_{0}}\left( \alpha \right).$

При $mq < l$ получаем $\frac{{m\left( {{{a}_{1}} + \ldots + {{a}_{q}}} \right)}}{l} < 1$, поэтому

$\left\{ {\begin{array}{*{20}{c}} {\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}} = \left\lfloor {\frac{{{{s}_{0}}\left( \alpha \right)}}{l}} \right\rfloor ,} \\ {\mathop \sum \limits_{r = 1}^q {{a}_{r}} = \left\{ {\frac{{{{s}_{0}}\left( \alpha \right)}}{l}} \right\} \cdot \frac{l}{m}.} \end{array}} \right.$

Рассмотрим случай ${{s}_{1}}\left( \alpha \right)$:

(5)
${{s}_{1}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^{qm} {{a}_{r}}r + \mathop \sum \limits_{r = qm + 1}^{qm + pl} {{a}_{r}}r.$

Распишем первую сумму в выражении для ${{s}_{1}}\left( \alpha \right)$ (5):

$\begin{gathered} \mathop \sum \limits_{r = 1}^{qm} {{a}_{r}}r = {{a}_{1}} \cdot \mathop \sum \limits_{j = 0}^{m - 1} \left( {qj + 1} \right) + \ldots + {{a}_{q}} \cdot \mathop \sum \limits_{j = 0}^{m - 1} \left( {qj + q} \right) = \\ = \mathop \sum \limits_{r = 1}^q {{a}_{r}}\left( {mr + \frac{{qm(m - 1)}}{2}} \right) = m\mathop \sum \limits_{r = 1}^q {{a}_{r}}r + \frac{{qm(m - 1)}}{2}\mathop \sum \limits_{r = 1}^q {{a}_{r}}. \\ \end{gathered} $

Аналогично для второй суммы из выражения (5) получаем:

$\begin{gathered} \mathop \sum \limits_{r = qm + 1}^{qm + pl} {{a}_{r}}r = {{a}_{{q + 1}}}\mathop \sum \limits_{j = 0}^{l - 1} (qm + pj + 1) + \\ + \ldots + {{a}_{{q + p}}}\mathop \sum \limits_{j = 0}^{l - 1} (qm + pj + p) = \\ = \mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}\left( {lr + \frac{{2qml + pl(l - 1)}}{2}} \right) = \\ = l\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}r + \left( {qml + \frac{{pl(l - 1)}}{2}} \right)\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}. \\ \end{gathered} $

И в итоге имеем:

${{s}_{1}}\left( \alpha \right) = m\mathop \sum \limits_{r = 1}^q {{a}_{r}}r + l\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}r + {{f}_{1}}\left( {{{s}_{0}}} \right).$

При условии $mq(q + 1){\text{/}}2 < l$ уравнения для префикса и суффикса разделяются, как и в случае с ${{s}_{0}}\left( \alpha \right)$. Перейдем теперь к случаю произвольного $k'$, такого что $2 \leqslant k' \leqslant k - 1$:

${{s}_{{k'}}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^{qm} {{a}_{r}}{{r}^{{k'}}} + \mathop \sum \limits_{r = qm + 1}^{qm + pl} {{a}_{r}}{{r}^{{k'}}}$.

Распишем первую сумму:

$\begin{gathered} \mathop \sum \limits_{r = 1}^{qm} {{a}_{r}}{{r}^{{k'}}} = \mathop \sum \limits_{r = 1}^q {{a}_{r}}({{r}^{{k'}}} + \ldots + {{(q\left( {m - 1} \right) + r)}^{{k'}}}) = \\ = \mathop \sum \limits_{r = 1}^q {{a}_{r}}\mathop \sum \limits_{h = 1}^m {{(r + q\left( {m - h} \right))}^{{k'}}} = \\ = \mathop \sum \limits_{r = 1}^q {{a}_{r}}\mathop \sum \limits_{h = 1}^m \mathop \sum \limits_{j = 0}^{k'} \left( {\begin{array}{*{20}{c}} {k'} \\ j \end{array}} \right){{r}^{j}}{{(q\left( {m - h} \right))}^{{k' - j}}} = \\ = m\mathop \sum \limits_{r = 1}^q {{a}_{r}}{{r}^{{k'}}} + {{g}_{{k'}}}\left( {{{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}} \right). \\ \end{gathered} $.

В последнем переходе мы оставили отдельно член с показателем степени при r, равном $k'$ (при $j = k'$). Члены, куда r входит в меньшей степени, мы представили с помощью линейной функции ${{g}_{{k'}}}$.

Аналогично для второй суммы имеем:

$\begin{gathered} \sum\limits_{r = qm + 1}^{qm + pl} {{{a}_{r}}{{r}^{{k{\kern 1pt} '}}}} = \sum\limits_{r = q + 1}^{q + p} {{{a}_{r}}({{{(q(m - 1) + r)}}^{{k'}}} + ... + } \\ \, + {{(q(m - 1) + p(l - 1) + r)}^{{k'}}}) = \\ = \sum\limits_{r = q + 1}^{q + p} {{{a}_{r}}\sum\limits_{h = 1}^l {\sum\limits_{j = 0}^{k'} {\left( \begin{gathered} k{\kern 1pt} ' \\ j \\ \end{gathered} \right)} {{{(q(m - 1) + r)}}^{j}}{{{(p(l - h))}}^{{k' - j}}} = } } \\ = \,\sum\limits_{r = q + 1}^{q + p} {{{a}_{r}}\sum\limits_{h = 1}^l {\sum\limits_{j = 0}^{k'} {\sum\limits_{s = 0}^j {\left( \begin{gathered} k{\kern 1pt} ' \\ j \\ \end{gathered} \right)\left( \begin{gathered} j \\ s \\ \end{gathered} \right)} {{{(q(m\, - \,1))}}^{s}}{{r}^{{j - s}}}{{{(p(l\, - \,h))}}^{{k' - j}}}} } \, = } \\ = l\sum\limits_{r = q + 1}^{q + p} {{{a}_{r}}{{r}^{{k'}}} + {{h}_{{k'}}}({{s}_{{k' - 1}}},...,{{s}_{0}}).} \\ \end{gathered} $

Где снова в последнем переходе мы оставили отдельно член с показателем степени при r, равном $k'$ (при $j = k'$ и s = 0). Члены, куда r входит в меньшей степени, мы представили с помощью линейной функции ${{h}_{{k'}}}$.

Таким образом, объединяя результаты, полученные для обеих сумм, мы можем вернуться к вычислению ${{s}_{{k'}}}\left( \alpha \right)$:

$\begin{gathered} {{s}_{{k'}}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^{qm} {{a}_{r}}{{r}^{{k'}}} + \mathop \sum \limits_{r = qm + 1}^{qm + pl} {{a}_{r}}{{r}^{{k'}}} = \\ = \left( {m\mathop \sum \limits_{r = 1}^q {{a}_{r}}{{r}^{{k'}}} + {{g}_{{k'}}}\left( {{{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}} \right)} \right) + \\ + \left( {l\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}{{r}^{{k'}}} + {{h}_{{k'}}}\left( {{{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}} \right)} \right) = \\ = m\mathop \sum \limits_{r = 1}^q {{a}_{r}}{{r}^{{k'}}} + l\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}{{r}^{{k'}}} + {{f}_{{k'}}}\left( {{{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}} \right), \\ \end{gathered} $
где за ${{f}_{{k'}}}$ мы обозначили линейную функцию от ${{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}$, являющуюся суммой функций ${{g}_{{k'}}}$ и ${{h}_{{k'}}}$.

Так как $\mathop \sum \limits_{k = 1}^n {{k}^{p}} \to \frac{{{{n}^{{p + 1}}}}}{{p + 1}}$, то при $m \cdot \frac{{{{q}^{k}}}}{k} < l$ разделяются все уравнения и получается две системы. Поэтому, по доказанному ранее для случая периодического слова (теорема 2), при $l \geqslant m{{q}^{{\left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5}}}$, где $P \equiv {\text{max}}\left( {p,q} \right)$, размер подслов ограничивается следующим образом: $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$.

Следствие 1. При m = 1 слово $\alpha $ имеет вид слова с непериодическим префиксом и периодическим суффиксом:

$\alpha = {{a}_{1}}{{a}_{2}} \ldots {{a}_{q}}{{({{a}_{{q + 1}}}{{a}_{{q + 2}}} \ldots {{a}_{{q + p}}})}^{l}}.$

При длине суффикса, большей длины префикса: $l \geqslant {{q}^{{\left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5}}}$ – для однозначного восстановления слова $\alpha $ достаточно подслов длины $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$ при $P \equiv {\text{max}}\left( {p,q} \right)$.

Теорема 4. Пусть слово α состоит из трех подслов: периодического префикса $\bar {\alpha }$, периодического суффикса $\hat {\alpha }$ и непериодического корня $\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{\alpha } $:

(6)
$\begin{gathered} \alpha = \bar {\alpha }~\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{\alpha } \hat {\alpha } = {{({{a}_{1}}{{a}_{2}} \ldots {{a}_{q}})}^{m}}{{a}_{{q + 1}}}{{a}_{{q + 2}}} \ldots \times \\ \times \,{{a}_{{q + s}}}{{({{a}_{{q + s + 1}}}{{a}_{{q + s + 2}}} \ldots {{a}_{{q + s + p}}})}^{l}}. \\ \end{gathered} $

Тогда при $m \geqslant {{s}^{{{{k}^{ \star }}}}}$ и $l \geqslant \left( {m - 1} \right){{q}^{{{{k}^{ \star }}}}} + {{(q + s)}^{{{{k}^{ \star }}}}}$, где ${{k}^{ \star }} = \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$ и $P \equiv {\text{max}}\left( {p,q,s} \right)$, для однозначного восстановления слова (6) достаточно $k \geqslant {{k}^{ \star }}$.

Доказательство. Доказательство опирается на теоремы 2 и 3.

Рассмотрим ${{s}_{0}}\left( \alpha \right)$:

${{s}_{0}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^{qm + s + pl} {{a}_{r}} = m\mathop \sum \limits_{r = 1}^q {{a}_{r}} + \mathop \sum \limits_{r = q + 1}^{q + s} {{a}_{r}} + l\mathop \sum \limits_{r = q + s + 1}^{q + s + p} {{a}_{r}}.$

Тогда при $mq + s < l$ разделяются уравнения для двух подслов: $\bar {\alpha }~\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{\alpha } $ и $\hat {\alpha }$.

Рассмотрим $k'$, такой что $1 \leqslant k' \leqslant k - 1$. Опуская подробные выкладки, аналогичные уже приведенным в доказательстве теоремы 3, получаем:

(7)
$\begin{gathered} {{s}_{{k'}}}\left( \alpha \right) = m\mathop \sum \limits_{r = 1}^q {{a}_{r}}{{r}^{{k'}}} + \mathop \sum \limits_{r = q + 1}^{q + s} {{a}_{r}}{{r}^{{k'}}} + \\ + \,l\mathop \sum \limits_{r = q + s + 1}^{q + s + p} {{a}_{r}}{{r}^{{k'}}} + {{f}_{{k'}}}\left( {{{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}} \right), \\ \end{gathered} $
где ${{f}_{{k'}}}$ – линейная функция. Таким образом, при выполнении условия $l \geqslant m{{q}^{{k_{1}^{ \star }}}} + {{(q + s)}^{{k_{1}^{ \star }}}} - {{q}^{{k_{1}^{ \star }}}}$, где $k_{1}^{ \star } = \left\lfloor {\frac{{16}}{7}\sqrt {{{P}_{1}}} } \right\rfloor + 5$ и ${{P}_{1}} = {\text{max}}\left( {p,qm + s} \right)$, мы получаем разделимость уравнений для слов $\bar {\alpha }~\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{\alpha } $ и $\hat {\alpha }$, а потому и восстановимость целого слова при ограничении на длины подслов $k \geqslant k_{1}^{ \star }$.

Однако мы также можем отдельно рассмотреть вопрос о восстановимости слова $\bar {\alpha }~\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{\alpha } $. Действительно, по следствию 1, получаем, что для реконструкции слова $\bar {\alpha }~\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\smile}$}}{\alpha } $ по множеству его подслов достаточно, чтобы $m \geqslant {{s}^{{k_{2}^{ \star }}}}$, где $k_{2}^{ \star } = \left\lfloor {\frac{{16}}{7}\sqrt {{{P}_{2}}} } \right\rfloor + 5$, P2 = = ${\text{max}}(q,s)$. Тогда длина подслов ограничивается как $k \geqslant k_{2}^{ \star }$.

Объединяя условия с $k_{1}^{ \star }$ и $k_{2}^{ \star }$, получаем, что слово α восстановимо по подсловам при $m \geqslant {{s}^{{{{k}^{ \star }}}}}$, $l \geqslant \left( {m - 1} \right){{q}^{{{{k}^{ \star }}}}} + {{(q + s)}^{{{{k}^{ \star }}}}}$, где ${{k}^{ \star }} = \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$ и $P \equiv {\text{max}}\left( {p,q,s} \right)$. Длина подслов при этом $k \geqslant {{k}^{ \star }}$.

Замечание. Длина корня s = 0 дает случай, уже рассмотренный в теореме 3.

Следствие 2. Длина корня s = 1 равносильна наличию одного символа между двумя периодическими подсловами в слове α. В таком случае $\alpha $ восстановимо по подсловам при $l \geqslant (m - 1){{q}^{{{{k}^{ \star }}}}} + {{(q + 1)}^{{{{k}^{ \star }}}}}$, где ${{k}^{ \star }} = \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$ и $P \equiv {\text{max}}\left( {p,q} \right)$. Длина подслов k ограничивается соотношением: $k \geqslant {{k}^{ \star }}$.

Следствие 3. Пусть в слове α вида (6) порождающие подслова у префикса и суффикса одинаковы:

$\begin{array}{*{20}{c}} {\alpha = {{{({{a}_{1}}{{a}_{2}} \ldots {{a}_{q}})}}^{m}}{{a}_{{q + 1}}}{{a}_{{q + 1}}} \ldots {{a}_{{q + s}}}{{{({{a}_{{q + s + 1}}}{{a}_{{q + s + 2}}} \ldots {{a}_{{q + s + p}}})}}^{l}},} \\ \begin{gathered} q = p,\quad {{a}_{i}} = {{a}_{j}},~ \\ \left( {i,j} \right) \in \left\{ {\left( {1,q + s + 1} \right), \ldots ,\left( {q,q + s + p} \right)} \right\}. \\ \end{gathered} \end{array}$

Пусть ${{k}^{ \star }} = \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$ и $P \equiv {\text{max}}\left( {q,s} \right)$. Тогда при $l + m \geqslant {{s}^{{{{k}^{ \star }}}}}$ слово $\alpha $ однозначно восстановимо при $k \geqslant {{k}^{ \star }}$.

Доказательство. Уравнение (7) в случае слова α указанной структуры примет вид:

${{s}_{{k'}}}\left( \alpha \right) = \left( {m + l} \right)\mathop \sum \limits_{r = 1}^q {{a}_{r}}{{r}^{{k'}}} + \mathop \sum \limits_{r = q + 1}^{q + s} {{a}_{r}}{{r}^{{k'}}} + {{f}_{{k'}}}\left( {{{s}_{{k' - 1}}}, \ldots ,{{s}_{0}}} \right).$

А потому при $m + l \geqslant {{(q + s)}^{{{{k}^{ \star }}}}} - {{q}^{{{{k}^{ \star }}}}}$ получаем разделимость уравнений для порождающего подслова префикса (суффикса) и для корня.

Теорема 5. Пусть слово α имеет вид

(8)
$\alpha = {{({{({{a}_{1}}{{a}_{2}} \ldots {{a}_{q}})}^{m}}{{({{a}_{{q + 1}}}{{a}_{{q + 2}}} \ldots {{a}_{{q + p}}})}^{l}})}^{N}},$
т.е. образовано повторением подслова, которое, в свою очередь, состоит из периодического префикса и суффикса. Тогда при $l \geqslant m{{q}^{{{{k}^{ \star }}}}}$, где ${{k}^{ \star }}\, = \,\left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor $ + 5 и $P \equiv {\text{max}}\left( {p,q} \right)$, для однозначного восстановления слова (8) достаточно $k \geqslant {{k}^{ \star }}$.

Доказательство. Начнем с вычисления ${{s}_{0}}(\alpha )$:

${{s}_{0}}\left( \alpha \right) = \mathop \sum \limits_{r = 1}^{N\left( {qm + pl} \right)} {{a}_{r}} = Nm\mathop \sum \limits_{r = 1}^q {{a}_{r}} + Nl\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}}.$

При $m < l$ получаем разделимость уравнений:

$\left\{ {\begin{array}{*{20}{c}} {\mathop \sum \limits_{r = q + 1}^{q + p} {{a}_{r}} = \left\lfloor {\frac{{{{s}_{0}}\left( \alpha \right)}}{{Nl}}} \right\rfloor ,} \\ {\mathop \sum \limits_{r = 1}^q {{a}_{r}} = \left\{ {\frac{{{{s}_{0}}\left( \alpha \right)}}{{Nl}}} \right\} \cdot \frac{l}{m}.} \end{array}} \right.$

Введя обозначение $\tilde {n} \equiv qm + pl$, выразим теперь ${{s}_{{k'}}}\left( \alpha \right)$ при $k'$, таком что $1 \leqslant k' \leqslant k - 1$:

$\begin{gathered} {{s}_{{k'}}}(\alpha )\, = \,\sum\limits_{r = 1}^{N\tilde {n}} {{{a}_{r}}{{r}^{{k'}}}} \, = \,\sum\limits_{j = 0}^{N - 1} {\left[ {\left( {\sum\limits_{i = 0}^{m - 1} {\sum\limits_{r = \tilde {n}j + qi + 1}^{\tilde {n}j + qi + q} {{{a}_{{r - \tilde {n}j - qi}}}{{e}^{{k'}}}} } } \right)} \right.} + \\ \left. { + \left( {\sum\limits_{i = 0}^{l - 1} {\sum\limits_{r = \tilde {n}j + qm + pi + 1}^{\tilde {n}j + qm + pi + p} {{{a}_{{r - \tilde {n}j - qm - pi + q}}}{{r}^{{k'}}}} } } \right)} \right] = \\ \end{gathered} $
$\begin{gathered} = \sum\limits_{j = 0}^{N - 1} {\left[ {\left( {\sum\limits_{i = 0}^{m - 1} {\sum\limits_{r = 1}^q {{{a}_{r}}{{{(r + \tilde {n}j + qi)}}^{{k'}}}} } } \right)} \right. + } \\ \left. { + \left( {\sum\limits_{i = 0}^{l - 1} {\sum\limits_{r = q + 1}^{q + p} {{{a}_{r}}{{{(r + \tilde {n}j + qm + pi - q)}}^{{k'}}}} } } \right)} \right] = \\ = Nm\sum\limits_{r = 1}^q {{{a}_{r}}{{r}^{{k'}}}} + Nl\sum\limits_{r = q + 1}^{q + p} {{{a}_{r}}{{r}^{{k'}}} + {{f}_{{k'}}}({{s}_{{k' - 1}}},...,{{s}_{0}}).} \\ \end{gathered} $

Таким образом, при $\frac{m}{l} \cdot \frac{{{{q}^{k}}}}{k} < 1$ все уравнения разделяются и получается две системы. По доказанной ранее для периодического слова теореме 2, при $l \geqslant m{{q}^{{{{k}^{ \star }}}}}$, где ${{k}^{ \star }} = \left\lfloor {\frac{{16}}{7}\sqrt P } \right\rfloor + 5$ и $P \equiv {\text{max}}\left( {p,q} \right)$, слово α восстановимо при $k \geqslant {{k}^{ \star }}$.

Замечание. Если N = 1, то получаем результат, доказанный ранее в теореме 3 для слова, состоящего фактически из одного повтора подслова с периодическими суффиксом и префиксом.

4. ЗАКЛЮЧЕНИЕ

В работе получена оценка на длину подслова k, достаточную для однозначного восстановления периодического слова длины n с периодом p по мультимножеству его подслов фиксированной длины: $k \geqslant \left\lfloor {\frac{{16}}{7}\sqrt p } \right\rfloor + 5$. Также получены оценки на k для следующих слов, не являющихся периодическими, но содержащими периодические подслова. Так, для слов, состоящих из периодического префикса и периодического суффикса, доказана возможность однозначного восстановления при достаточной длине суффикса. Показано, что слова, состоящие из периодического префикса, периодического суффикса и непериодического корня, могут быть однозначно восстановлены по мультимножеству фрагментов длины k при выполнении двух условий: малом по сравнению с префиксом корне, с одной стороны, и малом по сравнению с суффиксом префиксе, с другой. Доказана оценка для k в случае периодического слова, порожденного подсловом, в свою очередь, состоящим из двух частей: периодического суффикса и префикса.

Список литературы

  1. Журавлёв Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. 1978. Т. 33. С. 5–68.

  2. Леонтьев В.К., Сметанин Ю.Г. О восстановлении векторов по набору их фрагментов // ДАН. 1988. Т. 302. № 6. С. 1319–1322.

  3. Manvel B. et al. Reconstruction of sequences // Discrete Mathematics. 1991. V. 94. № 3. P. 209–219.

  4. Леонтьев B.K. Распознавание двоичных слов по их фрагментам // ДАН. 1993. Т. 330. № 4. С. 434–436.

  5. Lothaire M. Combinatorics on words. T. 17. Cambridge: Cambridge University Press, 1997.

  6. Levenshtein V.I. Efficient reconstruction of sequences from their subsequences or supersequences // Journal of Combinatorial Theory. Series A. 2001. V. 93. № 2. P. 310–332.

  7. Lin J. et al. Experiencing SAX: a novel symbolic representation of time series // Data Mining and knowledge discovery. 2007. V. 15. № 2. P. 107–144.

  8. Batu T. et al. Reconstructing strings from random traces // Departmental Papers (CIS). 2004. P. 173.

  9. Kannan S., McGregor A. More on reconstructing strings from random traces: insertions and deletions // Proc. International Symposium on Information Theory, 2005. ISIT 2005. IEEE. 2005. P. 297–301.

  10. Smetanin Y., Ul’yanov M. Determining the characteristics of Kolmogorov complexity of time series: an approach based on symbolic descriptions. 2013.

  11. Gusfield D. Algorithms on stings, trees, and sequences: Computer science and computational biology // Acm Sigact News. 1997. V. 28. № 4. P. 41–60.

  12. Krasikov I., Roditty Ye. On a reconstruction problem for sequences // J. Combinatorial theory. Series A. 1997. V. 77. № 2. P. 344–348.

  13. Scott A.D. Reconstructing sequences // Discrete Mathematics. 1997. V. 175. № 1–3. P. 231–238.

  14. Dudık M., Schulman L.J. Reconstruction from subsequences // J. Combinatorial Theory. Series A. 2003. V. 103. № 2. P. 337–348.

  15. Леонтьев В.К. Задачи восстановления слов по фрагментам и их приложения // Дискретный анализ и исследование операций 2.2. 1995. С. 26–48.

  16. Borwein P., Erde’lyi T., Ko’s G. Littlewood-type problems on [0, 1] // Proc. London Math. Society. 1999. V. 79. № 1. P. 22–46.

  17. Алексеев В.А., Сметанин Ю.Г. О возможности восстановления периодического слова по подсловам фиксированной длины // Чебышевский сборник. 2021. Т. 22. № 1 (77). С. 57–66.

Дополнительные материалы отсутствуют.

Инструменты

Доклады Российской академии наук. Математика, информатика, процессы управления