Закономерности в словах стохастических КС-языков с двумя классами нетерминальных символов. Вопросы экономного кодирования тема диссертации и автореферата по ВАК РФ 01.01.09, кандидат физико-математических наук Борисов, Александр Евгеньевич

  • Борисов, Александр Евгеньевич
  • кандидат физико-математических науккандидат физико-математических наук
  • 2006, Нижний Новгород
  • Специальность ВАК РФ01.01.09
  • Количество страниц 103
Борисов, Александр Евгеньевич. Закономерности в словах стохастических КС-языков с двумя классами нетерминальных символов. Вопросы экономного кодирования: дис. кандидат физико-математических наук: 01.01.09 - Дискретная математика и математическая кибернетика. Нижний Новгород. 2006. 103 с.

Оглавление диссертации кандидат физико-математических наук Борисов, Александр Евгеньевич

1 Введение

1.1 Постановка задачи и общая характеристика работы

1.2 Основные определения и обозначения.

1.3 Формулировка основных результатов

2 Оценка средней длины кода для стохастического языка

3 Закономерности в деревьях вывода слов и оптимальное кодирование. Докритический случай

3.1 Основные определения и обозначения.

3.2 Вероятности продолжения.

3.3 Закономерности в деревьях вывода слов. Случай простого перронова корня.

3.4 Закономерности в деревьях вывода слов. Случай кратного перронова корпя.

3.5 Оценки моментов второго и более высоких порядков для кратного перронова корня.

3.6 Дисперсия числа применений правил в деревьях вывода

3.7 Пример грамматики с двумя классами нетерминалов

3.8 Оценка стоимости оптимального кодирования.

3.9 Алгоритм асимптотически оптимального кодирования

4 Закономерности в деревьях вывода слов и оптимальное кодирование. Критический случай

4.1 Случай кратного перронова корня.

4.1.1 Вероятности продолжения.

4.1.2 Математические ожидания числа примсиеиий правил в деревьях вывода.

4.1.3 Энтропия и стоимость оптимального кодирования

4.1.4 Алгоритм оптимального кодирования.

4.2 Случай простого перронова корня.

4.2.1 Вероятности продолжения и вероятности деревьев вывода фиксированной высоты.

4.2.2 Распределение нетерминалов на фиксированном ярусе дерева вывода.

4.2.3 Математические ожидания числа применений правил в деревьях вывода.

4.2.4 Алгоритм оптимального кодирования.

Рекомендованный список диссертаций по специальности «Дискретная математика и математическая кибернетика», 01.01.09 шифр ВАК

Введение диссертации (часть автореферата) на тему «Закономерности в словах стохастических КС-языков с двумя классами нетерминальных символов. Вопросы экономного кодирования»

1.1 Постановка задачи и общая характеристика работы

Вопросы оптимального кодирования сообщений (слов), порождаемых некоторым вероятностным источником, возникают в задачах, связанных с передачей и хранением информации. Под оптимальным кодированием, как правило, понимают кодирование, которое дает максимальную степень сжатия информации (отношение длины исходного слова к длине его кода). Возможная степень сжатия информации определяется вероятностными и структурными свойствами источника информации. Вероятностные свойства учитывают частоты символов или фрагментов в исходном слове, а структурные (синтаксические) - правила построения слов (например, в словах русского языка не встречается сочетаний типа БББ, ЩЩ, слова ие начинаются с мягкого знака).

Хорошо известны и широко используются на практике алгоритмы побуквенного кодирования, которые учитывают только частоты букв. Наиболее известными являются алгоритмы Хаффмана [32], Фапо [23], Шеннона [22], алгоритм арифметического кодирования [30], [31], которые применяются при отсутствии априорных знаний о структуре кодируемых слов (сообщений). Существуют также динамические версии этих алгоритмов, которые в процессе работы обновляют таблицу частот символов. Такие алгоритмы строят вероятностную модель языка в процессе получения па вход новых символов.

Хорошо известны также словарные методы сжатия, основанные на учете часто повторяемых фрагментов в кодируемом тексте. Здесь следует выделить алгоритмы Лемпеля-Зива LZ77 и LZ78 [28],[29], и их многочисленные модификации.

Задача кодирования, учитывающего синтаксические свойства сообщений, была впервые рассмотрена К.Шенноном в [22]. Им был рассмотрен вероятностный источник сообщений с конечным числом состояний. Шеннон доказал, что в случае эргодичности источника все сообщения большой длины N разбиваются на два класса: множество сообщений, вероятность которых стремится к 0 при N —> оо, и множество оставшихся сообщений с приблизительно одинаковыми вероятностями и буквенным составом. Такой источник фактически соответствует неразложимому марковскому процессу с конечным числом состояний. При построении алгоритмов кодирования Шенноном рассматривались в основном вероятностные свойства слов, хотя введенное им блочное кодирование косвенно учитывает и структурные свойства.

Вопросы кодирования слов с учетом структурных свойств (синтаксиса) рассматривались А.А.Марковым в [14], [15], [16]. Он поставил задачу кодирования не па всем множестве слов алфавита, а па некотором подмножестве слов, описываемом синтаксическими правилами. Для описания синтаксиса рассматривались в основном регулярные источники. Марков показал, что учет синтаксиса регулярных языков позволяет увеличить степень сжатия и уменьшить вычислительную сложность алгоритмов кодирования [16].

Ближайшим обобщением класса языков, порожденных регулярными источниками, являются языки, порожденные стохастическими кон-текстпо-свободиыми (КС-) грамматиками. Неразложимые стохастические КС-грамматики рассматривались Л.П.Жильцовой в работах [10], [И], [12]. В этих работах были получены следующие результаты. В докритичсском случае (перронов корень матрицы первых моментов меньше единицы) для слов большой длины стохастического КС-языка, порождаемого такой грамматикой, установлены свойства, аналогичные свойствам слов, генерируемых эргодическим конечным источником [22].

Кроме того, для множества деревьев вывода высоты £ для слов языка при £ —> оо были найдены математические ожидания числа применений каждого правила грамматики на фиксированном ярусе дерева вывода и во всем дереве вывода для критического (перронов корень матрицы первых моментов равен единице) и докритического случаев. В обоих случаях была найдена асимптотическая формула для энтропии множества слов, имеющих деревья вывода фиксированной высоты. Также была вычислена стоимость оптимального кодирования и построен алгоритм асимптотически оптимального кодирования для обоих случаев, имеющий полиномиальную временную сложность.

В данной работе аналогичные исследования проводятся для грамматики с разложимой матрицей первых моментов и двумя классами нетерминальных символов. Рассматривается докритичсский и критический случаи. Для такой грамматики установлены закономерности в деревьях вывода фиксированной высоты £ для слов языка при Ь —»■ оо, то есть найдены математические ожидания числа применений правил грамматики на каждом ярусе дерева вывода и во всем дереве, а также найдена суммарная вероятность таких слов. Особое внимание уделяется случаю кратного перропова корня, поскольку именно тогда появляются существенные отличия от неразложимого случая. С использованием этих закономерностей найдена асимптотическая формула для энтропии множества слов, имеющих деревья вывода фиксированной высоты.

Полученные результаты использованы для получения нижней оценки стоимости двоичного кодирования слов языка, порожденного рассматриваемой грамматикой. Задача оптимального кодирования рассматривалась в том же виде, что и в [12]. Под оптимальным кодированием понималось взаимпо-одпозпачнос кодирование множества всех слов языка, которое позволяет хорошо сжимать длинные слова (имеющие деревья вывода большой высоты). Была найдена стоимость оптимального кодирования для рассматриваемого языка. Доказано, что алгоритм блочного кодирования, использованный Жильцовой в [12] для неразложимого случая, является асимптотически оптимальным и для рассматриваемой в данной работе грамматики. Применяемый алгоритм кодирования использует состав правил в выводе слова, таким образом учитывая синтаксические свойства.

Также были изучены общие вопросы кодирования стохастических языков, получена нижняя оценка для средней длины кода в зависимости от энтропии, которая является более точной, чем полученная в [12], при больших значениях энтропии. Эта оценка была использована для получения нижней оценки стоимости кодирования стохастического КС-языка.

Похожие диссертационные работы по специальности «Дискретная математика и математическая кибернетика», 01.01.09 шифр ВАК

Заключение диссертации по теме «Дискретная математика и математическая кибернетика», Борисов, Александр Евгеньевич

5. Заключение

Диссертационная работа посвящена исследованию вопросов экономного кодирования сообщений, структурные и вероятностные свойства которых описываются с помощью разложимых стохастических КС-грамматик с двумя классами нетерминальных символов. Работа является продолжением исследований,проведенных Л.П.Жильцовой для неразложимых грамматик.

В работе рассматривается традиционная постановка задачи экономного кодирования на множестве "длинных"сообщепий, которую рассматривал К.Шеннон [22]. Мерой эффективности кодирования является его стоимость, определяемая как число двоичных разрядов, требуемых для кодирования одной буквы сообщения. В качестве множества длинных слов рассматривалось множество слов КС-языка, деревья вывода которых имеют высоту Ь при £ —> оо.

В диссертационной работе получены следующие основные результаты.

1) Найдены нижние оценки средней длины кода для произвольного стохастического языка в зависимости от энтропии, которые являются более точными при больших значениях энтропии, чем полученные в [33].

2) Для стохастического КС-языка, порожденного разложимой грамматикой с двумя классами нетерминальных символов, выделены два случая, определяемых значением перронова корня г матрицы первых моментов, а именно: а) Докритический случай, при г < 1, б) Критический случай, при г = 1.

В обоих случаях найдены асимптотические формулы для математических ожиданий числа применений произвольного правила грамматики в деревьях вывода высоты £ при £ —> оо, а также исследовано поведение математических ожидаиий числа применений правил на отдельных ярусах дерева вывода. На основе этих результатов найдена энтропия вероятностного распределения на множестве деревьев вывода высоты а также точная нижняя оценка стоимости двоичного кодирования.

3) Описан алгоритм блочного кодирования деревьев вывода, который был ранее применен в [12] для неразложимого случая, и доказана его оптимальность па множестве слов стохастического КС-языка, порожденного рассматриваемой разложимой грамматикой.

Установлено, что на характер полученных результатов существенно влияет кратность перроиова корня матрицы первых моментов. Показано, что в случае простого перроиова корня поведение всех изученных в работе характеристик совпадает с их поведением для неразложимой грамматики. Существенные отличия от неразложимой грамматики появляются для случая кратного перроиова корня.

Оказывается, что при г < 1 математические ожидания числа применений правил на фиксированном ярусе не стремятся к константе для разных ярусов, и дисперсия среднего числа применений каждого правила на один ярус дерева вывода высоты I не стремится к нулю при Ь —► оо в отличие от неразложимого случая. Для случая кратного перроиова корня г = 1 свойства грамматики определяются свойствами правил, применяемых к нетерминалам второго класса.

Открытым остался вопрос о свойствах деревьев вывода на отдельных ярусах для случая кратного перроиова корня г = 1.

Список литературы диссертационного исследования кандидат физико-математических наук Борисов, Александр Евгеньевич, 2006 год

1. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Том 1. М.: Мир, 1978.

2. Борисов А.Е. О свойствах стохастического КС-языка, порожденного грамматикой с двумя классами нетерминальных символов// Дискретный анализ и исследование операций. Серия 1, т.12, N3. Новосибирск: Издательство Института математики СО РАН, 2005. С.3-31.

3. Борисов А.Е. Кодирование слов стохастического КС-языка, порожденного разложимой грамматикой с двумя нетерминалами// Вестник Нижегородского университета им. Н.И. Лобачевского. Серия Математика вып. 1(2), 2004. С. 18-28.

4. Борисов А.Е. Закономерности в деревьях вывода для стохастической разложимой КС грамматики// Труды V Международной конференции "Дискретные модели в теории управляющих систем". М.: Изд. отдел ВМиК МГУ, 2003. С. 15-17.

5. Борисов А.Е. О свойствах стохастического КС-языка, порожденного разложимой грамматикой// Материалы Международной школы-семинара "Синтез и сложность управляющих систем". Н. Новгород, 2003. С. 15-18.

6. Борисов А.Е. О числе применений правил стохастической КС-грамматики// Проблемы теоретической кибернетики. Тезисы докладов XIV Международной конференции. Изд. мех-мат.' ф-та МГУ, 2005. С. 22.

7. Борисов А.Е, Жильцова Л.П. О закономерностях в словах стохастического КС языка, порождаемого разложимой грамматикой// Труды VII Международной конференции "Дискретные модели в теории управляющих систем". М.: Изд. отдел ВМиК МГУ, 2006. С. 36-39.

8. Гантмахср Ф.Р. Теория матриц. М.: Наука, 1967.

9. Жильцова Л.П. Закономерности применения правил грамматики в выводах слов стохастического контекстно-свободного языка// Математические вопросы кибернетики. Вып.9. М.: Наука, 2000. С.101-126.

10. Кричевский P.E. Сжатие и поиск информации. М.:Радио и связь, 1989.

11. Марков A.A. Введение в теорию кодирования. М.: Наука, 1982.

12. Марков A.A., Смирнова Т.Г. Алгоритмические основания обобщеино-прсфиксиого кодирования// Доклады АН СССР,т. 274 N4, С.790-793, 1984.

13. Марков A.A. О неукоторых мерах сложности м эффективности в алфавитном кодировании. Матем. вопросы кибернетики вып. G, с.348-352, М.: Наука, Физматгиз, 1996.

14. Севастьянов Б.А. Ветвящиеся процессы. М.: Наука, 1971.

15. Фсллер В. Введение в теорию вероятностей и се приложения, том 1. М.:Мир, 1984.

16. Фихтеигольц Г.М. Основы математического анализа. Том 2. М.: Наука, 1968.

17. Фу К. Структурные методы в распознавании образов. М.: Мир, 1977.

18. Харрис Т. Теория ветвящихся случайных процессов. М.:.Мир, 1966.

19. Шеннон К. Математическая теория связи. М.: ИЛ, 1963.

20. Яблонский C.B. Введение в дискретную математику. М.:Наука, 1986.

21. Сагитов С., Ватутин В.А. Разложимый критический ветвящийся процесс с двумя типами частиц// Вероятностные проблемы дискретной математики. Труды мат.инст. Стеклов. 177 (1986), стр. 3-20.

22. Сагитов С., Ватутин В.А. Разложимый критический ветвящийся процесс Беллмана-Харриса с двумя типами частиц. 1//Теор. Вероятности. 33(1988), N3, стр. 460-472.

23. Сагитов С., Ватутин В.А. Разложимый критический ветвящийся процесс Беллмана-Харриса с двумя типами частиц.Н//Теор. Вероятности. 34(1989), N2, стр. 216-227.

24. Borisov А.Е. Optimal coding cost for stochastic CF-languagc induced by decomposable grammar// VI International Conference on Mathematical Modeling/Book of abstracts, N.Novgorod, 2004. pp. 72.

25. Ziv J.,Lempel A. Compression of individual sequences via variablerate coding// IEEE Trans.Inf.Theory IT-24,5 (Sept. 1978), p.530-536.

26. Ziv J.,Lempel A. A universal algorithm for sequential data compression. IEEE Trans. Inf. Theory IT 23,3 (1977), p.337-343.

27. Jorma Rissanen, Glen G.Langdon. Universal modeling and coding. // IEEE Transactions on Information Theory, V.21, N l,pp 12-23,1981.

28. Jorma Rissanen. Generalized Kraft inequality and arithmetic coding// IBM Journal Res.Devclop, 1976. V.20, N3, p. 198-203.

29. Haffrnan D.A. A method for construction of minimum-redundancy codes// Proc. IRE 1952, V.40, N.10, pl098-1101.

30. Zhiltsova L. On Entropy and Optimal Coding Cost for Stochastic Language// Fundamcnta Informaticae,V.36,pp.285-305,1998.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.