Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Гильмуллин, Ринат Абрекович

  • Гильмуллин, Ринат Абрекович
  • кандидат физико-математических науккандидат физико-математических наук
  • 2009, Казань
  • Специальность ВАК РФ05.13.11
  • Количество страниц 277
Гильмуллин, Ринат Абрекович. Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Казань. 2009. 277 с.

Оглавление диссертации кандидат физико-математических наук Гильмуллин, Ринат Абрекович

ВВЕДЕНИЕ.

ГЛАВА 1. Аналитический обзор работ в области систем обработки естественно-языковых текстов.

1.1. Математические лингвистические модели.

1.1.1. Предыстория формальных систем обработки ЕЯ-текстов.

1.1.2. Классификация формальных систем.

1.1.3. Аналитический обзор методов в области машинного перевода

1.1.4. Концептуально-формальные модели морфологии.

ВЫВОДЫ.

ГЛАВА 2. Двухуровневая лингвистическая модель на основе автоматов конечных состояний.

2.1. Описание программно-инструментальной среды РС-К1ММО.

2.1.1. Структура и функции РС-К1ММО.

2.2. Разработка двухуровневых правил.

2.2.1. Связи и вероятные пары.

2.2.2. Конструкция двухуровневых правил.

2.2.3. Выполнение двухуровневых правил в виде автоматов конечных состояний.

2.3. Описание файла фонологических правил для татарского языка.

2.3.1. Структура и содержание файла правил.

2.3.2. Моделирование контекстных соответствий лексичеких и поверхностных уровней в файле правил как основы автоматов конечных состяний.

2.4. Описание файла лексических компонент.

2.4.1. Структура и содержание файла морфотактических правил.

2.4.2. Представление морфотактики в виде автоматов конечных состояний.

2.5. Файл морфотактических правил для татарского языка.

2.5.1. База морфотактических правил для татарского глагола.

2.5.2. База морфотактических правил для татарского имени существительного

2.5.3. Пример работы распознавателя.

ВЫВОДЫ.

ГЛАВА 3. Прагматически-ориентированная технология создания сис- 117 тем машинного перевода.

3.1. Концептуальный прагматически-ориентированный подход к соз- 117 данию многоязыковых систем обработки ЕЯ-данных.

3.2. Средства формального описания лексической семантики.

3.3. Формальная семантическая модель для описания значений аффик- 127 сальных морфем.

3.3.1. Отображение значений аффиксальной морфемы -ГА в формаль- 129 ной семантитческой модели.

3.3.2. Сопоставительный анализ значений татарских и турецких аффиксальных морфем на основе формальных семантических моделей.

3.4. Метод перевода на основе устойчивых схем переводных соответ- 146 ствий в системе татарско-турецкого машинного перевода.

3.4.1. Алгоритм построения эвристической модели перевода.

3.4.2. Программные модули системы татарско-турецкого машинного перевода.

ВЫВОДЫ.

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний»

Актуальность проблемы. В системах обработки знаний, таких как системы машинного перевода, информационно-поисковые системы, системы автоматизированной коррекции текстов и другие, важное место занимает проблема разработки формальных грамматических конструкций, представляющих собой прагматически-ориентированные математические модели естественноязыковых уровней, позволяющих строить эффективные лингвистических процессоры.

Лингвистические процессоры (ЛП) - это системы, которые анализируют, генерируют, интерпретируют и трансформируют естественно-языковые тексты. Сегодня можно констатировать, что специалистам так и не удалось построить универсальную систему обработки естественно-языковой информации, способную эффективно решать произвольную лингвистическую задачу, без специальной ее предварительной модификации, без перепрограммирования. Это, скорее, связано с тем обстоятельством, что, с одной стороны, не увенчались успехом попытки построения универсальной формальной лингвистической модели хоть какого-либо языка, с другой стороны, из-за того, что, очевидно, реализация такого лингвистического процессора на базе универсальных формальных моделей, даже в условиях применения современных технологий, будет неэффективной и малопригодной по временным и емкостным характеристикам.

Одним из способов повышения эффективности построения ЛП является прагматически-ориентированный подход к разработке лингвистических моделей [54], определяющий минимальный набор средств для решения определенного круга лингвистических задач, исходя их принципа достаточности.

Прагматически-ориентированный подход к построению лингвистических моделей, прежде всего, определяет концептуально-инструментальную технологию, которая, с одной стороны, детерминирует контекст и позволяет определить контуры и направлять формирование ожидаемого ЕЯ-текста, с другой стороны, помогает осуществлять адекватный подбор лингвистических и математических средств для эффективной обработки ЕЯ-текста, поступившего на вход ЛП.

В частности, эффективность системы обработки естественного языка может быть обеспечена еще на уровне формирования лингвистической и математической моделей, за счет учета близости структурных и типовых характеристик языков внутри одной языковой группы, за счет детальности и глубины разработки модели определенного языкового уровня в зависимости от целевой ориентированности разрабатываемой системы, а также от степени важности соответствующего языкового уровня в языковой системе.

Например, в тюркских языках, таких как татарский и турецкий языки, обладающих большим сходством на всех языковых уровнях, информация о морфологической структуре словоформ в предложении во многом характеризует таюке и синтаксическую и семантическую структуры всего предложения, и, соответственно, при построении ЛП важным представляется разработка лингвистической и математической моделей морфологического уровня.

Таким образом, актуальной и перспективной является задача разработки лингвистических и математических моделей обработки текстов в аспекте прагматически-ориентированного подхода и создания и использования многоязыковых систем обработки естественно-языковых текстов внутри одной языковой группы. В частности, применение двухуровневой модели морфологии является таким прагматически-ориентированным подходом к решению этой задачи.

Цель и задачи исследования. Целью диссертационной работы являются исследование, разработка и реализация математических и лингвистических моделей и программного обеспечения систем и технологий обработки многоязыковой информации.

Для достижения поставленной цели в рамках диссертационной работы решаются следующие основные задачи:

1. Анализ систем и технологий обработки естественно-языковой информации.

2. Исследование и математическое моделирование двухуровневых формализмов морфологической генерации и распознавание и реализация их на основе автоматов конечных состояний.

3. Разработка формальной системы в виде формальных семантических моделей для описания значений аффиксальных морфем и проведения сопоставительного анализа значений аффиксальных морфем естественных языков.

4. Разработка формальных моделей перевода на основе алгоритмов машинного обучения, использующих устойчивые схемы переводных соответствий языков.

5. Реализация программных модулей системы татарско-турецкого машинного перевода.

Объект исследования. Объектами исследования являются:

1) Двухуровневая автоматная модель лингвистических составляющих как основа морфологического анализатора и как формальная база машинного перевода родственных языков.

2) Эвристическая модель перевода (ЭМП), основанная на устойчивых схемах переводных соответствий языков.

3) Математические и лингвистические модели и программные модули поддержки перевода на основе ЭМП.

В данной работе в качестве лингвистического материала для содержательной иллюстрации и практической реализации математических моделей и системы машинного перевода используются татарский и турецкий языки. Выбор языков обусловлен тем, что эти языки, во-первых, как языки агглютинативного типа, обладая морфологией, богатой по составу, сложной по содержанию, но простой и регулярной по структуре, представляют большой интерес для пользователей и разработчиков эффективных средств хранения и обработки информации. Во-вторых, татарский и турецкий языки являются родственными языками, входящими в тюркскую группу языков, т.е. служат естественной иллюстрационной базой возможности прагматически-ориентированной технологии в системе перевода родственных пар языков. В-третьих, подобного рода исследования служат развитию рассматриваемых языков, в чем особенно нуждается татарский язык, являющийся вторым языком после русского языка по распространенности в России и государственным языком в Республике Татарстан, наряду с русским языком.

Научная новизна результатов. В процессе исследований получены следующие новые научные результаты, выносимые на защиту.

1. С помощью автоматов конечных состояний разработана и реализована двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии.

2. Разработаны формальные семантические модели значений аффиксальных морфем на основе объектно-предикативной системы, отображающей реальные языковые ситуации, и на их базе проведен контекстно-сопоставительный анализ соответствия аффиксальных морфем переводимых пар языков.

3. Разработан алгоритм построения эвристических моделей перевода на основе параллельных текстов, представляющих собой устойчивые схемы переводных соответствий языков.

4. Разработана прагматически-ориентированная технология создания переводчиков для пары родственных языков и реализованы программные модули, используемые в системе татарско-турецкого машинного перевода.

Работа имеет принципиальную новизну как в постановке задачи, так и в выборе методов решения поставленной задачи. Эффективность методов и подходов решения поставленной проблемы базируется, прежде всего, на комплексном использовании современных достижений в области искусственного интеллекта, математической лингвистики и компьютерных технологий, связанных с разработкой формальных моделей языка, теории и практики машинного перевода.

Практическая ценность полученных результатов.

Полученные результаты в виде концепции эффективной реализации программ перевода родственных языков, методов сопоставительного анализа лингвистических составляющих на основе объектно-предикативной системы, средств морфологической маркировки произвольных текстов, как основы лин-гвопроцессоров и базы для научных исследований, двухуровневой модели морфологии, двухуровневого морфологического анализатора, а также программных средств поддержки татарско-турецкого перевода активно используются в учебном процессе в Казанском государственном (КГУ) и Казанском государственном педагогическом университетах в учебных курсах «Математическая лингвистика», «Прикладная лингвистика», в научных исследованиях учеными факультета татарской филологии и истории КГУ и Института языка, литературы, искусства АНТ им. Г. Ибрагимова, а также в мультимедийных учебных разработках НИИ «Прикладная семиотика» Академии наук РТ и Казанского государственного университета, в составе распознавателя текстов в OCR FineReader, в составе прикладной грамматической модели татарского языка, внедренной в Университетскую информационную систему (УИС) «Россия» (НИВЦ МГУ), позволяет эффективно поддерживать многоязычный поиск в татарско-русской электронной коллекции текстов, а также как программный инструмент описания турецкой модели морфологии в многоязычном электронном словаре Lingvo хЗ компании ABBYY.

Предложенная двухуровневая модель морфологии, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии, может быть использована не только в многоязыковых системах обработки данных и системах автоматизированной коррекции текстов, но и в составе специализированных АРМов, например, как программный инструмент изучения и развития морфологии татарского языка в составе АРМ лингвиста-исследователя, как программа разметки и лемматизации в составе АРМ лексикографа.

Одной из главных особенностей построенной системы, обеспечивающих ее эффективность и гибкость, является разделенность языконезависимых и язы-козависимых блоков. Это позволяет легко модифицировать лингвистическую базу системы, а также наполнять ее лингвистическими ресурсами, правилами, лингвистическими моделями другого языка, а также модифицировать программные модули без изменения лингвистических ресурсов.

Практические разработки и реализация результатов диссертации осуществлялись в рамках Государственной программы Республики Татарстан по сохранению, изучению и развитию языков народов Республики Татарстан.

Документы, подтверждающие внедрение и практическое использование результатов диссертации, находятся в Прилржениях.

Методы исследования. При разработке и реализации двухуровневой модели морфологии использовались теории формальных грамматик и конечных автоматов.

Методы структурного и сопоставительного анализа, когнитивного моделирования и математической лингвистики применены при описании объектно-предикативной системы для отображения контекста и установления взаимосвязей между лексическими единицами татарского и турецкого языков через эту систему.

При разработке лингвистических моделей и программных модулей обработки многоязыковых данных на их основе использовались методы алгоритмического моделирования, структурного и логического программирования.

Апробация работы. Результаты работ докладывались автором на международных конференциях и семинарах: на Международной конференции ЬР'2000 по типологии языков (Чехия, г. Прага, 2000), на научном семинаре по ЕЯ-процессорам в Белкентском университете (Турция, г. Анкара, 1997), на Международной конференции "К1)8" (Крым, г. Ялта, 1997), на международных семинарах по компьютерной лингвистике и ее приложениям ДИАЛОГ (г. Таруса, 1998, 1999; г.Протвино, 2000-2003), на Международной конференции

Языковая семантика и образ мира» (г. Казань, 1997), на Международной конференции «Интерактивные системы: проблемы человеко-компьютерного взаимодействия» (г. Ульяновск, 2001, 2009), на Казанских школах по компьютерной и когнитивной лингвистике TEL (г.Казань, 1999-2008), на Международном симпозиуме «LENCA-2» (г. Казань, 2004), на Международном симпозиуме «Языковые контакты Поволжья» (г. Казань, 2008), на телеконференции «Информационные технологии в гуманитарных науках» (КГУ, 1998), а также на различных республиканских и городских научных семинарах, итоговых научных конференциях КГУ и ИЯЛИ АНТ (1997 - 2009).

При непосредственном участии автора выполнено шесть научно-исследовательских грантов: 1) грант Программы «Наука за стабильность» в рамках проекта TU-Language: «Татарский двухуровневый морфологический анализатор» (1996- 1998 гг.); 2) грант НИОКР АН РТ «Разработка татарско-русского машинного переводчика регистрационных форм» (2001 -2003 гг.); 3) грант НИОКР АН РТ «Компакт-диск с татарской локализацией об Академии наук Татарстана к 10-летнему юбилею АНТ» (2000 - 2001 гг.); 4) грант НИОКР АН РТ «Машинный фонд татарского языка» (2002 - 2004 гг.); 5) грант РФФИ (№ 04-06-97501) «Прикладная грамматическая модель татарского языка в задачах информационного поиска в многоязычных корпусах текстов» (2006 г.); 6) грант РФФИ (№04-06-97501) «Экспериментальная загрузка многоязычной (русско-татарской) текстовой коллекции и адаптация соответствующих программных интерфейсов к татарскому языку на базе программных средств Университетской информационной системы УИС «Россия»» (2007 - 2008 гг.).

За циклы работ по темам «Построение базовых программных модулей системы татарско-турецкого машинного перевода» и «Татарская локализация операционной системы Windows Vista и пакета Microsoft Offíce-2007» в 2004 и 2008 годах, соответственно, Указом Президента Республики Татарстан и Постановлением Кабинета Министров Республики Татарстан диссертант был удостоен республиканской премии молодых ученых в области «Информатика, вычислительная техника и автоматизация».

Основные результаты, полученные соискателем в рамках диссертационной работы, вошли в состав научно-образовательного комплекса «Научное, учебно-методическое и информационно-программное обеспечение реализации татарского языка как государственного в системе образования Республики Татарстан», удостоенного Государственной премии Республики Татарстан в области науки и техники 2009 года.

Публикации. По результатам выполненных исследований опубликовано 20 работ, из них 16 в соавторстве.

Структура и объем работы. Работа содержит введение, 3 главы, заключение, список использованной литературы, 6 приложений.

Во введении обоснована актуальность темы, сформулирована цель работы и определен перечень решаемых задач, указана их новизна, отмечены особенности подхода, раскрываемого в диссертационной работе, теоретическая и практическая ценность полученных решений и разработок, а также дан краткий обзор содержания по главам.

В первой главе дается аналитический обзор разработок и публикаций по теме диссертации. Анализируются формальные модели и средства обработки ЕЯ-текстов и отмечается, что построение прагматически-ориентированных лингвистических моделей на основе двухуровневой модели морфологии может служить эффективным средством при разработке автоматизированных переводчиков родственных языков.

Дается анализ систем и методов в области автоматизированных переводчиков. Отмечается, что интересными и перспективными являются концепция и методология программно-концептуальной прагматически-ориентированной технологии для создания переводчиков родственных языков.

Ставится задача, решение которой описывается в данной диссертации.

Во второй главе описывается формальный аппарат двухуровневых правил, а также дается полное описание двухуровневой модели морфологии татарского языка и морфологического анализатора, относящегося к классу прагматически-ориентированных концептуально-формальных моделей.

Математическая лингвистическая модель морфологии реализуется на основе двухуровневых формализмов программного инструментария PC-KIMMO, модифицированного под задачи, решаемые в рамках данной диссертации. Двухуровневые правила реализованы с помощью автоматов конечных состояний. Математическая модель морфотактических правил является двунаправленной и реализована на основе трансдьюсоров конечных состояний, представляющих собой разновидность АКС.

Отмечается, что морфологический анализатор, созданный на основе двухуровневой модели морфологии и являющийся составной частью системы татарско-турецкого машинного перевода, может быть использован в качестве морфологического модуля в составе других систем обработки естественноязыковой информации, а также как программный инструмент изучения и развития морфологии татарского языка. В частности, в настоящее время модуль татарского морфологического анализа внедрен в такие программные продукты, как УИС «Россия» (НИВЦ, МГУ), Lingvo хЗ (ABBYY, г. Москва).

В главе 3 даются анализ и описание формальных семантических моделей значений аффиксальных морфем, используемых для проведения сопоставления аффиксальных морфем переводимых пар языков. Формальные семантические модели построены на основе объектно-предикативной системы представления прагматически-ориентированных контекстов. Здесь же описывается алгоритм построения эвристичеких моделей перевода, который является обобщением метода шаблонного перевода на основе параллельных текстов. Дается описание основных модулей системы татарско-турецкого машинного перевода и приводится ряд иллюстрационных примеров функционирования системы. Отмечается, что модульная структура программного комплекса содержит пользовательскую и алгоритмические части, при этом алгоритмическая часть является язы-конезависимой, что при необходимости позволяет строить модели перевода для разных языков.

В заключении приводятся основные результаты, полученные в рамках данной диссертационной работы. Отмечается, что разработанная двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированной концептуально-формальной модели, представляет собой полную компьютерную модель татарской морфологии. Морфологический анализатор, построенный на ее основе, имеет широкое практическое применение в составе реальных коммерческих приложений.

В Приложении 1 содержатся акты о внедрениях и справки об использовании программного комплекса, разработанного и реализованного в рамках данной диссертационной работы.

В Приложении 2 приводится полный файл двухуровневых правил на основе автоматов конечных состояний.

В Приложении 3 приводится результат генерации словоформы с падежным аффиксом -ЛАр на базе описанных фонологических правил.

В Приложении 4 приводится описание файла морфотактических правил.

В Приложении 5 приводится результат выполнения функции распознавания поверхностной формы:уйнарга ('играть').

В Приложении 6 приводятся формальные семантические модели для описания значений аффиксальных морфем на основе объектно-предикативной системы как основы разработки таблицы соответствия между аффиксальными морфемами, а также лингвистические модели, полученные в результате выполнения алгоритма построения ЭМП.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Гильмуллин, Ринат Абрекович

ВЫВОДЫ

1. Разработана технология машинного перевода родственных пар языков на основе двухуровневых моделей морфологий, таблиц соответствия аффиксальных морфем и эвристических моделей перевода.

2. Разработан комплекс формальных семантических моделей для описания значений аффиксальных морфем на основе объектно-предикативной системы представления прагматически-ориентированных контекстов.

3. Разработана и реализована таблица соответствия аффиксальных и корневых морфем на основе формальных семантических моделей для описания морфем.

4. Разработан и реализован алгоритм построения эвристичеких моделей перевода как обобщение метода шаблонного перевода на основе параллельных текстов.

5. Разработаны и реализованы программные модули татарско-турецкого машинного перевода простых предложений.

ЗАКЛЮЧЕНИЕ

Диссертационная работа посвящена математическому моделированию лингвистических структур для эффективной прагматически-ориентированной обработки данных. Особенностью исследований является использование для построения лингвистических моделей методов нечисленной, структурной математики, то есть таких разделов математики, как теории формальных языков, алгоритмов, автоматов.

В процессе выполнения работы получены следующие новые результаты:

1. Разработана и реализована с помощью автоматов конечных состояний двухуровневая модель морфологии татарского языка, относящаяся к классу прагматически-ориентированных концептуально-формальных моделей и представляющая собой полную компьютерную модель татарской морфологии. Морфологический анализатор, построенный на ее основе, имеет широкое практическое применение в составе реальных коммерческих приложений.

2. Разработаны формальные семантические модели значений аффиксальных морфем на основе объектно-предикативной системы, отображающей реальные языковые ситуации. Формальные семантические модели, заполненные соответствующими аффиксальными значениями для конкретных переводных пар языков, являются эффективной технологией для создания таблиц соответствия аффиксальных морфем.

3. Разработан и реализован алгоритм построения эвристических моделей, представляющих собой устойчивые схемы переводных соответствий языков перевода, как обобщение метода перевода на основе параллельных текстов.

4. Разработана прагматически-ориентированная технология машинного перевода родственных пар языков на основе двухуровневых моделей морфологий, таблиц соответствия аффиксальных морфем и эвристических моделей перевода и реализована исследовательская версия системы татарско-турецкого машинного перевода.

Список литературы диссертационного исследования кандидат физико-математических наук Гильмуллин, Ринат Абрекович, 2009 год

1. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистическое обеспечение системы ЭТАП-2. - М.: Наука, 1989. - 296 с.

2. Апресян Ю.Д. Образ человека по данным языка: попытка системного описания // Вопросы языкознания, Наука, 1995, №1.

3. Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., испр. и доп. М:: Школа «Языки русской культуры», Издательская фирма «Восточная литература» РАН, 1995. - Ville. - 472 с.

4. Апресян Ю.Д., Богуславский И.М., Иомдин Л.Л. и др. Лингвистический процессор для сложных информационных систем. -М.:Наука, 1992. 256 с.

5. Брябрин В.М. и др. ДИЛОС диалоговая система для взаимодействия с ЭВМ на естественном языке. - М.: Изд. ВЦ АН СССР, 1979.

6. Брябрин В.М., Сенин Г.В. Анализ естественного языка в ограниченном контексте // Вопросы кибернетики. -1980. С. 111-117.

7. Бухараев Р.Г., Сулейманов Д.Ш. Семантический анализ в вопросно-ответных системах. Казань: Изд-во Казан, ун-та. - 1990. -124 с.

8. Валькман Ю.Р. Интеллектуальные технологии исследовательского проектирования: формальные системы и семиотические модели. Киев: Port-Royal, 1998. -250 с.

9. Валькман Ю.Р. Целесообразность использования категорий лингвистики в исследовательском проектировании сложных объектов // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-98». Казань, 1998. - С.638-648.

10. Вежбицкая А. Семантические универсалии и описание языков / Пер. с англ. А.Д.Шмелева под ред.Т.В.Булыгиной. М.: «Языки русской культуры», 1999. - I-XII. - 780 с.

11. Виноград Т. Программа, понимающая естественный язык. -М., 1976.-283 с.

12. Волкова И.А., Головин И.Г. Об одном подходе к построению синтаксического модуля в системе распознавания устной речи // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-97». Ясная Поляна, 1997. - С.61-62.

13. Вудс В.А. Сетевые грамматики для анализа естественного языка // Кибернетический сборник. -М., 1976. Вып.13. С.121-158.

14. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2000. - 384 с.

15. Гильмуллин P.A. Модуль обучающейся модели татарско-турецкого машинного переводчика // Вестник Казанского государственного технического университета им. А.Н.Туполева. 2007, № 2(46) - С. 65-67.

16. Гильмуллин P.A. Реализация контекстных соответствий Ы:ы, Ы:е и Ы:0 в файле фонологических правил // Сборник трудов Математического центра имени Н.И. Лобачевского. Т.4. Компьютерная лингвистика. Казань: УНИПРЕСС, 1999. - С. 51-58.

17. Гильмуллин P.A. К разработке татарско-турецкого машинного переводчика //Труды Казанской школы-семинара по компьютерной и когнитивной лингвистике TEL-2001. Выпуск 6. -Казань: Из-во "Отечество", 2001, -С.12-18.

18. Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения (Вступительная статья) // Новое в зарубежной литературе. М.:

19. Прогресс». Вып. XXIV. Компьютерная лингвистика. Под ред. Городецкого Б.Ю. С. 5-31.

20. Григорьев Н.В. Восходящий алгоритм построения дерева зависимостей для системы ЭТАП-3 // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-99». Таруса, 1999.

21. Дракин В.И., Попов Э.В., Преображенский А.Б. Общение конечных пользователей с системами обработки данных. М.: Радио и связь, 1988. -288 с.

22. Закиев М.З. Татарская грамматика. ТЗ. Синтаксис. — Казань: Таткнигоиз-дат. 1992.-488 с.

23. Кибрик А.Е. Для чего нужны формальные модели языка ? // Сборник трудов Формально-логические и компьютерные модели языков в рамках российской конференции по искусственному интеллекту КИИ-96. Казань: Изд-во "Фэн". -1996. - С. 3-5.

24. Кобозева И.М. Лингвистическая семантика: Учебное пособие. М.: Эди-ториал УРСС, 2000. - 352 с.

25. Кулагина О.С. Исследования по машинному переводу. М.: Наука, 1979.

26. Лавров С.С. Архитектура баз знаний // Программное обеспечение вычислительных комплексов новой архитектуры. — Новосибирск НФ ИТН и ВТ АН СССР, 1986.-С. 3-13.

27. Майлопулос Д. и др. TOURUS система для управления данными, понимающая естественный язык // Труды IV Международной объединенной конференции по искусственному интеллекту. - М., 1975. Т.2. - С.42-62.

28. Мальковский М.Г. Диалог с системой искусственного интеллекта. М.: Изд-во МГУ, 1985. - 214 с.

29. Мальковский М.Г., Абрамов В.Г., Субботин A.B. Об автоматизированном формировании лингвистических баз знаний // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диа-лог-98». Казань, 1998. - С. 831-836.

30. Мартынов В.В. Универсальный семантический код: УСК-3. Минск:

31. Наука и техника». 1984. - 131с.

32. Марчук Ю.Н. Проблемы машинного перевода. М., Наука, 1983. 232 с.

33. Мельчук И.А. Опыт теории лингвистических моделей Смысл-Текст. М.: Наука. -1974.-314 с.

34. Минский М. Фреймы для представления знаний. -М.: Энергия, 1979. -152с.

35. Мошкович Ж.Г. Автоматизированная лексикографическая система УНИЛЕКС-2. Издательство Московского университета, 1989.

36. Нариньяни A.C. Автоматическое понимание текста новая перспектива // В сб. Трудов 130. - С. 203-208.

37. Нариньяни A.C. Модель или алгоритм: новая парадигма информационной технологии//Информационные Технологии, 1997. С.11-16.

38. Невзорова O.A. Машинное обучение и задачи обработки естественного языка // Новости Искусственного интеллекта, М.: 1998, N1. — С.5-23.

39. Нильсон Н. Принципы искусственного интеллекта. М.: Радио и связь, 1985.-376 с.

40. Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. — М.: Наука, Физматлит, 1997. — 112 с.

41. Осипов Г.С. Построение моделей предметных областей. Неоднородные семантические сети // Изв. АН СССР, техн. кибернетика, 1990. N5.

42. Падучева Е.В. Семантические исследования (Семантика времени и вида в русском языке; Семантика нарратива). М.: Школа «Языки русской культуры», 1996. -464 с.

43. Пиотровский Р.Г., Билан В.Н., Боркун М.Н., Бобков А.К. Методы автоматического анализа и синтеза текста. Минск: Выш.шк., 1985. - 222 с.

44. Плунгян В.А. Общая морфология: Введение в проблематику: Учебное пособие. М.: Эдиториал УРСС, 2000. - 384 с.

45. Попов Э.В. Общение с ЭВМ на естественном языке. М., Наука. Главная редакция физико-математической литературы, 1982. — 360 с.

46. Поспелов Д.А. Логико-лингвистические модели в системах управления.1. М.: Энергия, 1981.-231 с.

47. Поспелов Д.А. Ситуационное управление: теория и практика. М.: Наука. -Гл.ред. Физматлит., 1986. — 288 с.

48. Рейуорд-Смит В.Дж. Теория формальных языков. Вводный курс: Пер. с англ. -М.: Радио и связь, 1998. 128 е.: ил.

49. Сулейманов Д.Ш. Регулярность морфологии татарского языка и типы нарушений в языке // Серия: Интеллект. Язык. Компьютер. — Вып.1. Казань: Изд-во Казан, ун-та, 1994. - С. 77-106.

50. Сулейманов Д.Ш. К вопросу о числе татарских падежей // Исследования в компьютерной лингвистике. Серия: Интеллект. Язык. Компьютер. Вып.З. -Казань: Изд-во "Фэн". -1996. - С.70-84.

51. Сулейманов Д.Ш., Гильмуллин A.A., Гильмуллин P.A. База морфотакти-ческих правил для татарского глагола как основа двухуровневого морфологического анализатора // Сборник трудов Международного семинара «Диалог», 1998. Казань, - С. 597-609.

52. Сулейманов Д.Ш. Системы и информационные технологии обработки естественно-языковых текстов на основе прагматически-ориентированных лингвистических моделей: Дис. . доктора технических наук, Казань, 2000. -334 с.

53. Сулейманов Д.Ш., Гатиатуллин А.Р. Структурно-функциональная компьютерная модель татарских морфем. Казань: Фэн, 2003. — 220 с.

54. Татарская грамматика. Том 1. Фонетика. Фонология. Словообразование. -Казань: Таткнигоиздат. 1993, - 584 с.

55. Татарская грамматика. Том 2. Морфология. — Казань: Таткнигоиздат. -1993, 397 с.

56. Теория функциональной грамматики: Введение, аспектуальность, временная локализованность, таксис. 2-е изд. -М.:Эдиториал УРСС, 2001. 348с.

57. Уинстон П. Искусственный интеллект. М., 1980. - 580 с.

58. Филлмор Ч. Дело о падеже // В кн.: Новое в зарубежной лингвистике. Вып. X. Лингвистическая семантика. М.: Прогресс. 1981.

59. Хакимов Б.Э., Гильмуллин P.A. К разработке системы параметров морфологической разметки для электронного корпуса татарских текстов // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2008.-Казань: Казан, гос. ун-т, 2009. С. 24-29.

60. Хомскнй Н. Синтаксические структуры // Пер. с англ.: Chomsky N. Syntactic Structures в сб. «Новое в лингвистике», вып.2. Москва: Изд-во ин. лит., 1962.

61. Хопкрофт, Джон, Э., Мотвани, Раджив, Ульман, Джеффри, Д. Введение в теорию автоматов, языков и вычислений, 2-е изд.: Пер. с англ. М.: Издательский дом «Вильяме», 2002. - 528 е.: ил. - Парал. тит. англ.

62. Шаров С.А. Средства компьютерного представления лингвистической информации. Обзор. URL: http://nl-web/

63. Шенк Р. Обработка концептуальной информации. — М.:Энергия, 1980. -361 с.

64. Шереметьева С.О. Методология минимизации усилий в инженерной лингвистике // НТИ. Ежемесячный научно технический сборник, N4. М., 1998.-С.1-10.

65. Шошитайшвили И.А., Агранат Т.Б. Словарь оборотов системы анализа русских текстов // Исследования в компьютерной лингвистике. Серия: Интеллект. Язык. Компьютер. Вып.З. - Казань: Изд-во "Фэн". -1996. — С. 111-115.

66. Эрик Нюберг, Теруко Митамура. Контролируемый Язык и Машинный Перевод на основе Базы Знаний: Принципы и Практика. Центр Машинного Перевода Карнеги Меллон Университет, Питтсбург, CniA//http ://mt.net/kantru.htm

67. Antworth E.L. PC-KIMMO: a two-level processor for morphological analysis. Technical Report Occasional Publications in Academic Computing No. 16, Summer Institute of Linguistics, Dallas, Texas, 1994.

68. Boitet Ch. Tweilve Problems for Machine Translation. International Conference on Current Issues in Computational Linguistics. University Sains Malaysia, Pe-nang, Malaysia, 1991, Proceedings, P. 45-47.

69. Briscoe E. J. Lexical issues in natural language processing. In Klein, E. And

70. Veltman, F., editors, Natural Language and Speech: Springer-Verlag. 1992. -P. 39-68.

71. Cole Ronald A., Mariani Joseph, Uszkoreit Hans, et al (editors). Survey of the State of the Art Human Language Technology, 1995/ ftp: //speech.cse.ogi.edu /pub/docs/HLT/.

72. Dear B.L. AI and the Authoring Process // IEEE Expert Magazine, Summer, 1987.-P. 17-23.

73. Gtinderdii, Oflazer K. Parsing Turkish using the Lexical-Functional Grammar formalism. Machine Translation, 10:293-319, 1995.

74. Lucchesi C.L., Kowaltowski T. Applications of finite automata representing large vocabularies. Software-Practice and Experience, 23(1): 15-30. 1993.

75. Karttunen L. Constructing Lexical Transducers. //15th International Conference on Computational Linguistics. Coling 94, I, pages 406-411. August 5-9, 1994. Kyoto, Japan.

76. Miiiirisep. Syntactic analysis of Estonian using constraint Grammar // Сборник трудов Международного семинара по компьютерной лингвистике и ее приложениям «Диалог». 1998. - С.619-625.

77. Rgximova Asia. Terek grammatikasi. Tiirk dilbilgisi. Qazan, 2002.

78. Sanfilippo Antonio. Lexicons for Constraint-Based Grammars // In 86. P. 118-121.

79. Suleymanov D.Sh. Towards a difinition of Tatar cases via the structural-functional morphemic model // Proceedings of the LP'96 Conference on Languages Typology (Prague, 22-24 August, 1996). Prague, 1996. P. 388-395.

80. Tsutsumi J., Nitta Т., Ono K., Nobesawa Sh., Nacanishi M. Multi-Lingual Machine Translation Based on Statistical Information. QUALICO-94, 2nd Intern. Conf. On Quantitative Linguistics. Moscow Lomonosov State Univ., 1994, Proceedings.-P. 147-152.

81. Vendler Z. Linguistics in Philosophy. Ithaca, N.Y., 1967.

82. Xerox, MLTT-95/Application of Finite-State Networks // www.xrce.xerox.com/research.c/

83. Казанский государственный университет1. На правах рукописи

84. Гильмуллин Ринат Абрекович0420105371

85. МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ В МНОГОЯЗЫКОВЫХ СИСТЕМАХ ОБРАБОТКИ ДАННЫХ НА ОСНОВЕ АВТОМАТОВ КОНЕЧНЫХ СОСТОЯНИЙ0513.11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

86. Диссертация на соискание ученой степени кандидата физико-математических наукмт

87. Научный руководитель: академик АН РТ, д. т. н., профессор Сулейманов Д.Ш.

88. Научный консультант: д. ф.-м. и., д. т. н^,профессор Бухараев Р.Г.1. Казань 20091. Содержание

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.