Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат технических наук Чубинидзе, Константин Александрович

  • Чубинидзе, Константин Александрович
  • кандидат технических науккандидат технических наук
  • 2006, Москва
  • Специальность ВАК РФ05.25.05
  • Количество страниц 157
Чубинидзе, Константин Александрович. Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов: дис. кандидат технических наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. Москва. 2006. 157 с.

Оглавление диссертации кандидат технических наук Чубинидзе, Константин Александрович

Введение

Глава I. Компьютерная интерпретация текстов на естественном языке.

1.1. Интерпретация и формы представления ее результатов.

1.2. Существующие системы автоматической формализации текстов.

1.3. Оценка качества систем автоматической интерпретации.

Глава II. Применение шаблонов для формализации текстовой информации

2.1. Методы автоматического формирования шаблонов идентификации сущностей и событий.

2.2. Структура синтакгико-семантического шаблона интерпретации.

2.3. Человеко-машинная технология формирования и применения синтактико-семантических шаблонов.

Глава III. Алгоритмы метода синтактико-семантических шаблонов.

3.1. Формирование графа синтактико-семантических отношений.

3.2. Автоматизированное создание шаблона интерпретации.

3.3. Уровни обобщения лингвистических характеристик.

3.4. Оптимизация набора синтактико-семантических шаблонов.

3.5. Автоматизированная интерпретация предложения.

Глава IV. Макет системы автоматизированной интерпретации и результаты его опытной эксплуатации.

4.1. Формальный язык описания предметной области.

4.2. Структура информационных объектов.

4.3. Функции интерфейса пользователя.

4.4. Результаты опьпной эксплуатации и пути совершенствования метода.

Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод синтактико-семантических шаблонов и его применение в информационной технологии интерпретации текстов»

Уровень развития современных коммуникационных и информационных технологий позволяет информационным центрам ведомственного и государственного уровня оперативно получать и хранить достаточно продолжительное время первичную информацию из оперативных подразделений и средств массовой информации.

Традиционно, анализ и обобщение поступающей информации выполняется частично на каждом уровне иерархической структуры ведомства, причем результаты анализа на предыдущем уровне иерархии поступают как исходные данные на следующий уровень. Такая организация работы является естественной при обработке информации специалистами, она обусловлена ограниченными возможностями отдельного человека и характеризуется затруднениями на этапе объединения результатов работы нескольких специалистов в один документ.

Современные требования по оперативности и точности принятия управленческих решений вынуждают искать альтернативные пути анализа поступающей информации. Одним из них является применение методов ее компьютерной обработки, которые имеют многие преимущества, например:

• увеличение скорости обработки информации до уровня, при котором становится возможной обработка первичной информации на любой ступени иерархической структуры ведомства;

• исключение обобщений на промежуточных ступенях иерархической структуры ведомства позволяет уменьшить искажения и потери первичной информации.

В подавляющем большинстве случаев, первичной информацией являются тексты на естественном языке, которые создаются сотрудниками ведомства и предназначены для экспертов и руководства. Данная форма представления информации является практически неприемлемой для компьютерной обработки и нуждается в соответствующем преобразовании, которое в данной работе названо интерпретацией.

Проблемная ситуация заключается в низкой полноте и точности компьютерной интерпретации текстов на естественном языке, а также в высокой трудоемкости настройки автоматизированных систем на предметные области интерпретации и формальные языки представления ее результатов. Существующие в настоящее время системы компьютерной интерпретации носят узкоспециализированный характер. Процессы их настройки и эксплуатации строго разделены. Настройка представляет собой длительный (до нескольких месяцев) процесс, выполняемый квалифицированными специалистами и тесно связана как с предметной областью, описываемой интерпретируемыми текстами, так и с форматом представления результатов интерпретации, который зависит от специфики их дальнейшей обработки.

Объект исследования - информационная технология интерпретации текстов на естественном языке.

Предмет исследования - автоматизированная интерпретация текстов методом синтактико-семантических шаблонов.

Диссертационное исследование выполнено в соответствии с положениями п.п. 4, 5 и 7 областей исследований специальности 05.25.05: разработанный метод относится к методам семантического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями. Результаты исследования содержат новые подходы к формированию лингвистического обеспечения информационных систем и процессов в части его автоматизированной настройки на предметные области и формальные языки интерпретации.

Целью работы является совершенствование информационной технологии компьютерной интерпретации текстов на естественном языке за счет:

• разработки метода автоматизированного формирования синтактико-семантических шаблонов в процессе работы оператора, выполняющего интерпретацию текстов;

• разработки алгоритмов применения синтактико-семантических шаблонов в информационной технологии компьютерной интерпретации.

Для достижения поставленной цели необходимо решить следующие задачи:

1. на основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной системе интерпретации текстов на естественном языке;

2. провести экспериментальную проверку разработанных методов и алгоритмов на макете системы автоматизированной интерпретации;

3. на основе анализа результатов опытной эксплуатации макета определить эффективность и область применения метода синтактико-семантических шаблонов, определить направления его совершенствования.

Методы исследования. Результаты диссертационной работы получены на основе анализа и научного обобщения мирового опыта в разработке систем формализации информации, содержащейся в текстах на естественном языке, использования научных положений теории графов, теории множеств, методов прикладной и структурной лингвистики.

Научная новизна исследования. В диссертационной работе получены новые научные результаты:

1. в человеко-машинной технологии интерпретации текстов предложено использовать промежуточный формальный язык, инвариантный к предметной области интерпретации и к формальному языку представления ее абстрактных состояний;

2. разработаны методы формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;

3. разработаны частные методики и алгоритмы применения, формирования, верификации и оптимизации синтактико-семантических шаблонов, предназначенных для автоматической интерпретации текстов в пределах ограниченной предметной области.

Практическая ценность работы заключается в возможности увеличения производительности человеко-машинных систем интерпретации текстов на естественном языке. Разработанные методы и алгоритмы рассчитаны на применение в составе инструментальных средств настройки систем автоматической формализации информации, содержащейся в текстах. Созданный макет системы интерпретации может использоваться при решении задач автоматизированного наполнения фактографических баз данных.

Апробация работы. Содержание отдельных разделов диссертационной работы было использовано в НТЦ «Атлас» при выполнении НИР «Услуга».

Разработанные в диссертационной работе методы, алгоритмы и макеты программных средств были использованы ФГУП «МНИИ «Интеграл» при исследованиях и разработках в области интеллектуальных информационных систем.

Созданный макет системы автоматизированной интерпретации внедрен в опытную эксплуатацию консалтинговой компанией IDS Scheer и используется для получения сведений об экономических показателях, содержащихся в текстах отчетных материалов в интересах Центрального банка РФ, ОАО

Лукойл», ОАО «Сургутнефтегаз», ОАО «Белгородэнерго», ОАО «Тюменьэнерго» и др.

Отдельные результаты исследования докладывались на международной конференции «Развитие и защита бизнеса: практика и технологии». Работа в целом доложена на семинаре кафедры информатизации структур государственной службы Российской академии государственной службы при Президенте РФ.

Публикации. Основные результаты диссертационной работы опубликованы в четырех печатных работах.

Структура диссертационной работы.

Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 156 страницах, содержит 33 рисунка и список литературы из 38 наименований.

Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Заключение диссертации по теме «Информационные системы и процессы, правовые аспекты информатики», Чубинидзе, Константин Александрович

Заключение

В диссертационной работе получены следующие результаты:

1. Разработан метод интерпретации текстов на естественном языке, который предусматривает автоматизированное обучение системы в процессе интерактивной интерпретации предложения оператором.

2. Предложен и применен промежуточный формальный язык представления лингвистических характеристик текста - граф синтактико-семантических отношений, инвариантный к формальному языку описания предметной области интерпретации.

3. Разработаны алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в процессе эксплуатации человеко-машинной системы интерпретации текстов на естественном языке.

4. Предложены методы и алгоритмы автоматизированной верификации результатов интерпретации и оптимизации сформированного набора синтактико-семантических шаблонов.

5. Для экспериментальной проверки разработанных методов и алгоритмов создан макет программного комплекса. В результате опытной эксплуатации макета определены область применения предлагаемого метода интерпретации, его эффективность и основные пути дальнейшего совершенствования.

Список литературы диссертационного исследования кандидат технических наук Чубинидзе, Константин Александрович, 2006 год

1. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции (Том 1. Синтаксический анализ). М.: Мир, 1978

2. Белоногов Г.Г., Быстрое И.И., Козачук М.В. Новоселов А.П., Хорошилов А.А. Автоматический концептуальный анализ текстов. Сб. «Научно-техническая информация», Серия 2, № 10, ВИНИТИ, 2002

3. Белоногов Г.Г., Калинин Ю.П., Хорошилов А.А., Компьютерная лингвистика и перспективные информационные технологии М.: Русский мир, 2004

4. Белоногов Г.Г., Хорошилов Ал-др А., Хорошилов Ал-сей А. Козачук М.В., Рыжова Е.Ю., Гуськова Л.Ю., Каким быть машинному переводу в XXI веке. Сб. "Перевод: традиции и современные технологии". Изд. ВЦП, Москва, 2002

5. Большой энциклопедический словарь «Языкознание». М.: Большая российская энциклопедия, 2000

6. Виноград Т. Программа, понимающая естественный язык. М.: Мир, 1976

7. Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1992

8. Горелов И.Н. Разговор с компьютером: психологический аспект проблемы. М.: Наука, 1987

9. Громов А.И., Чубинидзе К.А. Управление знаниями и семантический анализ текстов в системе Retrieval Ware компании Convera. М.: Информационные технологии в проектировании и производстве, 2005, № 3

10. Ю.Ермаков А.Е. Компьютерная лингвистика и интеллектуальные технологии. Труды Международного семинара «Диалог-2002». Т.2. Прикладные проблемы. М.: Наука, 2002

11. П.Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах аналитика. Информатизация и информационная безопасностьправоохранительных органов: XI Международная научная конференция. Сборник трудов Москва, 2002

12. Искусственный интеллект: в 3-х кн. Кн. 2. Модели и методы: Справочник /Под ред. Д.А. Поспелова. М.: Радио и связь, 1990

13. Калинин Ю.П., Деев В.В. и др. Распознавание ситуаций, основанное на обработке смыслов. Нетрадиционная постановка задачи. Материалы конференции "Нейрокомпьютеры и их применение" НКП-96,1996

14. Киселев С.Л., Ермаков А.Е., Плешко В.В. Поиск фактов в тексте естественного языка на основе сетевых описаний. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.

15. Кобрицов Б.П., Ляшевская О.Н. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка. Труды Международного семинара «Диалог-2004». Т.2. Прикладные проблемы.

16. Кормалев Д. А. Автоматическое построение правил извлечения информации из текста. Труды первой международной конференции «Системный анализ и информационные технологии» Т.1. М.: КомКнига, 2005

17. Кузнецов И.П. Семантические представления. М. Наука, 1986

18. Кузнецов И.П., Шарнин М.М. Интеллектуальный редактор знаний на основе расширенных семантических сетей / Системы и средства информатики. Вып. 5 М.: Наука, 1993

19. Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. Препринт ИПМ им. М.В. Келдыша, АН СССР, № 205,1987

20. Лайонз Дж. Введение в теоретическую лингвистику. "Прогресс", Москва, 1975

21. Лезин Г.В., Мамедниязова Н.С. О представлении семантики концептуальных моделей в базах знаний. Труды международного семинара «Диалог-2000» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.

22. Лезин Г.В., Тузов В.А. О представлении результатов семантико-синтаксического анализа текста концептуальными моделями данных. Труды международного семинара «Диалог-2003» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.

23. Леонтьева Н.Н. Семантика связанного текста и единицы информационного анализа. НТИ, № 1,1981

24. Липинский Г.В. Russian Context Optimizer: путь к возможностям Oracle interMedia в русскоязычных базах данных. Доклад на XII конференции АПО/ROUG, 1 сентября 2000

25. Лозовский B.C. Семантические сети / Представление знаний в человеко-машинных и робототехнических системах. М.: ВИНИТИ, 1984

26. Мельчук И.А. Опыт теории лингвистических моделей "Смысл текст". -М.: Наука, 1974

27. МихайловьА.И., Черный А.И., Гиляревский Р.С. Основы информатики. -М.: Наука, 1968

28. Пименов Е.Н. Нормативность и некоторые проблемы разработки тезаурусов и других лингвистических средств ИПС /Е.Н. Пименов //Научно-техническая информация. Сер. 1, Организация и методика информационной работы. 2000. No 5.

29. Пиотровский Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении). СПб.: РГПУ им. А.И.Герцена, 1999

30. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М.: Наука, 1979

31. Попов Э.В. Искусственный интеллект: Справочник. В 3-х т. М.: Радиосвязь, 1990

32. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982

33. ПоповЭ.В. Экспертные системы: Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987

34. Поспелов Д.А. Энциклопедия по информатике. М.: Просвещение, 1994

35. Поспелов Г.С. Некоторые вопросы реализации диалоговых систем. М.: Наука, 1980

36. Представление знаний и моделирование процесса понимания. -Сб.научных трудов / Под ред. А.С.Нариньяни. Новосибирск, СО АН СССР, 1980

37. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. -М.: Наука, 1989

38. Свами М., Тхуласираман К. Графы, сети и алгоритмы. -М.: Мир, 1984

39. Скрытое эмоциональное содержание текстов СМИ и методы его объективной диагностики / Под ред. А.А.Леонтьева, Д.А.Леонтьева. М.: Смысл, 2004

40. Тузов В.А. Компьютерная семантика русского языка. Труды международного семинара «Диалог-2001» по компьютерной лингвистике и ее приложениям. Том 2. Прикладные проблемы.

41. Тузов В.А. Система семантико-синтаксического анализа предложений на русском языке // Информационные технологии в гуманитарных и общественных науках. СПб.:СПб ЭМИ РАН, 2002. Вып. 12.

42. Уэно X., Кояма Т., Окамото Т. И др. Представление и использование знаний / Пер. С англ.; Под ред. У.Уэно, М.Исудзука. М.: Мир, 1989

43. Филиппович Ю.Н., Филиппович А.Ю. Специальность "Компьютерная лингвистика и семиотика" // Интеллектуальные технологии и системы. Сборник учебно-методических работ и статей аспирантов и студентов. Выпуск 5 / Сост. и ред. Ю.Н.Филипповича. М.: Эликс+, 2003

44. Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А. Языковые средства диалога человека с ЭВМ; Под ред. В.Н. Четверикова М.: Высшая школа, 1990

45. Филиппович Ю.Н. Метафоры информационных технологий. С предисловием Караулова Ю.Н. М.: МГУП; 2002

46. Филиппович Ю.Н. Семантика информационных технологий: опыты словарно-тезаурусного описания: С предисл. А.А. Новикова / Ю.Н. Филиппович, А.В. Прохоров; М.: МГУП., 2002.

47. Чубинидзе К.А. Использование технологии динамической классификации для интенсификации аналитической деятельности. М.: Информационные технологии в проектировании и производстве, 2005, № 3

48. Чубинидзе К.А. Компьютерная интерпретация текстов на естественном языке на основе синтактико-семантических шаблонов. НТИ Серия 2. Информационные процессы и системы. - М.: ВИНИТИ, 2005, № 2

49. Чубинидзе К.А. Структура модели событий, описываемых текстами на естественном языке. -М.: Компьюлог, 2004, № 3 (63)

50. Чубинидзе К.А. Структурированная интерпретация сводок оперативной информации. Межотраслевая информационная служба, вып. 3-4 (128129), М.:ВИМИ, 2004

51. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М.: Школа Китайгородской, 1995

52. Шемакин Ю.И. Основы информатики и вычислительной лингвистики. -М.: МИНХ им. Г.В.Плеханова, 1983

53. Шемакин Ю.И. Семантика самоорганизующихся систем. М.: Академический проект, 2003

54. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980

55. Якушин Б.В. Слово. Понятие. Информация. М.: Молодая гвардия, 1975

56. D.Applet, J.Hobbs, J.Bear, D.Israel, M.Kameyama, M.Tyson. FASTUS: a finite-state processor for extracting information from real-world text. In Proc. 13-th International Joint Conference on Artificial Intelligence, 1993

57. A.Borthwick, J.Sterling, E.Agichtein, R.Grishman. Exploiting diverse knowledge sources via maximum entropy in named entity recognition. In Proc. 6-th Workshop on Very Large Corpora, Montreal, 1998

58. D.Bikel, S.Miller, R.Schwartz, R.Weischedel. Nymble: a high-performance learning name-finder. In Proc. 5-th Conference on Applied Natural Language Processing. Washington, DC, 1997

59. R.Schank, M.Lebowitz, L.Birnbaum. An integrayed understander. Amer. J. Comput. Ling., 1980, 6, № 1

60. C.Freedman, G.Hripcsak, W.DuMouchel, S.B.Johnson, P.D.Clayton. Natural language processing in an operational clinical information systems. Natural Language Engineering (1), 1995

61. RCO Syntactic Engine: библиотека синтаксического анализа. Copyright © ООО «Гарант-Парк-Интернет», 2003

62. RCO Pattern Extractor 1.0: библиотека выделения объектов в тексте. Руководство разработчика. Copyright © ООО «Гарант-Парк-Интернет», 2003

63. RCO Fact Extractor 1.0: настройка описаний фактов. Руководство администратора. Copyright © ООО «Гарант-Парк-Интернет», 2004

64. E.Riloff. Automatically generating extraction patterns from untagged text. In Proc. 13-th National Conference on Artificial Intelligence, 1996

65. B.Sundheim ed., Proceedings Fifth Message Understanding Conference (MUC-5), Baltimore, Maryland, August 1993. Distributed by Morgan Kaufmann Publishers, Inc., San Mateo, California

66. The Oxford Handbook of Computational Linguistics. Ed. by R.Mitkov, Oxford University Press, 2003

67. Tipster Text Program (Phase I). Proceedings, Advanced Research Projects Agency, September 1993

68. R.Yangarber, R.Grishman. Customization of Information Extraction Systems. In Proc. International Workshop on Lexically Driven Information Extraction, Frascati, 1997

69. R.Yangarber, R.Grishman, P.Tapanainen, S.Huttunen. Automatic acquisition of domain knowledge for information extraction. In Proc. 18-th International Conference on Computational Linguistics, Saarbriicken, 2000

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.