Лингвистическое и программное обеспечение автоматической генерации структурного графа по русскоязычному названию органического соединения тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат наук Григорян, Лев Арменович

  • Григорян, Лев Арменович
  • кандидат науккандидат наук
  • 2015, Москва
  • Специальность ВАК РФ05.25.05
  • Количество страниц 191
Григорян, Лев Арменович. Лингвистическое и программное обеспечение автоматической генерации структурного графа по русскоязычному названию органического соединения: дис. кандидат наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. Москва. 2015. 191 с.

Оглавление диссертации кандидат наук Григорян, Лев Арменович

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ

Основные определения, принятые в рамках диссертационной работы

ГЛАВА 1. ОБЗОР ЛИТЕРАТУРЫ

1.1. Химическая номенклатура

1.1.1. Задачи химической номенклатуры

1.1.2. Соответствие между названием и структурой химического соединения

1.1.3. Возможность автоматизации перевода названия в структурную формулу

и структурной формулы в название

1.1.4. История разработки химических номенклатур

1.1.5. Номенклатура ВИНИТИ и диалекты в номенклатуре

1.1.6. Переводимость химической номенклатуры с языка на язык

1.1.7. Химическая номенклатура как сложноорганизованная система

1.2. Подступы к построению структурного графа по русскоязычному названию органического соединения

1.2.1. История разработки проблемы перевода названия химического соединения

в структурный граф

1.2.2. История разработки проблемы автоматического перевода названия химического соединения с языка на язык

1.2.2.1. Проблема машинного перевода естественных языков

1.2.2.2. Подступы к автоматическому переводу химической номенклатуры

1.2.3. Методика получения структурного графа, соответствующего названию химического соединения, посредством обращения к специальному пополняемому массиву

1.3. Краткий обзор современных зарубежных номенклаторов

1.4. Выводы к главе 1

ГЛАВА 2. СТРУКТУРА ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОГО КОМПЛЕКСА «НОМЕНКЛАТУРНЫЙ ГЕНЕРАТОР»

2.1. Проект трехмодульной структуры программно-технологического комплекса «Номенклатурный Генератор»

2.2. Предметная область «Номенклатурного Генератора»

2.3. Выводы к главе 2

ГЛАВА 3. РАЗРАБОТКА ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ПРОГРАММНО-ТЕХНОЛОГИЧЕСКОГО КОМПЛЕКСА «НОМЕНКЛАТУРНЫЙ ГЕНЕРАТОР»

3.1. Краткая типология компонентов названия химического соединения

3.2. Фундаментальные принципы химической номенклатуры, лежащие

в основе диссертационной работы

3.2.1. Принцип морфемной членимости названий химических соединений

3.2.2. Опора на интернациональный характер морфем

3.2.3. Соответствие морфем фрагментам химических структур и правилам

химической номенклатуры

3.3. Классификация химических морфем

3.4. Название химического соединения с точки зрения его синтаксической

структуры

3.5. Функциональные типы химических морфем

3.6. Контекстные правила укорачивающей грамматики в

3.7. Словари химических морфем

3.7.1. Устройство основного словаря химических морфем

3.7.2. Устройство словаря перевода

3.7.2.1. Проблема омонимии

3.7.3. Словарь синонимичных замен

3.7.4. Диалоговые функции словарей «Номенклатурного Генератора»

3.8. Выводы к главе 3

ГЛАВА 4. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ «НОМЕНКЛАТУРНОГО

ГЕНЕРАТОРА»

4.1. Предметная область модуля-номенклатора

4.1.1. Анализ номенклатуры названий алифатических соединений

4.1.2. Анализ номенклатуры названий простейших моноциклических

соединений

4.1.3. Анализ заместительной номенклатуры для соединений с функциональными группами

4.1.4. Анализ заменительной номенклатуры («а»-номенклатуры)

4.1.5. Анализ расширенной системы Ганча-Видмана

4.1.6. Анализ номенклатуры названий ароматических соединений

4.1.7. Обобщенный перечень классов химических соединений, названия

которых составляют предметную область модуля-номенклатора

4.2. Предметная область модуля-переводчика

4.3. Предметная область модуля-конкорданса

4.4. Выводы к главе 4

ГЛАВА 5. АЛГОРИТМЫ МОДУЛЕЙ «НОМЕНКЛАТУРНОГО ГЕНЕРАТОРА»

5.1. Интерфейс программно-технологического комплекса «Номенклатурный Генератор»

5.2. Общие черты в алгоритмах различных модулей «Номенклатурного

Генератора»

5.3. Алгоритм модуля-номенклатора

5.3.1. Основные стадии алгоритма модуля-номенклатора

5.3.2. Детальное описание алгоритма модуля-номенклатора

5.3.3. Процедура разбиения названия химического соединения на морфемы

5.3.4. Проблема неправильного разбиения названий химических соединений

5.3.5. Пример построения графа по конкретному названию химического

соединения

5.3.6. Пример построения графа по названию химического соединения

с функциональной группой

5.4. Алгоритм модуля-переводчика

5.4.1. Основные стадии алгоритма модуля-переводчика

5.4.2. Подробное описание алгоритма модуля-переводчика

5.4.3. Дополнительные сложности перевода названий химических соединений

с одного естественного языка на другой

5.4.4. Пример русско-английского перевода названия химического соединения

5.4.5. Пример англо-русского перевода названия химического соединения

5.4.6. Технические характеристики модуля-переводчика

5.5. Алгоритм модуля-конкорданса

5.5.1. Основные стадии алгоритма модуля-конкорданса

5.5.2. Краткое изложение алгоритма модуля-конкорданса

5.6. Интеграция модулей «Номенклатурного Генератора» в единый программно-технологический комплекс

5.7. Проблема алгоритмизации

5.8. Вывод результата

5.9. Выводы к главе 5

ЗАКЛЮЧЕНИЕ

Итоговый вывод

Перспективы развития программно-технологического комплекса «Номенклатурный Генератор»

ЛИТЕРАТУРА

Приложения

Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Лингвистическое и программное обеспечение автоматической генерации структурного графа по русскоязычному названию органического соединения»

ВВЕДЕНИЕ

Диссертация посвящена разработке лингвистического обеспечения и программно-технологических средств для перевода русскоязычного названия органического соединения, данного в номенклатуре IUP АС, в молекулярный граф.

Актуальность исследовании

При создании баз структурных данных по химии серьезную проблему представляет построение структурных формул химических соединений по их систематическим названиям. Автоматизация этой задачи, во-первых, облегчит пользование документальными базами по химии, сделав содержащиеся в них сведения более полными, наглядными и, соответственно, более корректными; во-вторых, приведет к существенному снижению трудозатрат при обработке первоисточников, так как авторы обычно приводят лишь незначительный процент структурных формул. Очевидно, что потребность в программе построения структурного графа по названию химического соединения еще более насущна при работе с публикациями в смежных областях знаний, где структурные формулы химических соединений традиционно вообще не приводятся: экологии, фармакологии, различных разделах биологии и т.д.

Важно отметить также, что построение структурных графов химических соединений, осуществляющееся в научных институтах России до настоящего времени при помощи графических редакторов (а иногда и рукописным образом), требует специализированных 'знаний в области номенклатуры и отнимает значительное время у квалифицированных научных работников. Более того, подобная устаревшая методика далеко не всегда отвечает современным стандартам оформления научных журналов, патентов изобретений, подготовки реферативных журналов, баз данных и т.п., поскольку чревата допущением ошибок и неточностей, неизбежных при использовании так называемого «человеческого фактора», а также препятствует качественной оцифровке информации с традиционных «бумажных» носителей. Так, например, электронные версии некоторых научных журналов вынуждены сокращать до минимума или даже отказываться от публикации рисунков структур химических соединений, которые приведены в оригиналах соответствующих статей.

Зарубежные программные разработки в рамках данной предметной области (в частности, номенклатор ChemDraw и программа ACD/Name), несмотря на ряд своих достоинств, для российских пользователей не удобны, так как в этих программах, как правило, не поддерживается русскоязычная химическая номенклатура. Поэтому появление программного комплекса, ориентированного прежде всего на русскоязычную химическую номенклатуру, можно рассматривать и как определенный шаг на пути сохранения русского языка в качестве одного из мировых язы-

ков науки. Данный подход вписывается в наметившуюся в российской науке динамику последних лет по преодолению негативной тенденции 1980-1990-х гг., когда доля научных публикаций по химии на русском языке в мировом потоке научной литературы сократилась с 20-25% до 2-3% (см. Приложения 1-Ш).

Цель работы: разработка лингвистического обеспечения в области химической номенклатуры и создание на этой основе программно-технологического комплекса для генерации структурного графа по русскоязычному названию органического соединения.

Задачи диссертационного исследования:

1. Анализ существующих программных средств порождения структурного графа по названию химического соединения, оценка их возможностей.

2. Выявление специфики систематической номенклатуры названий химических соединений на примере ряда важнейших классов органических соединений (в том числе алифатических соединений; моноциклических соединений; соединений с функциональными группами, называемых по заместительной номенклатуре; соединений, называемых по заменительной номенклатуре; соединений, называемых по расширенной системе Ганча-Видмана; ряда гетероциклических и ароматических соединений; некоторых соединений, сохраняющих тривиальные наименования).

3. Лингвистический анализ выбранной предметной области и построение ее лингвистической модели, в том числе — разработка новейшей классификации химических морфем и создание укорачивающей грамматики для свертки названий химических соединений в соответствующие им структурные графы.

4. Создание специализированных словарей химических морфем.

5. Разработка собственных программных средств для построения структурного графа по названию химического соединения (в рамках выбранной предметной области).

6. Разработка методов, алгоритмов и программ автоматического перевода названий химических соединений с русского на английский и с английского на русский язык.

7. Интеграция разработанных программных средств в единый программно-технологический комплекс «Номенклатурный Генератор».

Научная новизна работы:

1. Впервые предложена двуступенчатая классификация лингвистических единиц химической номенклатуры (морфем).

2. Впервые реализована модель свертки названия органического соединения в структурный граф посредством применения системы контекстных правил укорачивающей грамматики.

3. Впервые создан интегрированный программно-технологический комплекс модульного типа для работы с русскоязычной химической номенклатурой, ориентированный на перевод названия органического соединения в его структурный граф.

4. Впервые реализована модель автоматического переводчика систематических, полусистематических и ряда тривиальных названий химических соединений с русского на английский язык и с английского на русский язык.

Теоретическим основанием исследования являются труды известных специалистов в области химии и химической технологии, а также исследователей проблем, связанных с применением методов искусственного интеллекта в химии и с разработкой способов представления химической информации. Это прежде всего работы А. М. Цукермана, Г. Э. Влэдуца, В. А. Коптюга, Г. Б. Бокия и Н. А. Голубковой, Р. С. Кана и О. С. Дермера, Р. С. Гиляревского, А. И. Черного, В. В. Кафарова, М. М. Ланглебен, В. К. Финна, а также публикации Э. А. Давыдовой и Е. А. Уткиной.

Практическая значимость работы:

1. Предполагается использование разработанных программных средств оперативной генерации структурных графов по названиям химических соединений при создании и пополнении специализированных баз данных по химии и фармакологии.

2. Предполагается внедрение в ВИНИТИ РАН разработанных программных средств автоматического перевода русскоязычного названия химического соединения на английский язык и англоязычного — на русский язык.

3. Программно-технологический комплекс «Номенклатурный Генератор» обеспечивает возможность адаптации англоязычных баз данных по химии к нуждам российских пользователей, а также возможность использования потенциала зарубежных программных средств для порождения структурных графов по русскоязычным названиям химических соединений.

4. Предлагаемая в данном исследовании новейшая классификация химических морфем и созданные на ее основе специализированные словари морфем могут быть использованы научными работниками и программистами, работающими в области лингвистического обеспечения химической номенклатуры.

Новизна, практическая значимость и реализация результатов работы подтверждены актом о внедрении (ЗАО ЦИНТЭНСИ), а также свидетельством Роспатента о государственной регистрации программы для ЭВМ № 2014619365 от 15.09.2014 г. (см. Приложения 1У-У)

Соответствие диссертации паспорту научной специальности: диссертация соответствует паспорту специальности 05.25.05 - «Информационные системы и процессы» в части п. 4 «Лингвистическое обеспечение информационных систем и процессов. Методы и средства проектирования словарей данных, словарей индексирования и поиска информации, тезаурусов и иных лексических комплексов. Методы семантического, синтаксического и прагматического анализа текстовой информации с целыо ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями», а также в части п. 2 «Техническое обеспечение информационных систем и процессов, в том числе новые технические средства сбора, хранения, передачи и представления информации. Комплексы технических средств, обеспечивающих функционирование информационных систем и процессов, накопления и оптимального использования информационных ресурсов».

Объектами защиты являются:

1. Новейшая классификация лингвистических единиц химической номенклатуры (морфем) и созданная на ее основе укорачивающая грамматика для свертки названий химических соединений в соответствующие им структурные графы.

2. Принципы организации специализированных словарей морфем.

3. Методы, алгоритмы и программные средства автоматического порождения структурного графа по русскоязычному названию для ряда важнейших классов химических соединений: алифатических, моноциклических, соединений, называемых по заместительной и заменитель-ной номенклатурам, соединений, называемых по номенклатуре Ганча-Видмана, ряда гетероциклических и ароматических соединений и др.

4. Методы, алгоритмы и программные средства автоматического перевода с русского на английский и с английского на русский язык для широкого спектра названий химических соединений.

Апробация работы

1. Основные результаты работы докладывались на следующих научных конференциях:

• Международная конференция «Диалог-2006: Компьютерная лингвистика и информационные технологии», 31 мая — 4 июня 2006 г.;

• II Международный конгресс молодых ученых по химии и химической технологии

«МКХТ-2006», 23-25 октября 2006 г.;

• II Российско-индийский симпозиум по органической химии в рамках XVIII Менделеевского съезда по общей и прикладной химии, Москва, 23-28 сентября 2007 г.;

• НТИ-2007: 7 Международная конференция, посвященная 55-летию ВИНИТИ, «Информационное общество. Интеллектуальная обработка информации. Информационные технологии», Москва, 24-26 октября 2007 г.;

• VI Международная конференция РХО им. Д. И. Менделеева, посвященная 180-летию со дня рождения Д. И. Менделеева, «Химическая технология и биотехнология новых материалов и продуктов», Москва, 23 октября 2014 г.;

• X Международный конгресс молодых ученых по химии и химической технологии «UCChT-2014», 28-31 октября 2014 г.

2. Диссертационная работа обсуждалась на научном семинаре Отдела научной информации по проблемам химии и химической технологии ВИНИТИ РАН, а также на научном семинаре Отделения научных исследований по проблемам информатики ВИНИТИ РАН.

3. Функционирование программного комплекса прошло тестирование на пробном массиве из 40 000 названий.

4. По теме диссертации автором опубликовано 15 печатных работ, в т.ч. 5 статей, представленных в рецензируемых журналах, рекомендованных ВАК Минобрнауки для публикации результатов диссертационных работ.

Структура и объем работы

Диссертация состоит из введения, 5 глав, заключения и списка литературы. Работа изложена на 191 странице печатного текста, включая 108 рисунков, 14 таблиц, 14 приложений и 209 библиографических ссылок.

Основные результаты работы

В рамках диссертационной работы была создана экспериментальная версия программно-технологического комплекса «Номенклатурный Генератор», ответственного за перевод «название —*■ структура». Этот проект является первой научно-практической разработкой такого рода на пространстве бывшего СССР. За рубежом уже имеются программы, выполняющие сходную функцию (например, немецкий пакет AutoNom [1], канадский номенклатор ACD/Name компании ACD/Labs [2], кембриджский пакет ChemOffice [3; 4] и др. [5; 6; 7]), но они ориентированы главным образом на англоязычную номенклатуру. Единственная на сегодняшний день зарубежная программа, работающая с русской номенклатурой — модуль Lexichem фирмы ОрепЕуе Scientific Software [8] — остается недоступной для широкого круга отечественных пользователей в силу условий лицензионного соглашения; кроме того, качество обработки названий, дан-

и

пых в русской номенклатуре, оценено разработчиками программы ЬехюЬет как неудовлетворительное (ему присвоена категория «Е» — низшая из 5 возможных [8, с. 525]).

Именно способность к обработке русскоязычных названий химических соединений, а также открытый программный код выгодно отличают «Номенклатурный Генератор» от существующих зарубежных аналогов, что позволяет ставить вопрос о вкладе данной работы в дело сохранения русского языка в качестве одного из международных языков химической науки.

Другой полезной функцией «Номенклатурного Генератора» является возможность автоматического перевода широкого спектра названий химических соединений с русского на английский и с английского на русский язык.

Кроме того, «Номенклатурный Генератор» снабжен подключаемой вспомогательной базой данных «Конкорданс», содержащей около 40 ООО поисковых элементов вида «название — структура».

Предусмотрена возможность взаимодействия «Номенклатурного Генератора» с зарубежными программами-аналогами, что позволяет (благодаря вышеупомянутой встроенной функции русско-английского перевода) существенно увеличить количество обрабатываемых «Номенклатурным Генератором» названий химических соединений.

В данной диссертационной работе рассматриваются также вопросы лингвистического обеспечения в области химической номенклатуры, описывается разработанная нами грамматика свертки, используемая при обработке номенклатурных названий химических соединений, и приводятся схемы алгоритмов модулей «Номенклатурного Генератора». Помимо этого диссертация содержит обзор литературы по выбранной тематике, краткий экскурс в историю развития химических номенклатур и в историю проблемы машинного перевода, а также подробный анализ устройства наиболее важных разделов химической номенклатуры, составляющих предметную область «Номенклатурного Генератора».

Следует особо отметить, что «Номенклатурный Генератор» ориентирован прежде всего на названия органических соединений. В дальнейшем, под термином «химическое соединение» мы будем понимать в первую очередь именно органическое соединение.

Основные определения, принятые в рамках диссертационной работы

В рамках данной диссертационной работы мы будем оперировать следующими терминами:

Номенклатор — программа, определяющая название химического соединения по его структурному графу либо строящая структурный граф химического соединения по его названию (см. §1.1.3).

Переводчик — программа, переводящая название химического соединения с одного естественного языка на другой.

Конкорданс — база данных, содержащая массив индивидуальных названий химических соединений и соответствующих этим названиям структур; также — программа поиска по этой базе данных.

Визуализатор — программа, ответственная за графическое отображение структуры химического соединения.

Химическая морфема — минимальный компонент названия химического соединения, использующийся в химической номенклатуре, обладающий определенным и неизменным значением и не членимый на более мелкие элементы того же порядка.

Локант — числовой и/или буквенный индекс, указывающий на положение того или иного атома или группы в молекуле (см. §1.1.5).

13

ГЛАВА 1 ОБЗОР ЛИТЕРАТУРЫ

1.1. Химическая номенклатура 1.1.1. Задачи химической номенклатуры

Номенклатура названий химических соединений — основная составляющая языка химической науки. Согласно принятому определению, химическая номенклатура это совокупность названий индивидуальных химических веществ, их групп и классов, а также правила составления этих названий [9]. Именно система правил номенклатуры отвечает за присвоение названий миллионам химических соединений. Без точных и четких номенклатурных правил в химии воцарился бы хаос, подобный тому, что имел место в биологии до появления классификации Карла Линнея.

В настоящее время существует несколько химических номенклатур международного уровня [10; 11; 12; 13]. Среди них наиболее известны:

1) номенклатура Международного союза чистой и прикладной химии (International Union of Pure and Applied Chemistry, IUPAC) — номенклатура IUPAC [14; 15; 13];

2) номенклатура Химической реферативной службы (Chemical Abstracts Service, CAS) Американского химического общества (American Chemical Society) — номенклатура CAS [16; 17; 18].

Определенным уважением в мире науки пользуется также «номенклатура» (точнее, база данных) Бельштейна, изначально поддерживаемая справочным изданием Beilstein's Handbuch der Organischen Chemie, а позднее Институтом Бельштейна [19; 20].

Об особенностях каждой из перечисленных химических номенклатур будет сказано ниже (см. §§1.1.4-1.1.5).

Программный комплекс «Номенклатурный Генератор» разработан на основе русскоязычной адаптации номенклатуры IUPAC, используемой во Всероссийском институте научной и технической информации Российской академии наук (ВИНИТИ РАН).

Суть химической номенклатуры как таковой заключается в формальном стандартизованном описании объектов химии — химических соединений, атомов, свойств, процессов, реакций и т.п. В этом смысле номенклатура выполняет задачу упорядочивания и категоризации разного рода информации из своей предметной области. Но, в отличие, к примеру, от биологии, где в XVIII-XX вв. удалось четко и однозначно систематизировать практически все известные живые существа на планете, составить видовую иерархию и присвоить каждому виду уникаль-

ное название, ситуация в химической науке далека от идеальной. Имеющиеся химические номенклатуры не образуют единой и полной системы, допускают разночтения и терминологическую неразбериху, содержат значительные уступки в пользу традиционно сложившихся или устаревших наименований. По ряду принципиальных вопросов ученые ведут многолетние споры, будучи не в силах выработать какое-либо консенсусное мнение.

Вместе с тем, химические номенклатуры не стоят на месте. Подобно живым системам, они находятся в постоянном развитии — дополняются, уточняются, обновляются, стремясь изжить имеющиеся недостатки. Общая тенденция в этом процессе — стремление к единообразию, стандартизации и систематизации химической информации.

В более узком понимании задача химической номенклатуры ограничена присвоением названий химическим соединениям (т.е. здесь уже не идет речи обо всех прочих видах химической информации, таких как, например, описания химических реакций и т.д.) [10, с. 15]. В этом качестве номенклатура имеет определенное сходство с искусственным языком. Обладая набором базисных морфем (осмысленных компонентов названий) и развитой порождающей грамматикой, номенклатура способна дать систематические наименования миллионам реально существующих, а также гипотетически возможных соединений [10, с. 17-18].

1.1.2. Соответствие между названием и структурой химического соединения

В основу современной химической номенклатуры положена идея о том, что название химического соединения должно максимально отражать его структуру. То есть, те компоненты, из которых строится наименование химического соединения, должны определенным образом соответствовать компонентам его структурного графа — цепочкам атомов, связям различной кратности, стыковым позициям подграфов, нестандартным химическим элементам, присутствующим в соединении и т.п.

Фактически речь идет о взаимном сопоставлении трех видов сущностей — а) химического соединения, б) структурного графа и в) названия (см. рис. 1). При этом химическое соединение есть объект реального мира, состоящий из атомов и связей между ними; структурный граф является схематическим представлением строения этого химического соединения в виде композиции точек (вершин графа, обозначающих атомы) и линий (ребер графа, обозначающих связи); название складывается из языковых компонентов, долженствующих максимально точно отражать структуру данного химического соединения. Подобная система соотношений пред-ставима в виде семантического треугольника <имя, смысл, денотат>:

имя

Название химического соединения

СМЫСЛ ДЕНОТАТ

Молекулярный граф химического соединения Молекулы конкретного химического соединения

Рис. 1. Семантический треугольник

Между прочим, как отмечает Е. А. Уткина, именно язык структурных формул органической химии послужил в свое время тем эмпирическим материалом, на основе которого Ч. С. Пирс создал концепцию семиотики [21, с. 25].

Итак, между систематическим названием химического соединения и его структурой существует определенное соответствие. На практике этот принцип означает возможность по названию соединения восстановить его структуру, равно как и по структуре получить систематическое название. И поскольку принятые в номенклатуре названия соединений складываются из отдельных компонентов, наделенных определенным смыслом, то имея полный набор таких компонентов и руководствуясь номенклатурными правилами обращения с ними, можно выстроить из них, как из кубиков, любое верное химическое название.

Отдельную проблему составляет ситуация с так называемыми тривиальными названиями, то есть с названиями, сложившимися исторически или привычно использующимися в обиходе, такими как, например, «уксусная кислота», «бензол», «кофеин», «муравьиный альдегид», «фуран», «нашатырь». Естественно, разложить их на химически осмысленные стандартные компоненты или восстановить по ним структурную формулу соединения невозможно. Тем . не менее, многие из таких названий продолжают активно использоваться в химической науке в том числе и потому, что они, в большинстве случаев, оказываются короче и удобнее соответствующих систематических аналогов (для примера достаточно упомянуть систематическое название кофеина — «1,3,7-Триметил-1Н-пурип-2,6(ЗН,7Н)-диоп)». Существует также широкий спектр полутривиальных названий (иногда именуемых полу систематическими), в которых тривиальные компоненты сочетаются с систематическими (например, «(2,3,4,5-Тетрагидро-4-метил-2,5-диоксо-1П-1,4-бензодиазепин-1-ил)уксусная кислота)».

Некоторые химические номенклатуры, как, например, номенклатура IUPAC, используют ряд тривиальных названий параллельно с систематическими [22; 23; 24]. Другие, как номенклатура CAS, максимально исключают тривиальные и альтернативные названия [25; 26; 27].

1.1.3. Возможность автоматизации перевода названия в структурную формулу и структурной

формулы в название

Корректный перевод «название —> структура», равно как и «структура —> название», возможен только при строгом применении установленных номенклатурой правил. За рубежом подобные процедуры были автоматизированы и теперь производятся при помощи компьютерных технологий — например, широко используется разработанный в 1986-2011 гг. фирмой CambridgeSoft пакет ChemOffice [28]. Входящий в этот пакет модуль ChemDraw ориентирован на работу с англоязычной версией номенклатуры IUP АС [29; 30; 31; 3; 32; 33; 4; 34]. Известен и ряд других англоязычных программ сходного назначения — в частности, это пакет AutoNom [1; 35], программа ACD/Name [2; 36], модуль Lexichem [37; 8] и др. [5] (Далее по тексту данной диссертационной работы эти программы и прочие их аналоги, определяющие название химического соединения по его структуре, либо строящие структурный граф по названию соединения, мы будем называть поменклаторалш.)

В России в этом плане наметилось некоторое отставание, вследствие чего подобные задачи, возникающие, например, при подготовке к печати реферативных журналов или патентов на изобретения, до последнего времени решались изжившими себя методами — т.е. практически вручную, при помощи словарей, ручки и бумаги, без использования современных компьютерных систем, способных автоматизировать рутинный процесс обработки информации и визуализировать полученные результаты [38].

Однако если дело касается достаточно сложных структур или названий, осуществление такого перевода без обращения к автоматизированным программным средствам чревато разнообразными ошибками и погрешностями, искажающими смысл обрабатываемой информации. Здесь важно отметить, что полный свод номенклатурных правил с примерами их применения насчитывает несколько томов и постоянно обновляется, так что работы такого рода требуют значительных временных затрат, причем для их проведения необходимо участие квалифицированных экспертов, детально разбирающихся в вопросах номенклатуры, а уровень выполнения таких работ значительно уступает современным требованиям.

Разрабатываемый в рамках данной диссертационной работы программный комплекс «Номенклатурный Генератор» позволит качественно повысить уровень обработки данных такого рода и существенно облегчить труд научных работников, занимающихся построением струк-

туры химического соединения по его названию. С помощью предоставляемого Номенклатурным Генератором программного интерфейса значительную часть сложностей, возникающих при решении этой задачи, можно будет переложить с человека на алгоритм, заложенный в память компьютера. Таким образом, появление Номенклатурного Генератора находится в русле сложившейся тенденции последних лет по разработке и применению систем искусственного интеллекта.

1.1.4. История разработки химических номенклатур

Проблема построения систематической химической номенклатуры с четко определенными правилами встала перед научным сообществом достаточно давно, еще в конце XVIII века, в эпоху Просвещения, когда сложилась классифицирующая научная парадигма, реализовавшаяся в различных областях научного знания. В химии ее идеи проявились, в частности, в стремлении формализовать и упорядочить систему названий химических веществ, которые до того времени присваивались по самым различным критериям — по имени первооткрывателя, по источнику их получения, по их свойствам (например, «глауберова соль», «древесный спирт», «огненный воздух») [10, с. 15; 11, с. 8; 39]. При этом большинство известных тогда веществ относились к неорганической химии. Здесь можно упомянуть имена А. JI. Лавуазье, Л. Б. Гитона де Морво, К. Л. Бертолле, А. Фуркруа, разрабатывавших в 1786-1787 гг. первую химическую номенклатуру [8, с. 520; 40].

Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Список литературы диссертационного исследования кандидат наук Григорян, Лев Арменович, 2015 год

ЛИТЕРАТУРА

1. Wisniewski J. L. AUTONOM: System for Computer Translation of Structural Diagrams into IUPAC-Compatible Names: 1. General Design. - Journal of Chemical Information and Computer Sciences, 1990, v. 30, № 3, pp. 324-332.

2. Williams A., Yerin A. The Need for Systematic Naming Software Tools for Exchange of Chemical Information. - Molecules, 1999, v. 4, pp. 255-263.

3. Ihlenfeldt W.-D. ChemOffice Ultra 2000. Part 1: Chemdraw and Add-Ons. - Nachrichten aus der Chemie, 2000, v. 48, № 1, pp. 42-45.

4. Zielesny A. Chemistry software package: ChemOffice Ultra 2005. - Journal of Chemical Information and Modeling, 2005, v. 45, № 5, pp. 1474-1477.

5. Brecher J. Name=Struct: A Practical Approach to the Sorry State of Real-Life Chemical Nomenclature. - Journal of Chemical Information and Computer Sciences, 1999, v. 39, № 6, pp. 943950.

6. Eller G. A. Improving the quality of published chemical names with nomenclature software. -Molecules, 2006, v. 11, № 11, pp. 915-928.

7. Wisniewski J. L. Digital naming of organic compounds: on some successful algorithms. -Hypemews, 1997, v. 2, pp. 22-29.

S.Sayle R. Foreign language translation of chemical nomenclature by computer. - Journal of Chemical Information and Modeling, 2009, v. 49, № 3, pp. 519-530.

9. Википедия. URL: http://ru.wikipedia.0rg/wiki/XnMH4ecKafl_H0MeHKnaTypa (проверено 6 ноября 2014 г.).

10. Каи Р., Дермер О. Введение в химическую номенклатуру: Пер. с англ. / Под ред. В. М. Потапова и Р. А. Лидина. - М.: Химия, 1983. - 224 с.

11. Бокий Г. Б., Голубкова Н. А. Введение в номенклатуру ИЮПАК: Как назвать химическое соединение. - М.: Наука, 1989. - 184 с.

12. Banks J. Е. Naming organic compounds. 2nd ed. Philadelphia; L.; Toronto: W.B. Saunders company, 1976.

13. Номенклатура органических соединений // Справочник химика. Дополнительный том. Изд-во "Химия", Ленинградское отделение, 1968. - 508 с.

14. Nomenclature of Organic Chemistry. Sections А, В, C, D, E, F, and H. Oxford, Pergamon Press, 1979.

15. A Guide to IUPAC Nomenclature of Organic Compounds. Oxford, Blackwell Science,

1993.

16. Chemical Abstracts. Index Guide. Chemical Abstracts Service. The American Chemical Society, 1992.

17. Chemical Abstracts Service (CAS). Naming and Indexing of Chemical Substances for Chemical Abstracts. Appendix IV of CA Index Guide, 2007.

18. Biinzli-Trepp U. Systematic Nomenclature of Organic, Organometallic and Coordination Chemistry: Chemical Abstracts Guidelines with IUPAC Recommendations and Many Trivial Names. - EPFL Press, 2007.

19. Потапов В. M., Кочетова Э. К. Столетие Белынтейна // Химия и жизнь, 1982, № 5, с.

78-81.

20. Институт Белынтейна. URL: http://www.beilstein-institut.de/en/home (проверено 6 ноября 2014 г.).

21. Уткипа Е. А. Программа перевода названий химических соединений в систематической номенклатуре в молекулярные графы (для некоторых важных классов органических соединений) // НТИ. Серия 2. Информационные процессы и системы, 2000, № 3, с. 24-36.

22. Номенклатурные правила ИЮПАК по химии: Органическая химия. - М: ВИНИТИ, 1979. Т. 2.

23. Потапов В. М. Проблемы номенклатуры органических соединений в научных публикациях по химии. - Журнал ВХО им. Д. И. Менделеева, 1981, т. 25, № 5, с. 552-556.

24. Loening К. L. ACS committee on nomenclature, annual report, 1979. - Journal of Chemical Information and Computer Sciences, 1980, v. 20, № 2, pp. 61-63.

25. Selection of Index Names for Chemical Substances. - Chemical Abstracts, 1972, v. 76, pp. 201-1361.

26. Donaldson N., Powell W. H„ Rowlett Jr R. J., White R. W., Yorka К. V. Chemical Abstracts index names for chemical substances in the ninth collective period (1972-1976). - Journal of Chemical Documentation, 1974, v. 14, № 1, pp. 3-15.

27. Goodson A. L. Graphical representation of chemical structures in Chemical Abstracts Service publications. - Journal of Chemical Information and Computer Sciences, 1980, v. 20, № 4, pp. 212-217.

28. CambridgeSoft. URL: http://www.cambridgesoft.com/ (проверено 6 ноября 2014 г.).

29. Town W. G. Microcomputers and information systems. - Chemistry in Britain, 1989, v. 25, № 11, pp. 1118-1120.

30. Klein F. M. CS ChemDraw Pro, Version 3.1 for Windows. - Journal of Chemical Information and Computer Sciences, 1995, v. 35, № 1, pp. 166-167.

31. Viewing software. - Chemistry in Britain, 1996, v. 32, № 3, p. 23.

32. Mendelsohn L. D. ChemDraw 8 Ultra, Windows and Macintosh versions. - Journal of Chemical Information and Computer Sciences, 2004, v. 44, № 6, pp. 2225-2226.

33. Irwin J. J. Software review: ChemOffice 2005 Pro by Cambridgesoft. - Journal of Chemical Information and Modeling, 2005, v. 45, № 5, pp. 1468-1469.

34. ChemDraw Ultra 10.0, CambridgeSoft Corporation: Cambridge MA, USA, www.cambridgesoft.com, 2005.

35. Goebels L., Lawson A. J., Wisniewski J. L. AUTONOM: System for Computer Translation of Structural Diagrams into IUPAC-Compatible Names: 2. Nomenclature of Chains and Rings. - Journal of Chemical Information and Computer Sciences, 1991, v. 31, № 2, pp. 216-225.

36. ACD/Name, version 9.08, Advanced Chemistry Development, Inc.: Toronto ON, Canada, www.acdlabs.com, 2006.

37. Lexichem TK, OpenEye Scientific Software, Inc.: Santa Fe NM, USA. URL: http://www.eyesopen.com (проверено 6 ноября 2014 г.).

38. Григорян JI. А. Программа автоматического порождения структурного графа химического соединения по его систематическому названию // Успехи в химии и химической технологии: сб. науч. тр. Том XX, № 2 (60). - М.: РХТУ им. Д. И. Менделеева, 2006, с. 115-116.

39. Энциклопедия «Кругосвет», ст. Тривиальные названия веществ. URL: http://www.krugosvet.ru/enc/nauka_i_tehnika/liimiya/trivialnie_nazvaniya_veshchestv.html (проверено 6 ноября 2014 г.).

40. Fox R. В., Powell W. II Nomenclature of Organic Compounds: Principles and Practice. -Oxford University Press, 2001.

41. Bulletin de la Société Chimique de Paris. Ser. 3. Vol. VIII. Paris, 1892.

42. Crosland M. P. Historical studies in the language of chemistry. - Cambridge: Harvard University Press, 1962. - 406 p.

43. Reaxys: Chemistry Workflow Solution. URL: http://www.elsevier.com/online-tools/reaxys (проверено 6 ноября 2014 г.).

44. Definitive Rules for Nomenclature of Organic Chemistry. Section A. Hydrocarbons. Section B. Fundamental Heterocyclic Systems. Journal of the American Chemical Society, 1960, v. 82, № 21, pp. 5545-5574.

45. IUPAC Nomenclature of Organic Chemistry, Definitive Rules for: Section A. Hydrocarbons; Section B. Fundamental Heterocyclic Systems; Section C. Characteristic Groups Containing Carbon, Hydrogen, Oxygen, Nitrogen, Halogen, Sulfur, Selenium and/or Tellurium, 1969. А, В 3rd Ed.; С 2nd Ed., Butterworths, London. 1971.

46. Fernelhis W. С., Loening К., Adams R. M. Notes on nomenclature. - Journal of Chemical Education, 1971, v. 48, № 7, pp. 433-434.

47. Nomenclature of Organic Chemistry. IUPAC Provisional Recommendations. 2004.

48. Афонина H. H., Бирюков A. Л., Гончаренко Д. И., Зацепин В. М., Иванченко В. А., Ко-чанова Н. К, Мартиросов А. К, Нефедов О. М., Остапчук Р. В., Сафронова О. С., Федоровская М. А. Развитие банка данных информационных ресурсов ВИНИТИ по химии и химической технологии: от структурных данных к материальной химии и технологии. 2. Программно-технологические решения регистров химических соединений и реакций // Критические технологии. Мембраны, 2002, № 16, с. 39-52.

49. Осипенко Ц. Д. Структура указателей «Chemical Abstracts» // НТИ, сб. ВИНИТИ. Серия 1, 1974, №5, с. 18-23.

50. Осипенко Ц. Д., Давыдова Э. А. Основные принципы номенклатуры CAS // Журнал ВХО им. Д. И. Менделеева, 1983, т. 27, № 3, с. 46-52.

51. Rowland J. F. В., Veal М. A. Structure. Text and Nomenclature. Text Searching for Chemical Information: an Experiment with Chemical Abstracts Integrated Subject File and Registry System. - Journal of Chemical Information and Computer Sciences, 1977, v. 17, № 2, pp. 81-88.

52. Википедия. URL: http://ru.wikipedia.0rg/wiki/PerncTpauH0HHbifi_H0Mep_CAS (проверено 6 ноября 2014 г.).

53. Википедия. URL: http://en.wikipedia.org/wiki/CAS_registry_number (проверено 6 ноября 2014 г.).

54. CAS Counter. URL: http://vvwvv.cas.org/content/counter (проверено 6 ноября 2014 г.).

55. Терентьев А. П., Кост А. Ы, Потапов В. М., Цукерман А. М. Номенклатура органических соединений. - М.: Изд. АН СССР, 1955. - 302 с.

56. Потапов В. М. Основные принципы современной номенклатуры органических соединений // Журнал ВХО им. Д. И. Менделеева, 1983, т. 28, № 3, с. 21-28.

57. Balaban А. Т., Schleyer P. R. Systematic classification and nomenclature of diamond hydrocarbons. -1. Tetrahedron, 1978, v. 34, № 24, pp. 3599-3609.

58. Bonchev D., Balaban A. 71 Topological centric coding and nomenclature of polycyclic hydrocarbons. I. Condensed benzenoid systems (polyhexes, fusenes). - Journal of Chemical Information and Computer Sciences, 1981, v. 21, № 4, pp. 223-229.

59. Krishnamurthy E. V. WISENOM. A formal organic chemical nomenclature system. - Journal of Chemical Information and Computer Sciences, 1982, v. 22, № 3, pp. 152-160.

60. McNaught A. The IUPAC International Chemical Identifier: InChI - A New Standard for Molecular Informatics. - Chemistry International, 2006, v. 28, № 6, pp. 12-14.

61 .Heller S., McNaught A., Stein S., Tchekhovskoi D., Pletnev I. InChI - The worldwide chemical structure identifier standard. - Journal of Cheminformatics, 2013, v. 5, № 1, art. no. 7.

62. Fletcher J. IL, Dernier О. С., Fox R. В. eels. Nomenclature of Organic Compounds: Principles and Practice (Advances in Chemistry Series № 126), American Chemical Society, Washington, D.C., 1974.

63. Lozac'h N. La Nomenclature en Chimie Organique, Masson et Cie., Paris, 1967. (Vol. 6 of Collection de Monographies de Chimie Organique, Compléments au Traité de Chimie Organique, under the direction of A. Kirrmann, M.-M. Janot, and G. Ourisson).

64. Polskie Towarzystwo Chemiczne. Nomenklatura Zwi^zków Organicznych. - Pañstwowe Wydawnictwo Naukowe: Warsaw, Poland, 1992.

65. Polskie Towarzyshvo Chemiczne. Przewodnik Do Nomenklatury Zwiqzków Organicznych. -Narodowy Komitet Miçdzynarodowej Unii Chemii Czystej I Stosowanej: Warsaw, Poland, 1994.

66. Peterson W. R. Formulación Y Nomenclatura Química Organica. - Edunsa: Barcelona, Spain, 1993.

67. Nyitrai J., Nagy J. Utmutató a szerves vegyületek IUPAC-nevezéktanához. - Magyar Ké-mikusok Egyesülete: Budapest, Hungary, 1998.

68. Leigh G. J., Favre H. A., Metanomski IV. V. Principes de Nomenclature de la Chemie: Introduction aux recommendations de l'IUPAC. - DeBroeck Université, 2001.

69. Helhvinkel D. Systematic Nomenclature of Organic Chemistry: A Directory to Comprehension and Application of its Basic Principles. - Springer-Verlag, 2001.

70. Wikman S. Organisk-kemisk Nomenklatur. - Studentlitteratur: 2004.

71. Helhvinkel D. Die Systematische Nomenklatur der Organischen Chemie: Eine Gebrauchsanweisung. - Springer, 2006.

72. Номенклатурные правила ИЮПАК по химии: Органическая химия. Высокомолекулярные соединения. - М: ВИНИТИ, 1983. Т.З.

73. Давыдова Э. А. Разработка проблемы перевода названий органических соединений с одного естественного языка на другой : дис. ... канд. техн. наук : 05.25.05 / Давыдова Элеонора Аркадьевна. -М.: ВИНИТИ, 1986.

74. Цукерман А. М. Номенклатура органических соединений и номенклатурный перевод. -М„ 1966.-253 с.

75. Григорян Л. А. Программа автоматического перевода систематических названий химических соединений с русского языка на английский // Успехи в химии и химической технологии: сб. науч. тр. T. XX, № 2 (60). - М.: РХТУ им. Д. И. Менделеева, 2006, с. 116-118.

76. Григорян Л. А., Бондарь В. В., Немировская И. Б. Программа перевода систематических названий химических соединений с русского на английский язык // Химическая технология, 2007, № 2, с. 93-96.

77. Бондарь В. В., Григорян Л. А., Немировская И. Б. Автоматический перевод систематических названий органических соединений с русского на английский и с английского на русский язык // XVIII Менделеевский съезд по общей и прикладной химии. II Российско-индийский симпозиум по органической химии. 2007, с. 170.

78. Бондарь В. В., Григорян Л. А., Немировская И. Б. Разработка программы перевода систематических названий органических соединений с английского на русский и с русского на английский язык // НТИ-2007: 7 Международная конференция, посвященная 55-летию ВИНИТИ, «Информационное общество. Интеллектуальная обработка информации. Информационные технологии», Москва, 24-26 окт., 2007: Материалы конференции. М.: ВИНИТИ РАН. 2007, с. 53-56.

79. ВлэдуцГ. Э. Некоторые вопросы научной информации в области химии. - М.: Институт научной информации АН СССР, 1958. - 134 с.

80. Цукерман А. М., Стецюра Г. Г. Об автоматизации перевода названия химических органических соединений в стандартную форму и структурных формул в систематические наименования // Сообщ. лаборатории электромоделирования. Вып. 1. — М.: Институт научной информации АН СССР, 1960, с. 241.

81. Cmeifiopa Г. Г., Цукерман А. М. Автоматический перевод названия химических органических соединений в формулы // НТИ, 1962, № 3, с. 17-19.

82. Сейфер А. Л., Штейн В. С. Об алгоритме преобразования названия комплексного соединения, данного в рациональной номенклатуре, в линейную формулу // Сообщ. лаборатории электромоделирования. Вып. 1. - М.: Институт научной информации АН СССР, 1960. - с. 172.

83. Сейфер А. Л., Штейн В. С., Шурова С. С. Использование ЭВМ для перевода названий комплексных соединений в формулы // Журнал неорганической химии, 1960, т. IV, вып. 8, с. 27-29.

84. Влэдуц Г. Э., Паппэ И. Я. Об эксперименте по машинному переводу названий химических органических соединений в формулы // НТИ, 1962, № 3, с. 16-17.

85. Ланглебен ММ О синтезе названий химических соединений // НТИ, 1965, № 10, с.

18-24.

86. Ланглебен М. М. К лингвистическому описанию номенклатуры органической химии //НТИ, 1967, № 1, с. 13-22.

87. Ланглебен М. М. Опыт приспособления лингвистических понятий и лингвистической терминологии к описанию искусственного языка // Информационные поисковые системы и автоматическая обработка научно-технической информации, 1967, с. 170-224.

88. Ланглебен М. М. Структура номинативных сочетаний в специальном фрагменте русского химического языка : дис. канд. филол. наук / М. М. Ланглебен . - М.: ВИНИТИ, 1970. -257 с.

89. Ланглебен М. М. Опыт построения метаязыка для описания квазилингвистической семиотической системы // Сб. «Исследования по математической лингвистике, математической логике и информационным языкам» / под ред.: Д. А. Бочвар, Ю. А. Шрейдер ; АН СССР. - М.: Наука, 1972.-с. 96-146.

90. Garfield Е. Chemico-linguistics: "Computer translation of chemical Nomenclature" // Nature, 1961, v. 192, № 4798. - 274 p.

91. Wahlgren J. II. Linguistics analysis of Russian chemical terminology // International Conference on Machine Translation and Applied Language Analysis, 1961. - London, 1962, pp. 250-263.

92. Cooke-Fox D. I., Kirby G. K, Rayner J. D. Computer translation of IUP AC systematic organic chemical nomenclature. 1. Introduction and background to a grammar-based approach. - Journal of Chemical Information and Computer Sciences, 1989, v. 29, pp. 101-105.

93. Cooke-Fox D. L, Kirby G. H., Rayner J. D. Computer translation of IUPAC systematic organic chemical nomenclature. 2. Development of a formal grammar. - Journal of Chemical Information and Computer Sciences, 1989, v. 29, pp. 106-112.

94. Cooke-Fox D. I., Kirby G. H., Rayner J. D. Computer translation of IUPAC systematic organic chemical nomenclature. 3. Syntax analysis and semantic processing. - Journal of Chemical Information and Computer Sciences, 1989, v. 29, pp. 112-118.

95. Cooke-Fox D. L, Kirby G. H„ Lord M. R., Rayner J. D. Computer translation of IUPAC systematic organic chemical nomenclature. 4. Concise connection tables to structure diagrams. - Journal of Chemical Information and Computer Sciences, 1990, v. 30, № 2, pp. 122-127.

96. Cooke-Fox D. L, Kirby G. II., Lord M. It, Rayner J. D. Computer translation of IUPAC systematic organic chemical nomenclature. 5. Steroid nomenclature. - Journal of Chemical Information and Computer Sciences, 1990, v. 30, № 2, pp. 128-132.

97. Cooke-Fox D. I, Ewart J. F., Kirby G. H., Lord M. R., Rayner J. D. The Concise Connection Table: Collected definitions with extensions for stereochemistry and saccharides. - Journal of Chemical Information and Computer Sciences, 1992, v. 32, № 5, pp. 556-559.

98. Klinger R., KolärikC., FluckJ., IIofmann-Apitiiis M., Friedrich С. M. Detection of IUPAC and IUPAC-like chemical names. - Bioinformatics, 2008, v. 24, № 13, pp. i268-i276.

99. Коптюг В. А. Использование вычислительных машин в спектроскопии молекул / Коптюг В. А., Грибов Л. А. // Журнал прикладной спектроскопии, 1971, т. 15, № 6, с. 11281129.

100. Дробышев 10. П., Ниглштулин Р. С., Лобанов В. К, Коробейначева И. К., Бочкарев В. С., Коптюг В. А. Использование ЭВМ для опознания химических соединений по их спектральным характеристикам: [сообщ.] 2. Машинная система поиска ИК-спектров по каталогу Садтлера // Известия Сибирского отделения Академии наук СССР, 1972, № 2. Сер. химических наук, вып. 1, с. 108-115.

101. Koptyug V. A. Computerized molecular spectroscopy data handling in the Novosibirsk Scientific Centre / Koptyug V. A., Drobyshev Yu. P. // Proceedings of II International conference on computers in chemical research and education (Ljubljana-Zagreb, 12-17 July). - Amsterdam, 1973, v. 2, p. 3/27-3/32.

102. Кафаров В. В. Методы кибернетики в химии и химической технологии: 4-е изд., пе-рераб., доп. - М.: Химия, 1985 (учебн. для вузов), 448 е., ил.

103. Апокии И. А., Майоров Л. Е., Эдлин И. С. Чарльз Бэббидж. - М.: Наука, 1981.

104. Михайлов А. К, Черный А. К, Гиляревскнй Р. С. Основы информатики. - М.: Наука, 1968.-756 с.

105. Михайлов А. К, Черный А. И., Гнляревскнй Р. С. Научные коммуникации и информатика. -М.: Наука, 1976.-435 с.

106. Yngve V. Н. Sentence-for-sentence translation. Mechanical Translation, 1955, v. 2, № 2, pp. 29-37.

107. Summers L. Machine translation of Russian organic chemical names into English by analysis and resynthesis of component fragments. - In: 1961 International Conference on Machine Translation and Applied Language Analysis: - London, 1962, pp. 266-279.

108. Ceccato S. Automatic translation of languages. - Information Storage and Retrieval, 1964, v. 2, pp. 105-158.

109. Beyer R. J. Language barrier. - Physics Today, 1965, v. 18, № 1, pp. 50-54.

110. Language and machines [Computer in translation and linguistics], - Washington (D.C.), 1966.-360 p.

111. Мельчук И. А. Автоматический синтаксический анализ. - Новосибирск, 1964, т. 1.

112. Мельчук И. А., Равич Д. Автоматический перевод 1949-1963: критико-библиографический справочник. - М.: Инст-т языкознания, 1967.

ПЪ.МеГс'ик I.A., Ravic' R. D. Traduction Automatique (1967-1970) / Ed. A.V. Gladkij. -Montreal, 1978.

114. Mel'c'ukl. Dependency Syntax: Theory and Practice. - Tirana, 1988.

115. Мельчук И. А. Опыт теории лингвистических моделей "Смысл <-»• Текст". - М., 1999.

116. Mel'cuk I. A. Machine translation and formal linguistics in the USSR. In: Hutchins (2000), pp. 205-226.

117. Martemyanov Yu. S. Valency-Junction-Emphasis Relations as a Language for Text Description // Trends in Soviet Theoretical Linguistics. - Dordrecht, 1973, pp. 62-85.

118. Мартемьянов Ю. С. Семантика в порождающей грамматике: проблемы и результаты // Принципы и методы семантических исследований. - М., 1976.

119.Мартемьянов Ю. С. Метафора «валентность»: место в метаязыках лингвистики // Семантика и информатика. - М: Изд-во "Языки рус. культуры", 1998, вып. 36, с. 51-70.

120. Леонтьева II. Н., Соколова Е. Г., Кудряшова И. М. Синтаксическое представление в системе французско-русского автоматического перевода (ФРАП) // Explicite Beschreibung der Sprache und automatische Textarbeiterung. VIII: Proceedings of the 10th Meeting on Automatic Text Processing (Prague, 1981). - Praha, 1982, pp. 147-157.

121. Гладкий А. В. Формальные языки и грамматики. -М.: Наука, 1973.

122. Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. - М.: Наука. Гл. ред. физ.-мат. лит., 1985. - 144 с. - Серия: Проблемы искусственного интеллекта.

123. Панов Д. Ю., Ляпунов А. А., Мухин И. С. Автоматизация перевода с одного языка на другой. - М.: Изд-во Академии Наук СССР, 1956.

124. Панов Д. Ю. Автоматический перевод. - М., Изд. АН СССР, 1958.

125. Вельская И. К. Язык человека и машина. - М., 1969.

126. Марчук 10. Н. Проблемы машинного перевода. - М., 1983. - 232 с.

127. Нелюбин Л. Л. Компьютерная лингвистика и машинный перевод. - М., 1991.

128. Кулагина О. С. О современном состоянии машинного перевода // Математические вопросы кибернетики. Вып. 3. -М.: Наука, 1991, с. 5-50.

129. Беляева Л. II, Откупщикова М. И. Автоматический (машинный) перевод. - В сб.: Прикладное языкознание. СПб, 1996.

130. Chomsky N. Aspects of the theory of syntax. - Cambridge, Massachusetts: MIT Press,

1965.

131. Shaumyan S. К Applicational Grammar as Semantic theory of Natural Language. - Chicago Univerity Press, Chicago, 1977.

132. Виноград Т. Программа, понимающая естественный язык. Перевод на русский язык. -М.: Мир, 1976.-296 с.

133. Леонтьева Н. Н., Никогосов С. Л. Система ФРАП и проблема оценки качества автоматического перевода // Машинный перевод и прикладная лингвистика. — М., 1980, вып. 20, с. 57-78.

134. Попов Э. В. Общение с ЭВМ на естественном языке. — М., 1982.

135. Белоногое Г. Г., Кузнецов Б. А. Языковые средства автоматизированных информационных систем. - М.: Наука, 1983.

136. Мальковский М. Г. Диалог с системой искусственного интеллекта. - М., 1985.

137. Hutchins W. J. Machine Translation: Past, Present, Future. - New York, 1986.

138. Кибрик A. E., Наринъяпа А. С. Моделирование языковой деятельности в интеллектуальных системах. - М.: Наука. Гл. ред. физ.-мат. лит., 1987. - 280 с.

139. Леонтьева Н. II. Система французско-русского автоматического перевода (ФРАП): Лингвистические решения, состав, реализация // МП-271. - М., 1987, вып. 271, с. 6-25.

140. Слокум Дж. Обзор разработок по машинному переводу: история вопроса, современное состояние и перспективы развития // Новое в зарубежной лингвистике. Компьютерная лингвистика. - М., 1989, вып. 24, с. 357^108.

141. Леонтьева Ii. Ii. О моделировании "мягкого" понимания текста // Теория и практика общественно-научной информации. - М., 1993, вып. 8, с. 80-97.

142. Белоногое Г. Г., Зеленков Ю. Г., Кузнецов Б. А., Новоселов А. П.,Пащенко Н. А., Хо-рошилов А. А., Хорошшов А. А. Интерактивная система русско-английского и англо-русского машинного перевода политематических научно-технических текстов // НТИ. Сер. 2, 1993, № 3, с. 20-27.

143. Белоногое Г. Г., Зеленков Ю. Г., Новоселов А. П., Хорошилов А. А., Хорошшов А. А. Системы фразеологического машинного перевода. Состояние и перспективы развития // НТИ. Сер. 2, 1998, № 12, с. 16-23.

144. Белоногое Г. Г., Гнляревекий Р. С, Егоров В. М., Новоселов А. П., Хорошилов А. А., Шогин А. Н. Автоматический перевод на русский язык англоязычных запросов и их формализация при поиске информации в русскоязычных реферативных базах данных // НТИ. Сер. 2, 2000, №8, с. 34-38.

145. Белоногое Г. Г., Хороиптов А. А., Хорошшюв А. А., Козачук М. В., Рыэюова Б. Ю., Гуськова Л. 10. Каким быть машинному переводу в XXI веке // Перевод: традиции и современные технологии. - М.: ВЦП, 2002.

146. Финн В. К. Об интеллектуальном анализе данных // Новости искусственного интеллекта, 2004, №3, с. 3-18.

147. Леонтьева H.H. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв, фак. вузов. - М.: Издательский центр "Академия", 2006. - 304 с.

Арский Ю. М., Финн В. К. Принципы конструирования интеллектуальных систем // Информационные технологии и вычислительные системы, 2008, № 4, с. 4-37.

149. Wierzbicka A. Semantic Primitives. Frankfurt: Athenäum. 1972.

150. Wierzbicka A. Semantics: Primes and universals. Oxford: Oxford University Press. 1996.

151. ВежбицкаяА. Семантические универсалии и описание языков. - М., 1999.

152. Шемакин 10. К, Романов А. А. Компьютерная семантика. - М.: НОЦ «Школа Китайгородской», 1995. - 344 с.

153. Bar-Hillel Y. Language and Information. Reading, MA: Addison Wesley, 1964, pp. 174182.

154. MelbyA. The Possibility of Language. - Amsterdam: Benjamins, 1995, pp. 27-41.

155. Мак Дэниел Дж., Прайс У. Л., Зансер Э. Дж. М., Йейтс Д. М. Оценка возможности использования переводов, полученных на машине в Национальной физической лаборатории (Теддингтон) и краткое описание алгоритма перевода. - В кн.: Автоматический перевод. М., 1971, с. 234-249.

156. Марчук Ю. II Некоторые действующие системы машинного перевода. - В кн.: Лингвистические проблемы «искусственного интеллекта». - М., 1980, с. 212-245.

157. Miller G. A., Beebe-Center J. G. Some psychological methods for evaluating the quality of translation. - Mechanical Translation, 1956, v. 3, № 3, pp. 73-80.

158.Кнорина Л. В. Особенности автоматического перевода в искусственных языках // НТИ, сб. ВИНИТИ. Серия 2, 1973, № 8, с. 30-33.

159. Потапов В. М., Кочетова Э. К. Химическая информация: Что, где и как искать химику в литературе. - М.: Химия, 1978. - 304 с.

160. Кулагина О. С. О машинном переводе текстов на естественных языках. - В кн.: Проблемы кибернетики. Вып. 27. - М., 1973, с. 33^45.

161. Кулагина О. С. Исследования по машинному переводу. -М.: Наука, 1979.-324 с.

162. Действующие системы машинного перевода и автоматические словари. Обзорная информация. / Всесоюзный центр переводов. - М.: ВЦП, 1979. - 70 с.

163. Синтаксический компонент в системах машинного перевода. Обзорная информация. - М.: ВЦП, 1981,- 132 с.

164. Stilhvell R. N. Computer translation of systematic nomenclature to structural formulas. -Journal of Chemical Documentation, 1973, v. 13, № 3, pp. 107-109.

165. Micklesen L. R. Russian-English MT. - American Contributions to the Forth International Congress of Slavicists, Moscow, September 1958, pp. 1-21. - Mouton & Co., 's-Gravenhage, Netherlands, 1958.

166. Кислякова О. И., Кнорина Л. В. Передача названий химических соединений при переводе с немецкого языка на русский. - В кн.: Научный симпозиум: "Семиотические проблемы языков науки, терминологии и информатики", ч. 2. М., 1971, с. 614-616.

167. Зейналова С. С. Особенности японских сложных химических названий (на материале японских научно-технических текстов по химии полимеров). - В кн.: Международный семинар по машинному переводу: Тезисы докл. - М., 1979, с. 91-92.

168. Ананьева Л. К, Галина М. Б., Голубева Ii. Е., Давыдова Э. А., Паппэ И. Я., Шевякова Л. А. Автоматизация номенклатурного перевода. - В кн.: Вопросы информационной теории и практики. - М., 1978, № 32, с. 12-18.

169.Давыдова Э. А. Некоторые вопросы перевода названий химических соединений с языка на язык. - В кн.: Вопросы информационной теории и практики. - М.: ВИНИТИ, 1979, № 41, с. 56-61.

170.Давыдова Э. А., Паппэ И. Я., Шевякова Л. А. Автоматизация перевода систематических наименований химических органических соединений с русского языка на немецкий. - М., 1980. - 7 с. Деп. в ВИНИТИ 24.IV.80, № 4747-80.

171. Name>Struct. URL: http://wvvvv.cambridgesoft.com/services/DesktopSupport/Documentation/N2S/ (проверено 6 ноября 2014 г.).

172. Marvin 14.11.3.0. URL: https://docs.chemaxon.com/display/products/Current+version (проверено 6 ноября 2014 г.).

173. Gunda Т. Е. Chemical structure drawing programs. The comparison of Isis/Draw, Chem-Draw and ChemWindow. - Magyar Kemiai Folyoirat, Kemiai Kozlemenyek, 1998, v. 104, № 1, pp. 25-29.

174. Sekel K. Visual workstations provide graphical capabilities for molecular modeling. - Scientific Computing and Instrumentation, 1999, v. 16, № 7.

175. Li Z, Wan H., Shi Y., Ouyang P. Personal experience with four kinds of chemical structure drawing software: Review on ChemDraw, ChemWindow, ISIS/Draw, and ChemSketch. - Journal of Chemical Information and Computer Sciences, 2004, v. 44, № 5, pp. 1886-1890.

176. Elliston J. S. G. Computer Aided Translation: A Business Viewpoint // Translating and the Computer. - Snell В. M., Ed., Amsterdam North-Holland, 1979, pp. 149-158.

177. Wheeler P. J. SYSTRAN // Machine Translation Today: The State of the Art. - King M., Ed., Edinburgh University Press: Edinburgh, U.K., 1987, pp. 192-208.

178. Japan Patent Office. URL: http://www.jpo.go.jp/ (проверено 6 ноября 2014 г.).

179. Григорян Л. А., Винокуров Е.Г., Бондарь В. В. Трехмодульный программный комплекс для перевода русскоязычного названия органического соединения в структурный граф // Успехи в химии и химической технологии: сб. науч. тр. Том XXVIII, № 1 (150). - М.: РХТУ им. Д. И. Менделеева, 2014. - С. 117-119.

180. Григорян JI. А., Бондарь В. В., Немировская И. Б. Программа перевода систематических названий химических соединений в молекулярные графы (расширение на заменительную номенклатуру) // НТИ. Серия 2, Информационные процессы и системы, 2006, № 3, с. 21-25.

181. Григорян Л. А., Бондарь В. В., Немировская И. Б. Программа перевода систематических названий химических соединений в молекулярные графы (расширение на класс ароматических соединений) // НТИ. Серия 2, Информационные процессы и системы, 2006, № 8, с. 2126.

182. Григорян Л. А. Программа перевода систематических названий химических соединений в молекулярные графы (расширение на номенклатуру Ганча-Видмана); Всеросс. ин-т науч. и техн. информации. - М., 2006. - 19 с. - Ил. - Библиогр.: 10 назв. - Рус. - Деп. в ВИНИТИ РАН 25.08.06, № 1103-В 2006.

183. Григорян Л. А., Бондарь В. В., Винокуров Е. Г. Информационные технологии межъязыкового машинного перевода названий химических соединений // Химическая технология и биотехнология новых материалов и продуктов. VI Международная конференция РХО им. Д. И. Менделеева: тез. докл. - М.: РХТУ им. Д. И. Менделеева, 2014. - С. 19-20.

184. Григорян Л. А. Автоматическое порождение структуры по названию химического соединения // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции «Диалог-2006» (Бекасово, 31 мая - 4 июня 2006 г.), - М.: Изд-во РГГУ, 2006, с. 119-123.

185. Ггтяревский Р. С., Старостин Б. А. Иностранные имена и названия в русском тексте. Справочник. Изд. 2-е. — М.: Международные отношения, 1978. - 238 с.

186. СТ СЭВ 1362-78. ГОСТ 16876-71. Правила транслитерации букв кирилловского алфавита буквами латинского алфавита. - Апр. 1971.

187. Смирнов И. П. Способы транслитерации русских слов латинскими буквами в переводах с русского языка // Всес. конф. "Совершенствование перевода научно-технической литературы и документов": Тез. докл. - М., 1982, с.70-73.

188. Ревзип И. И, Розенцвейг В. Ю. Основы общего и машинного перевода. - М.: Высшая школа, 1964. - 240 с.

189. Adamson G. W., Barden D. A method of structure-activity correlation using Wiswesser line notation. - Journal of Chemical Information and Computer Sciences, 1975, v. 15, № 4, pp. 215220.

190. Adamson G. W., Barden D. Substructural analysis techniques for empirical structure-property correlation. Application to stereochemically related molecular properties. - Journal of Chemical Information and Computer Sciences, 1980, v. 20, № 2, pp. 97-100.

191. Лингвистический энциклопедический словарь / Гл. ред. Ярцева В. Н. - М.: Советская энциклопедия, 1990. — 683 с.

192. Блумфилд Л. Язык. Пер. с англ., - М., 1968.

193. Двуязычный информационно-поисковый тезаурус классов органических соединений (русско-немецкий/немецко-русский). -М.: ВИНИТИ, 1987. - 384 с.

194. Двуязычный список понятий по химии и химической технологии. Пономерной порядок (русско-немецкий). - М.: ВИНИТИ, 1979. - 81 с.

195. Двуязычный список терминов по химии и химической технологии. - М.: ВИНИТИ, 1979.-82 с.

196. Маслов Ю. С. Введение в языкознание. - Учебник для филол. и лингв, фак. высш. учеб. заведений / 4-е изд., стер. - СПб: Филологический факультет СПбГУ; М.: Издательский центр «Академия», 2005. - 304 с.

197. Бондарь В. В., Винокуров Е. Г., Григорян Л. А. Укорачивающая грамматика на основе обновленной классификации морфем химической номенклатуры, используемая в программном комплексе «Номенклатурный Генератор» // НТИ. Серия 2, 2014, № 7, с. 6-15.

198. Потапов В. М., Кочетова Э. К. Старшинство в номенклатуре органических соединений // Журнал ВХО им. Д. И. Менделеева, 1983, т. 28, № 3, с. 42^5.

199. Григоряп Л. А. Разработка словарей морфем химической номенклатуры // Вестник РГГУ, № 8 (130), серия «Филологические науки. Языкознание» / Московский лингвистический журнал, т. 16,2014, с. 139-149.

200. Лидии Р. А., Аликберова Л. Ю. Химия. Справочник для старшеклассников и поступающих в вузы. - М.: АСТ-ПРЕСС ШКОЛА, 2004. - 512 с.

201. Селиверстова Т. Г. Азотистосодержащие гетероциклические соединения // Основные вопросы теории и практики преподавания химии: Сборник научных и методических статей Всероссийской научно-практической конференции, Волгоград, 7 окт., 2011. - М.: НПФ "Планета", 2011, с. 81-84.

202. Белоногое Г. Г., Калинин Ю. П., Поздняк В. М., Хорошилов А. А., Яфаева Г. М. Алгоритм многоступенчатого морфологического анализа русских слов // НТИ, сб. ВИНИТИ. Серия 2, 1983, № 1, с. 6-11.

203. Белоногое Г. Г., Богатырев В. И. Автоматизированные информационные системы. — М.: Сов. радио, 1973. - 328 с.

204. Крисевич В. С., Совпель И. В. Машинный перевод как автоматизированная информационно-поисковая система. // Автоматический анализ текстов. - Минск, 1976, с. 103-104.

205. Dittmar P. G., Stobaugh R. E., Watson С. E. The Chemical Abstracts Service chemical registry system. I. General design. - Journal of Chemical Information and Computer Sciences, 1976, v. 16, №2, pp. 111-121.

206. Финн В. К. К структурной когнитологии: феноменология сознания с точки зрения искусственного интеллекта // Вопросы философии, № 1, 2009, с. 88-103.

207. CAS Statistical Summary 1907-2007. CAS2475-0208, Feb. 2008.

208. UNESCO Science Report 2010. URL: http://www.unesco.org/new/en/natural-sciences/science-technology/prospective-studies/unesco-science-report/unesco-science-report-2010/download-report/ (проверено 6 ноября 2014 г.).

209. Бондарь В. В., Григорян Л. А. Сколько научных публикаций в год выходит в РФ? // НТИ-2012: 8 Международная конференция, посвященная 60-летию ВИНИТИ, "Актуальные проблемы информационного обеспечения науки, аналитической и инновационной деятельности", Москва, 28-30 ноября, 2012: Материалы конференции. М.: ВИНИТИ РАН. 2012, с. 60-61.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.