Методы и программные средства извлечения терминологической информации из научно-технических текстов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат физико-математических наук Ефремова, Наталья Эрнестовна

  • Ефремова, Наталья Эрнестовна
  • кандидат физико-математических науккандидат физико-математических наук
  • 2013, Москва
  • Специальность ВАК РФ05.13.11
  • Количество страниц 135
Ефремова, Наталья Эрнестовна. Методы и программные средства извлечения терминологической информации из научно-технических текстов: дис. кандидат физико-математических наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Москва. 2013. 135 с.

Оглавление диссертации кандидат физико-математических наук Ефремова, Наталья Эрнестовна

СОДЕРЖАНИЕ

Введение

Глава 1. Методы извлечения терминов из текстов

1.1 Статистические и лингвистические критерии извлечения

1.2 Способы повышения точности извлечения

1.3 Учет терминологических вариантов

1.4 Формальное описание извлекаемых конструкций

Глава 2. Лексико-синтаксические шаблоны употреблений терминов

2.1 Особенности научно-технических терминов

2.2 Конструкции и варианты употребления терминов

2.3 Состав лексико-синтаксических шаблонов

2.4 Шаблоны конструкций и вариантов терминов

Глава 3. Процедуры извлечения употреблений терминов

3.1 Схема работы процедур

3.2 Правила наложения шаблонов на текст

3.3 Извлечение словарных и несловарных терминов

3.4 Извлечение авторских терминов и терминов из соединений

3.5 Извлечение синонимов терминов

3.6 Распознавание текстовых вариантов терминов

3.7 Программная реализация процедур извлечения

Глава 4. Стратегия объединения процедур извлечения

4.1 Экспериментальное исследование работы процедур

4.2 Анализ результатов исследования

4.3 Стратегия объединения результатов процедур

4.4 Применение процедур извлечения в прикладных задачах

Заключение

Список литературы

Приложение А. Синтаксис языка лексико-синтаксических шаблонов

Приложение Б. Шаблоны определений терминов и введения их синонимов

Приложение В. Примеры словарных шаблонов

Приложение Г. Шаблоны вариантов употребления терминов

Приложение Д. Правила стратегии

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и программные средства извлечения терминологической информации из научно-технических текстов»

ВВЕДЕНИЕ

Стремительное развитие науки и техники, широкое распространение вычислительных комплексов и компьютерных сетей, лавинообразное увеличение объемов различных данных - все это делает как никогда актуальным разработку и совершенствование методов сбора, хранения и обработки информации на базе вычислительных систем.

Значительная часть обрабатываемой вычислительными системами информации представлена в традиционном для человека виде - в виде текстов на естественном языке, чем объясняется существование целого ряда прикладных задач автоматической обработки текста (АОТ). К ним относятся:

- перевод текстов с одного естественного языка (ЕЯ) на другой [17, 22];

- индексирование документов и запросов пользователей для информационного поиска [19, 64];

- классификация и рубрицирование текстов [34, 36];

- реферирование и аннотирование текстов [24, 67];

- извлечение информации из коллекций текстов [8, 83];

- построение онтологий по текстам предметной области [33, 60];

- создание и обновление компьютерных словарей [3, 59].

Решение указанных прикладных задач АОТ требует поэтапной обработки текста на естественном языке (ЕЯ-текста), которая в общем случае включает графематический, морфологический, синтаксический и семантический анализ [39, 69, 71]. В ходе графематического анализа в тексте выделяются слова, происходит разбиение текста на предложения, абзацы. С помощью морфологического анализа устанавливается, к какой части речи относится каждое слово текста, и в какой грамматической форме оно употреблено. В свою очередь, синтаксический анализ выявляет синтаксическую структуру предложений, а семантический анализ определяет смысл отдельных фрагментов и текста в целом.

При решении многих прикладных задач некоторые из вышеперечисленных этапов могут упрощаться или даже опускаться. К примеру, при решении задач индексирования и реферирования документов часто не проводится развернутый синтаксический и семантический анализ обрабатываемых текстов [19, 24].

Основная причина попыток упрощения этапа синтаксического анализа связана со сложностью его проведения. В ходе выполнения этого этапа, как правило, даже для сравнительно небольшого предложения ЕЯ-текста строится довольно много вариантов его синтаксического разбора. С увеличением длины предложения количество вариантов возрастает экспоненциально, и тем самым для больших текстов время их полного синтаксического анализа и объем используемых при этом машинных ресурсов нередко оказываются просто неприемлемыми. Поэтому при решении ряда задач АОТ вместо полного синтаксического разбора каждого предложения текста проводится частичный синтаксический анализ, при котором распознаются лишь определенные синтаксические конструкции, в первую очередь, словосочетания [5, 19, 69].

Использование частичного синтаксического анализа оказалось оправданным при решении задач АОТ, в которых необходимо выявлять так называемые ключевые слова и словосочетания, отражающие содержание обрабатываемого текста, и связи между ними. Среди таких задач -индексирование, классификация и рубрицирование текстов [5, 19, 69]. Кроме того, частичный синтаксический анализ применяется при извлечении информации из ЕЯ-текстов (в частности, при извлечении именованных сущностей: персоналий, адресов, географических названий, наименований товаров) [27], а также при создании и обновлении машинных словарей по текстам определенной предметной области (ПО) [63, 66]. При этом для более полного и точного распознавания нужных текстовых единиц часто учитывается не только их структура, но и особенности их употребления в обрабатываемых ЕЯ-текстах [63, 66].

Как показывают лингвистические исследования, существенные особенности ЕЯ-текстов и употребляемых в них единиц в первую очередь связаны с разными функциональными стилями речи [62, 72], появление которых обусловлено многообразием целей и условий общения людей. Обычно выделяют разговорный, публицистический, научно-технический стили и стиль художественной литературы [73]. Различие между стилями прослеживается на всех уровнях языка, но особенно ярко оно проявляется на лексическом и синтаксическом уровнях: от конкретного стиля зависит допустимый словарный состав текстов и используемые в них синтаксические конструкции [73].

Наиболее выраженной спецификой обладает научно-технический стиль. Одна из его характерных особенностей - насыщенность текстов терминами, т.е. словами и словосочетаниями, называющими понятия определенной ПО (коммунальные сооружения, спектральный коэффициент излучения, прерывание от внешнего устройства и т.п.) [29, 73]. Поскольку термины, как правило, входят в число наиболее частотных единиц научно-технического текста (НТ-текста) и достаточно точно отображают его содержание, их распознавание требуется при решении большинства прикладных задач АОТ. Отметим, что в современных системах АОТ извлечение терминологических слов и словосочетаний чаще всего реализуется на базе частичного синтаксического анализа.

Термины и называемые ими понятия ПО возникают в ходе научных исследований и фиксируются в соответствующих НТ-текстах (докладах, статьях, монографиях), а затем и в словарях и учебниках, составленных на основе этих текстов [29, 56]. Среди терминологических слов и словосочетаний, встречающихся в НТ-текстах, обычно выделяют [29, 75]:

- общепринятые термины, которые, как правило, зафиксированы в существующих терминологических словарях;

- новые термины, которые вводятся для обозначения понятий, возникших в ходе описываемых научных исследований - они, как правило, отсутствуют в словарях.

Для распознавания из ЕЯ-текстов общепринятых терминов разработаны и широко используются автоматические процедуры, опирающиеся на компьютерные словари терминов [39, 46, 71]. Если слово или словосочетание, употребленное в тексте в одной из его возможных грамматических форм, входит в словарь, то оно распознается как известный термин.

Для автоматического извлечения из текстов новых терминов применяются эвристические методы, опирающиеся на лингвистические и статистические критерии [5, 19]. Статистические критерии в основном используют частоты встречаемости слов в обрабатываемом тексте или коллекции текстов, а также вычисляемые на основе этих частот статистические величины [6, 12, 31]. В частности, в некоторых системах АОТ в качестве терминов рассматриваются слова и словосочетания, частота встречаемости которых выше заданного порога [31, 59]. Отметим, что статистические критерии работают тем лучше, чем больше объем анализируемых текстов, поэтому в современных системах АОТ эти критерии, как правило, используются для извлечения терминов из коллекций текстов [7, 32].

Лингвистические критерии в первую очередь опираются на структуру терминологических словосочетаний. Поскольку термины преимущественно представляют собой одно-, двух- и трехсловные именные словосочетания [1, 20, 59], распознанные в тексте словосочетания с подобной структурой могут рассматриваться в качестве потенциальных терминов. Определенную структуру терминов обычно описывают в виде так называемого синтаксического образца, который задает части речи составляющих термин слов и синтаксические связи между ними. К примеру, N - это образец, описывающий однословные термины-существительные (вектор, аорта), А N - образец

двухсловных терминов, состоящих из прилагательного и следующего за ним существительного (понятийная операция, существенный пример), N Ngen -образец терминологических словосочетаний из существительного и существительного в родительном падеже (квантор общности, анафора рекурсии) и др.

При выявлении терминов кроме их структуры нередко учитываются языковые конструкции, в которых термины употребляются. С опорой на конструкции, типичные для рассматриваемой ПО, из текста извлекаются слова и словосочетания, которые считаются возможными терминами [16, 25, 27, 28]. К примеру, в работе [27] в текстах сельскохозяйственной тематики распознаются конструкции вида yields of SPECIES (yield of wheat, yield of rice - урожай пшеницы, урожай риса), из которых извлекаются SPECIES -названия выращиваемых культур.

Одна из основных проблем автоматического извлечения терминологической информации из текстов на базе статистических и лингвистических критериев связана с тем, что этим критериям удовлетворяют не только термины ПО, но и некоторые слова и словосочетания общеупотребительной лексики. Например, могут быть распознаны как термины (хотя ими не являются) часто встречающиеся в НТ-текстах словосочетания типа задача, основная идея, применение правила (их структура соответствует синтаксическим образцам, приведенным выше). Кроме того, одно и тоже словосочетание может быть термином в одной предметной области, но не выступать в качестве такового в текстах других ПО: к примеру, словосочетание настоящее время является термином в лингвистических текстах, но не в текстах из области биологии или информатики. Тем самым, современные методы автоматического извлечения терминов из ЕЯ-текстов позволяют получать в результате своей работы всего лишь потенциальные термины, или термины-кандидаты, т.е. такие слова и словосочетания, для которых только с

той или иной степенью определенности (точности) можно утверждать, что они являются терминами.

Наряду с проблемой точности извлечения терминов неизбежно возникает и проблема полноты их распознавания. Поскольку ни статистические, ни лингвистические критерии в полной мере не могут учесть всех особенностей терминов, в текстах достаточно часто остаются нераспознанными малочастотные термины или термины с нестандартной синтаксической структурой.

В современных системах АОТ основным способом повышения полноты и точности извлечения терминов является подбор нужной комбинации статистических и лингвистических критериев [1, 10, 20, 32, 59], но даже в этом случае точность распознавания терминов чаще всего колеблется в интервале от 20% до 50%, а полнота - от 55% до 85% в зависимости от объемов обрабатываемых текстов и применяемой комбинации критериев [1, 12]. Таким образом, проблема повышения полноты и, в особенности, точности работы автоматических методов извлечения терминов остается до сих пор актуальной.

При решении таких прикладных задач АОТ, как создание и обновление компьютерных словарей или построение онтологий по текстам ПО, приемлемые значения полноты и точности извлечения терминов достигаются при обработке больших коллекций текстов [1, 18, 26, 59]. В тоже время во многих других задачах АОТ необходим анализ терминов отдельно взятого НТ-текста, при котором возможности статистических критериев существенно ограничены. К таким задачам относятся: автоматический перевод текста с одного ЕЯ на другой, реферирование и аннотирование текста, составление глоссария и предметного указателя документа, а также автоматизация литературно-научного редактирования НТ-текста [42, 72]. В подобных задачах требуется как можно более полное распознавание не только различных терминов, но и всех их вхождений в анализируемый текст с сопутствующим

подсчетом частоты употребления терминов, что дает возможность более адекватно оценивать его понятийное содержание.

Сложности выявления различных вхождений терминов в текст в первую очередь связаны с тем, что термины достаточно часто при употреблении видоизменяются - усекаются, сокращаются, заменяются синонимами и т.д. [20, 23, 35]: коммуникативная многозначность запроса - коммуникативная многозначность, синтаксическое представление - СинП, вложенный файл -вложение. Подобные текстовые варианты представляют собой различные формы выражения одного и того же понятия и по возможности должны быть распознаны при обработке текста. Например, в тексте [53] термин информационная система употребляется 32 раза, причем 7 из них - в исходном виде, 4 раза встречается его усеченный вариант система, а 21 раз -сокращение-синоним ИС. Большинство современных методов автоматического извлечения терминов не распознает такие текстовые варианты и подсчитанная ими частота употребления термина информационная система будет равна 7, а не 32.

Кроме указанных выше текстовых вариантов в НТ-текстах встречаются также соединения (комбинации) нескольких терминологических словосочетаний [18, 68]. Типичным примером соединения терминов является фраза входные и выходные данные, образованная из двух терминов: входные данные и выходные данные. Такие соединения также представляют собой варианты вхождения терминов в текст, которые следует учитывать при решении прикладных задач АОТ [1, 20, 26].

Для автоматического распознавания текстовых вариантов и соединений терминов применяются два основных подхода [5, 19]. В рамках первого подхода термин и его предполагаемый вариант (слово или словосочетание) рассматриваются как последовательности символов, и с помощью специальных эвристик численно оценивается степень их схожести [11, 55], а затем на основе

полученного численного значения делается вывод о том, действительно ли рассматриваемое слово (словосочетание) является вариантом термина.

В рамках второго подхода для выявления различных вхождений терминов в текст используются правила их варьирования. Эти правила предварительно описываются по отдельности для каждого синтаксического образца термина [10, 18]. Например, правило вида А N —> А А N описывает варьирование английских терминов вида А N (прилагательное и следующее за ним существительное), и позволяет, в частности, для термина acidic protein {кислый белок) распознать в тексте его вариант acidic epidermal protein (кислый белок эпидермиса). В работе [18] с помощью подобных правил решается задача поиска в корпусе текстов различных способов выражения определенного понятия.

Первый из рассмотренных подходов к выявлению вариантов терминов можно считать языковонезависимым, но в его рамках возможно распознавание далеко не всех видов вариантов. В частности, с его помощью успешно распознаются текстовые варианты вида нуль - ноль, colour - color, однако для выявления вариантов, в которых изменяются входящие в термин слова и синтаксические связи между ними {устройства считывания - читающие устройства), этот подход не дает приемлемых значений полноты и точности их распознавания.

Второй подход обеспечивает выявление большего количества различных видов вариантов (включая и соединения многословных терминов). Однако он является языковозависимым, поскольку в целом правила варьирования терминов зависят от конкретного ЕЯ. К настоящему моменту правила образования ряда типичных текстовых вариантов и соединений терминов сформулированы и используются в системах АОТ для английского и французского языков [1, 18, 26]. Они записаны в формальном виде и отделены от используемых в этих системах процедур извлечения из ЕЯ-текста терминов

и их вариантов, что позволяет достаточно просто изменять и расширять набор существующих правил для распознавания новых случаев варьирования. Для русского языка аналогичные правила не формализованы и нет реализации соответствующих процедур выявления терминологических вариантов.

Таким образом, проблема автоматического извлечения терминов и их различных вхождений в анализируемые тексты с приемлемой для конкретной прикладной задачи полнотой и точностью остается до сих пор актуальной.

В данной диссертационной работе рассматривается задача автоматического извлечения из заданного НТ-текста на русском языке терминологической информации, включающей:

- общепринятые термины;

- конструкции определений новых терминов и введения их синонимов;

- текстовые варианты распознанных терминов;

- соединения терминологических словосочетаний;

- частоту употребления в тексте распознанных терминов и вариантов. Поскольку объем НТ-текста может быть небольшим (научные статьи, аннотации), а статистические критерии хорошо работают только для текстов значительного объема, при решении поставленной задачи основной упор сделан на применение лингвистических критериев.

В диссертации предложен подход, позволяющий единообразно формализовать термины, конструкции и варианты употребления терминов и построить на основе этой формализации автоматические процедуры извлечения указанной терминологической информации из обрабатываемого НТ-текста. Дополнительно отметим, что поскольку процедуры извлекают разнотипную информацию (определения терминов, их текстовые варианты и т.д.), объединение результатов их работы гипотетически должно улучшить показатели точности и полноты извлечения терминов из НТ-текстов. В частности, учет типичных для русскоязычных НТ-текстов терминологических

вариантов (наряду с прямыми вхождениями терминов в текст) в общем случае должен повысить полноту выявления различных употреблений терминов в тексте.

Лингвистическая информация, используемая при извлечении терминов, а также конструкций и вариантов их употребления записывается в виде формальных лексико-синтаксических шаблонов. Лексико-синтаксический шаблон позволяет фиксировать состав и синтаксические связи (грамматическое согласование) слов описываемой языковой конструкции: терминологического словосочетания, определения термина (под Т мы будем понимать О), введения его синонима (Т1 будем также называть Т2), текстового варианта, соединения терминов и т.д.

В рамках предлагаемого подхода в виде лексико-синтаксических шаблонов записаны типичные для научной прозы:

■ синтаксические образцы терминологических слов и словосочетаний;

■ конструкции определений терминов и введения их синонимов, а также правила извлечения из них терминов;

■ правила образования лексико-синтаксических вариантов терминов (в них изменяются входящие в термин слова и синтаксические связи между ними);

■ структура соединений терминов и правила извлечения из них терминологических слов и словосочетаний.

Для автоматического извлечения терминологической информации из заданного текста на русском языке разработаны процедуры, опирающиеся на формальное описание распознаваемых языковых конструкций в виде лексико-синтаксических шаблонов. Эффективность работы процедур исследована на текстах, относящихся к двум предметным областям: информатика и вычислительная техника (ИиВТ) и физика. Для этого в виде лексико-синтаксических шаблонов были дополнительно описаны термины, входящие в

словари по ИиВТ и физике [48, 61, 81], что позволило использовать в экспериментальном исследовании процедур шаблоны языковых конструкций, типичных как для научной прозы в целом, так и для указанных научных областей в частности. По результатам исследования полнота выявления терминов и их различных употреблений составила в среднем 77%.

Ясно, что для достижения подобной эффективности извлечения в других научных областях требуется учесть (и формализовать в виде шаблонов) словарные термины, конструкции и варианты употребления терминов, специфические для этих научных областей. Применение в разработанных процедурах извлечения в качестве входных данных наборов шаблонов дает возможность достаточно просто настраивать эти процедуры для обработки случаев терминоупотреблений, характерных для текстов разных ПО, путем корректировки существующих и добавления новых шаблонов.

По результатам проведенного исследования в диссертации предложена стратегия объединения результатов работы процедур, позволяющая улучшить показатели точности и полноты извлечения терминов из заданного НТ-текста, и в том числе - получать более точную информацию о частоте их употреблений в тексте.

Предложенный в диссертации подход к извлечению терминологической информации из заданного НТ-текста и разработанные в его рамках процедуры могут быть использованы при решении прикладных задач АОТ, в которых требуется по возможности более точное и полное распознавание различных употреблений терминов в тексте для раскрытия его понятийного содержания. К таким задачам относится реферирование и аннотирование НТ-текстов, индексирование документов и расширение запросов для информационного поиска, построение глоссария и предметного указателя документа. Разработанные методы и программные средства извлечения терминологической информации могут быть также применены в прикладных

задачах, требующих более развернутого терминологического анализа НТ-текста, в том числе - выявления связей извлеченных терминов.

Единообразное формальное описание лингвистической информации об употреблении терминов в НТ-текстах в виде лексико-синтаксических шаблонов, принцип построения на их основе программных процедур извлечения из заданного текста различных употреблений терминов, а также формулировка стратегии, объединяющей результаты работы этих процедур, в целом представляют научную новизну полученных в диссертации результатов.

Основной текст диссертации состоит из введения, четырех глав и заключения. В главе 1 приведен обзор существующих методов извлечения терминологических слов и словосочетаний из ЕЯ-текстов. В главе 2 введено понятие лексико-синтаксического шаблона и описана формализация типичных для научно-технической прозы языковых конструкций. В главе 3 обсуждаются разработанные процедуры извлечения из НТ-текста терминов, конструкций и вариантов употребления терминов по их формальному описанию в виде лексико-синтаксических шаблонов, а также охарактеризована программная реализация процедур извлечения. В главе 4 проанализирована эффективность работы реализованных процедур и описана стратегия извлечения терминов из НТ-текста, цель которой - увеличение Б-меры - комбинированного показателя, вычисляемого как гармоническое среднее полноты и точности извлечения. В заключении сформулированы результаты диссертационного исследования.

В Приложении А дано формальное описание языка лексико-синтаксических шаблонов в виде нормальных форм Бэкуса-Наура (БНФ). В других приложениях представлены:

- шаблоны определений терминов и введения их синонимов - см. Приложение Б;

- примеры словарных шаблонов - см. Приложение В;

- правила образования лексико-синтаксических вариантов и правила извлечения терминов из соединений - см. Приложение Г.

В Приложении Д приведена формальная запись (с использованием теоретико-множественных операций) правил предложенной стратегии извлечения терминов.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Заключение диссертации по теме «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», Ефремова, Наталья Эрнестовна

На результаты работы всех исследуемых процедур повлияла неполнота базы шаблонов, в которой не учтены редкие случаи терминоупотребления; потери в среднем составили для - 14,9%, для - 1,7%, для Ии - 5,4%. К примеру, в тексте 4 встретилась фраза

Регистр представляет собой совокупность бистабилъных устройств вводящая авторский термин регистр, однако распознающий ее лексико-синтаксический шаблон в базе отсутствует. При добавлении шаблона этой конструкции в базу шаблонов полнота извлечения авторских терминов повышается на 5,7%, но точность при этом понижается на 25,3%. Падение точности неизбежно возникает из-за двусмысленности данной конструкции, которая основана на словах представляет собой и чаще поясняет какое-то понятие текста, а не вводит его определение.

Особенности лексико-синтаксических шаблонов

Нередко возникает ситуация, когда к одним и тем же языковым конструкциям применимы разные шаблоны, во многих случаях это приводит к ухудшению полноты и точности извлечения терминов и их употреблений. По указанной причине потери полноты составили 28,8% для и 30,1% для Ыи, потери точности составили 3,0% для и 13,1% для Ри.

К примеру, в тексте 1 процедурой getNonDictTerms по шаблону N1 А2 К2 было выявлено словосочетание выделение динамической памяти, не являющееся термином, а термин динамическая память, описываемый шаблоном А1 N1 , выявлен не был, т.к. оказался его частью. В тоже время, в тексте 3 процедурой де10;1с1:Тегтз был выявлен словарный термин определение, который в тексте является лишь частью несловарного термина определение простоты числа.

Кроме того, некоторые языковые конструкции имеют сходную синтаксическую структуру, например, отдельные термины и бессоюзные соединения нескольких терминологических словосочетаний (ср. термины метод независимых алгоритмов, число большой разрядности и соединения выделение динамической памяти, линия внешних данных). Так, словосочетание выделение динамической памяти из текста 1 на самом деле представляет собой соединение словарного термина выделение памяти и несловарного термина динамическая память.

Следовательно, множества терминов-кандидатов полученные всеми исследуемыми процедурами по отдельности требуют совместной обработки для распознавания вышеописанных случаев вложения и соединения терминов.

Ограничения лингвистических критериев

Данная причина приводит к существенному снижению точности во всех процедурах извлечения, потери в среднем составили для - 36,8%, для Ри -15,6%. Например, типичным синтаксическим образцам терминов в тексте соответствует большое количество слов и словосочетаний, либо не являющихся терминами, либо уже выявленных как термины другими процедурами. Из текста 3 как соответствующие образцу А N , с одной стороны, были выявлены такие словосочетания, как различные способы и простое решение, а с другой - несловарные термины скрытая ошибка и длинное число.

Тем самым, множества терминов-кандидатов, полученные процедурами извлечения, следует обработать дополнительно для исключения из них слов и словосочетаний, не являющихся терминами. Например, при обработке результатов процедуры getNonDictTerms для повышения точности извлечения терминов целесообразно привлечь статистический критерий, позволяющий отсеивать наименее вероятные термины. В качестве порогового значения предложено использовать среднее взвешенное арифметическое всех частот терминов-кандидатов (извлеченных этой процедурой), которое учитывает их важные характеристики: f,

F = - ,

2л. nx где f x - значение частоты употребления i-oro кандидата, а знаменатель дроби представляет собой количество выявленных процедурой getNonDictTerms слов и словосочетаний. При рассмотрении всех терминов-кандидатов, полученных процедурой getNonDictTerms, точность извлечения составляет 27,4%, при рассмотрении же кандидатов только с частотой употребления не меньше округленного значения F точность уже составляет 71,5%.

Употребление текстовых вариантов

Снижение полноты извлечения терминов и их употреблений в процедурах getDictTerms, getAuthTerms и getNonDictTerms также связано с тем, что в них (в каждой по отдельности) не учитывается возможность варьирования терминов; в среднем потери составили для Rt -5,7%, для Ru - 7,8%, для Pt - 4,0%, для Ри - 3,4%. Например, частота употребления термина общая теория относительности в тексте 2 по оценкам экспертов равна 37, причем из них 15 раз термин употребляется в тексте в указанном виде, 1 раза встречается его усеченный вариант теория относительности, и 21 раз в тексте употребляется сокращение-синоним ОТО. Процедурой же getDictTerms было найдено лишь 15 употреблений данного термина.

Отметим, что при извлечении словарных терминов учет синонимов (путем объединения результатов работы процедур getDictTerms и getSynTerms) позволяет увеличить полноту извлечения различных употреблений одного и того же термина на 3,9%. С другой стороны, подобное объединение результатов работы процедур приводит к ощутимому падению точности извлечения и терминов, и их употреблений - на 7,8% и 6,0% соответственно. Следовательно, необходима определенная стратегия учета вариантов употребления терминов - синонимов, терминов из соединений и текстовых вариантов (результатов работы процедур getSynTerms, де1:Тегтз:ЁготСотЬэ и де1:Уагз£огТегтБ соответственно), позволяющая в целом улучшить показатели полноты и точности извлечения.

4.3 Стратегия объединения результатов процедур

Цель предлагаемой стратегии - улучшить в целом показатели полноты и точности извлечения из НТ-текста терминов и их употреблений; ее суть заключается в следующем [65]. Сначала к рассматриваемому тексту по отдельности применяются разработанные процедуры извлечения терминоупотреблений, в результате их применения получаются множества терминов-кандидатов. Затем из них по эвристическим правилам, сформулированным по итогам проведенного экспериментального исследования, отбираются наиболее вероятные кандидаты. Правила применяются по очереди, и в результате для обрабатываемого текста итерационно строится итоговое множество М записей об отобранных терминах-кандидатах и итоговый набор групп текстовых вариантов Сь С2,., Сы.

Правила делятся на три группы:

1) Правила 1-3 начального формирования множества М.

2) Правила 4-7 и 9-12 расширения множества М за счет учета вариантов употребления терминов.

3) Правило 8 формирования групп текстовых вариантов Сь С2,., бы.

Правила задают условия включения терминов-кандидатов в множество М и в набор групп Сь С2, ., Сы. Перед началом применения правил вычисляется значение [Р] - округленное среднее взвешенное арифметическое частот всех элементов множества МпопслсЬ (полученного процедурой getNonDictTerms). Нумерация правил соответствует порядку их применения. Каждый раз при включении кандидата в множество М вызывается процедура де!Егедиепсу.

Будем иллюстрировать применение правил на примере следующего текстового фрагмента:

Микропроцессор представляет собой сверхбольшую интегральную схему, реализованную в едином полупроводниковом кристалле и способную выполнять функции центрального процессора. С внешними устройствами (ВУ) микропроцессор может «общаться» благодаря шинам адреса, данных и управления, выведенным на специальные контакты корпуса микросхемы. Разрядность внутренних регистров микропроцессора при этом может не совпадать с количеством внешних выводов для линий данных, т.е. микропроцессор с 32-разрядными регистрами может иметь, например, только 16 линий внешних данных.

Любое внешнее устройство, совершающее по отношению к микропроцессору операции ввода-вывода, можно назвать периферийным. Порт — это некая схема сопряжения, обычно включающая в себя один или несколько регистров ввода-вывода и позволяющая подключить, например периферийное устройство к внешним шинам микропроцессора. Практически каждая микросхема использует для различных целей несколько портов ввода-вывода.

Правила начального формирования множества М

В правилах начального формирования множества М используются следующие множества:

- множество авторских терминов-кандидатов МаиЬЬ, полученное процедурой getAuthTerms;

- множество словарных терминов-кандидатов М^^, полученное процедурой getDictTerms;

- множество несловарных терминов-кандидатов Мпопаа.с^ полученное процедурой getNonDictTerms;

- множество бессоюзных соединений МсотЬ, полученных при наложении на текст Т шаблонов бессоюзных соединений; из каждого соединения с помощью процедуры де!:Тегтз£гошСошЬб определены составляющие его термины-кандидаты.

Множества терминов-кандидатов, извлеченных из рассматриваемого фрагмента-примера, представлены в Таблице 4.2. Полужирным шрифтом выделены: в множестве - кандидаты, присутствующие и в множестве Ма^ь; в МпопсцсС - кандидаты, присутствующие и в Мд1СЬ; в МсотЬ - кандидаты, присутствующие в Маи,;ь и М^^;

Кроме того, в Мпопси^ подчеркнуты кандидаты, описываемые такими же синтаксическими образцами, как и элементы из МсотЬ. Значение [Г] для рассматриваемого фрагмента равно 1.

ЗАКЛЮЧЕНИЕ

В ходе выполнения диссертационной работы были получены следующие результаты:

1. Предложен подход, позволяющий единообразно формализовать в виде лексико-синтаксических шаблонов структуру терминологических словосочетаний, а также конструкции и варианты их употребления для использования шаблонов в процедурах автоматического извлечения из текста терминологической информации.

2. В рамках предлагаемого подхода разработаны процедуры извлечения из текста терминологической информации, опирающиеся на ее формальное описание в виде шаблонов и допускающие настройку за счет изменения используемого набора шаблонов.

3. Разработанные процедуры программно реализованы, проведено их экспериментальное исследование на базе созданного набора шаблонов терминов, их вариантов и конструкций их употребления.

4. По результатам экспериментального исследования предложена стратегия объединения результатов работы реализованных процедур, позволяющая в целом улучшить показатели точности и полноты извлечения терминов из текста.

Проведенные эксперименты показали улучшение Б-меры извлечения терминов и их употреблений из русскоязычного научно-технического текста.

Предложенный в диссертации подход к извлечению терминологической информации, разработанные процедуры автоматического извлечения употреблений терминов и стратегия, объединяющая результаты работы процедур, могут быть использованы при решении ряда прикладных задач АОТ, в которых важны показатели точности и полноты извлечения терминов и их употреблений.

Результаты диссертации докладывались:

- на международном семинаре Диалог по компьютерной лингвистике и ее приложениям в 2000 г. (Протвино, 2000) и в 2001 г. (Аксаково, 2001);

- на международной конференции Диалог по компьютерной лингвистике и интеллектуальным технологиям в 2004 г. (Верхневолжский, 2004), в 2007 г. (Бекасово, 2007) и в 2010 г. (Бекасово, 2010);

- на девятой, десятой и одиннадцатой национальных конференциях по искусственному интеллекту с международным участием КИИ-2004 (Тверь, 2004), КИИ-2006 (Обнинск, 2006) и КИИ-2008 (Дубна, 2008);

- на международной научной конференции студентов, аспирантов и молодых ученых Ломоносов, секция "Вычислительная математика и кибернетика" в 2008 г. (Москва, 2008) и в 2010 г. (Москва, 2010);

- на научно-исследовательском семинаре по методам построения программных систем (Москва, факультет ВМК МГУ, 2008);

- на научно-исследовательском семинаре "Динамические интеллектуальные системы" (Институт системного анализа РАН, 2009).

- на Ломоносовских чтениях: научной конференции, посвященной 300-летию со дня рождения М.В. Ломоносова (Москва, факультет ВМК МГУ, 2011).

Список литературы диссертационного исследования кандидат физико-математических наук Ефремова, Наталья Эрнестовна, 2013 год

СПИСОК ЛИТЕРАТУРЫ

1. Alegria I., Gurrutxaga A., Lizaso P. et al. Linguistic and Statistical Approaches to Basque Terms Extraction // GLAT-2004: The Production Of Specialized Texts. - Режим доступа: http://www.researchgate.net/publication/ 2889430 Linguistic and Statistical Approaches to Basque Term Extraction (дата обращения: 08.11.12).

2. Ananiadou S. A Methodology for Automatic Term Recognition // Proceedings of the 15th International Conference on Computational Linguistics COLING'94. - 1994. Vol. 2. - P. 1034-1038.

3. Araujo L., Perez-Aguera J. Enriching Thesauri with Hierarchical Relationships by Pattern Matching in Dictionaries // T. Salakoski et al. (eds.): Lecture Notes in Artificial Intelligence. - Springer-Verlag, 2006. - Vol. 4139. - P. 268-279.

4. Bolshakova E., Efremova N., Noskov A. LSPL-Patterns as a Tool for Information Extraction from Natural Language Texts // K.Markov et al. (eds.): New Trends in Classification and Data Mining, ITHEA. - 2010. - P. 110-118.

5. Castellvi M., Bagot R., Palatresi J. Automatic term detection: A review of current systems // D. Bourigault et al. (eds.): Recent Advances in Computational Terminology. - Amsterdam: John Benjamins, 2001. - P. 53-87.

6. Church K., Hanks P. Word Association Norms, Mutual Information, and Lexicography // Computational Linguistics. - 1990. - Vol. 16(1). - P. 22-29.

7. Cohen J. Higlights: Language- and Domain-Independent Automatic Indexing Terms for Abstracting // Journal of the American Society for Information Science. - 1995. - Vol. 46(3). - P. 162-174.

8. Cowie J., Lehnert W. Information Extraction // Communications of the ACM. - 1996.-Vol. 39(1). -P.80-91.

9. Csomai A., Mihalcea R. Linguistically Motivated Features for Enhanced Back-of-the-Book Indexing // Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics ACL'08. - 2008. - P. 932-940.

10. Daille В., Gaussier E., Lange J.-M. Toward Automatic Extraction of Monolingual and Bilingual Terminology // Proceedings of the 15th International Conference on Computational Linguistics COLING'94. - 1994. - Vol. 1. - P. 515521.

11. Enguehard C., Pantera L. Automatic Natural Acquisition of a Terminology // Journal of Quantitative Linguistics. - 1995. - Vol. 2(1). - P. 27-32.

12. Frantzi K., Ananiadou S., Mima H. Automatic Recognition of MultiWord Terms: The Cvalue/NC-value method // C. Nikolau et al. (eds.): International Journal on Digital Libraries. - 2000. - Vol. 3(2). - P. 115-130.

13. Gaudio R.D., Branco A. Supporting e-Learning with Automatic Glossary Extraction: Experiments with Portuguese // RANLP'2007 Workshop: Natural Language Processing and Knowledge Representation for eLearning Environments. -Режим доступа: http://www.lt4el.eu/content/files/ws_borovets/delGaudioBranco.pdf (дата обращения 08.11.12).

14. General Architecture for Text Engineering [Электронный ресурс] Режим доступа: http://www.gate.ac.uk/ (дата обращения: 08.11.12).

15. Grabar N., Hamon Т. Terminology Structuring Through the Derivation Morphology // T. Salakoski et al. (eds.): Lecture Notes in Artificial Intelligence. -Springer-Verlag, 2006. - Vol. 4139. - P. 652-663.

16. Hearst M. Automated Discovery of WordNet Relations // Fellbaum C. (ed.): WordNet: An Electronic Lexical Database. - Cambridge: MIT Press, 1998. - P. 131-151.

17. Hutchins W., Somers H. An Introduction to Machine Translation. -London: Academic Press, 1992.

18. Jacquemin C., Tsoukermann E. NLP for term variant extraction: synergy between morphology, lexicon, and syntax // Strzalkowski T. (ed.): Natural Language Information Retrieval. - Dordrecht: Kluwer Academic Publishers, 1999. - P. 25-74.

19. Jacquemin С., Bourigault D. Term extraction and automatic indexing // Mitkov R. (ed.): Handbook of Computational Linguistics. - Oxford: Oxford University Press, 2003. - P. 599-615.

20. Justeson J., Katz S. Technical terminology: some linguistic properties and an algorithm for identification in text // Natural Language Engineering. - 1995. -Vol. 1(1).-P. 9-27.

21. Knoth P., Schmidt M., Smrz P. et al. Towards a Framework for Comparing Automatic Term Recognition Methods // Znalosti 2009. - 2009. - P. 8394.

22. Kozerenko E. Linguistic motivation for statistical translation models // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2011. - М.: Изд-во РГГУ, 2011. - С. 333348.

23. Lavagnino Е., Park J. Conceptual Structure of Automatically Extracted Multi-Word Terms from Domain Specific Corpora: a Case Study for Italian // Proceedings of the 2nd Workshop on Cognitive Aspects of the Lexicon CogALex 2010.-2010.-P. 48-55.

24. Mani I. Summarization evaluation: An overview // Proceedings of the North American chapter of the association for computational linguistics (NAACL) workshop on automatic summarization, 2001. - Режим доступа: http://research.nii.ac.ip/ntcir/workshop/OnlineProceedings2/sum-mani.pdf (дата обращения: 08.11.12).

25. Maynard D., Ananiadou S. Identifying contextual information for term extraction // Proceedings of 5th International Congress on Terminology and Knowledge Engineering TKE'99. - 1999. - P. 212-221.

26. Nenadic G., Ananiadou S., McNaught J. Enhancing Automatic Term Recognition through Variation // Proceedings of 20th International Conference on Computational Linguistics COLING'04. - 2004. - P. 604-610.

27. Paice С., Jones P. The Identification of Important Concepts in Highly Structured Technical Papers // Proceeding of 16th Annual International Conference on Research and Development in Information Retrieval. - 1993. - P. 69-78.

28. Rosario В., Hearst M. Classifying Semantic Relations in Bioscience Text // Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics ACL'04. - Режим доступа: http://aclweb.org/anthology-new/P/P04/P04-1055.pdf (дата обращения: 08.11.12).

29. Sager J. A Practical Course in Terminology Processing. - Amsterdam: John Benjamins, 1990.

30. Savary A., Jacquemin C. Reducing Information Variation // Renais S. et al. (eds.): Text- and Speech-Triggered Information Access. Lecture Notes in Artificial Intelligence. - Springer, 2003. - Vol. 2705. - P. 145-181.

31. Smadja F., McKeown K. Automatically Extracting and Representing Collocations for Language Generation // Proceedings of the 28th Annual Meeting on Association for Computational Lingvistics ACM'90. - 1990. - P. 252-259.

32. Smadja F. Retrieving Collocations from Text: Xtract // Computional Linguistics. - 1993. - Vol. 19(1). - P. 143-178.

33. Uschold M., Gruninger M. Ontologies: Principles, Methods and Applications // Knowledge Engineering Review. - 1996. - Vol. 11(2). - P. 93-155.

34. Yang Y., Liu X. A Re-Examination of Text Categorization Methods // Proceedings of 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval SIGIR'99. - 1999. - P. 42-49.

35. Авербух К.Я. Общая теория термина. - Иваново: Ивановский государственный университет, 2004.

36. Агеев М.С., Добров Б.В., Лукашевич Н.В. Автоматическая рубрикация текстов: методы и проблемы // Ученые записки Казанского Государственного Университета. Серия Физико-математические науки. - 2008 -Т. 150, кн. 4. -С.25-40.

37. Антонов В.Ю., Ефремова Н.Э. Автоматическое выявление терминологических вариантов в русскоязычных текстах // Ломоносов - 2010: Материалы XVII Международной научной конференции студентов, аспирантов и молодых ученых: секция «Вычислительная математика и кибернетика». Сборник тезисов. - 2010. - С. 80.

38. Анучина Ю.Д., Рождественский Ю.В. Охлаждение многоуровневых атомов ниже однофотонного предела отдачи рамановскими я-импульсами // ЖЭТФ. - 2008. - Т. 134.-Вып. 6 (12).-С. 1075-1081.

39. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. -М.: Наука, 1983.

40. Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны в задачах автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2007. - М.: Изд-во РГГУ, 2007. - Т. 2. - С. 70-75.

41. Большакова Е.И., Баева Н.В., Васильева Н.Э. Структурирование и извлечение знаний, представленных в научных текстах // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Труды конференции. - М.: Физматлит, 2004. - Т. 2. - С. 480-488.

42. Большакова Е.И., Васильева Н.Э. К вопросу об автоматизации литературно-научного редактирования // Компьютерная лингвистика и ее приложения: Труды Международного семинара Диалог'2000. - Протвино, 2000. - Т.2. - С. 59-63.

43. Большакова Е.И., Васильева Н.Э. Терминологическая вариантность и ее учет при автоматической обработке текстов // Одиннадцатая Национальная конференция по искусственному интеллекту с международным участием КИИ-2008. Труды конференции. -М.: Физматлит, 2008. - Т. 2. - С. 174-182.

44. Большакова Е.И., Васильева Н.Э. Формализация лексико-синтаксической информации для распознавания регулярных конструкций естественного языка // Программные продукты и системы. - 2008. - № 4. - С. 103-106.

45. Большакова Е.И., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов // Десятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции. - М.: Физматлит, 2006.-Т. 2.-С. 506-524.

46. Большакова Е.И., Васильева Н.Э., Юдин Д.А. Выделение словарных терминологических словосочетаний в научно-технических текстах // Компьютерная лингвистика и ее приложения: Труды Международного семинара Диалог'2001. - Аксаково, 2001. - с. 48-51.

47. Большакова Е.И., Ефремова Н.Э., Носков A.A. Методы и средства построения программных систем для анализа текста с использованием лингвистических шаблонов // Ломоносовские чтения: научная конференция, посвященная 300-летию со дня рождения М.В. Ломоносова: Тезисы докладов. -2011.-С. 97.

48. Борковский А.Б., Зайчик Б.И., Боровикова Л.И. Словарь по программированию. - М.: Русский язык, 1991.

49. Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2006. - М.: Изд-во РГГУ, 2006. - С. 88-94.

50. Буренок Н. Реферат по теме "Микропроцессоры". - ХГТУ. - 1998. - Режим доступа: http://5banov.qip.ru/referats/preview/26727// (дата обращения: 08.11.12).

51. Васильева Н.Э. Распознавание в научно-технических текстах терминов и их вариантов // Ломоносов - 2008: Материалы XV Международной

научной конференции студентов, аспирантов и молодых ученых: секция «Вычислительная математика и кибернетика». Сборник тезисов. - 2008. - С. 23.

52. Васильева Н.Э. Шаблоны употреблений терминов и их использование при автоматической обработке научно-технических текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2004. - М.: Изд-во РГГУ, 2004. - Т. 2. -С. 96-101.

53. Вендров A.M. CASE-технологии. Современные методы и средства проектирования информационных систем. - М.: Финансы и статистика, 1998.

54. Википедия - свободная энциклопедия [Электронный ресурс]. -Режим доступа: http://ru.wikipedia.org/ (дата обращения: 08.11.12).

55. Герасимов М.Б. Метод для накопления биологической терминологии - применение алгоритмов орфографической коррекции // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2002. - М.: «Наука», 2002. - Т. 2. - С. 118-125.

56. Гринев-Гриневич C.B. Введение в терминографию: Как просто и легко составить словарь: учебное пособие. - Изд. 3-е, доп. - М.: Книжный дом "Либроком", 2009.

57. Груздева Н.В. Диссертация на тему "Проблемно-ориентированные знания в системе обучения функциональному программированию". - ВМК МГУ, - 1999.

58. Дайбог Е.И., Кечкемети К., Логачев Ю.И. Фаза спада энергичных электронов и протонов в событиях СКЛ // 30-я Всероссийская конференция по космическим лучам. - 2008. - С. 117.

59. Добров Б.В., Лукашевич Н.В., Сыромятников C.B. Формирование базы терминологических словосочетаний по текстам предметной области // Труды пятой всероссийской научной конференции "Электронные

библиотеки: Перспективные методы и технологии, электронные коллекции". -2003.-С. 201-210.

60. Добров Б.В., Иванов В.В., Лукашевич Н.В. и др. Онтологии и тезаурусы: модели, инструменты, приложения: учебное пособие. - ИНТУИТ, 2008.

61. Дорот В.Л., Новиков Ф.А. Толковый словарь современной компьютерной лексики. - СПб.: BHV-Санкт-Петербург, 2001.

62. Емашова O.A., Мальковский М.Г. Функциональные стили русского языка и их влияние на задачу автоматического реферирования текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2007. - М.: Изд-во РГГУ, 2007. - Т.2. - С. 167-171.

63. Ермаков А.Е. Извлечение фактов из текста // Мир ПК. - 2005. -Режим доступа: http://www.osp.ru/pcworld/2005/02/169703/ (дата обращения: 08.11.12).

64. Ермаков А.Е., Плешко В.В. Обработка естественно-языковых запросов к поисковой машине на основе их лингвистического анализа // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2009. - М.: Изд-во РГГУ, 2009. - С. 102106.

65. Ефремова Н.Э., Большакова Е.И., Носков A.A., Антонов В.Ю. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2010. - М.: Изд-во РГГУ, 2010. - С. 124129.

66. Жигалов В.А., Жигалов Д.В., Жуков A.A. и др. Система Alex как средство для многоцелевой автоматизированной обработки текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды

Международной конференции Диалог'2002. - М.: «Наука», 2002. - Т. 2. - С. 192-208.

67. Кананыкина П.Г., Хорошевский В.Ф. Интеллектуальное реферирование: онтологический подход и его реализация в решениях ONTOS // Одиннадцатая Национальная конференция по искусственному интеллекту с международным участием КИИ-2008. - Режим доступа: www.raai.org/cai-08/files/cai-08_paper 284.doc (дата обращения: 08.11.12).

68. Лейчик В.М. Термины-фразеологизмы в ряду номинативных словосочетаний терминологического характера // НТИ, сер. 2. - 2002. - № 12. -С. 33-37.

69. Леонтьева H.H. Автоматическое понимание текстов: системы, модели, ресурсы: учебное пособие для студентов лингвистических факультетов вузов. - М.: Издательский центр "Академия", 2006.

70. Лукашевич Н.В. Автоматизированное формирование ИП тезауруса по современной общественно-политической жизни России // НТИ, сер. 2. -1995.-№3.-С. 22-24.

71. Мальковский М.Г. Диалог с системой искусственного интеллекта. -М.: Издательство Московского университета, 1985.

72. Мальковский М.Г., Большакова Е.И. Интеллектуальная система контроля качества научно-технического текста // Интеллектуальные системы. -1997.-Т. 2.-Вып. 1-4.

73. Митрофанова О.Д. Язык научно-технической литературы. - М.: Издательство московского университета, 1973.

74. Носков A.A. Метод выделения в тексте конструкций по их лексико-синтаксическим шаблонам // Сборник статей молодых ученых факультета ВМиК МГУ. - М.: Издательский отдел фак-та ВМиК МГУ имени М.В. Ломоносова; МАКС Пресс, 2009. - Вып. 6. - С.136-145.

75. Пшеничная Л.Э., Коренга О.Н. Научный термин в словаре и тексте //НТИ, сер. 2. - 1991. - № 12.-С. 2-7.

76. Сенкевич М.П. Стилистика научной речи и литературное редактирование научных произведений. - М.: Высшая школа, 1976.

77. Скатов Д.С., Вдовина Н.А., Ливерко C.B. и др. Язык описания правил в системе лексического анализа ЕЯ-текстов DictaScope Tokenizer // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2010. - М.: Изд-во РГГУ, 2010. - С. 442449.

78. Страуструп Б. Язык программирования С++. Специальное издание.

- Бином, Невский Диалект, 2008.

79. Тексты докладов 28-ой Всероссийской конференции по космическим лучам за 2004 год. - Режим доступа: http://www.28rcrc.mephi.ru (дата обращения: 08.11.12).

80. Тексты статей журнала "Программные продукты и системы" за 2008 год. - Режим доступа: http://www.swsys.ru (дата обращения: 08.11.12).

81. Толковый словарь физических терминов [Электронный ресурс]. -Режим доступа: http://www.physics.org.Ua/info/voc/a.html (дата обращения: 08.11.12).

82. Физический энциклопедический словарь. - М.: Советская энциклопедия, 1962.

83. Хорошевский В.Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Труды конференции. - М.: Физматлит, 2004. - Т. 2. - С. 573-581.

84. Шакиров Р.Н. Класс cbignumber для целочисленной арифметики неограниченной разрядности в языке С++ // Программные продукты и системы.

- 2009. - № 1. - Режим доступа: http://www.swsys.ru/index.php ?page=article& id=2002 (дата обращения: 08.11.12).

85. Шемакин Ю.И. Тезаурус научно-технических терминов. - М.: Военное издательство министерства обороны СССР, 1972.

ПРИЛОЖЕНИЕ А СИНТАКСИС ЯЗЫКА ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ

В приводимых ниже формулах БНФ нетерминалы языка шаблонов выделены курсивом, терминалы - полужирным шрифтом.

шаблон ::= [имя_шаблона =] тело_шаблона {| тело _шаблона)

[(параметры _шаблона)] [# шаблоны^извлечения] имя_шаблона ::= Загл. лат. буква {лат. буква} тело_шаблона ::= элемент_шаблона {элемент _шаблона) [<условия>]

элемент_шаблона ::= простой_элемент\ опциональный_элемент\

обязательный _элемент простой_элемент : := элемент-строка \ элемент-слово \

экземпляр _шаблона опциональный элемент ::= [альтернативный_элемент\ обязательный_элемент ::= {альтернативный_элемент) альтернативный_элемент ::= простой_элемент {| простой_элемент) элемент-строка ::= "символ {символ)"

элемент-слово ::= имя_элемента-слова | имя_элемента-слова

< образец_слова {, характеристика_слова) > \ имя_элемента-слова < характеристика слова {, характеристика_слова) > имя_элемента-слова ::= часть_речи [индекс] часть_речи ::= N | N | А | V | Ра | Ар | Рп | Av | Сп | Рг | Pt | 1п | №п индекс ::= цифра {цифра} образец слова ::= имя_лексемы имя_лексемы \:=русск. буква {русск. буква} русск. буква ::= буква_кириллицы | дефис

характеристика_слова ::= имя_ признака = значение_ признака имя_признака ::= с | n | g | doc jtja|f|m|p(r

значение_признака ::= nom | gen | dat | асс | ins | prep | un | sing |

plur I mase | fem | neut | comp | sup | près | past I fut I inf I nim | inan | full | short | ind I imp I con j I cond | 1 | 2 | 3 | yes | no

экземпляр _шаблона ::= имя_экземпляра_шаблона

[Характеристика экземпляра {, характеристика_экземпляра}>] имя_экземпляра_гиаблона ::= имя_шаблона [индекс] характеристика_экземпляра ::= имя_признака = значение_признака условия ::= условиясогласования | словарные_условия условия_ согласования ::= согласование {, согласование} согласование ::= имя_элемента = имя _элемента |

имя_элемента.имя_признака = имя _элемента.имя_признака имя_элемента ::= имя_элемента-слова \ имя_экземпляра_илаблона словарные_условия ::= словарное_условие

{, словарное ^условие} словарное^условие ::= имя_словаря (имя_элемента {, имя_элемента}) параметры_ шаблона ::= имя_элемента {, имя_элемента} шаблоны^извлечения ::= тело_шаблона {| тело_шаблона)

В Таблице А. 1 перечислены обозначения частей речи слов русского языка и приведены их морфологические характеристики.

Таблица А. 1. Части речи и их морфологические характеристики

Часть речи (part) Обозначение Возможные характеристики

Произвольная часть речи (word) W

Существительное (noun) N род, одушевленность, падеж, число

Прилагательное (adjective) А полное, краткое, степенное или неизменяемое, падеж (у полного), число (у полного и краткого), род (у полного и краткого в единственном числе)

Глагол (verb) V наклонение, время (в изъявительном наклонении), лицо, число, род (в изъявительном наклонении, прошедшем времени, единственном числе), возвратность

Причастие (participle) Ра полное или краткое, падеж (у полного), число, род (в единственном числе), возвратность

Деепричастие (adverbial participle) Ар время, возвратность

Местоимение (pronoun) Рп падеж, число, род (если возможно)

Числительное (numeral) Num падеж, род

Наречие (adverb) Av-

Союз (conjunction) on

Предлог (preposition) Pr

Частица (particle) Pt

Междометие (interjection) Int

В Таблице А.2 приведены возможные значения морфологических характеристик и их обозначения в языке шаблонов.

Таблица А.2. Морфологические характеристики и их значения

Признак и его имя Сокращение Возможные значения признака и его обозначение

Падеж (case) с Именительный (nominative) - пот

Родительный (genitive) - gen

Дательный (dative) - dat

Винительный (accusative) - асс

Творительный (instrumental) - ins

Предложный (prepositional) - prep

Неизменяемое (uninflected) - un

Число (number) п Единственное (singular) - sing

Множественное (plural) - plur

Род (gender) Я Мужской (masculine) - mas с

Женский (feminine) - f em

Средний (neuter) - neut

Степень сравнения (degree of comparison) doc Сравнительная (comparative) - com

Превосходная (superlative) - sup

Отсутствует (no) - no

Время (tense) t Настоящее (present) - pres

Прошедшее (past) - past

Будущее (future) - fut

Неопределенная форма (infinitive) - inf

Одушевленность (animate) а Одушевленный (animate) - anim

Неодушевленный (inanimate) - inan

Форма (form) f Полное (full) - full

Сокращенное (short) - short

Наклонение (mode) m Изъявительное (indicative) - ind

Повелительное (imperative) - imp

Сослагательное (conjunctive) - con j

Условное (conditional) - cond

Лицо (person) Р 1 лицо -1

2 лицо - 2

3 лицо - 3

Возвратность (reflexive) г Невозвратный (no) - no

Возвратный (yes) - yes

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.