Построение модели извлечения информации из технических текстов

Бабина, Ольга Ивановна

Построение модели извлечения информации из технических текстов тема диссертации и автореферата по ВАК РФ 10.02.21, кандидат филологических наук Бабина, Ольга Ивановна

Бабина, Ольга Ивановна
кандидат филологических наук
2006

Специальность ВАК РФ10.02.21

Количество страниц 272

Бабина, Ольга Ивановна. Построение модели извлечения информации из технических текстов: дис. кандидат филологических наук: 10.02.21 - Прикладная и математическая лингвистика. Челябинск. 2006. 272 с.

Оглавление диссертации кандидат филологических наук Бабина, Ольга Ивановна

Введение.

Глава 1. Модели и средства извлечения информации.

1.1. Основные понятия и определения теории информационного поиска.

1.2. Информационно-поисковые системы.

1.2.1. Типы ИПС.

1.2.2. Лингвистический компонент ИПС.

1.2.2.1. Информационно-поисковые языки.

1.2.2.2. Словарные средства ИПС.

1.2.3. Оценка эффективности ИПС.

1.3. Модели документального информационного поиска.

1.3.1. Статистические модели поиска.

1.3.1.1. Теоретико-множественные модели.

1.3.1.2. Векторные модели.

1.3.1.3. Вероятностные модели.

1.3.2. Лингвистические модели поиска.

1.3.2.1. Синтаксические модели.

1.3.2.2. Семантические модели.

1.4. Поиск и извлечение информации в патентных исследованиях.

1.5. Выводы по главе 1.

1 Глава 2. Подъязык формул изобретения патентов на способ в фармакологии

2.1. Корпус текстов формул изобретения патентов.

2.2. Общая характеристика лексики.

2.3. Знаменательная лексика аргументов предикатов.

2.4. Грамматическая и лексическая семантика предикатов.

2.4.1. Морфологические характеристики предикатов.

2.4.2. Валентности предикатов.

2.4.3. Семантическая классификация предикатов. ц 2.4.3.1. Состав семантических классов предикатов.

2.4.3.2. Семантический класс предикатов «Изменение состояния».

2.4.3.3. Семантический класс предикатов «Динамическое взаимодействие».

2.4.3.4. Семантический класс предикатов «Получение нового объекта».

2.4.3.5. Семантический класс предикатов «Выявление».

2.4.3.6. Семантический класс предикатов «Воздействие».

2.4.4. Функционирование предикатов в тексте патентной формулы.

2.5. Служебные слова. " 2.6. Выводы по главе 2.

Глава 3. Модель извлечения информации из поискового массива формул изобретения патентов на способ.

3.1. Общая схема модели извлечения информации.

3.2. Модуль формирования «индексной» части информационного массива

3.2.1. Разработка лексического компонента индексирования.

3.2.1.1. Структура лексикона для автоматического анализа текста.

3.2.1.2. Адаптация лексикона для патентных формул на способы в области фармакологии.

3.2.2. Процедура индексирования и ее грамматический компонент.

3.2.2.1. Общая схема индексирующей процедуры анализа.

3.2.2.2. Первичное разбиение текста.

3.2.2.3. Лексико-грамматический анализ текста.

3.2.2.4. Семантико-синтаксический анализ текста.

3.2.2.4.1. Восходящий анализ синтаксических конструкций.

3.2.2.4.2. Восстановление кореференции именных групп.

3.2.2.4.3. Поиск семантических зависимостей.

3.2.2.5. Преобразование аргументов предиката.

3.2.2.6. Определение состава компонентных зон.

3.2.2.7. Заключительные замечания.

3.3. Модуль формирования поискового предписания.

3.4. Модуль выявления релевантных запросу документов.

3.4.1. Тезаурус предметной области для процедуры сопоставления ПП и ПОД

3.4.2. Процедура сопоставления ПП и ПОД.

3.4.2.1. Общая схема процедуры сопоставления.

3.4.2.2. Поиск в ПОД кандидатов на соответствие единицам ПП.

3.4.2.3. Сопоставление ПП и ПОД на уровне предикатно-аргументной конструкции.

3.4.2.3.1. Сопоставление именных групп.

3.4.2.3.1.1. Сопоставление головных существительных именных групп

3.4.2.3.1.2. Сопоставление прочих элементов в лексическом составе именных групп.

3.4.2.3.1.3. Сопоставление валентностей аргументных выражений

3.4.2.3.1.4. Оценка сходства именных групп в целом.

3.4.2.3.2. Сопоставление аргументного состава конструкций ПП и ПОД

3.4.2.3.3. Сопоставление предикатно-аргументных конструкций.

3.4.2.4. Сопоставление ПП и ПОД на уровне компонентной зоны.

3.4.2.5. Сопоставление ПП и ПОД на уровне запроса/документа.

3.5. Выдача релевантных документов.

3.6. Эксперимент по отбору текстов.

3.7. Выводы по главе 3.

Введение диссертации (часть автореферата) на тему «Построение модели извлечения информации из технических текстов»

Как известно, научно-технический прогресс является движущей силой современного общества. Развитие наук сегодня идет все увеличивающимися темпами. И вслед за ним, как «снежный ком», увеличивается объем информации, посвященной научным исследованиям и открытиям. Официальным способом регистрации новых изобретений является их патентование. Таким образом, развитие наук обусловливает рост массива патентных документов. Так, за последние годы количество патентов, зарегистрированных в Американском офисе патентов и торговых марок только на метод в фармакологии, возросло почти на 13 тыс. патентов (для сравнения, с 1976 по 2002 гг. в этой предметной области было зафиксировано чуть более 17 тыс. документов1).

Наличие новых устройств и изделий, защищенных патентами, напрямую связано с экономической прибылью предприятия-патентообладателя, а также иногда сама торговля патентами приносит сверхприбыли. Таким образом, анализ всей ситуации, сопутствующей появлению и функционированию новшества, способствует созданию новых изобретений и правильному позиционированию уже имеющихся разработок. Количество запатентованных объектов практически напрямую связано с получаемой прибылью и, в конечном счете, с процветанием предприятия.

Таким образом, актуальность настоящего исследования обусловлена тем, что постоянно увеличивающийся поток информации требует совершенствования автоматизированных средств ее обработки.

Патентные исследования являются тем самым инструментом, с помощью которого менеджеры высшего звена предприятия могут оценивать текущую ситуацию и прогнозировать развитие ситуации вокруг научно-технических новшеств. Проведение патентных исследований, с одной стороны, позволяет реально оценивать патентоспособность разрабатываемых объектов техники, и с

1 Числовая информация приводится на основе данных о количестве документов, полученных в ходе двукратного (с промежутком в два года) проведения эксперимента по поиску патентов, удовлетворяющих запросу "pharmacology & method", на сайте Американского Ведомства Патентов и Торговых Марок (USPTO) по адресу http://www.uspto.com. другой стороны, предотвратить нарушение чужих прав, сохранив патентную чистоту объекта.

Таким образом, в ходе проведения патентных исследований предприятия и работники патентных ведомств сталкиваются с проблемой отбора информации из имеющегося массива патентных текстов. Это один из основных, наиболее трудоемких этапов экспертизы, так как он связан с необходимостью оценить степень сходства/различия с огромным множеством имеющихся текстов. Отбор необходим при решении задач получения обзорной информации о современном состоянии дел в науке, проверки вновь поступающих заявок на новизну изобретения, выявления новых прогрессивных способов, устройств и других объектов патентования, которые могут минимизировать затраты и увеличить прибыль при их внедрении в производство, и т.д. Однако неумолимый рост массива документов приводит к тому, что отбор релевантной информации вручную становится задачей, несоизмеримой с возможностями человека, и - поэтому - практически невыполнимой. Такое положение дел ставит человека перед необходимостью автоматизации извлечения релевантной информации из массива полнотекстовых документов.

Автоматический отбор информации осуществляется посредством поисковых систем. В большинстве случаев, отбор информации ограничивается выбором из всего массива документов тех, которые удовлетворяют запросу, и результат представляется в форме ранжированного списка документов. Существующие сегодня информационно-поисковые и аннотирующие системы, как правило, основаны на достаточно простых методиках с использованием ключевых слов и не обеспечивают требуемого качества отбора и представления информации.

Традиционно предметная область в системах поиска представляется посредством искусственного языка, представляющего собой некоторое упрощение естественного [напр., Шингарева 1981; Рубашкин 1989]. Однако огромные объемы имеющейся на сегодняшний день информации, представленной на естественном языке, делают неподъемной задачу преобразования вручную содержания документов в поисковый образ на искусственном языке. Кроме того, естественный язык представляет собой сложную, многогранную систему, которая имеет нечеткую природу [Заде 1976; Налимов 1979; Пиотровский 1999], отличную от искусственник языков. В связи с этим описание на упрощенном языке позволяет весьма приблизительно представить содержание документа, что влияет на показатели точности поисковых систем.

Поэтому сегодня все большую актуальность приобретают системы поиска, где в качестве поискового образа документа выступает сам документ, написанный на естественном языке (ЕЯ). При этом, учитывая асимметричность естественного языка и его слабую формализуемость в силу своей природы, остро встает проблема разработки адекватного лингвистического обеспечения поисковых систем, позволяющего максимально приблизиться (в идеале) к такой работе системы, которая была бы сравнима по получаемому результату с тем, как информацию на ЕЯ обрабатывает человек.

Система должна учитывать особенности ЕЯ на всех его уровнях. При использовании распространенного в большинстве поисковых систем метода координатного индексирования язык рассматривается лишь на лексическом и морфологическом уровнях. При этом практически не уделяется внимания синтаксическим и, особенно, семантическим аспектам языка.

Однако в рамках прикладной лингвистики уже около полувека ведется работа над созданием лингвистических процессоров (ЛП), позволяющих вести синтаксический разбор текстов на естественном языке и делаются попытки учитывать семантику при автоматической обработке текстов. Как правило, результаты этих исследований применяются в системах машинного перевода, реферирования и т.д. Однако системы поиска работают с теми же естественноязыковыми текстами. А для отбора релевантной информации необходимо не только формальное совпадение поискового предписания с ПОД на поверхностном уровне, но важно попытаться более тонко смоделировать содержание документов, учитывая лексику, морфологию, синтаксис и семантику текста. Поэтому использование этих методов в системах поиска документальных текстов представляется оправданным.

Следует отметить, что далеко не все системы, в основе которых лежит лингвистический процессор, успешны. Это объясняется тем, что при переходе от уровня к уровню языковые закономерности, действующие на каждом из них, становятся все сложнее, и их все труднее описать с помощью формальных средств. Так, возможность учета семантики осложняется тем фактом, что лексика естественного языка в значительной степени неоднозначна, и эту неоднозначность приходится разрешать в ходе автоматического анализа. Для машины, не обладающей сознанием, эта задача крайне сложная. Возможным решением этой проблемы является ограничение языка. Это позволяет сузить спектр лексических и грамматических явлений языка, которые необходимо учитывать при автоматическом анализе, и в значительной мере избавиться от полисемии. Поэтому во многих случаях для получения надежных результатов при автоматической обработке текста исследователи предпочитают ограничить анализируемый язык до размеров подъязыка отдельной предметной области.

Тогда для создания эффективных алгоритмов обработки текста необходимо вести изучение корпуса соответствующих текстов в каждой предметной области отдельно, так как процедура обработки в этом случае будет полностью зависеть от языкового материала. Такое ограничение поискового массива заданной предметной областью позволяет создавать ЛП с высокой степенью адекватности лингвистического разбора. А использование подобного ЛП при отборе информации даст возможность в большей степени, нежели чем это было до сих пор распространено в поисковых системах, учитывать природу и много-уровневость языка.

Формула изобретения - это та часть патента, которая имеет «решающее значение для оценки органов, осуществляющих государственную научно-техническую экспертизу изобретений, новизны и существенных отличий, а также положительного эффекта заявляемого объекта» [Изобретателям 1980]. Причем только эта часть патента имеет правовое значение: она является единственным критерием для определения объема изобретения и по ней устанавливается факт использования изобретения. Поэтому именно формула изобретения подвергается проверке при проведении экспертизы заявки по существу. Значит, целесообразно проводить поиск и формировать критерии отбора на основании текстов этой части описания изобретения.

Руководствуясь этими соображениями, мы определили объект и предмет исследования.

Объектом исследования является семантико-синтаксическая структура формулы изобретения на способ (ФИС) патентов по фармакологии.

Предметом исследования является разработка процедуры автоматизированного отбора релевантной информации из информационного массива ограниченной предметной области, использующей предикатно-аргументную конструкцию в качестве единицы поиска.

В качестве объекта изобретения могут выступать устройство, способ, вещество, штамм, программное обеспечение (не во всех странах), применение известных ранее устройства, способа, вещества, штамма по новому назначению. При этом формулы изобретения на каждый из объектов имеют ряд существенных отличий, и потому должны быть исследованы отдельно. В рамках одного исследования невозможно проанализировать все виды формул. При этом следует отметить, что изобретениям на устройство уделялось достаточно внимания в рамках научно-исследовательских разработок. Другие же объекты не получили столь пристального к себе внимания.

В данной работе рассмотрение патентных текстов ограничивается формулами изобретения на способ. Очевидно, что в дальнейшем необходимо также вести исследования по изучения особенностей формул изобретения патентов на вещества, штаммы и т.д. В качестве предметной области мы выбрали область фармакологии, так как она наиболее благодатна для проведения исследований на различных объектах изобретения. Кроме того, автоматизации лингвистической обработки фармакологических текстов становится все более актуальной в последнее время.

Гипотеза исследования заключается в том, что использование лингвистического анализа для организации информационного массива позволит усовершенствовать процедуру поиска в полнотекстовом массиве документов ограниченной предметной области и расширить область учета семантики текста при отборе релевантной информации.

Основной целью исследования является построение модели отбора информации из патентных текстов в узкой предметной области, использующей модуль автоматической обработки текста на естественном языке для максимально полного представления знаний.

В соответствии с целью и гипотезой исследования были поставлены следующие конкретные задачи:

1. Исследовать существующие подходы к построению систем автоматического поиска информации и границы использования лингвистических процессоров в этих системах;

2. Определить лингвистические особенности организации ФИС;

3. Провести сравнительный анализ отличий лексики и грамматики в формулах изобретения патентов на устройство (ФИУ) и на способ;

4. Модифицировать процедуру анализа текста ФИУ, настроив на обработку текстов ФИС;

5. Расширить процедуру автоматического анализа текста для решения задач индексирования патентных документов посредством представления се-мантико-синтаксической структуры ФИС;

6. Определить возможности переиспользования интерфейса системы автоматического синтеза формулы изобретения для определения запроса к системе автоматического поиска патентных текстов;

7. Разработать критерии оценки сходства образа запроса и документа для текстов формул изобретения патентов на способ в фармакологии.

Основным методом исследования является моделирование [Лосев 1968; Степанов 2001; Ревзин 1977], посредством которого определяется структура и особенности исследуемого подъязыка и осуществляется построение модели представления знаний и функционирования системы извлечения информации. Вспомогательными методами выступают: метод сплошной выборки при отборе документов, составивших корпус текстов; валентный анализ языкового материала; классификационно-типологический подход при анализе языкового материала; метод компонентного" анализа лексики; метод статистического анализа для определения особенностей функционирования лингвистических единиц в тексте ФИС; метод дистрибутивно-статистического анализа при настройке процедуры автоматического анализа текста; метод экспериментальной проверки модели, воспроизводящей процедуру отбора релевантных текстов документного массива; аппарат теории множеств, математической логики, а также теории представления знаний и теории алгоритмов при описании основных положений модели отбора информации.

Научная новизна работы обусловлена тем, что данный языковой материал впервые исследуется с применением указанной совокупности современных лингвистических методов, что определяет новизну полученных результатов. Существенной новизной отличается разработанный метод отбора информации, основанный на использовании предикатно-аргументной структуры текста формулы изобретения в качестве единицы поиска при сопоставлении образов документа и запроса. Впервые разработаны формальные правила сопоставления патентного документа и запроса, использующие лингвистические особенности структуры формулы изобретения.

Актуальность и новизна исследования предопределяют его теоретическую и практическую значимость.

Теоретическая значимость исследования заключается в формальном описании одной из обособленных языковых подсистем (подъязыка ФИС), а также в моделировании системы отбора информации на основе использования в качестве образа документов в информационном массиве результата применения к ФИС процедуры автоматического лингвистического анализа текста. Полученные результаты вносят определенный вклад в разработку общей таксономии подъязыков науки и техники. Предложенный способ отбора информации дает с основания расширить теорию информационного поиска, включив в область ее рассмотрения модели, использующие в качестве единицы поиска не только номинативные элементы, но и ситуативные (предикативные) единицы.

Практическая значимость исследования состоит в возможности создания на базе разработанных правил системы автоматического отбора информации из массива патентных документов, с помощью которой решается задача автоматизации патентной экспертизы в ходе рассмотрения заявки на вновь патентуемые объекты. Тем самым облегчается труд и значительно уменьшаются затраты времени работников патентных ведомств.

Результаты исследования подъязыка ФИС могут быть использованы также при разработке других приложений автоматической обработки текста: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной лингвистике. Описанная модель в дальнейшем может быть модифицирована для автоматизации не только этапа поиска, но и всей процедуры патентной экспертизы.

Материалом для исследования послужил корпус текстов, включающий ФИС 295 патентов США по фармакологии объемом ~210 тыс. словоупотреблений.

Положения, выносимые на защиту:

1. Использование лингвистической базы знаний, определяемой предложенной методологией извлечения информации, обеспечивает более полное и глубокое представление поисковых образов документа и запроса, учитывающее семантические отношения между участниками описываемых в текстах ситуаций;

2. Использование унифицированной формы для представления поискового образа полнотекстового документа и запроса с помощью набора фреймо-подобных предикатно-аргументных структур расширяет возможность сравнивать образы на семантическом уровне;

3. Разработанные правила и предложенные метрики для сличения образов запроса и документа позволяют проранжировать результаты в зависимости от степени релевантности запросу отобранных документов.

4. Переиспользование некоторых алгоритмов и правил автоматического анализа текста, настроенных для использования в другой предметной области, повышает эффективность разработки новых приложений на новом материале, уменьшая затраты труда и времени.

Апробация материалов исследования. По теме диссертации были сделаны доклады на международной научно-практической конференции «Теория и методика преподавания языков в вузе» (Челябинск, 15-17 декабря 2003 г) и на Второй международной конференции по модели «Смысл О Текст» (Москва, 23-25 июня 2005 г). Отдельные этапы исследования обсуждались на научных семинарах кафедры лингвистики и межкультурной коммуникации ЮжноУральского государственного университета.

По теме диссертационной работы имеются следующие публикации:

1. Бабина, О.И. Автоматический отбор релевантной информации из информационного массива патентных текстов / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2006. - №2. - С. 67-72.

2. Бабина, О.И. Семантическое сопоставление образов запроса и документа при автоматическом документальном поиске / О.И. Бабина // Наука и образование. IV международная научная конференция: Материалы конференции. (Белово, 2-3 марта 2006 г). - Кемерово: Изд-во КемГУ, 2006.

3. Sheremeiyeva, S. Meaning-Text theory for textual input analysis and proofing in a generation system / S. Sheremetyeva, O. Babina // Восток - Запад: Вторая международная конференция по модели «Смысл О Текст» / отв. ред. Ю.Д. Апресян, JI.JI. Иомдин. (Москва, 23-25 июня 2005 г). - М.: Языки славянской культуры, 2005. - С. 458-466.

4. Бабина, О.И. Специфика процедуры автоматического анализа текстов патентов на метод / О.И. Бабина // Объединенный научный журнал. №33 (125). Декабрь 2004. - С. 62-66.

5. Бабина, О.И. Грамматические характеристики предикатов формулы изобретения патентов на метод / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2004. - №1. - С. 8-12.

6. Бабина, О.И. Предикатная лексика формул изобретения патентов на метод / О.И. Бабина // Фундаментальные и прикладные исследования в системе образования: Материалы 2-й Международной научно-практической конференции / отв. ред. H.H. Болдырев. (Тамбов, 28 марта 2004 г). — Тамбов: Изд-во ТГУ им. Г.Р. Державина, 2004. - Ч. 4. - С. 62-65.

7. Бабина, О.И. Частотные характеристики семантических классов предикатов, встречающихся в формулах изобретения патентов на метод в фармакологии / О.И. Бабина // Международная научно-практическая конференция «Теория и методика преподавания языков в вузе»: Тезисы докладов / под ред. E.H. Ярославовой. (Челябинск, 15-17 декабря 2003 г). — Челябинск: Изд-во ЮУрГУ, 2003. —С. 141-142.

Структура и объем работы. Предлагаемая вниманию диссертационная работа состоит из введения, трех глав, заключения, списка литературы и 9 приложений.

Заключение диссертации по теме «Прикладная и математическая лингвистика», Бабина, Ольга Ивановна

Основные результаты работы заключаются в следующем. Подъязык текстов патентных, формул на способ представляет собой систему с ограниченным инвентарем языковых средств, что выражается в ограниченности его словаря и грамматики. Это создает предпосылки для разработки достаточно эффективных способов автоматической обработки текстов патентных формул, которые могут быть успешно использованы в решении таких задач прикладной лингвистики, как извлечение информации.

В лексике патентных формул можно выделить следующие категории единиц: 1) предикаты, несущие основную смысловую нагрузку и обозначающие действия/операции, составляющие способ, а также отношения между элементами, участвующими в операциях способа; 2) лексика аргументов, заполняющая валентности предикатов и служащая для обозначения участников соответствующих ситуаций; 3) служебные слова, осуществляющие, главным образом, логические связи между элементами в тексте формулы изобретения.

Сравнительный анализ лексики патентов на способ и патентов на другие объекты изобретения (в частности, устройства) позволяет выделить ряд общих и отличных черт в составе и функционировании лексических единиц в соответствующих предметных областях. Категориальный состав лексики, частично качественный состав и, в большинстве случаев, морфологические характеристики лексических единиц принципиально не отличаются для различных объектов изобретения. Отличия касаются синтаксических особенностей функционирования предикатов, а также семантических особенностей структуры их значения.

Глубокий анализ денотативного значения предикатов и особенностей их валентной структуры позволяет разбить предикатную лексику на 14 множеств (семантических классов). Внутри этих множеств лексика может подвергаться более дробному делению и разбиению на классы эквивалентности. Семантическое сходство и подобные способы реализации в тексте лексики аргументов позволяют в этом пласте лексики также выделить определенные семантические множества. Таким образом, лексические единицы с денотативным значением входят в систему лексики подъязыка и могут быть описаны единообразно с использованием понятия семантических классов. Служебные слова представляют собой особый пласт лексики, в котором обозначаются функциональные классы, выполняющие роль разграничителей семантически завершенных блоков текста.

Примененный аппарат исследования дает возможность представить семантическую структуру предметной области в лексикографических средствах автоматических систем. В результате анализа лексики и структуры подъязыка были построены:

1) Лексикон, включающий семантическую, морфологическую и семанти-ко-синтаксическую информацию о лексических единицах. Семантическая информация описывается единообразно для всех единиц с денотативным значением, посредством причисления единицы к одному из семантических классов. Морфологические формы, в силу ограниченности подъязыка, определяются йконически для всех единиц. Семантико-синтаксическая информация представлена только для предикатных единиц, вносящих более весомый вклад в семантику текста. Представление этой информации реализуется посредством эксплицитного задания набора валентностей единицы из инвентаря и способов линейного развертывания валентной структуры предиката в тексте. В целях экономии усилий, при построении лексикона частично переиспользована лингвистическая информация о лексических единицах, общих для различных объектов изобретения;

2) Тезаурус, в котором лексика подъязыка организована в иерархическую структуру. Тезаурус отражает строение предметной области. В нем приведена информация о классах эквивалентности лексических единиц и обозначены родо-видовые отношения между понятиями, реализуемыми в тексте посредством лексических единиц, инвентаризованных в лексиконе.

На базе данного лексикографического компонента построена лингвистическая модель извлечения информации из массива текстов патентных формул, в основе которой лежит интеграция методов автоматического обработки текстов на естественном языке и информационного поиска.

Модель включает: 1) блок автоматического лингвистического анализа для представления ПОД в форме фреймовых структур; 2) интерфейс для интерактивного ввода запроса в формате структур, подобных представленным в ПОД; 3) блок сопоставления, в котором осуществляется сравнение фреймоподобных структур запроса и документа; 4) правила выдачи, на основании которых принимается решение о релевантности патентной формулы запросу.

При представлении ПОД используются лингвистическая модель представления знаний посредством фреймов, для получения которых используется модифицированная процедура автоматического анализа текстов. Разработанная и примененная методика построения процедуры анализа и переиспользования знаний позволили создать эффективную модель разбора текстов, полезную для задач извлечения информации.

Интерактивный блок ввода запроса дает возможность представлять информацию в формате, удобном для обработки в рамках построенной модели.

Сопоставление фреймовых образов запросов и документов представляет собой ключевой блок модели извлечения информации. При сопоставлении документов и запроса степень сходства оценивается на нескольких уровнях:

1) Уровень предикатной конструкции. Коэффициенты сходства оценивают степень перекрытия отдельных фреймовых структур запроса и документа;

2) Уровень компонентной зоны. Коэффициенты сходства компонентных зон определяют для каждого компонента изобретения, заявленного в запросе (и выраженного посредством набора фреймовых предикатных конструкций), степень сходства с одним из компонентов изобретения, описанного в документе;

3) Уровень документа в целом. Коэффициент сходства запроса и документа на данном уровне является мотивом для выдачи последнего в качестве релевантного.

Процедура сопоставления включает отбор для элемента запроса на каждом из уровней кандидатов из числа элементов документа того же уровня. Для определения сходства элементов на каждом последующем уровне используются коэффициенты сходства, определенные на предыдущем. На основании коэффициентов сходства для элементов каждого уровня принимается решение о сходстве соответствующих уровневых единиц документа и запроса и, в конечном итоге, о релевантности документа запросу в целом. Каждый уровень, вообще говоря, может приниматься как достаточный для определения сходства в целом, и тем самым модель допускает многовариантную интерпретацию критерия выдачи.

Блок выдачи осуществляет представление ранжированного списка документов, признанных релевантными, в порядке уменьшения коэффициентов сходства.

Экспериментальная проверка показывает, что при выдаче документов на запрос патентные формулы, семантически и структурно более близкие заявленному в запросе описанию, оцениваются как в большей степени релевантные запросу.

Предложенные правила сопоставления структурированных представлений запроса и документа дают возможность создать автоматическое приложение, осуществляющее извлечение текстов формул изобретений из патентных БД на основании глубокого лингвистического анализа и учета особенностей естественного языка. Такая система должна характеризоваться более тонким механизмом обработки реализации смыслов в языке и обладать, очевидно, большей семантической силой, чем любая система, использующая искусственный информационный язык.

Планирование жизненного цикла такой системы должно учитывать особенности предметной области. Область патентных документов является достаточно подвижной: новые документы появляются постоянно. Поэтому представляется целесообразным при проектировании системы извлечения информации из массива патентных документов предусмотреть пошаговую процедуру пополнения информационного массива. Применение такой процедуры может сводиться к следующему: 1) проведение этапа начального сбора документов с использованием спайдера и их индексирования с применением разработанной процедуры лингвистического анализа; 2) запуск спайдера в Интернет с заданной периодичностью (например, один раз в неделю) с целью поиска новых, не включенных ранее в информационный массив, патентов, с последующим индексированием.

Результат модификации базы знаний для модели автоматической обработки текста может быть, с одной стороны, использован для настройки работы ранее разработанного лингвистического обеспечения (АЩоРа1 - генерация патентных формул, АЩоТгаш - анализ и перевод патентных формул) на новую предметную область и другой объект изобретения. С другой стороны, эта расширенная процедура автоматического анализа может являться основой для разработки других приложений по автоматической обработке патентных формул (реферирование, автоматизация патентных исследований и т.д.).

Разработанная модель извлечения информации допускает дальнейшее развитие и может быть использована в направлении решения задач автоматизации патентных исследований, ключевым звеном которой является формальное выделение признаков изобретения. При доработке модели на основании процедуры сопоставления образов документа и запроса возможно автоматизировать анализ патентоспособности и патентной чистоты нового изобретения.

При проведении экспертизы на выявление патентной чистоты проверяются способ и его составляющие. Если вновь патентуемое изобретение использует все признаки ранее запатентованного изобретения, то оно не обладает патентной чистотой. Поэтому анализ на выявление патентной чистоты сводится к выявлению патентов, которые включают все перечисленные признаки нового изобретения (доминирующих, по терминологии американского патентного ведомства). Для автоматизации анализа на патентную чистоту совпадающие элементы патента из информационного массива могут выделяться графически и описываться коэффициент сходства соответствующего уровня. Тогда решение о патентной чистоте должно приниматься на основании «перекрытия» элементами запроса элементов документа.

При экспертизе на патентоспособность (новизну) направление сравнения прямо противоположно по сравнению с предыдущей задачей. При проведении анализа на новизну необходимо определить степень отличия вновь патентуемого изобретения от прототипа. Поэтому анализ заключается в определении характеристик, по которым данное изобретение отличается от имеющегося в базе патента. Тогда в результате сканирования патентной БД в ответ на запрос пользователю может выдаваться отчет по каждому (предположительно релевантному с учетом задачи) документу о том, насколько схожи элементы изобретения, присутствующие в патенте, и каковы те признаки запроса, по которым данное изобретение отличается от имеющихся в информационном массиве. В отчет целесообразно включить: 1) коэффициент сходства для каждого учитываемого элемента патентной формулы; 2) предикатные конструкции, извлеченные из входного описания изобретения, для которых не было найдено соответствие в документе (предикатные конструкции, предположительно определяющие новизну вновь патентуемого изобретения).

В соответствии с задачами, ориентированными на автоматизацию этапа анализа патентной экспертизы, должны быть переопределены правила выдачи и ранжирования документов (документы, предположительно порочащие новизну или патентную чистоту, очевидно, должны иметь более высокий ранг).

Такая надстройка требует детального и глубокого анализа лингвистических и логических законов композиции текста патентной формулы, а также предполагает детальную проработку в направлении планирования и оптимизации интерфейса подобного АРМ патентного эксперта.

Обозначенные направления развития позволяют видеть перспективы использования данной модели при решении разнообразных задач прикладной лингвистики. Примененная методика переиспользования лингвистической базы знаний и построения лингвистического обеспечения систем автоматической обработки текста может быть применена для моделирования других языковых подсистем и использующих их процедур автоматического анализа и синтеза текстов.

Заключение

Внимание исследователей к разработке интеллектуальных поисковых систем продиктовано практическими задачами сегодняшнего дня. Объемы информации неизменно увеличиваются, и функция роста новых документов имеет экспоненциальный вид. Это относится и к патентной документации, увеличение объемов которой обусловлено темпами научно-технического прогресса. Задача проведения патентных исследователей остро ставит перед экспертами проблему эффективного извлечения из огромного массива патентных текстов таких, которые релевантны для задач экспертизы.

Поскольку основную роль в исследованиях играет формула изобретения патента, представляется интуитивно очевидным, что именно эта часть патента должна учитываться при отборе документов из патентной БД. Так как документы представляют собой тексты на естественном языке, использование в качестве средств поиска и извлечения информации искусственных конструктов в форме информационных языков становится явно недостаточно.

В настоящей работе проведено исследование особенностей подъязыка формул изобретения патентов США на способ в целях использования этой информации для построения лингвистико-ориентированной модели извлечения информации.

Такая модель призвана, при ее использовании в патентных исследованиях, помочь решению следующих задач:

1) облегчить труд и временные затраты работников патентных ведомств при анализе заявок на изобретения в процессе отбора из патентной БД прототипов и аналогов патентуемых изобретений;

2) повысить качество патентных поисковых систем посредством применения методик автоматической обработки текста в информационном поиске.

Данное исследование вносит определенный вклад в развитие теории подъязыков науки и техники. Теоретическую ценность имеют смоделированные в ходе исследования лингвистические механизмы извлечения информации из массива текстов, использующие семантико-синтаксические особенности функционирования подъязыка.

Список литературы диссертационного исследования кандидат филологических наук Бабина, Ольга Ивановна, 2006 год

1. Абрамов, Б А. Грамматика зависимостей и теория валентностей / Б А. Абрамов // Современные зарубежные грамматические теории. Сборник научно-аналитических обзоров. -М.: ИНИОН, 1985. С. 110-152.

2. Автоматизированные документальные ИПС: система «Скобки» / Д.Г. Лахути, В.Ф. Пархоменко, Г.А. Лесскис, И.С. Добронравов, Е.Б. Федоров. -М.: Информэлектро, 1985.-44 с.

3. Апресян, Ю.Д. Избранные труды / Ю.Д. Апресян. 2-е изд., испр. и доп. - М.: Школа «Языки русской культуры»: Изд-во «Восточная литература» РАН, 1995. - Т. 1. Лексическая семантика. - VIII, 472 с.

4. Белоногов, Г.Г. Языковые средства автоматизированных информационных систем / Г.Г. Белоногов, Б.А. Кузнецов М.: Наука. Главная редакция физ-мат. лит-ры, 1983.-288 с.

5. Беляева, Л.Н. Применение ЭВМ в лингвистических исследованиях и лингводидактике: Уч. пособие к спецкурсу / Л.Н. Беляева. Л.: Изд-во ЛГПИ им. А.И. Герцена, 1986. - 83 с.

6. Богуславский, И.М. Внешняя и внутренняя сфера действия некоторых темпоральных обстоятельств / И.М. Богуславский // Metody formalne w opisie jçzykôw slowiañskich (к 60-летию Ю.Д. Апресяна) / Saloni Z. (red.). Bialystok, 1990.-С. 137-148.

7. Богуславский, И.М. Исследования по синтаксической семантике: сферы действия логических слов / И.М. Богуславский. М.: Наука, 1985. - 176 с.

8. Ю.Богуславский, И.М. Сфера действия лексических единиц. М.: Школа "Языки русской культуры", 1996. - 464 с.

9. Бондарко, A.B. Грамматическое значение и смысл / A.B. Бондарко. -Л.: Наука, Ленинградское отделение, 1978. 175 с.

10. Браславский, П.И. Тезаурус как средство описания систем знаний / П.И. Браславский, С.Л. Гольдштейн, Т.Я. Ткаченко. // НТИ. Сер. 2. 1997. -№11.-С. 16-22.

11. Булыгина, Т.В. К построению типологии предикатов в русском языке / Т.В. Булыгина. // Семантические типы предикатов / под ред. О.Н. Селиверстовой. М.: Наука, 1982. - С. 7-85.

12. Бухвалева, Э.И. Моделирование смысла термина информационно-поискового языка / Э.И. Бухвалева. М.: «Машиностроение», 1978. - 48 с.

13. Виккери, Б. Словари для систем координатного индексирования / Б. Виккери. // Вопросы индексирования и информационного поиска: Сб. переводов / под ред. В.А. Полушкина, Г.С. Ждановой, Е.С, Колобродовой, В.М. Михайлова.-М., 1965. -№1. С. 5 - 12.

14. Воройский, Ф.С. Систематизированный толковый словарь по информатике. (Вводный курс по информатике и вычислительной технике в терминах) / Ф.С. Воройский. М.: Либерея, 1998. - 376 с.

15. Гаврилова, Т. А. Извлечение и структурирование знаний для экспертных систем / Т. А. Гаврилова, К. Р. Червинская М.: Радио и связь, 1992. -200 с.

16. Гаврилова, Т.А. ВИКОНТ: ВИзуальный Конструктор ОНТологий для структурирования семантической информации / Т.А. Гаврилова, И.А. Лещева. //

17. Электронные библиотека: Перспективные методы и технологии, электронные коллекции: Труды Первой Всероссийской научной конференции. (С.-^ Петербург, 19-22 октября 1999 г.) СПб.: Изд-во С.-Петербургского ун-та,1999.-С. 97-99.

18. Городецкий, Б.Ю. Методы семантического исследования ограниченного подъязыка / Б.Ю. Городецкий, В.В. Раскин. М.: Изд-во Моск. ун-та, 1971.-414 с.

19. ГОСТ 7.73-96. Поиск и распространение информации. Термины и определения.

20. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения. Введ. 01.07.97. Минск, 1997. - 34 с.

21. ГОСТ Р 15.011-96. Патентные исследования. Содержание и порядок проведения.

22. Грязнухина, Т.А. Синтаксический анализ научного текста на ЭВМ / Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская. Киев: Наукова думка, 1999. -272 с.

23. Щ 26.Двуязычное аннотирование и реферирование / Р.Г. Пиотровский,

24. JI.H. Беляева, А.Н. Попескул, Е.А. Шингарева // Итоги науки и техники. Сер. Информатика. Т. 7. М.: ВИНИТИ, 1983. - С. 165-244.

25. Дрейфус, X. Чего не могут вычислительные машины: Критика искусственного разума. / X. Дрейфус; пер. с англ. Н. Родман. М.: Изд-во «Прогресс», 1978.-334 с.

26. Дубинский, А. Г. Факторы, влияющие на качество информационного поиска / А.Г. Дубинский // Системный анал!з та шформацшш технологи: 36. тез доп. МЪкн. наук.-практ. конф. студ., астранив та молод, вчених. К.: НТУУ "КПГ, 2001. - 4.2. - С. 43-48.

27. Дубинский, А.Г. Некоторые аспекты задачи построения автоматизированной поисковой системы / А.Г. Дубинский // Научный сервис в сети Интернет: Тез. докл. Всерос. науч. конф. М.: Изд-во МГУ, 1999. - С. 283-288.

28. Заде, JI. Понятие лингвистической переменной и его применение к принятию приближенных решений / JT. Заде; пер с англ. М.: Мир, 1976. - 165 с.

29. Захаров, В.П. Естественно-языковой подход к созданию лингвистического обеспечения информационно-поисковых систем / В.П. Захаров, E.H. Пименов // НТИ. Сер. 2. 1997. - №12. - С. 24 - 27.

30. ЗЗ.Зубов, A.B. Информационные технологии в лингвистике / A.B. Зубов, И.И. Зубова. М.: Издательский центр «Академия», 2004. - 208 с.

31. Изобретателям и рационализаторам: Сб. офиц. материалов / сост. В.И. Божинский. М.: Профиздат, 1980. - 256 с.

32. Информационно-поисковые системы и традиционный патентный поиск: Уч. пособие / авт.-сост. В.М. Яшина, В.Д. Васильев, Т.Б. Омарова, М.В. Волкова, H.JI. Румянцева; под ред. Б.С. Розова. М.: ВНИИПИ, 1987. - 108 с.

33. Калиущенко, В.Д. Значение отглагольного имени и реализация его валентности / В.Д. Калиущенко // Грамматическая и лексическая семантика. М.: Наука, 1981.-С. 101-106.

34. Кацнельсон, С.Д. К понятию типов валентности / С.Д. Кацнельсон // Вопросы языкознания. 1987. - №3. - С. 20-32.

35. Качулин, Н. Поиск в Интернете / Н. Качулин // Мир Интернет. 1997. -№11.-С. 32-39.

36. Киселева, Т.С. Экспертиза объектов техники на патентную чистоту: Уч. пособие / Т.С. Киселева. -М.: ВНИИПИ, 1991. 116 с.

37. Кобозева, И.М. Лингвистическая семантика: Учебник / И.М. Кобозева. М.: Эдиториал УРСС, 2000. - 352 с.

38. Кравец, Л.Г. Современная патентно-информаци-онная технология за рубежом / Л.Г. Кравец, A.A. Молчанова, Ю.Д. Кузнецов. М.: ВНИИПИ, 1995. -75 с.

39. Кронгауз, М.А. Семантика: Учебник для вузов / М.А. Кронгауз. М.: Рос. гос. гуманит. ун-т, 2001. - 399 с.

40. Ланкастер, Ф.У. Информационно-поисковые системы. Характеристики, испытание и оценка / Ф.У. Ланкастер. М.: Изд-во «Мир», 1972. - 308 с.

41. Ледли, Р. Программирование и использование вычислительных машин / Р. Ледли. М.: Изд-во «Мир», 1966. - 644 с.

42. Леонтьева, H.H. О статусе валентностей в информационном анализе тексте / H.H. Леонтьева. // Семиотика и информатика. М.: Школа «Языки русской культуры», 1998. - Вып. 36. - С. 41-50.

43. Леонтьева, H.H. Строение семантического компонента в информационной модели автоматического понимания текста: дис. . д-ра техн. наук / H.H. Леонтьева. М., 1990. - 307 с.

44. Лесохин, М.М. Введение в математическую лингвистику: Лингвистическое приложение основ математики / М.М. Лесохин, К.Ф. Лукьяненков, Р.Г. Пиотровский. Минск: Наука и техника, 1982. - 263 с.

45. Лосев, А.Ф. Введение в общую теорию языковых моделей: Уч. пособие / А.Ф. Лосев; под ред. И.А. Василенко. М.: Изд-во Моск. гос. пед. инст., 1968.-296 с.

46. Мельников, Г.П. Системология и языковые аспекты кибернетики / Г.П. Мельников; под ред. Ю.Г. Косарева. М.: Сов. радио, 1978. - 368 с.

47. З.Мельчук, И.А. Опыт теории лингвистических моделей «СмыслО Текст» / И.А. Мельчук. М.: Школа «Языки русской культуры», 1999.-XXII, 345 с.

48. Мидоу, Ч. Анализ информационных систем: Сокр. пер. с англ. / Ч. Мидоу. 2-е изд., перераб. и доп. - М.: «Прогресс», 1977. - 400 с.

49. Минский, М. Фреймы для представления знаний / М. Минский; пер. с англ. М.: Энергия, 1979. - 152 с.

50. Налимов, В.В. Вероятностная модель языка / В.В. Налимов. 2 изд. -М.: Наука, 1979.-303 с.

51. Никитин, П.И. Информационно-поисковые системы. Автоматизированные ИПС. / П.И. Никитин; под ред. В.Г. Шорина. М.: Изд-во Моск. гос. ист.-арх. ин-та, 1971. - 140 с.

52. Никитин, П.И. Информационно-поисковые системы. Теоретические основы информационного поиска / П.И. Никитин. М.: Изд-во Моск. гос. ист.-арх. ин-та, 1972. - 232 с.

53. Обработка запросов на естественном языке новое качество поиска в БД ВИНИТИ / Б.А. Кузнецов, Е.К. Солнцева, М.В. Деревянкин, Д.В. Закамская //НТИ. Сер. 2.-2001.-№11.-С. 31-37.

54. Падучева, Е.В. Динамические модели в семантике лексики / Е.В. Падучева. — М.: Языки славянской культуры, 2004. — 608 с.

55. Падучева, Е.В. Коммуникативное выделение на уровне синтаксиса и семантики / Е.В. Падучева // Семиотика и информатика. М.: Школа «Языки русской культуры», 1998. - Вып. 36. - С. 82-107.

56. Патентно-информационное обеспечение: Сб. иллюстративных материалов / сост. К.Л. Кольцова. М.: ИПКИР, 1985. - 62 с.

57. Пименов, E.H. Предметно-аспектный подход к индексированию информации: актуальный и нулевой предмет индексирования / E.H. Пименов // НТИ. Сер. 2.-2001.-№7.-С. 18-25.

58. Пиотровский, Р.Г. Инженерная лингвистика и теория языка / Р.Г. Пиотровский. Л.: «Наука», 1979. - 112 с.

59. Пиотровский, Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении): Учебное пособие / Р.Г. Пиотровский. СПб.: Изд-во РГПУ им. А.И. Герцена, 1999. - 256 с.

60. Пиотровский, Р.Г. Текст, машина, человек / Р.Г. Пиотровский. Л.: Наука, Ленинградское отделение, 1975. - 327 с.

61. Поляков, В.Н. Интеллектуальная поисковая машина. Концептуальный проект / В.Н. Поляков // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2000. (Казань, 17-20 октября 2000 г). Казань: Изд-во Сэлэт, 2000. - Вып. 5. - С. 87-119.

62. Приставко, Л.П. Методика составления тезауруса / Л.П. Приставко // Семантические модели поиска научной информации и методы проектирования лингвистического обеспечения документальных ИПС. Киев: Институт кибернетики, 1979.-С. 20-32.

63. Пшеничная, Л.Э. Тезаурус в документальной информационно-поисковой системе / Л.Э. Пшеничная. К.: Наукова думка, 1977. - 121 с.

64. Рахилина, Е.В. Семантика или синтаксис? (К анализу частных вопросов в русском языке) / Е.В. Рахилина. München: Sagner, 1990. - X, 206 с. Slavistische Beiträge.

65. Ревзин, И.И. Современная структурная лингвистика: Проблемы и методы / И.И. Ревзин; отв. ред. Вяч. Вс. Иванов. М.: Изд-во «Наука», 1977. -263 с.

66. Рубашкин, В.Ш. Представление и анализ смысла в интеллектуальных информационных системх / В.Ш. Рубашкин. М.: Наука: Гл. ред. физ.-мат. лит., 1989. - 192 с. - (Пробл. искусств, интеллекта).

67. Семенов, Ю.А. Современные поисковые системы / Ю.А. Семенов // http://book.itep.rU/4/45/retr4514.html. Дата просмотра: 27.05.2006.

68. Скорняков, Э.П. Методические рекомендации по проведению патентных исследований / Э.П. Скорняков, Т.Е. Омарова, О.В. Челышева. М.: ИНИЦ, 2001.- 196 с.

69. Степанов, Ю.С. Методы и принципы современной лингвистики / Ю.С. Степанов. 2-е изд. - М.: Эдиториал УРСС, 2001. - 312 с.

70. Степанова, М.Д. Части речи и проблемы валентности в современном немецком языке / М.Д. Степанова, Г. Хельбиг. М.: Высшая школа, 1978. -258 с.

71. Сэлтон, Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. М.: Сов. радио, 1973. - 560 с.

72. Теньер, JI. Основы структурного синтаксиса / JI. Теньер; пер. с франц. И.М. Богуславского, Л.И. Лухт, Б.П. Нарумова, С.Л. Сахно. М.: Прогресс, 1988.-653 с.

73. Теряев, A.A. Построение систем поиска информации, основанных на семантике языка: дис. канд. техн. наук / A.A. Теряев. СПб, 2002. - 119 с.

74. Тестелец, Я.Г. Введение в общий синтаксис / Я.Г. Тестелец. М.: РГГУ, 2001.-800 с.

75. Традиционные и новые средства патентного поиска / сост. Л.Г. Кравец. М.: ИНИЦ Роспатента, 2001. - 76 с.

76. Труб, В.М. К проблеме построения полной типологии стратегий поиска в ИПС / В.М. Труб //Лингвистические вопросы проектирования и информационный анализ автоматизированных информационных систем. Киев: ИК, 1976.-С. 85- 102.

77. Устинова, Е.А. Понятия и определения в области химии и критерии патентного права / Е.А. Устинова. М.: ВНИИПИ, 1998. - 28 с.

78. Устинова, Е.А. Функциональные признаки в формулах изобретения на химические объекты / Е.А. Устинова, О.В. Челышева. М.: ИНИЦ Роспатента, 1999.- 19 с.

79. Уфимцева, A.A. Лексическое значение: Принцип семиологического описания лексики / A.A. Уфимцева; под ред. Ю.С. Степанова. 2-е изд., стереотипное. - М.: Едиториал УРСС, 2002. - 240 с.

80. Фейгельсон, В.М. Методика и практика экспертизы объектов техники на патентную чистоту / В.М. Фейгельсон. М.: ИНИЦ Роспатента, 2001. -343 с.

81. Филмор, Ч. Дело о падеже / Ч. Филмор // Зарубежная лингвистика. III / общ. ред. В.Ю. Розенцвейга, В.А. Звегинцева, Б.Ю. Городецкого. М.: Изд. группа «Прогресс», 2002. - С. 127-258.

82. Филмор, Ч. Дело о падеже открывается вновь / Ч. Филмор // НЗЛ. Вып. X. Лингвистическая семантика / сост., общ. ред. и вступ. ст. В.А. Звегинцева. М.: Прогресс, 1981. - С. 496-530.

83. Фреге, Г. Логика и логическая семантика: Сборник трудов / Г. Фреге; пер. с нем. Б.В. Бирюкова; под ред. З.А. Кузичевой. М.: Аспект Пресс, 2000. -512 с.

84. Химия: Справ, материалы: Кн. для учащихся / Ю.Д. Третьяков, H.H. Олейников, Я.А. Кеслер и др.; под ред. Ю.Д. Третьякова. 3-е изд., пере-раб. - М.: Просвещение, 1994. - 287 с.

85. Хомский, Н. Аспекты теории синтаксиса / Н. Хомский. Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 1999. - 256 с.

86. Храковский, B.C. Понятие сирконстанта и его статус / B.C. Храков-ский // Семиотика и информатика. М.: «Языки русской культуры», 1998. -Вып. 36.-С. 141-153.

87. Чарская, Т.К. Статистическая структура текста патентного документа: дис. . канд. филол. наук / Т.К. Чарская. Л., 1983. - 148 с.

88. Чейф, У. Л. Значение и структура языка / У.Л. Чейф. Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 1999. - 428 с.

89. Черный, А.И. Введение в теорию информационного поиска / А.И. Черный. М.: Наука, 1975.-238 с.

90. Шереметьева, С.О. Межуровневая организация текста патентной формулы США / С.О. Шереметьева, Е.А. Бородкина // Межуровневая организация текста в естественном языке: Межвузовский сборник научных трудов. -Челябинск: ЧГПИ, 1987.-С. 116-121.

91. Шереметьева, С.О. Модель синтеза текста формулы изобретения: дис. . канд. филол. наук / С.О. Шереметьева. Л., 1985. - 174 с.

92. Шингарева, Е.А. Информационный язык в лингвистическом автомате / Е.А. Шингарева // Инженерная лингвистика и оптимизация преподавания иностранных языков: Межвуз. сб. науч. тр. / отв. ред. Р.Г. Пиотровский. Л.: ЛГПИ, 1980.-С. 31-71.

93. Шингарева, Е.А. Формальная математическая теория искусственного языка / Е.А. Шингарева // Инженерная лингвистика и преподавание иностранных языков с помощью ТСО. Л.: ЛГПИ, 1981. - С. 47-65.

94. Яглом, A.M. Вероятность и информация / A.M. Яглом, И.М. Яглом. -М.: «Наука», 1973.-511 с.

95. Andriamanankasina, Т., К. Araki, and Т. Tochinai. Example-Based Machine Translation of Part-Of-Speech Tagged Sentences by Recursive Division. In Proceedings of MTSUMMIT VII. Singapore. 1999. Pp. 509-517.

96. Aronson, Alan R., Thomas C. Rindflesch, and Allen C. Browne. Exploiting a Large Thesaurus for Information Retrieval. In Proceedings of RIAO'94. New York, NY, USA. 1994. Pp. 197-216.

97. Biber, D. Variation across speech and writing. Cambridge, England: Cambridge University Press, 1988. - 316 p.

98. Biber, D., S. Conrad, and R. Reppen. Corpus Linguistics. Investigating Language Structure and Use (Cambridge Approaches to Linguistics). Cambridge: Cambridge University Press, 1998. - 310 p.

99. Brill, Eric. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. In Computational Linguistics. 21(4), 1995. Pp. 543-565.

100. Brown, R. D. Automated Generalization of Translation Examples. In Proceedings of the Eighteenth International Conference on Computational Linguistics (COLING-2000). Saarbrücken, Germany. August 2000. Pp. 125-131.

101. Burnard, Lou (ed.) The British National Corpus Users Reference Guide. Technical Report. Oxford: Oxford University Computing Services, 2000. Доступен: http://www.natcorp.ox.ac.uk/docs/userManual/. Дата просмотра: 01.07.2006.

102. Cardie, С. Domain-Specific Knowledge Acquisition for Conceptual Sentence Analysis. Ph.D. Thesis. Amherst, MA: University of Massachusetts, 1994. -178 p. - (University of Massachusetts, CMPSCI Technical Report 94-74).

103. Carl, M. Inducing Translation Templates for Example-Based Machine Translation. In Proc. of MTSummit VII. Singapore. 1999. Pp. 250-258.

104. Chen, Liang, Naoyuki Tokuda, and Hisahiro Adachi. A Patent Document Retrieval System Addressing Both Semantic and Syntactic Properties. In Proceedings of ACL2003 Workshop on Patent Corpus Processing. Sapporo, Japan. July 12, 2003. Pp. 1-6.

105. Church, K. A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text. In Proceedings of 2nd Conference on Applied Natural Language Processing. Austin, Texas. 1988. Pp. 136-143.

106. Cutting, D., J. Kupiec, J. Pederson, and P. Sibun. A practical part-of-speech tagger. In Proceedings of 3rd Conference on Applied Natural Language Processing. Trento, Italy. 1992. Pp. 126-132.

107. Daelemans, W., J. Zavrel, P. Berck, and S. Gillis. МВТ: A Memory-Based Part of Speech Tagger Generator. In Proceedings of 4th Workshop on Very Large Corpora, ACLSIGDAT. 1996. Pp. 14-27.

108. Evans, David A., and Chengxiang Zhai. Noun-Phrase Analysis in Unrestricted Text for Information Retrieval. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics. 1996. Pp. 17-24.

109. Evans, David A., Kimberly Ginther-Webster, Mary Hart, Robert G. Lef-ferts, and Ira A. Monarch. Automatic indexing using selective NLP and first-order thesauri. In RLAO'91. Barcelona, Spain. April 2-5,1991. Pp. 624-644.

110. Fellbaum, C. (ed.). WordNet: An Electronic Lexical Database. MIT Press, Cambridge, MA. 1998. - 423 p.

111. Feuillet, J. Les functions sémantiques profondes // Bulletin de la Société de linguistique de Paris. T. 75. 1. 1980. Pp. 1-37.

112. Fujita, Sumio. Notes on phrasal indexing: JSCB evaluation experiments at NTCIR AD HOC. In Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. Tokyo, Japan. August 30 September 1, 1999. Pp. 101-108.

113. Garside, Roger. The CLAWS word-tagging system. In The Computational Analysis of English: A Corpus-based Approach. / R. Garside, G. Leech and G. Sampson (eds.). London and New York: Longman, 1987. - Pp. 30-41.

114. Helbig, G., and W. Schenkel. Wörterbuch zur Valenz und Distribution deutcher Verben. Leipzig, Bibliogr. Inst., 1973. - 458 s.

115. Hindle, D. Acquiring disambiguation rules from text. In Proceedings of 27th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada. April 1989. Pp. 118-125.

116. Jackendoff, Ray S. Semantic structures. Cambridge (Mass.): The MIT Press, 1992.-336 p.

117. Jacobs, Paul S., and Lisa F. Rau. SCISOR: Extracting information from on-line news. In Communications of the ACM. 33(11), 1990. Pp. 88-97.

118. Jones, D. Analogical Natural Language Processing. London: UCL Press, 1996.- 155 p.

119. Joshi, Aravind K., and B. Srinivas. Disambiguation of Super Parts of Speech (or SuperTags): Almost Parsing. In Proceedings of the 15th International

120. Conference on Computational Linguistics (COLING'94). Vol. 1. Kyoto, Japan. August 1994. Pp. 154-160.

121. Kato, Tsuneaki, Shigeo Shimada, Mutsumi Kumamoto, and Kazumitsu Matsuzawa. Idea-Deriving Information Retrieval System. In Proceedings of the First NTCIR Workshop. Tokyo, Japan. August 30 September 1,1999. Pp. 187-193.

122. Kishida, Kazuaki. Regression Model and Query Expansion for NTCIR-2 Ad Hoc Retrieval Task. In Proceedings of the Second NTCIR Workshop on Researchin Chinese & Japanese Text Retrieval and Text Summarization. Tokyo, Japan. 2001.1. Pp. 5-83-5-89.

123. Kitano, H. A Comprehensive and PracticalModel of Memory-Based Machine Translation. In Proceedings of IJCAI-93. Chambery, France. 1993. Pp. 12761282.

124. Kittredge, K., A. Polguere, and E. Goldberg. Synthesizing Whether • Forecasts from Formatted data. In Proceedings of the 11th International Conferenceon Computational Linguistics (COLING-86). Bonn, Germany. 1986. Pp. 563-565.

125. Kolodner, Janet. Case-Based Reasoning. San Mateo, CA: Morgan Kaufmann Publishers, 1993. - 612 p.

126. Korhonen, A., and J. Preiss. Improving Subcategorization Acquisition Using Word Sense Disambiguation. In Proceedings of the 41s Meeting of the Association for Computational Linguistics. Sapporo, Japan. July 7-12, 2003. Pp. 48-55.

127. Kwok, K.L. A Network Approach to Probabilistic Information Retrieval. In ACM Trans, on Information Systems. No. 12, 1996. Pp. 325-353.

128. Large, Andrew, Lucy A. Tedd, and R.J. Hartley. Information Seeking in the Online Age: Principles and Practice. London-Melbourne-Miinich-New Provdi-ence, NJ: Bowker-Saur, 1999. - 308 p.

129. Lazard, Gilbert. Actancy. Berlin; N.Y.: Mouton de Gruyter, 1998. -XV, 286 p.

130. Lazard, Gilbert. Définition des actants dens les langues européennes // Actance et valence dans les Langues de l'Europe. Empirical Approaches to Language Typology. EUROTYP 20-2 / Feuillet J. (ed.). Berlin; N.Y.: Mouton de Gruyter, 1997.-Pp. 11-146.

131. Lazard, Gilbert. L'actance. Paris: Press universitaires de France, 1994. -296 p.

132. Levin, Beth. English Verb Classes and Alternations: A Preliminary Investigation. Chicago: Chicago UP, 1993. - 348 p.

133. Lewis, David D., and W. Bruce Croft. Term clustering of syntactic phrases. In 13th International Conference on Research and Development in Informa* tion Retrieval / Jean-Luc Vicick (ed.). 1990. Pp. 385-404.

134. Lin, Xia. Information Retrieval Systems: Course at College of Information Science and Technology, Drexel University. Fall, 2002. // Доступен: http://research.cis.drexel.edu/classes/insys300. Дата просмотра: 25.05.2006.

135. Manning, Christopher D., and Hinrich Schütze. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press, 1999. - 620 p.

136. Marcus, Mitchell M., Beatrice Santorini, and Mary Ann Marcinkiewicz. Building a Large Annotated Corpus of English: The Penn Treebank. In Computational Linguistics. Vol. 19, No.2. June 1993. Pp. 313-330.

137. Mathew, P.H. Morphology, 2nd ed.- Cambridge: Cambridge University Press, 1998. 251 p. - (Cambridge Textbooks in Linguistics).

138. Mauldin, Michael L. Conceptual Information Retrieval: A Case Study in Adaptive Partial Parsing. Boston, MA: Kluwer Academic Publishers, 1991. -240 p.

139. Moore, C.N. Zatocoding applied to mechanical organization of knowledge. In American Documentation. No. 1, 1951. Pp. 20-23.

140. Nagao, M. A Framework of a Mechanical Translation between Japanese and English by Analogy Principle. In Artificial and Human Intelligence / A. Elithorn and R. Banerji (eds.). North-Holland, NATO Publications, 1984. - Pp. 173-180.

141. Nirenburg, S., and V. Raskin. Ten Choices for Lexical Semantics. Memoranda in Computer and Cognitive Science, MCCS-96-304. Las Cruces, NM: New Mexico State University, Computing Research Laboratory, 1996. 39 p.

142. Oltmans, Erik. A Two-Stage Model for Robust Parsing. In Proceedings of the International Conference on Natural Language Processing and Industrial Applications (NLP+IA '98). Moncton, New Brunswick, Canada. 1998. Pp. 233-239.

143. Onyshkevich, B., and S. A. Nirenburg. Lexicon for Knowledge-Based MT. In Machinbe Translation. 10:1 -2, 1995. Pp. 5-57.

144. Rayson, Paul Edward. Matrix: A Statistical Method and Software Tool for Linguistic Analysis through Corpus Comparison: Ph.D. Thesis. Computer Department, Lancaster University. - September 2002. - XIII, 182 p.

145. Rijsbergen, C.J. van. Information Retrieval. Second Edition. - London: Butterworths, 1979. - 204 p.

146. Robertson, S.E., and K. Sparck Jones. Relevance weighting of search terms. In Journal of the American Society for Information Science. May-June 1976. Pp. 129-146.

147. Robertson, S.E., and S. Walker. Okapi/Keenbow at TREC-8. In Proceedings of the Eigth Text Retrieval Conference (TREC-8) / E.M. Voorhees, D.K.

148. Harman (eds.). Gaithersburg, Maryland, USA. November 17-19, 1999. Pp. 151-162. (NIST Special Publication 500-246).

149. Sadler, V. Working with Analogical Semantics. Foris Publications, 1989.-256 p.

150. Sato, S., and M. Nagao. Toward Memory-based Translation. In Proceedings of the International Conference on Computational Linguistics, COLING-90. Vol. 3. Helsinki, Finland. August 1990. Pp. 247-252.

151. Schmid, H. Part-of-Speech Tagging with Neural Networks. In Proceedings of the 15th International Conference on Computational Linguistics (COL-ING'94). Kyoto, Japan. August 1994. Vol. 1. Pp. 172-176.

152. Sheremetyeva, S. A Flexible Approach to Multi-Lingual Knowledge Acquisition for NLG. In Proceedings of the 7th European Workshop on Natural Language Generation / P. St. Dizier (ed.). Toulouse, France. May 13-15, 1999. Pp. 106115.

153. Sheremetyeva, S. Natural Language Analysis of Patent Claims. In Proceedings of the Workshop on Patent Corpus Processing. Sapporo, Japan. July 12, 2003a. Pp. 66-73.

154. Sheremetyeva, S. On MT Learning Environment for Computational Linguistics Students // Теория и методика преподавания языков в вузе: Тезисы докладов / под ред. Е.Н. Ярославовой. — Челябинск: Изд-во ЮУрГУ, 2003b. — с. 32-38.

155. Sheremetyeva, S., S. Nirenburg, and I. Nirenburg. Generating patent claims from interactive input. In Proceedings of the 8th International Workshop on Natural Language Generation (INLG'96). Herstmonceux, England. 1996. Pp. 61-70.

156. Sheremetyeva, S. Handling Low Translatability in Machine Translation. In Proceedings of the Eleventh Conference of European Association of Machine Translation (EAMT). Oslo, Norway. August 19-20, 2006. Pp. 105-114.

157. Sparck Jones, K. A statistical interpretation of term specificity and its application in retrieval. In Journal of Documentation. Vol. 28. 1972. Pp. 111-121.

158. Strzalkowski, Tomek, and Jose Perez Carballo. Recent Developments in Natural Language Text Retrieval. In The Second Text REtrieval Conference (TREC-2) / D.K. Harman (ed.). August 31 September 2, 1993. Pp. 123-136. (NIST Special Publication 500-215). ,

159. Sumita, Eiichiro, and Hitoshi Iida. Experiments and Prospects of Example-Based Machine Translation. In Proceedings of Proceedings of the 29th Meetingof the Association for Computational Linguistics (ACL-91). Berkeley, USA. 1991. Pp.185-192.

160. Tadic, Marko. Building the Croatian National Corpus. In Proceedings of the Third International Conference on Language Resource and Evaluation. Vol.2. Las Palmas, Spain. May 29-31, 2002. Pp. 441-446.

161. Van Valin, R.D Jr. A Synopsis of Role and Reference Grammar. In Advances in Role and Reerence Grammar / R.D. Jr. Van Valin (ed.) Amsterdam: Benjamins, 1993.-Pp. 1-166.

162. Voutilainen, A. 1995. A syntax-based part-of-speech analyser. In Proceedings ofEACL'95. Dublin, Ireland. 1995. Pp. 157-164.

163. Watanabe, H., and H. Maruyama. A Transfer System Using Example-Based Approach. In IEICE Transactions on Information and Systems. Vol. E77-D, No. 2. 1994. Pp. 247-257.

164. Youli, Q., X. Guowei, and W. Jun. Rerank Method Based on Individual Thesaurus. In Proceedings of the Second NTCIR Workshop on Research in Chinese & Japanese Text Retrieval and Text Summarization. Tokyo, Japan. March 2001. Pp.553-558.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат филологических наук Бабина, Ольга Ивановна

Рекомендованный список диссертаций по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Модель синтеза текста формулы изобретения1985 год, кандидат филологических наук Шереметьева, Светлана Олеговна

Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах2007 год, кандидат филологических наук Николаева, Ирина Викторовна

Введение диссертации (часть автореферата) на тему «Построение модели извлечения информации из технических текстов»

Похожие диссертационные работы по специальности «Прикладная и математическая лингвистика», 10.02.21 шифр ВАК

Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич

Заключение диссертации по теме «Прикладная и математическая лингвистика», Бабина, Ольга Ивановна

Список литературы диссертационного исследования кандидат филологических наук Бабина, Ольга Ивановна, 2006 год