Методы, средства и алгоритмы автоматического извлечения фактов из китайских текстов тема диссертации и автореферата по ВАК РФ 05.13.11, кандидат наук Юй Чуцяо

  • Юй Чуцяо
  • кандидат науккандидат наук
  • 2018, Санкт-Петербург
  • Специальность ВАК РФ05.13.11
  • Количество страниц 115
Юй Чуцяо. Методы, средства и алгоритмы автоматического извлечения фактов из китайских текстов: дис. кандидат наук: 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей. Санкт-Петербург. 2018. 115 с.

Оглавление диссертации кандидат наук Юй Чуцяо

Оглавление

Введение

Глава 1. Состояние проблемы и постановка задачи

1.1 Особенности китайского языка в задачах автоматической обработки тестов

1.1.1 Сравнительный анализ алфавитных и иероглифических языков

1.1.2 Грамматические особенности китайского языка

1.2 Обзор существующих методов обработки китайских тестов

1.2.1 Методы автоматической сегментации предложений

1.2.2 Методы синтаксического анализа текстов на китайском языке

1.2.3 Постановка задачи

1.3 Выводы

Глава 2. Разработка метода автоматического формирования тезауруса предметной области

2.1 Анализ существующих методов автоматического формирования тезаурусов

2.1.1 Анализ методов построения тезаурусов для алфавитных языков

2.1.2 Анализ методов извлечения терминов для китайского языка

2.2 Разработка метода автоматического построения тезауруса предметной области для китайского языка

2.2.1 Исследование способа построения тезауруса на основе частот встречаемости терминов

2.2.2 Разработка контрастного метода извлечения терминов из китайских текстов

2.3. Выводы

Глава 3. Разработка метода поверхностного синтаксического анализа предложений на китайском языке

3.1 Анализ существующих синтаксических анализаторов

3.1.1 Обзор синтаксических анализаторов для алфавитных языков

3.1.2 Обзор существующих синтаксических анализаторов для китайского языка

3.2 Разработка синтаксического анализатора для китайского языка

3.2.1 Разработка модели грамматики китайских предложений

3.2.2 Разработка алгоритма синтаксического анализа китайских предложений

3.2.2 Оценка сложности разработанного алгоритма

3.3 Выводы

Глава 4. Разработка метода автоматического извлечения фактов из естественно-языковых китайских текстов

4.1 Анализ существующих методов автоматического извлечения фактов

4.1.1 Обзор существующих методов извлечения фактов для алфавитных языков

4.1.2 Анализ особенностей извлечения фактов из иероглифических текстов

4.2 Разработка алгоритма извлечения фактов из китайских текстов

4.2.1 Разработка алгоритма анализа китайских текстов на основе ролевого подхода

4.2.2 Разработка алгоритма сопоставления частей речи предложений с переменными запроса

4.3 Выводы

Глава 5. Результаты экспериментального исследования разработанных методов и алгоритмов

5.1 Постановка экспериментального исследования

5.1.1 Выбор и обоснование инструментальных средств для проведения экспериментального исследования

5.1.2 Создание корпуса документов, описание грамматики и словаря

5.2 Результаты исследования работоспособности и эффективности разработанных алгоритмов

5.2.1 Результаты экспериментального исследования работоспособности

5.2.2 Оценка работоспособности алгоритма извлечения фактов из китайских текстов

5.3 Выводы

Заключение

Приложение 1

Свидетельство о регистрации объекта интеллектуальной собственности

Приложение 2

Акт о внедрении результатов диссертационного исследования

Приложение 3

Грамматические особенности китайского языка

Рекомендованный список диссертаций по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы, средства и алгоритмы автоматического извлечения фактов из китайских текстов»

Введение

Наблюдаемый в течение последних десятилетий взрывной рост числа цифровых документов наряду со скромными достижениями в области формализации знаний в форме баз знаний привел к смещению интересов исследователей с проблемы формализации знаний к проблеме автоматической обработки естественно-языковых текстов.

Современные технологии больших данных и машинного обучения демонстрируют существенный прогресс в области обработки текстов на европейских языках, в то же время документы на китайском языке остаются в значительной степени недоступными для европейских пользователей сети Интернет.

Особенности китайского языка делают плохо применимыми к этому языку результаты исследований и разработок в области обработки естественно-языковых текстов на европейских языках.

Актуальность проблемы. Расширение сотрудничества между Россией и Китаем выводит на первый план проблему языкового барьера. Китайские интернет-ресурсы очень редко содержат страницы на английском или русском языках, что затрудняет информационный поиск в китайском сегменте интернета. Объявления о госзакупках, грантах, коммерческие предложения и другие новости недоступны как для русскоязычных пользователей, так и для российских поисковых сервисов. Существующие методы автоматического аннотирования, тегирования текстов, извлечения сущностей и фактов, разработанные для алфавитных языков, ограниченно применимы для иероглифических текстов. Использование средств машинного перевода невозможно, если речь идет о поиске в неопределенном множестве документов. В этой связи актуальной является задача прямого извлечения сущностей и отношений из китайских текстов.

Особенности китайского языка - полисемия каждого иероглифа, отсутствие заимствованных, иероглифическое написание имен собственных, стремление к упрощению фраз - приводят к тому, что перевод отдельного предложения невозможен в отрыве от контекста. Все это делает задачу информационного поиска в китайских текстах актуальной.

Целью работы является повышение доступности информации, размещенной в массиве документов на китайском языке.

В соответствии с целью исследования сформулирован ряд следующих задач:

1. Анализ состояния проблемы и текущих исследований в области автоматической обработки текстов.

2. Разработка метода автоматического построения тезауруса предметной области на основе китайского корпуса документов.

3. Разработка метода синтаксического анализа предложений на китайском языке.

4. Разработка метода автоматического извлечения фактов из естественно-языковых китайских текстов, подвергнутых процедуре синтаксического анализа.

5. Экспериментальное исследование работоспособности и эффективности разработанных методов и алгоритмов автоматической обработки китайских текстов.

Цель и задачи данной работы определяют структуру исследования. Работа состоит из введения, пяти глав и заключения.

Для решения поставленных задач в работе применён семантико-функциональный метод. Этот метод направлен на углубленное изучение грамматической семантики. Он может позволить объединить разноуровневые языковые средства (лексические, морфологические, синтаксические), которые служат для выражения различных грамматических значений.

Положения, выносимые на защиту:

1. Метод автоматического формирования тезауруса предметной области на основе корпуса текстов на китайском языке.

2. Ролевой метод поверхностного синтаксического анализа предложений на китайском языке.

3. Ролевой метод автоматического извлечения фактов из естественно-языковых китайских текстов.

4. Результаты экспериментального исследования разработанных методов и алгоритмов.

Научная новизна:

1. Метод автоматического формирования тезауруса предметной области на основе корпуса текстов на китайском языке, отличающийся отсутствием фазы предварительной сегментации фраз на слова и обеспечивающий лучшие точность и полноту извлечения редко встречающихся терминов.

2. Ролевой метод поверхностного синтаксического анализа предложений на китайском языке, отличающийся возможностью использования ограниченного словаря, что обеспечивает повышение качества идентификации текстов.

3. Алгоритм автоматического извлечения фактов из естественно-языковых китайских текстов на основе ролевого подхода к частеречному анализу предложений, что позволяет извлекать факты из китайских текстов без их перевода на другой язык.

4. Результаты экспериментального исследования разработанных методов и алгоритмов, подтверждающие работоспособность и эффективность разработанных методов автоматического извлечения фактов из естественно-языковых китайских текстов.

Теоретическую и методическую основу исследования составляют корпусная лингвистика, теория алгоритмов, теория вероятностей, математическая статистика, логическое программирование. Методы исследования включают в себя эксперименты на корпусах текстов в среде логического программирования Prolog.

Достоверность и обоснованность результатов исследования подтверждается их сопоставимостью с существующими опубликованными материалами, а также внедрением полученных результатов.

Теоретическая значимость исследования обоснована тем, что доказана возможность упрощенного синтаксического анализа китайских текстов с целью извлечения фактов без подключения полного словаря.

Практическая значимость исследования подтверждается тем, что: разработаны и внедрены на уровне лабораторных работ в учебный процесс по дисциплине «Интеллектуальные системы» на кафедре вычислительной техники Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики; определены перспективы коммерциализации полученных научных результатов в сфере поисковых сервисов в среде Интернет и библиографического поиска; создана модель эффективного применения разработанных методов к информационному поиску в естественно-языковых китайских текстах; представлены методические рекомендации по дальнейшему совершенствованию методов и средств автоматической обработки текстов на китайском языке.

Апробация результатов исследования. Основные положения диссертационной работы и результаты исследований докладывались на различных конференциях, в числе которых Международная конференция по коммуникационным компьютерным сетям и интеллектуальным вычислениям (CCNIC-2017), Газиабад, Индия (Yu, et al., 2017); Международная конференция по современному образованию и науке управления (AEMS 2017),

Бангкок, Таиланд (Yu, et al., 2017); 11-я Международная конференция по приложениям в инфокоммуникационных технологиях (AICT-2017), Москва (Bessmertny, et al., 2017); Международный конгресс по интеллектуальным системам и информационным технологиям (IS&IT'17), пос. Дивноморское Краснодарского края (Бессмертный И.А., 2017).

Публикации результатов исследования. По теме диссертации опубликовано девять работ, из них три статьи в журналах из перечня рецензируемых научных изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени кандидата и доктора наук.

Личный вклад. Основные результаты, представленные в диссертации, получены лично автором. В статьях (Yu, и др., 2017),(Bessmertny, и др., 2017),(Yu, и др., 2017), (Бессмертный И.А., 2017),(Бессмертный, и др., 2016) постановка задач и редактирование текстов выполнены И.А. Бессмертным, постановка экспериментов делалась совместно с научным руководителем, а эксперименты, их обработка и интерпретация выполнены автором. В статье (Бессмертный, и др., 2016) соавтор Ма Пэню обеспечивал проведение экспертных оценок точности и полноты извлечения терминов.

В качестве материала исследования были использованы современные тексты учебного, публицистического и научного характера. Также в работе использовались данные Большого китайско-русского словаря (http://www.bkrs. info), Большого китайско-русского словаря И. М. Ошанина (И.М., 1983), Нового русско-китайского словаря (Б. Ухватов, 2007), а также других словарей.

Во введении определяется общее направление работы, формулируются цель и задачи исследования, устанавливается научная новизна и практическая значимость данной работы.

В первой главе анализируются состояние проблемы и текущие исследования в данной области, проводится сравнительный анализ

алфавитных и иероглифических языков, делается обзор существующих методов обработки китайских текстов. На основе проведенного анализа делается постановка задачи диссертационного исследования.

Во второй главе рассматривается задача автоматического формирования тезауруса предметной области на основе корпуса документов. Анализируются существующие методы автоматического извлечения терминов для алфавитных языков и возможность их применения для иероглифических языков. Предлагается контрастный метод извлечения терминов из китайских текстов на основе частот встречаемости слов в целевой и контрастной коллекции документов, отличающийся отсутствием фазы предварительной сегментации слов, и демонстрируется его работоспособность.

Третья глава посвящена разработке ролевого метода поверхностного синтаксического анализа предложений на китайском языке. На основе проведенного анализа предлагается метод поверхностного синтаксического анализа, отличающийся использованием ролевого подхода, позволяющий ограничиваться небольшим словарем.

В четвертой главе описывается разработка алгоритма автоматического извлечения фактов из естественно-языковых китайских текстов, базирующийся на автоматически сформированном словаре предметной области и поверхностном синтаксическом анализе.

Пятая глава содержит результаты экспериментального исследования разработанных методов и алгоритмов на корпусе документов предметной области «Геология». Полученные результаты демонстрируют работоспособность предложенных методов.

В заключении обобщаются основные выводы и результаты по работе. В приложениях содержатся акты о внедрении результатов исследования, свидетельство о регистрации программы для ЭВМ, а также грамматические особенности китайского языка, не включенные в текст диссертации.

Глава 1. Состояние проблемы и постановка задачи

1.1 Особенности китайского языка в задачах автоматической обработки тестов

1.1.1 Сравнительный анализ алфавитных и иероглифических языков

В русском языке изучение частей речи имеет достаточно давнюю традицию. В конце XIX в. были предложены разные принципы классификации частей речи. В качестве приоритетного признака рассматривалась либо семантическая роль в предложении, либо синтаксический принцип с учетом морфологии слов. Также предлагалось выявлять части речи и члены предложения с использованием морфологических, синтаксических и семантических признаков совместно. Исследователь Виноградов предложил разделять все слова на четыре типа по их структурно-семаническим признакам: слова, которые могут выступать в именительнм падеже или представлять именованные сущности, а также служебные слова; модальные глаголы и частицы; междометия. (В. В. Виноградов, 1960).

В современном языкознании части речи считаются центральным звеном в комплексе морфологических категорий. Части речи принято определять следующим образом: это классы слов, обладающие: общим обобщённым значением, абстрагированного от ролевых категорий всех слов данного класса; общими грамматическими категориями и морфизмом; общими синтаксическими функциями (В. В. Виноградов, 1960). Основу частей речи составляет противопоставление самостоятельных и служебных частей речи.

Классификация всех слов на 10 частей речи сохраняется в работах (Шведова, 1970), (Шведова, 1980), а также в (Шведова, и др., 2002) , но имеются некоторые отличия, местоимение и числительное. В класс местоимений включают только местоимения, замещающие существительные,

лицо или предмет, а прилагательные в качестве местоимений и наречия считаются как разрядами слов в составе частей речи.

Выделение частей речи в китайском языке представляет собой сложную и проблему, не имеющую однозначного решения. Словарные элементы китайского языка относительно свободно могут перемещаться из одной категории в другую. В современном китайском языке путунхуа большое число слов может менять свои морфологические принзнаки. В частности, биграмма ^М (maodun) в следующих словоформахЖ Ж^^М fasheng maodun, ^М sixiang hen maodun, ^МШ^ЖЯ maodun zhengde shuangfang означают противоречие (имя существительное), противоречивый (имя прилагательное) или противоречить (глагол). При работе с подобными явлениями в китайской лингвистике говорится о подвижном употреблении частей речи или передвигающемся употреблении.

В работе (Шусян, 1961) части речи - это «грамматические классы слов» . Данное определение верное, но его следует раскрыть более полно. По одному из возможных вариантов частями речи называются слова, которые объединены в некие классы по своей форме, значению и функции. Особое значение в этом случае отводится именно грамматической конструкции. Наличие нескольких словоформ для одного и того же слова - отличает флективные языки, например, русский. Следуя этому определению, можно сделать вывод, что в китайском языке части речи как таковые отсутствуют, ведь в нем нет ни флективности имен существительных (склонение), ни глаголов (спряжение). Возможен и второй вариант: частями речи являются слова, которые объединены в некие классы по значению, которое они выражают и по их роли в предложении, при этом исключается понятие формы и речь идет лишь о значении и функции. Второй вариант более уместен для китайского языка.

В китайском языке слова чаще всего не носят явных внешних признаков, позволяющим отнести слово к той или иной части речи, используя их морфность. Поэтому для частеречного анализа слов (отнесения их к частям речи) приходится обращать внимание на другие критерии, например, на то, в качестве каких членов предложения они могут выступать, а также возможность их соединения с другими словами. Некоторые китайские лингвисты полагают, что принадлежность слова к определенной части речи зависит исключительно от состава предложения, места слова в предложении. Однако это затрудняет выделение так называемых служебных частей речи

Во второй половине XX века Гао Минкай при решении проблемы с выделением частей речи в китайском языке выдвинул на первый план морфологический принцип. Руководствуясь формальным словоцентризмом, он пришел к выводу, что части речи в китайском языке отсутствуют.

Ли Цзиньси, опираясь на критерий позиции слова и его функционала, в морфологии, предложил перечисленную ниже классификацию, составляющую грамматику языка:

1) имена - (именованные сущности, представленные существительными и местоимениями);

2) глаголы - собственно глаголы и соглаголы, которые не являются глаголами, но в состоянии выполнять роль сказуемого

3) разделительные слова - чаще всего прилагательные и наречия;

4) соотносящие слова, к которым относятся предлоги и союзы;

5) ситуативные слова, включающие в себя частицы и междометия.

Особого внимания заслуживает исследование Ван Ли, которое он

излагает в «Теории грамматики китайского языка». Он говорит о том, что в китайской морфологии необходимо применять и синтаксический, и семантический принципы. «Лексическое значение и грамматические функции нужно рассматривать в единстве, ведь нельзя полагаться только на один из этих критериев. Например, обычно слова, которые обозначают лицо или

предмет и регулярно используются в качестве подлежащего и дополнения, называются существительными» (1989). Ван Ли полагал, что разделение слов на части речи нужно производить в основном по семантике слов их и функциям, но при этом он не отбрасывал их синтаксическую роль. Ван Ли также учитывал и аффиксальную оформленность. В связи с отсутствием флективности в китайском языке, морфологию слов данный исследователь из рассмотрения исключал.

Для китайской грамматики А. А. Драгунов обосновал в качестве важного принадлежность к частям речи. Его подход к частям речи следует оценивать как отрицание узкого морфологизма, традиционного для индоевропейских языков, обладающих флективностью. А. А. Драгунов продемонстрировал, что на основе только лишь синтаксических признаков можно идентифицировать классы слов, имеющие общее грамматическое значение и общие грамматические свойства (Драгунов, 1952). Ему удалось доказать, что в китайском языке вполне возможно выделять части речи. Такая точка зрения обеспечивает возможность выявлять имеющие место, как в русском, так и в китайском языках общие грамматические единицы и обеспечить сопоставление способов их выражения.

Выполненный анализ литературы в области лингвистики русского и китайского языков показал, что и для русского, и для китайского языка характерно наличие грамматических категорий, которые могут быть соотнесены друг с другом. Хотя в китайском языке отсутствует развитая морфология и части речи как таковые, в нем можно выделить классы слов, которые соотносятся с частями речи в русском языке.

В силу особенностей типов русского и китайского языков части речи определяются в них на различных основаниях и разнятся в первую очередь функционально-семантическими признаками. На материале исследования нескольких основных грамматических классов можно установить сходства и различия частей речи в китайском и русском языках.

1.1.2 Грамматические особенности китайского языка

Китайский язык - это язык или языковая ветвь сино-тибетской языковой семьи, которая состоит из разновидностей, являющихся взаимопонятными в различной степени. Китайский язык на данный момент является, пожалуй, одним из самых распространенных и изучаемых языков на Земле. Наше время его использует более миллиарда человек.

История китайского языка имеет возраст свыше пяти тысяч лет. Тем не менее, общий язык этой страны существует лишь в теории. На практике же он составлен из множества различных диалектов. Различия между отдельными диалектами может быть настолько существенна, что житель северной части страны, вероятнее всего, с трудом поймет своего соотечественника с юга или же не поймет вообще. И все же существует северно-китайский язык Путунхуа, (в западной литературе так называемый «Мандарин») - общий язык, понятный для большинства населения Китая. В его основе лежит Пекинский диалект. Уникальной особенностью китайского языка является его фонетика. В языке имеется четыре тона которые кардинально влияют на семантику слов. Этим китайская речь радикально отличается от любой европейской. Изменение тональности при произнесении того или иного слова делает его значение уже абсолютно другим.

Грамматика китайского языка основывается на ряде прагматичных принципов, здесь нет ничего лишнего. Основная единица языка - это иероглиф. Он в отличие от большинства других языков означает не слово, а какое-либо понятие. Такая единица языка не имеет никаких морфологических признаков, кроме тех ситуаций, в которых они выявляются в контексте. В китайском языке имеется большое число слова, состоящих из одного иероглифа. Почти все они появились достаточно давно и составляют ядро словаря. Существуют и слова, состоящие из нескольких иероглифов, каждый из которых по отдельности может использоваться в разных частях речи. Основные части

речи: глаголы, существительные и прилагательные не склоняются, не спрягаются и не имеют родов. Эту функцию несут специальные уточняющие иероглифы. Для выражения числа и рода, используется также контекст. Зачастую имена существительные играют роль определения, дополнения, а также обстоятельства или подлежащего. В китайском языке (как и в других языках) наличествуют специальные счетные слова, которые используют совместно с числительными. Они чаще всего стоят перед именем существительными. В китайском языке существует строгий порядок слов: подлежащее-сказуемое-дополнение. Данный факт отражает дисциплинированность и склонность следовать правилам, что является известной характеристикой китайцев. Черты их характера напрямую отражаются на строении языка.

Грамматика его строится на четких правилах, не имеющих почти никаких исключений. Порядок слов всегда неизменен, совершенно невозможно представить, например, инверсию в китайской речи. Вопросительные предложения строятся очень просто. Для этого достаточно будет в конце утвердительного предложения добавить частицу (та). Грамматика китайского языка выделяется тем, что в нем нет приставок, суффиксов, окончаний. Помимо этого, склонение, род, число, а также конкретная форма глагола обозначаются специальными иероглифами. В этой связи китайская грамматика по своему типу может считаться аналитической. Изменение слов при помощи флексий отсутствует. Еще одна отличительная черта китайского языка - частеречная принадлежность, при которой лексические единицы могут свободно перемещаться из одной грамматической категории в другую.

Китайское языкознание в течение длительного времени делало основной акцент на исследование проблем иероглифики, лексики и фонетики. Работ по изучению грамматического строя языка было немного. Глобальных исследований до начал ХХ столетия не было. Помимо этого, еще в начале XX века в качестве основного существующего эталонного объекта исследования

рассматривался лишь веньянь - язык, представленный на древних памятниках, при этом существующий разговорный язык совершенно не учитывался и, можно сказать, игнорировался.

Согласно классификации, предоженной А. Шлейхером (Ярцева, 1982), китайский язык (вэньянь) является изолирующим языком, сочетающим в себе свойства чисто корневого языка (языка, в котором отношения отражаются исключительно семантикой взаимного положения корней), и языка корневого, в котором используюется большое количество служебных слов.

1.2 Обзор существующих методов обработки китайских тестов 1.2.1 Методы автоматической сегментации предложений

Существует два подхода к сегментации предложений. Первый подход использует правила (Huang, et al., 1997), пример которых приведен ниже:

а) строка, чей смысл не может вытекать из суммы компонентов, должна считаться неделимой;

б) строка, чья структурная композиция не определяется грамматическими требованиями компонентов, или строка, чья грамматическая категория иная, чем диктуется ее структурной композицией, должна считаться неделимой.

Вполне очевидно, что такой подход означает, что сегментация фразы делается одновременно с семантическим анализом. Некоторые элементы такой коллизии наблюдаются при анализе слитной речи на русском и других алфавитных языках (А.А., 2007). Следовательно, данный метод является антропоцентрическим и непригоден для автоматической сегментации.

Второй подход состоит в статистическом анализе последовательностей символов. В работе (Zhang, 2013) статистические методы разделяются на методы, использующие словари, и бессловарные методы. Методы, использующие словарь, имеют недостатки, обусловленные ограниченностью

словаря, морфностью слов, а также аномально высоким процентом отдельных слов в специфических доменах.

Чисто статистические методы чаще всего опираются на метод взаимной информации или скрытые марковские модели. Метод взаимной информации (Sproat, et а1., 1990) состоит в выявлении устойчивых сочетаний символов, «принадлежащих друг другу»:

=О-1)

где р(а) ир(Ь) - вероятности появления в тексте символов а и Ь соответственно, р(а,Ь) - вероятность появления в тексте сочетания символов аЬ. На основе меры взаимной информации вычисляется ассоциация

Г(аЪ)

А(аЬ) = def 1од2 уфщ = 1од2Ы + (1.2)

где /(а) - частота встречаемости символа а в корпусе, /(аЬ) - частота встречаемости последовательности аЬ, N - число символов в корпусе. Формула (1.2) вытекает из (1.1) при допущении, что вероятность появления символа хорошо аппроксимируется частотой встречаемости символа в корпусе. Разрыв между символами а и Ь устанавливаются при значении А(аЬ) ниже некоторого порогового значения. Очевидным недостатком данного метода является наличие неоднозначностей при небольшой разнице между значениями ассоциации в последовательности символов, что приводит к плохому распознавание идиоматических выражений, например, (есть /

нет), а также имен собственных. Например, «США» по-китайски будет - шё1§ио, что по отдельности означает «красивое государство», и иероглифы Ш и | достаточно часто используются по отдельности. Кроме того, имена собственные, за исключением географических названий и некоторых других сущностей, не включаются в словари.

Для устранения неоднозначностей в работе (Chen, et al., 1992) предлагается использовать эвристические правила вида:

Эвристическое правило 1. Наиболее предпочтительной является сегментация, при которой создается последовательность из трех слов максимальной длины. Эвристическое правило 2. Следует выбирать вариант сегментации, имеющий минимальное стандартное отклонение длин слов.

Авторы работы (Chen, et al., 1992) утверждают, что с использованием эвристических правил удалось устранить 93,21% неоднозначностей. Следует отметить, что устранение неоднозначностей не обязательно устраняет ошибки сегментации, поскольку в списке вариантов сегментации может отсутствовать правильный вариант либо может быть выбран неверный вариант.

Похожие диссертационные работы по специальности «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей», 05.13.11 шифр ВАК

Список литературы диссертационного исследования кандидат наук Юй Чуцяо, 2018 год

Список литературы

1. Астраханцев Н.А.. Автоматическое извлечение терминов коллекции предметной области с помощью Википедии // Труды ИСП РАН. - 2014. -№4 : Т. 26. Ш-С. 7-20. - doi: 10.15514/ISPRAS-2014-26(4)-1.

2. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции. Том 1. Синтаксический анализ / ред. Курочкин В.М. / перев. Агафонов В.Н.. □- Москва : Мир, 1978. □- Т. 1 : стр. 614.

3. Бессмертный И. А. Методы, модели и программные средства для построения интеллектуальных систем на продукционной модели знаний // диссертация на соискание ученой степени доктора технических наук. -С.Петербург : Университет ИТМО. -2014г. Ш-С. 305.

4. Бессмертный И. А., Нугуманова А.Б. Метод автоматического построения тезаурусов на основе статистической обработки текстов на естественном языке // Известия Томского политехнического университета . - Томск, 2012 г.. - 4 : Т. 321. Ш-С. 125-130.

5. Бессмертный И.А., Юй Ч. Автоматическое извлечение фактов из китайских текстов = IS&IT-2017 // Труды Конгресса по интеллектуальным системам и информационным технологиям. -пос.Дивноморское Краснодарского кр. : ЮФУ, 2017. - Т. 1. Ш-С. 236-243.

6. Бессмертный И. А., Юй Чуцяо, Ма Пенюй. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // -2016. -Т.16. -№ 6. // Научно-технический вестник информационных технологий, механики и оптики. - 2016г. -6 : Т. 16. Ш-С. 1096-1102.

7. Большакова Е.И., Клышинский Э.С. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учебное пособие. - Москва : МИЭМ, 2011. Ш-С. 272.

8. Браславский П. И., Соколов Е. А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста //

Компьютерная лингвистика и интеллектуальные технологии. Сборник трудов Международной конференции Диалог'2006. - РГГУ, 2006. Ш-С. 88-94.

9. Вежневец В.. Оценка качества работы классификаторов [Электронный ресурс] [URL: http://cgm.computergraphics.ru/content/view/106] = Компьютерная графика и мультимедиа. Сетевой журнал.

10.Виноградов В. В., Истрина Е. С., Бархударов С. Г.. Грамматика русского языка . - Москва : Издательство Академии наук СССР, 1960. - Т. 1 : 2.

11.Губин М.В., Морозов А.Б.. Влияние морфологического анализа на качество информационного поиска // Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции. -Ярославль : Ярославский гос. ун-т им. П. Г. Демидова, 2006. Ш-С. 6. -URL: http: //rcdl. ru/doc/2006/paper_67_v2. pdf.

12. Драгунов А. А. Исследования по грамматике современного китайского языка. -С. Москва, Ленинград : АН СССР, 1952. - Т. 1. -С.. 231.

13.Леонович А.А.. Проблемы распознавания слитной речи // Цифровая обработка сигналов. □- 2007г. □- 4. Ш-С. 25-28.

14. Максаков А.В. Сравнительный анализ алгоритмов классификации и способов представления Web-документов // Труды третьего Российского семинара по Оценке Методов Информационного Поиска (РОМИП 2005). -Санкт-Петербург. - 2005. Ш-С. 63-73.

15. Новое в зарубежной лингвистике. Выпуск 22. Языкознание в Китае. -Москва : Прогресс, -1989. -С. 472.

16.Нугуманова А.Б. [и др.] Обогащение модели Bag-of-Words семантическими связями для повышения качества классификации текстов предметной области // Программные продукты и системы. -2016г. -№2. Ш-С. 89-99.

17.Ошанин И.М.. Большой китайско-русский словарь. В 4-х томах . -Москва : Наука. -1983. -С. 7947.

18.Плешко В.В., Поляков П.Ю.. RCO на РОМИП 2008 // Труды РОМИП 2007-2008. (Дубна, 9 октября 2008г.). - Санкт-Петербург : НУ ЦСИ, 2008. Ш-С. 96-107.

19.Русская грамматика. - Москва : Наука. -1980.

20. Седова Я. А., Квятковская И.Ю. Системный анализ корпуса текстов научного знания // Вестник Саратовского государственного технического университета. -Саратов : 2010 г. Ш-С. 196-203. - URL: http://remdev.Org/click.php7http://cyberleninka.ru/article/n/sistemnyy-analiz-k orpusa-tekstov-nauchnogo-znaniya.pdf.

21. Смирнов И.В.. Введение в анализ естественных языков : Институт системного анализа РАН, Российский университет дружбы народов, 2014. Ш-С. 84.

22.Тыртышников Е.Е. Методы численного анализа: Учебное пособие. -Москва : ИЦ Академия.-2007. Ш-С. 317.

23. Ухватов Б., Ван Кай, Ли Юй. Новый русско-китайский словарь . - : Восточная книга, 2007. Ш-С. 544. -ISBN 5-7873-0391-1.

24.Шведова Н.Ю., Лопатин В.В. Краткая русская грамматика . - : Институт русского языка им. В.В. Виноградова РАН, 2002. - 2-е изд. -С. 726.

25.Шведова Н.Ю.. Грамматика современного русского литературного языка. - Москва : Наука, -1970. Ш-С. 767.

26.Шусян Люй. Очерк грамматики китайского языка . - Москва : Наука, 1961. - Т. 1. -С. 285.

27. Юй Чуцяо. Метод автоматического извлечения открытых отношений из китайских текстов // Научно-технический вестник информационных технологий, механикии и оптики. -2018г. -№1. Ш-С. 163-165.

28.Ярцева В. Н. Теоретические основы классификации языков мира. Проблемы родства . - Москва : Наука, - 1982.

29.Ahmad K. et al. University of Surrey Participation in TREC8: Weirdness Indexing for Logical Document Extrapolation and Retrieval (WILDER) // Proc. of theText REtrieval CNF. - 1999. D-C. 1-8.

30.Banko Michele, Etzioni Oren. The Tradeoffs Between Open and Traditional Relation Extraction // Proceedings of ACL. - Columbus, Uhio, USA : Association for Computational Linguistics, June 2008. D-C. 28-36.

31.Basil R. et al. A contrastive approach to term extraction // Proceedings of the 4th Terminological and Artificial Intelligence Conference (TIA2001). -Nancy, France, 2001.

32.Basili R.. A contrastive approach to term extraction // Proc. 4th Terminological and Artificial Intelligence Conference (TIA2001). - Nancy, France : ], 2001.

33.Berant Jonathan, Liang Percy. Semantic Parsing via Paraphrasing // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. -Baltimore, Maryland, USA : Association for Computational Linguistics, 2014. D-C. 1415-1425.

34.Bessmertny I.A., Platonov A.V.,. Poleschuk E.A, Ma Pengyu. Syntactic Text Analysis Without a Dictionary = AICT-2016 // Application of Information and Communication Technology. -Baku, Azerbaijan : IEEE, 2016. D-C. 100-105.

35.Bessmertny Igor, Yu Chuqiao. Term Extraction from Chinese Texts Without Word Segmentation = AICT-2017 // 2017 IEEE 11th International Conference on Application of Information and Communication Technologies. - Moscow : IEEE, 2017. - T. 1. D-C. 124-126. - ISBN 978-1-5386-0500-4.

36.Bunescu Razvan C., Mooney Raymond, J. Shortest Path Dependency Kernel for Relation Extraction // Proceedings of the Human Language Technology Conference and. Conference on Empirical Methods in Natural Language Processing. -Vancouver, B.C. -2005. D-C. 724-731.

37.Chen K. J., Liu S. H. Word identification for Mandarin Chinese sentences = COLING-92 // Proceedings of the Fifteenth International Conference on Computational Linguistics. - Nanntes. -1992. D-C. 101-107.

38.Conrado M.S., T.A.S.Pardo, S.O.Rezende A machine learning approach to automatic term extraction using a rich feature set // Proc. NAACL HLT Student Research Workshop. - Atlanta,GA, USA : -2013. -C. 16-23.

39.Daniel Jurafsky, James H. Martin. Speech and Language Processing. Prentice Hall, -2000. -C. 975.

40.Daniel Zeng. Donghua Wei, Michael Chau, Feiyue Wang. Domain-specific Chinese word segmentation using suffix tree and mutual information // Information Systems Frontier. - 2011. -T. 13. -C. 115-125.

41.Fader Anthony, Soderland Stephen, Etzioni Oren. Identifying Relations for Open Information Extraction // Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. -Edinburg, Scottland : Association for Computational Linguistics, 2011. -C. 1535-1545.

42.Faruqui Manaal, Kumar Shankar. Multilingual Open Relation Extraction Using Cross-lingual Projection [Online] // Cornell University Library, - 2017. -URL:https://arxiv.org/abs/1503.06450.

43.Huang Chu-Ren et al. Segmentation Standard for Chinese Natural Language Processing // Computational Linguistics and Chinese Language Processing. -Taipei : Computational Linguistics Society of R. O. C., 1997. : -T. 2. D-C. 47-62.

44.Huang Le, Wu Yan-Peng, Qun-Feng Zhu. Research and improvement of TFIDF feature weighting method // Computer Science. -2014. -T. 41. D-C. 204-208.

45.Jiayi Zhao, Xipeng Qiu, Shu Zhang, Feng Ji, Xuanjing Huang. Part-of-Speech Tagging for Chinese-English Mixed Texts with Dynamic Features // Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea : Association for Computational Linguistics.-2012. D-C. 13791388.

46.Jurafsky D. Martin J. Speech And Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech

Recognition. Prentice Hall Series in Artificial Intelligence. -2009 [Раздел книги] // Prentice Hall Series in Artificial Intelligence. Pearson Prentice Hall, 2009.

47.Karlsson Fred. Constraint Grammar as a Framework for Parsing Unrestricted Text // Proceedings of the 13th International Conference of Computational Linguistics / ред. Karlgren H. - Helsinki, 1990. - Т. 3. D-С. 168-173.

48.Kay M. Readings in natural language processing [Раздел книги] / ред. Barbara J. Grosz Karen Sparck-Jones, Bonnie Lynn Webber. -San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1986.

49.Keh-jiann Chen, Shing-Huan Liu, Li-ping Chang. A Practical Tagger for Chinese Corpora // Proceedings of Rocling VII Computational Linguistics Conference. - Hsinchu, Taiwan : The Association for Computational Linguistics and Chinese Language Processing (ACLCLP), 1994. D-С. 111-126. -URL: http://www.aclweb.org/anthology/O94-1005.

50.Kim S.N. Baldwin T., Kan M.-Y. An unsupervised approach to domain-specific term extraction // Proc. Australasian Language Technology Association Workshop. - 2009. - C. 94-98.

51.Kim S.N., Cavedon L. Classifying domain-specific terms using a dictionary // Proc. Australasian Language Technology Association Workshop 2011. -2011. □-С. 57.

52.Koby Crammer, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz, Yoram Singer. Online Passive-Aggressive Algorithms // Journal of Machine Learning Research. -2006. - No.7. D-С. 551-585.

53.Koby Crammer, Yoram Singer. Ultraconservative online algorithms for multiclass problems // J. Mach.Learn.Res. - March 2003. D-С. 951-991.

54.Lin Kongyuan Lu Zhiying A study on the Chinese syntactic analysis [Электронный ресурс] = ICIPS '97 // IEEE International Conference on Intelligent Processing Systems. -1997. - DOI: 10.1109/ICIPS.1997.669364.

55.Lopes L., Fernandes P., Vieira R. Estimating term domain relevance through term frequency, disjoint corpora frequency - TF-DCF. // Knowledge-based Systems. -2016. - Т. 97. D-C. 237-249.

56.Mausam et al. Open language learning for information extraction // Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. - 2012. D-C. 523-534. -URL: https://dl.acm.org/citation.cfm?id=2391009.

57.Mesquita Filipe, Schmidek Jordan, Barbosa Denilson Effectiveness and Efficiency of Open Relation Extraction // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. - : Association for Computational Linguistics, 2013. D-C. 447-457. - URL:

http : //www.aclweb.org/anthology/D 13-1043.

58.Nivre J., Boguslavsky I. M., L.Iomdin L. Parsing the SynTagRus treebank of russian // Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). - Manchester, UK : Coling 2008 Organizing Committee, 2008. D-C. 641-648.

59.Nugumanova A. et al. A new operationalization of contrastive term extraction approach based on recognition of both representative and specific terms // -2016, V // Communications in Computer and Information Science. - 2016. -Т. 649. D-C. 103-118.

60.Penas A., Verdejo F., Gonzalo J. Corpus-based terminology extraction applied to information access // Proceedings of Corpus Linguistics 2001. - 2001. D-C. 458-465.

61.Peng W. et al. Formal Schema of Diagrammatic Chinese Syntactic Analysis. [Раздел книги] // Chinese Lexical Semantics. Lecture Notes in Computer Science / ред. Lu Q. Gao H.. - : Springer, 2015. - Т. 9332.

62.Qian Zhu, Xian-yi Cheng. The Overview of Chinese Information Extraction // IJCSNS International Journal of Computer Science and Network Security. -

September 2010 г.. - No.9 : Т. 10. П-С. 171-174. -URL:http://paper.ijcsns.org/07_book/201009/20100927.pdf.

63.Sakakibara T. et al. Stochastic context-free grammers for tRNA modeling // Nucleic Acids Research. - 1994 r.. - No.23 : Т. 22. П-С. 5112-5120. -https://doi.org/10.1093/nar/22.23.5112.

64.Schmidek Jordan, Barbosa Denilson. Improving Open Relation Extraction via Sentence Re-Structuring = LREC-2014 // Proceedings of the Ninth International Conference on Language Resources and Evaluation. - Reykjavik, Iceland : European Language Resources Association, 2014. П-С. 3720-3723.

65.Silva Conrado M., Pardo T. A. S., Rezende S. O. A Machine Learning Approach to Automatic Term Extraction using a Rich Feature Set // Proc. HLT-NAACL. - 2013. П-С. 16-23.

66.Sproat Richard, Shih Chilin. A statistical method for finding word boundaries in Chinese text // Computer Processing of Chinese and Oriental Languages. -1990. -No.4. П-С. 336-351.

67.Sun Maosong, Shen Dayang, Huang Changning. CSeg&Tag l.0: A Practical Word Segmenter and POS Tagger // Proc. of the 5th Int'l Conference on Applied Natural Language Processing. - Washington DC, USA : ], 1997. П-С. 119-126.

68.Taiwanese Principles of Text Segmentation. Available at:(accessed). [В Интернете]. -2016. -URL:

http: //ip 194097. ntcu. edu.tw/TG/CompLing/hunsu/hunsu. htm .

69.Tseng Yuen-Hsien et al. Chinese open relation extraction for knowledge acquisition. In EACL 2014, pages 12-16. // EACL 2014. - 2014. П-С. 12-16.

70.Wang Mengqiu, Che Wanxiang, Manning Christopher D. Effective Bilingual Constraints for Semi-supervised Learning of Named Entity Recognizers = AAAI 2013 // AAAI'13 Proceedings of the Twenty-Seventh AAAI Conference on Artificial Intelligence. - 2013. П-С. 919-925.

71.Winograd T. Language as a Cognitive Processю Vol.1: Syntax. [Раздел книги] / авт. книги Nadin Mihai. - : Addison-Wesley, 1983. -Т. 1. Syntax. Artif. Intell..

72.Wong W., Liu W. и Bennamoun M. Determination of unithood and termhood for term recognition = IGI Globa // Handbook of research on text and web mining technologies / ред. Song M. & Wu, Y. B. - USA : ], 2008. - Т. 2. □С. 500-529.

73.Wong W., Liu W. и Bennamoun M. Determining termhood for learning domain ontologies using domain prevalence and tendency // Proc. 6th Australasian Conference on Data Mining and Analytics. - Gold Coast, Australia : ], -2007. -Т. 70. □-С. 47-54.

74.Wu Fei и Weld Daniel S. Open information extraction using Wikipedia = ACL'10 // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. -Upsala, Sweden : ], 2010. □-С. 118-127.

75.Xu Jinxi, Miller Scott, Weischedel Ralph. A Statistical Parser for Chinese [ЭЛЕКТРОННЫЙ ДОКУМЕНТ] [В Интернете] // ACM Digital Library. -ACM. -2017. -URL: dl.acm.org/ft_gateway.cfm?id=1289223&type=pdf.

76.Xue Nianwen Chinese Word Segmentation as Character Tagging // Computational Linguistics and Chinese Language Processing. - 2003. -No.1 : Т. 8. □-С. 29-48.

77.Yang Y. Pedersen J.O. A comparative study on feature selection in text categorization // Proc. 14th ICML. -1997. -Т. 97. □-С. 412-420.

78.Yang Y. и Pedersen J.O. A comparative study on feature selection in text categorization // Proc. 14th Int. Conf. on Machine Learning (ICML). -1997. -Т. 97. □-С. 412-420.

79.Yu Chuqiao, Bessmertny Igor. Contrastive Domain Term Extraction from Chinese Texts without Word Segmentation = AEMS-2017. - Bangkok : IEEE, 2017. □-С. 50-55. - ISBN 978-1-60595-438-7.

80.Yu Chuqiao, Bessmertny Igor. Shallow syntactic analysis of Chinese texts = CCNIC-2017 // 3rd IEEE International Conference on Computational Intelligence and Communication Technology, CICT 2017. - Gazihabad : IEEE, 2017. D-C. 7977287. - ISBN 978-1-5090-6218-8.

81.Zeng D. et al. Domain-specific Chinese word segmentation using suffix tree and mutual information // Information Systems Frontiers. - 2011 r.. - 1 : T. 13. DC. 115-125. - doi: 0.1007/s10796-010-9278-5.

82.Zhang Dong. An evolutionary approach to automatic Chinese text segmentation // 2013 Ninth International Conference on Natural Computation. - : IEEE, 2013. D-C. 771-776.

83.Zhang Hua-Ping, Liu Qun h Yu Hong-Kui. Chinese Named Entity Recognition Using Role Model // Computational Linguistics and Chinese Language Processing. - August 2003. -No.2 : T. 8. D-C. 29-60.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.