Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах тема диссертации и автореферата по ВАК РФ 05.13.01, кандидат технических наук Циликов, Илья Сергеевич
- Специальность ВАК РФ05.13.01
- Количество страниц 148
Оглавление диссертации кандидат технических наук Циликов, Илья Сергеевич
Введение.
Глава 1. Общая характеристика проблемы интеллектуальной обработки текста.
§1.1 .Предметная область.
§1.2.Общая характеристика направлений в области интеллектуальной обработки текста.
§1.3.Общая характеристика моделей представления и методов интеллектуальной обработки текста.
§1.4. Общая характеристика перспективных моделей представления и методов интеллектуальной обработки текста и сложность их применения в настоящее время.
§1.5.Общая характеристика задач и основная терминология интеллектуальной обработки текста.
§ 1.6. Постановка задачи.
Выводы по главе 1.
Глава 2. Выбор модели представления и методов интеллектуальной обработки текста.
§2.1. Выбор модели представления текста.
§2.2. Выбор метода первоначальной обработки текста и формы представления конечного результата.
§2.3. Выбор методов интеллектуальной обработки текста.
§2.4. Выбор метода кластеризации семантической сети и метода получения агрегирующих характеристик.
§2.5. Выбор метода иерархической кластеризации для формирования оглавления текста.
Выводы по главе 2.
Глава 3. Разработка методов и алгоритмов интеллектуальной обработки текста.
§3.1. Разработка методов кластеризации семантической сети и получения агрегирующих характеристик.
§3.2. Разработка алгоритма иерархической кластеризации и формирования оглавления текста.
§3.3. Разработка алгоритма синтеза заголовков выделенных разделов текста.
§3.4. Разработка алгоритма формирования связанного текста.
Выводы по главе 3.
Глава 4. Экспериментальное исследование методов и алгоритмов интеллектуальной обработки текста.
§4.1. Общее описание и характеристика эксперимента.
§4.2. Экспериментальное исследование метода получения агрегирующих характеристик.
§4.3. Экспериментальное исследование метода иерархической кластеризации и формирования структуры текста.
§4.4. Экспериментальное исследование метода синтеза заголовков выделенных
разделов текста.
§4.5. Экспериментальное исследование метода формирования связанного текста.
Выводы по главе 4.
Рекомендованный список диссертаций по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров2005 год, доктор технических наук Фомичев, Владимир Александрович
Модели и методы автоматизации принятия решения по определению патентоспособности изобретений2000 год, кандидат технических наук Трошин, Евгений Владимирович
Исследование и разработка автоматизированной системы смысловой обработки текстов в системе управления электронными архивами2013 год, кандидат технических наук Фаррохбахт Фумани Мехди
Методы и программные средства выделения и численного оценивания вариативности языковых единиц2009 год, кандидат физико-математических наук Саломатина, Наталья Васильевна
Теоретические основы, методы и алгоритмы формирования знаний о синонимии для задач анализа и сжатия текстовой информации2012 год, доктор физико-математических наук Михайлов, Дмитрий Владимирович
Введение диссертации (часть автореферата) на тему «Разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах»
В настоящее время история развития информационных систем, т. е. систем, предназначенных для хранения и обработки информации с использованием ЭВМ, насчитывает уже более полувека. Еще относительно недавно в ходу были перфораторы в качестве устройств ввода данных, листинги в виде рулонов бумаги длиной порой до нескольких метров в качестве носителя результатов машинной обработки, недельные, либо месячные временные интервалы — в качестве нормативных сроков обработки информации. В последнее десятилетие прошлого века ситуация претерпела качественные изменения. Основу информационной системы в настоящее время составляют: база данных, как правило, реляционного типа, поддерживающая доступ на основе стандарта SQL, программные средства, обеспечивающие логику обработки данных, и интерфейс пользователя.
Применение баз данных благодаря специальным методам хранения и представления данных и соответствующим алгоритмам оперирования ими позволяет обеспечивать высокую производительность информационных систем, а наличие единого стандарта доступа к данным обеспечивает высокую эффективность их разработки и функционирования. Но с другой стороны, применение баз данных требует специальной процедуры ввода данных, и если исходная информация представлена в виде неструктурированного естественно-языкового текста, то эта процедура становится весьма трудоёмкой, в виду чего становится актуальной задача автоматизации этой процедуры. Эта задача требует применения методов интеллектуальной обработки текста, которые активно развиваются в настоящее время. Существующие на настоящее время методы интеллектуальной обработки текста не способны оценивать его структурированность в той степени, в какой эта характеристика текста отражается в человеческом восприятии, что не позволяет создавать полностью автоматические системы ввода данных. Кроме того производительность вычислительной техники на настоящее время остаётся всё ещё недостаточной для эффективной работы многих методов интеллектуальной обработки текста, тем не менее применение частично автоматизированных систем может существенно сократить трудоёмкость процедуры ввода данных, что обусловливает актуальность задачи разработки этих автоматизированных систем.
В области интеллектуальной обработки текста первым значительным успехом было появление контекстно-свободных грамматик Н. Хомского. В нашей стране большее распространение получила модель "смысл-текст" И. А. Мельчука. Возможные доработки и модификации этой модели были предложены Ю. Д. Апресяном, а также Е. В. Падучевой. В практическую реализацию систем интеллектуальной обработки текста, основанных на этой модели, большой вклад внесли А. В. Сокирко, П. В. Толпегин, И. М. Ножов, их предшественниками в этой работе были Н. Н. Леонтьева, С. Л. Никогосов, И. М. Кудряшова, О. Б. Малевич.
Развитие Internet'a потребовало широкого применения других методов интеллектуальной обработки текста, в первую очередь методов информационного поиска. Первый метод информационного поиска был предложен К. Муром в 1948 году, сначала его применение ограничивалось обеспечением доступа к книгам, журналам и другим документам в университетах и библиотеках. Первая поисковая система для Internet'a разработана М. Грэем из Массачусетского технологического института в 1993 году. Ранее в 1988 году С. Диэрвестером был предложен латентно-семантический анализ, основанный на теории сингулярного разложения, разработанной Дж. Сильвестром в 1889 году. Также в качестве одного из методов интеллектуальной обработки текста стал активно использоваться кластерный анализ, впервые предложенный Р. Трионом в 1939 году.
Тем не менее, все эти подходы к интеллектуальной обработке текста не могли обеспечить качество решения различных задач, адекватное восприятию естественно-языковых текстов человеком. Одной из попыток достичь более высокого качества интеллектуальной обработки текста является начатый в США в 90-е годы прошлого века проект «Микрокосмос», работа над которым продолжается в настоящее время. Этот проект ориентирован преимущественно на решение задачи машинного перевода, и основные его наработки касаются английского и испанского языков. Среди работ, выполненных в нашей стране, можно отметить семантический анализатор, разработанный В. А. Тузовым, а также разрабатываемый в настоящее время ]В Санкт-Петербургском институте лингвистических исследований открытый лингвистический процессор. Ещё один подход к интеллектуальной обработке текста предложен В. А. Фомичевым.
Сложность применения перечисленных более новых подходов к интеллектуальной обработке текста для построения автоматизированной системы ввода данных в информационные системы с формализованной структурой документа состоит в том, что не существует ни одной завершённой, общедоступной и практически применимой реализации какого-либо из этих подходов для русского языка. В связи с этим предлагается основывать интеллектуальную обработку текста на модели "смысл-текст" И. А. Мельчука, сочетая с элементами подходов, появившихся в связи с развитием Internet'a.
Объектом исследования являются информационные системы, использующие в своих данных естественно-языковый текст и использующие его формализованную структуру.
Предметом исследования являются модели представления естественноязыкового текста и алгоритмы для его формализованного структурирования.
Цель и задачи исследования. Основной целью представленной диссертации является разработка модели представления, методов и алгоритмов интеллектуальной обработки текста с целью его формализации в информационных системах. При этом решаются следующие задачи:
1. Разработать модель представления естественно-языкового текста на основе семантической сети для его интеллектуальной обработки текста с целью формализации в информационных системах
2. Разработать алгоритм структурирования естественно-языкового текста для его формализации в информационных системах в соответствии с такими ' критериями структурированности текста, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.
3. Разработать методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста.
4. Разработать алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления.
5. Разработать алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления.
Методы исследования. Для проведения исследований были использованы методы графематического, морфологического, синтаксического и первичного семантического анализа естественно-языковых текстов, методы иерархической и бинарной кластеризации, матричные вычисления, методы квазиреферирования, исчисление предикатов.
Основные положения, выносимые на защиту:
• Модель представления естественно-языкового текста на основе семантической сети.
• Алгоритм структурирования естественно-языкового текста для его формализации в информационных системах.
• Методы и алгоритм для формирования иерархического оглавления естественно-языкового текста.
• Алгоритм для формирования заголовков у каждого из разделов оглавления.
• Алгоритм для обеспечения семантической связанности внутри каждого из разделов оглавления.
Научная новизна работы.
• Предложена модель представления естественно-языкового текста, базирующаяся на модели «смысл-текст» в виде семантической сети, отличающаяся единой семантической сетью для всего текста, использованием числовых значений для узлов и связей, позволяющая реализовать алгоритм формирования структуры естественно-языкового текста для его формализации в информационных системах.
• Предложен алгоритм структурирования естественно-языкового текста для его формализации в информационных системах в соответствии с такими критериями структурированности текста, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.
• Разработаны методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста, отличающиеся предварительным вычислением агрегирующих характеристик для абзацев и возможностью получать переменное количество структурных элементов на каждом уровне объединения.
• Разработаны алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления, позволяющий формировать заголовки из фрагментов сгруппированных частей исходного неструктурированного естественноязыкового текста, делимого по лексемам.
• Разработан алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления, отличающийся использованием правил для предикатов, позволяющих расставить предложения в изначально несвязанных фрагментах естественно-языкового текста в порядке, обеспечивающем наибольшую семантическую связанность получаемого в итоге текста.
Достоверность научных результатов и выводов, результатов исследований, полученных автором диссертации, подтверждена строгостью применяемых математических методов и приемлемой степенью согласованности теоретических научных положений с результатами экспериментальных исследований.
Научная и практическая ценность диссертационной работы заключается в том, что результаты, полученные в данной работе, могут быть использованы при обработке неструктурированных текстов, для выделения смысловой нагрузки в учебных и руководящих технических материалах, для определения наиболее актуальных тем при работе RSS-агрегаторов, для педагогических измерительных материалов.
Апробация работы.
Основные положения и результаты диссертации докладывались и обсуждались на 5-й научно-методической конференции «Инновации в науке, образовании и бизнесе» (г. Пенза, 2007 г.), на 14-й научно-методической конференции «Телематика'2007» (г. Санкт-Петербург, 2007 г.), на 15-й научно-методической конференции «Телематика'2008» (г. Санкт-Петербург, 2008 г.) и на научной конференции «Региональная информатика-2008» (г. Санкт-Петербург, 2008 г.)
Публикации.
Основные теоретические и практические результаты диссертации опубликованы в 9 статьях и докладах, из них по теме диссертации 9, среди которых 1 публикация в ведущих рецензируемых изданиях, рекомендованных в действующем перечне ВАК, 3 статьи в других изданиях. Доклады доложены и получили одобрение на 4 международных, всероссийских и межвузовских научно-практических конференциях перечисленных в конце автореферата. Основные положения защищены 1 патентом.
Структура и объем работы. ь
Диссертация состоит из введения, четырех глав с выводами, заключения. Она изложена на 148 страницах машинописного текста, включает 11 рисунков, 12 таблиц и содержит список литературы из 112 наименований, среди которых 85 отечественных и 27 иностранных авторов.
Похожие диссертационные работы по специальности «Системный анализ, управление и обработка информации (по отраслям)», 05.13.01 шифр ВАК
Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах2008 год, кандидат технических наук Степанова, Надежда Александровна
Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах2008 год, доктор технических наук Харламов, Александр Александрович
Система формирования концептуального представления предметной области на основе анализа проблемно-ориентированных естественно-языковых текстов: Модели, методы и программное обеспечение1999 год, кандидат технических наук Пономарева, Светлана Михайловна
Системный анализ, онтологический синтез и инструментальные средства обработки информации в процессах интеграции профессиональных знаний2007 год, доктор технических наук Минаков, Игорь Александрович
Заключение диссертации по теме «Системный анализ, управление и обработка информации (по отраслям)», Циликов, Илья Сергеевич
Выводы по главе 4
1. Наилучшие результаты по формированию структуры изначально неструктурированного естественно-языкового текста получены при использовании от 5 до 10 агрегирующих характеристик и пороговой частоты понятий в тексте от 1 для самых коротких текстов с увеличением на 1 для каждых 4000 символов, а выбранный метод формирования связанного текста существенно не зависит от параметров общего алгоритма.
2. Результаты машинного эксперимента показали, что формирование структуры изначально неструктурированного естественно-языкового текста отвечают требованиям предварительной обработки при вводе данных в информационную систему при использовании последующей правки вручную. Полученного качества решения этой задачи вполне достаточно для практического применения для RSS-агрегации, контроля педагогических измерительных материалов, выделения смысловой нагрузки участков текста технических материалов и т. д.
Заключение
Целью исследования являлось создание модели представления естественно- ■ языкового текста, разработка методов и алгоритмов его интеллектуальной обработки на основе этой модели с целью его формализации в информационных системах.
Данную цель предполагалось достичь на основе выбора в качестве основы оптимальных для решения задачи формализации естественно-языкового текста в информационных системах моделей его представления и методов обработки их для достижения наибольшего качества формализации в соответствии с выбранными критериями.
Для реализации поставленной цели исследования было выполнено:
1. Разработана модель представления естественно-языкового текста, базирующаяся на модели "смысл-текст" в виде семантической сети, отличающаяся единой семантической сетью для всего текста, использованием числовых значений для узлов и связей, что может быть использовано при формировании структуры естественно-языкового текста для его формализации в информационных системах.
2. Разработан алгоритм структурирования естественно-языкового текста для его формализации в информационных системах, отличающийся использованием таких критериев его структурированности, как наличие иерархического оглавления, наличие заголовков у каждого из разделов оглавления, семантическая связанность внутри каждого из разделов.
3. Разработаны методы и алгоритм интеллектуальной обработки текста на основе иерархической и бинарной кластеризации семантической сети для формирования иерархического оглавления естественно-языкового текста, отличающиеся предварительным вычислением агрегирующих характеристик для абзацев и возможностью получать переменное количество структурных элементов на каждом уровне объединения. Бинарная кластеризация выполняется для выделенных понятий, роль которых в разработанной модели выполняют лексемы, а для их выделения используются весовые значения и граммемы их узлов семантической сети.
137
4. Разработан алгоритм интеллектуальной обработки текста на основе методов квазиреферирования для формирования заголовков у каждого из разделов оглавления, позволяющий формировать заголовки из фрагментов сгруппированных частей исходного неструктурированного естественноязыкового текста, делимого по лексемам.
5. Разработан алгоритм интеллектуальной обработки текста на основе исчисления предикатов для обеспечения семантической связанности внутри каждого из разделов оглавления, отличающийся использованием правил для предикатов, позволяющих расставить предложения в изначально несвязанных фрагментах естественно-языкового текста в порядке, обеспечивающем наибольшую семантическую связанность получаемого в итоге текста.
6. Результаты машинного эксперимента показали, что решение задачи структурирования естественно-языкового текста для его формализации в информационных системах отвечает требованиям предварительной обработки при вводе данных в информационную систему при использовании последующей правки вручную. Наилучшие результаты по структурированию естественно-языкового текста для его формализации в информационных системах получены при использовании от 5 до 10 агрегирующих характеристик и пороговой величине весовых значений узлов понятий в тексте от 1 для самых коротких текстов с увеличением на 1 для каждых 4000 символов, а выбранный метод формирования связанного текста существенно не зависит от параметров общего алгоритма.
Достоверность научных результатов и выводов результатов исследований, полученных автором диссертации, подтверждена строгостью применяемых математических методов и приемлемой степенью согласованности теоретических научных положений с результатами экспериментальных исследований.
Список литературы диссертационного исследования кандидат технических наук Циликов, Илья Сергеевич, 2010 год
1. Носевич В. JI. «Электронные документы в современном делопроизводстве» // «Секретарь-референт», № 2, 2001, с. 3-7
2. Гринев М. «Системы управления полу структурированными данными» // «Открытые системы», №5, 1999
3. Люгер Дж. Ф. «Искусственный интеллект: стратегии и методы решения сложных проблем», М.: «Издательский дом "Вильяме"», 2003
4. Кулагина О. С. «О современном состоянии машинного перевода» // «Математические вопросы кибернетики», № 3, М.: «Наука», 1991
5. Roussopoulos N. D. «А semantic network model of data bases», TR № 104, Department of Computer Science, University of Toronto, 1976
6. Сегалович И. «Как работают поисковые системы» // «Мир Интернет», №10, 2002
7. Chierichetti F. «On Placing Skips Optimally in Expectation»//WSDM 2008
8. Андрианов И. А. «Анализ и разработка способов индексирования текстов на основе обобщенных и неплотных суффиксных деревьев». Дисс. на соискание ученой степени канд. техн. наук, СПб, 2005
9. Andrei Z. Broder, Steven С. Glassman, Mark S. Manasse «Indexing by Latent Semantic Analysis», JASIS, 1990
10. Сегалович И., Маслов M. «Русский морфологический анализ и синтез с генерацией моделей словоизменения для неописанных в словаре слов», Казань, 1998, т. 2, с. 547-552
11. П.Толпегин П. В. «Информационные технологии анализа русских естественно-языковых текстов. Часть I» // «Информационные технологии», 2006, №8
12. Т. Kakkonen «Framework and Resources for Natural Language Parser Evaluation», academic dissertation, 2007
13. Тестелец Я. Г. «Введение в общий синтаксис», СПб, 2001
14. Хомский Н. «Введение в формальный анализ естественных языков», 2003
15. Рассел С. «Искусственный интеллект», М., 2007
16. Мельчук И. А. «Опыт теории лингвистических моделей типа "Смысл-Текст"», М., 1974
17. Тихомиров И. А., Смирнов И. В. «Интеграция лингвистических и статистических методов поиска в поисковой машине "Exactus"» // Диалог 2008
18. Анисимов А. В., Марченко А. А. «Ассоциативное реферирование естественно-языковых текстов» // «Искусственный интеллект», №3, 2006
19. Башмаков И. А., Рабинович П. Д. «Анализ моделей семантических сетей как математического аппарата представления знаний об учебном материале»// «Справочник. Инженерный журнал», 2002, №7, с. 55 60
20. Кузнецов И. П. «Механизмы обработки семантической информации», М.: «Наука», 1978, 115 с.
21. Кузнецов И. П. «Расширенные семантические сети для представления и обработки знаний» // Системы и средства информатики: Ежегод. Вып. 4 / РАН. Ин-т проблем информатики М., 1993. с. 70-83
22. Осипов Г. С. «Построение моделей предметных областей. Неоднородные семантические сети»// «Известия РАН. Техническая кибернетика», 1990, №5, с. 32-45
23. Башмаков А. И., Башмаков И. А., «Механизмы наследования, выявления и разрешения противоречий в обобщенной модели представления предметной области. Ч. I» // «Известия РАН. Техническая кибернетика», 1994, №5, с. 14-27
24. Башмаков А. И., Башмаков И. А., «Механизмы наследования, выявления и разрешения противоречий в обобщенной модели представления предметной области. Ч. II» // «Известия РАН. Теория и системы управления», 1995, №3, с. 175-189
25. Перминов И. А. «Нечеткая объектно-ориентированная семантическая сеть» // Международный форум информатизации 1999: Доклады международной конференции «Информационные средства и технологии», т. 3, с. 37-40
26. Перминов И. А. «Объектно-ориентированный язык для оперирования семантическими сетями» // Международный форум информатизации -2000: Доклады международной конференции «Информационные средства и технологии», т. 3, с. 212-215
27. Viegas Е., Mahesh К., Nirenburg S., «Semantics In Action», 1998
28. Stephen Beale «Using Branch-and-Bound with Constraint Satisfaction in Optimization Problems» // Proceedings AAAI-97, Providence, Rhode Island, 1997
29. Stephen Beale «Exploiting Graph Topology for Optimization Problems», 199631 .Тузов В. А. «Компьютерная семантика русского языка», СПб, 2004
30. Мозговой М. В. «Машинный семантический анализ русского языка и его применения». Дисс. на соискание ученой степени канд. физ.-мат. наук, СПб, 2006
31. Кутарба А. Ю. «Построение семантического словаря для обработки англоязычных текстов». Дисс. на соискание ученой степени канд. физ.-мат. наук, СПб, 2006
32. Сидорова Е. А. «Методы и программные средства для анализа документов на основе модели предметной области». Дисс. на соискание ученой степени канд. физ.-мат. наук, Новосибирск, 2006
33. Фомичев В.А. «Математические основы представления смысла текстов для разработки лингвистических информационных технологий. Часть I. Модель системы первичных единиц концептуального уровня» //
34. Информационные технологии», 2002, № 10
35. Фомичев В. А. «Формализация проектирования лингвистических процессоров», М., 2005, 368 с.
36. Фомичев В. А. «Метод формального описания содержания сложных естественно-языковых текстов и его применение к проектированию лингвистических процессоров». Дисс. на соискание ученой степени доктора техн. наук, М., 2004
37. Люстиг И. В. «Разработка и программная реализация метода семантически-ориентированного поиска информации в электронных документах». Дисс. на соискание ученой степени канд. техн. наук, М., 2007
38. Мартынов В. В. «Универсальный семантический код», Минск, 1984
39. Красавина О. Н. «Корпусно-ориентированное исследование референции (принципы аннотации и анализ данных)». Дисс. на соискание ученой степени канд. филол. наук, М., 2006
40. Толпегин П. В. «Новые методы и алгоритмы автоматического разрешения референции местоимений третьего лица русскоязычных текстов», М.: «КомКнига», 2006, 88 с.
41. Апресян Ю. Д. «Избранные труды», М., 1995
42. Апресян Ю. Д. «Новый объяснительный словарь синонимов русского языка», М., 2004
43. Uchida Hiroshi., Zhu Meiying.,Tarcisio Delia Senta, «А Gift for a,Millennium»
44. Marilyn A Walker «Limited Attention and Discourse Structure» // Computational Linguistics, Vol. 22, No. 2. (1996), pp. 255-264
45. Barbara Grosz, Aravind Joshi and Scott Weinstein, Centering: «А Framework for Modelling the Local Coherence of Discourse». Computational Linguistics 21(2), pp. 203-225, 1995
46. Поспелов Д. А. «Ситуационное управление», 1986
47. Кузнецов И. П. «Система обработки знаний на расширенных семантических сетях», М., 1990
48. Шуклин Д. Е. «Модели семантических нейронных сетей и их применение в системах искусственного интеллекта». Дисс. на соискание ученой степени канд. техн. наук, Харьков, 2003
49. Минский М. «Фреймы для представления», М., 1979, 152 с.55.«CLIPS Architecture Manual. Version 5.1», 1992, 457 с.
50. Сошников Д. В. «Методы и средства построения распределенных интеллектуальных систем на основе продукционно-фреймового представления знаний». Дисс. на соискание ученой степени канд. физ.-мат. наук, М., 2002
51. Лагерев Д. Г. «Автоматизация разработки управленческих решений в социально-экономических системах на основе применения нечетких когнитивных моделей». Дисс. на соискание ученой степени канд. техн. наук, Брянск, 2007
52. Вершинина В. В. «Метод и алгоритмы анализа контурных изображений в визуальных информационных системах на основе неоднородной нечеткой семантической сети». Дисс. на соискание ученой степени канд. техн. наук, Рыбинск, 2004
53. Бойцов JI. М. «Классификация и экспериментальное исследование современных алгоритмов нечеткого словарного поиска»//Труды конференции RCDL, 2004
54. Е. Ukkonen. «Finding approximate patterns in strings, 0(k * n) time»// «Journal of Algorithms» volume 6, pages 132-137, 1985.
55. R.A. Wagner and MJ. Fisher. «The String to String Correction Problem»//
56. Journal of the АСМ», volume 21(1), pages 168-173, 1974.
57. Соколова С. «Как переводит компьютер»http://www.promt.ru/company/technology/articles/articlesokolova.phpбЗ.Одиицев Н. В. «Адаптивный синтаксический анализатор русского языка». Дисс. на соискание ученой степени канд. физ.-мат. наук, М., 2003
58. Налимов В. В. «Вероятностная модель языка», М., 2003, 304 с.
59. Губин М. В. «Модели и методы представления текстового документа в системах информационного поиска». Дисс. на соискание ученой степени канд. техн. наук, 2005
60. Ножов И.М. «Морфологическая и синтаксическая обработка текста (модели и программы)». Дисс. на соискание ученой степени канд. техн. наук, 2003
61. Ерофеева Е. В., Кудлаева А. Н. «К вопросу о соотношении понятий ТЕКСТ и ДИСКУРС» // «Проблемы социо- и психолингвистики»: Сб. ст. / отв. ред. Т.И. Ерофеева; Перм. ун-т. Пермь, 2003. - Вып.З. - с. 28-36
62. Карасик В. И. «Структура институционально дискурса» // «Проблемы речевой коммуникации», Саратов, 2000
63. Кожевникова К. «Об аспектах связности в тексте как целом» // «Синтаксис текста», М, 1979
64. Косериу Э. «Современное положение в лингвистике» II Изв. АН СССР. 1977. Т.36. №6
65. Реферовская Е. А. «Коммуникативная структура текста», JL, 1989
66. Гальперин И. Р. «Текст как объект лингвистического исследования», М., 1981
67. Колшанский Г. В. «Коммуникативная функция и структура языка», М., 1984
68. Лосева JI. М. «Как строится текст», М, 1980
69. Тураева 3. Я. «Лингвистика текста», М., 1986
70. Борисова И. Н. «Русский разговорный диалог» // «Структура и динамика», Екатеринбург, 2001
71. Николаева Т. М. «Лингвистика текста: Современное состояние иперспективы» // «Новое в зарубежной лингвистике», М., 1978, вып.8: «Лингвистика текста»
72. Степанов Ю. С. «Альтернативный мир, Дискурс, Факт и принцип Причинности»// «Язык и наука конца XX века». Сб. статей. М.: «РГТУ», 1995, с. 35—7379.3вегинцев В. А. «Предложение и его отношение к языку и речи», М., 1976
73. Арутюнова Н. Д. «Дискурс» // «Лингвистический энциклопедический словарь», М., 1990
74. Серио П. «Как читают текст во Франции» // «Квадратура смысла: Французская школа анализа дискурса», М., 1999
75. Бенвинист Э. «Формальный аппарат высказывания» // «Общая лингвистика», М., 1974
76. Щерба Л. В. «О трояком аспекте языковых явлений и об эксперименте в языкознании» // Щерба Л.В. «Языковая система и речевая деятельность», Л., 1974
77. Иванов В. К., Иванов К. В. «Введение в информационно-поисковые системы: Методические указания по изучению дисциплины "Мировые информационые ресурсы"», ч. 1, Тверь: «ТГТУ», 2005, 36 с.
78. Капустин В. А. «Основы поиска информации в Интернете». Методическое пособие / Интернет-центр СПбО ИОО. СПб, 1999, 14 с.
79. Ландэ В. Д. «Поиск знаний в Internet», 2005
80. Барсегян А. А., Куприянов М. С., Степаненко В. В., Холод И. И. «Методы и модели анализа данных: OLAP и Data Mining»
81. Дюк В., Самойленко A. «Data Mining: учебный курс», СПб: «Питер», 2001, 368 с.
82. Толчеев В. О. «Методы выявления информативных признаков в задаче классификации текстовых документов» // «Информационные технологии», 2005, №8
83. Булкин В. И. «Разработка математических моделей и систем понимания текстов естественного языка» // «Искусственный интеллект», 2005, №3
84. Гаскаров Д. В. «Интеллектуальные информационные системы», 2003
85. Колмогоров А. Н. «Математическая логика», М., 2004
86. Леоненков А. В. «Нечеткое моделирование в среде MATLAB и fuzzyTECH», 2003
87. Булкин В. И., Шаронова Н. В. «Формальное представление знаний в продукционных системах» // «Искусственный интеллект», 2006, №1
88. Кузин Л. Т. «Языки представления знаний с помощью фреймов», 1989
89. Eduard Н. Hovy «Parsimonious and Profligate Approaches to the Question of Discourse Structure Relations»
90. Eduard H. Hovy, «Elisabeth Maier "Parsimonious or Profligate: How Many and Which Discourse Structure Relations?»
91. Daniel Marcu «The Theory and Practice of Discourse Parsing and Summarization», 2000, 272 c.
92. Daniel Marcu «The Rhetorical Parsing of Natural Language Texts» // The Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics, (ACL'97/EACL'97) pages 96-103, Madrid, Spain, July 7-10,1997
93. Daniel Marcu «From Discourse Structures to Text Summaries» // The Proceedings of the ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization, pages 82-88, Madrid, Spain, July 11, 1997
94. Daniel Marcu «Automatic Discourse Parsing. Encyclopedia of Language and Linguistics», 2nd Edition, Elsevier, 2005
95. Simon Corston-Oliver. «Computing of Representations of the Structure of Written Discourse». Ph.D. thesis, University of California, Santa Barbara, 1998
96. Simon H. Corston-Oliver «Identifying the Linguistic Correlates of Rhetorical Relations»
97. Daphne Theijssen, Suzan Verberne and Hans van Halteren «Finding featuresч
98. Gian Lorenzo Thione, Martin van den Berg, Chris Culy, Livia Polanyi «LiveTree: An Integrated Workbench for Discourse Processing» // The Proceedings of the ACL2004 Workshop on Discourse Annotation, Barcelona, Spain, July 25-26, 2004.
99. Полещук О. M. «Методы формализации и обработки нечеткой экспертной информации» Дисс. на соискание ученой степени доктора техн. наук, М., 2004
100. Stein В., Meyer zu Eissen S. «Document Categorization with MajorClust» // Proceedings of the 12th Workshop on Information Technology and Systems (WITS-02). Barcelona, Spain, 2002, pp. 91-96
101. Осипов Г. С., Тихомиров И. А., Смирнов И. В. «Exactus система интеллектуального метапоиска в сети Интернет» // Труды десятой национальной конференции по искусственному интеллекту ' с международным участием КИИ-2006
102. Lewis D. D., «Feature selection and feature extraction for text categorization» // Proceedings of Speech and Natural Language Workshop, 1992
103. Публикации автора по теме диссертации
104. А1. Циликов И. С. Методы и алгоритмы структуризации естественноязыкового текста Текст. / И.С. Циликов // Системы управления и информационные технологии. № 1.1. (39). 2010. С. 194-199
105. А2. Пат. № 2008114801 Российская Федерация, МПК7 G01F 17/28. Способ поиска информации в массиве текстов Текст. / Циликов И. С.; заявитель ипатентообладатель Мордов. гос. ун-т. Заявл. 15.04.2008; опубл.1902.2010. 2010
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.