Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям

Поляков, Дмитрий Вадимович

Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Поляков, Дмитрий Вадимович

Поляков, Дмитрий Вадимович
кандидат технических наук
2013

Специальность ВАК РФ05.13.17

Количество страниц 150

Поляков, Дмитрий Вадимович. Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям: дис. кандидат технических наук: 05.13.17 - Теоретические основы информатики. Тамбов. 2013. 150 с.

Оглавление диссертации кандидат технических наук Поляков, Дмитрий Вадимович

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИЗ РЕШЕНИЙ ЗАДАЧ ПОИСКА И КЛАСТЕРИЗАЦИИ

СВЕДЕНИЙ

1Л Основные направления развития теории информационного поиска

1.2 Математические модели и алгоритмы поиска текстовой информации

1.3 Характеристики и критерии оценки информационного поиска

1.4 Постановка задачи кластеризации и подходы к её решению

1.5 Исследование существующих алгоритмов кластеризации информационных массивов

1.6 Выводы по первой главе

ГЛАВА 2. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ МЕТАПОИСКА НА ОСНОВЕ ПАРАМЕТРИЧЕСКОЙ ОПТИМИЗАЦИИ ЗАПРОСА

2.1 Общие подходы к организации метапоиска текстовых сведений

2.2 Математическая модель информационно-поисковой машины

2.3 Математическая модель параметрической оптимизации запроса

2.4 Формализация информационной потребности пользователя

2.5 Структура базы знаний для решения задачи параметрической оптимизации запроса

2.6 Алгоритмы параметрической оптимизации запроса и наполнения базы знаний

2.7 Выводы

ГЛАВА 3. МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТОВОГО ДОКУМЕНТА И АЛГОРИТМ КЛАСТЕРИЗАЦИИ ИНФОРМАЦИОННЫХ МАССИВОВ

3.1 Математическая модель текстового документа на основе нечёткого представления расстояний между термами в коллокации

3.2 Метрика на пространстве текстовых документов и их групп

3.3 Математическая модель кластеризации информационного массива по нечётким коллокациям

3.4 Алгоритм кластеризации информационного массива по нечётким коллокациям

3.5 Разработка алгоритмов фаззификации и дефаззификации. Выбор Т,8 - норм

3.6 Оценка сложности и эффективности разработанных алгоритмов кластеризации

информаци ионных массивов

3.7 Выводы

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ПРИЛОЖЕНИЕ А. ОПИСАНИЕ РАЗРАБОТАННЫХ ФУНКЦИЙ БАЗЫ

ЗНАНИЙ

ПРИЛОЖЕНИЕ Б. ВИД ФУНКЦИИ ПРИНАДЛЕЖНОСТИ ДЛЯ Ь РАВНОГО

2 И 3

ПРИЛОЖЕНИЕ В. КОПИИ АКТОВ О РЕАЛИЗАЦИИ РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ

Введение диссертации (часть автореферата) на тему «Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям»

ВВЕДЕНИЕ

Актуальность темы исследования. Развитие информационных сетей, объединение их в единую глобальную сеть Интернет, появление электронных библиотек и иных баз данных привело к росту объема текстовой информации в Интернете, продолжающемуся и сейчас. Это, в свою очередь, стало причиной снижения уровня информированности людей из-за роста объемов шумовой и дублирующейся информации; сложности построения запроса, отвечающего интересам пользователя; использования коммерческими организациями результатов поиска как площадки для продвижения своих товаров; сложности построения эффективного и удовлетворяющего пользователя с позиции длительности поиска.

Степень разработанности темы исследования. Основные модели информационного поиска представлены в работах Э.Э. Гасанова, В.Б. Кудрявцева, A.A. Санарского, И.В. Безсудова, Г. Солтона, Э.А. Фокса, Г. Ву, С.Э. Робертсона, К. Спарк-Джонса, М.В. Бэрри, Е.В. Ягуновой, JI.M. Пивоваровой.

Эффективность информационного поиска оценивается множеством метрик или характеристик, с большой частью которых можно ознакомиться в серии документов «Официальные метрики РОМИП». Основными характеристиками информационного поиска являются полнота и точность. Под эффективностью информационного поиска в дальнейшем будем понимать именно эти его характеристики. Естественно, полнота и точность конкретного информационного поиска являются случайными величинами, для оценки которых используются средние значения. Максимальные значения полноты и точности, равные 1, характеризуют идеальный поиск, но на современном этапе не удается достичь одновременно высоких значений обеих характеристик. Так, например, в своей книге «Интернетика» Д.В. Ландэ приводит следующие данные по работе современных информационно-поисковых машин (ИПМ): для значений полноты информационного поиска от 0,6 до 0,7 средняя его точность равна 0,75, а для

значений полноты от 0,8 до 0,9 точность поиска достигает всего 0,27. При этом точность, близкая к 1, достигается лишь при полноте 0,4 и менее.

Но даже такой подход к определению эффективности является спорным, если оценка документов с точки зрения их необходимости пользователю проводится на основе релевантности - соответствия результатов поиска запросу. Альтернативой является оценка на основе пертинентности - соответствия результатов поиска информационной потребности пользователя. Но при этом возникает новая нетривиальная задача - оценка пертинентности.

На современном этапе наиболее распространенным подходом к обработке информационных массивов с целью повышения эффективности поиска является кластеризация - автоматическое разбиение группы объектов на подгруппы, к каждой из которых автоматически строится аннотация и предоставляется пользователю для выбора интересующего его кластера.

Большой объем семантической информации скрыт в коллокациях - группах термов (слов), расположенных относительно друг друга в определенном порядке. Однако большинство современных моделей либо не учитывают этот фактор, либо учет в модели текстового документа коллокаций сводится к рассмотрению пар слов, встречающихся непосредственно рядом друг с другом, в то время как фактически на семантику текста влияют группы из двух, трех и более слов, встречающихся на некотором расстоянии друг от друга. Под расстоянием между двумя словами в тексте будем понимать количество слов, расположенных между ними.

Таким образом, актуальность разработки эффективной и удовлетворяющей по времени работы требованиям пользователя системы поиска текстовой информации следует из несоответствия потребностей пользователя в данной области и возможностей существующих ИПМ, по причине показанного выше несовершенства современных моделей и алгоритмов поиска текстовой информации. Это определяет практическую задачу - повышение эффективности поиска за счет оптимизации запроса к информационно-поисковым машинам на основе кластеризации информационных массивов, для решения которой

необходимо рассмотреть научную задачу, заключающуюся в разработке моделей: оптимизации запроса, текстового документа и алгоритма кластеризации информационных массивов для обеспечения эффективного поиска. Объект исследования: модели и алгоритмы анализа текста. Предмет исследования: математическая модель оптимизации запроса и алгоритм кластеризации текстовой информации.

Цели и задачи. Целью исследования являлось повышение эффективности анализа текста на основе оптимизации запроса с помощью кластеризации по / нечетким коллокациям. Для достижения цели были решены следующие задачи:

• анализ и синтез математической модели параметрической оптимизации запроса;

• построение векторно-пространственной модели текстового документа на основе нечеткого представления коллокаций;

• разработка алгоритма кластеризации информационного массива, на основе построенной векторно-пространственной модели;

• оценка эффективности полученных в ходе исследования моделей и алгоритмов.

Методология и методы исследования. Методология исследования основывается на принципах системного анализа и общей теории систем, при этом используются методы теории информационного поиска, теории нечетких множеств и кластерного анализа.

Результаты диссертационной работы, выносимые на защиту, и их научная новизна:

1. Математическая модель оптимизации запроса, отличающаяся адаптацией к числу найденных документов и информационной потребности пользователя.

2. Нечеткая векторно-пространственная модель текстового документа, отличающаяся использованием в качестве элементов вектора функций принадлежности, формализующих расстояние между термами в коллокации.

3. Алгоритм кластеризации информационного массива с помощью предложенной метрики, отличающийся учетом встречающихся в тексте коллокаций, формализованных функциями принадлежности.

Теоретическая и практическая значимость работы. Теоретическая значимость исследования обоснована разработанными моделями оптимизации поискового запроса, текстового документа и алгоритмом кластеризации информационного массива, дополняющими теорию информационного поиска и учитывающими встречающиеся в тексте коллокации, формализованные нечетким образом.

Практическая значимость работы заключается в разработке специализированного комплекса программного обеспечения для анализа текстов на основе разработанных моделей и алгоритма кластеризации, позволяющего повысить эффективность поиска текстовой информации путем оптимизации запроса к информационно-поисковой машине.

Степень достоверности и апробация результатов. Достоверность результатов работы основана на корректном применении математического аппарата к элементам теорий информационного поиска, нечетких множеств и кластерного анализа, а также на результатах вычислительного эксперимента, подтверждающих повышение эффективности поиска текстовых сведений в некоторых условиях.

Основные результаты работы представлены и обсуждены на IV Межвузовской научно-практической конференции «Новые технологии и инновационные разработки», проходившей в Тамбовском государственном техническом университете в 2011 г., XI Международной научно-методической конференции «Информатика: проблемы, методология, технологии», проходившей 10-11 февраля в Воронежском государственном университете, Международной научно-практической конференции «Техника и безопасность объектов уголовно-исполнительной системы - 2011», проходившей в Воронежском институте ФСИН России в 2011 г., VIII Всероссийской научно-практической конференции «Математические методы и информационно-технические средства», проходившей 22-23 июня в Краснодарском университете МВД России. Кроме того, результаты диссертационного исследования представлены на Всероссийском конкурсе научно-исследовательских работ студентов и аспирантов в области информатики

и информационных технологий, проходившем в Белгородском государственном университете в 2011 г. В этом же году получен грант на основе результатов диссертационной работы по программе «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.»). В 2012 г. по результатам диссертационного исследования направлена заявка под номером 13-07-00182 на конкурс инициативных научно-исследовательских проектов по программе РФФИ.

Внедрение результатов исследования. Основные положения диссертационной работы использованы при обучении студентов кафедры «Информационные системы и защита информации» на факультете «Информационные технологии» ФГБОУ ВПО «ТГТУ». Результаты диссертационной работы приняты к внедрению в 1084-м межвидовом центре подготовки и боевого применения войск РЭБ, на кафедре «Информационные системы и защита информации» ФГБОУ ВПО «ТГТУ», в ООО «СОВТЕХ» и ООО «КОНУС-ИТ», что подтверждено актами о внедрении результатов исследований, копии которых представлены в ПРИЛОЖЕНИИ В.

Публикации. По теме диссертации опубликовано 25 работ, из них 15 статей, в том числе 6 статей в изданиях, рекомендованных ВАК РФ, 9 статей в рецензируемых изданиях, и 10 тезисов докладов на всероссийских и международных научных конференциях.

Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка использованных источников, содержащего 153 наименования, и приложений. Общий объем диссертации составляет 139 страниц, из них список использованных источников - 12 страниц. Основной текст работы содержит 27 рисунков и 14 таблиц. Работа соответствует п. 5. «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» Паспорта специальности 05.13.17 - Теоретические основы информатики.

Во введении обоснована актуальность выбранной темы, сформулирована цель работы, поставлены задачи, решение которых позволит достичь цели

исследования, приведены результаты исследования, обладающие научной новизной и практическая значимость работы, дана краткая аннотация диссертации по разделам.

В первой главе представлены результаты системного исследования моделей информационного поиска, классификации и кластеризации информационных массивов. В процессе исследования выявлены основные характеристики информационного поиска: точность и полнота. Рассмотрены булева, нечеткая, векторно-пространственная и вероятностная модели поиска текстовой информации.

Особое внимание было уделено моделям кластеризации на основе коллокаций, так как они содержат в себе большой объем семантической информации. Для повышения точности модели текстовых документов в диссертационной работе предложено расширить понятие коллокации до произвольного числа слов, находящихся на некотором расстоянии друг от друга.

На основании проведённых исследований обоснована актуальность решаемой задачи, поставлена цель и задачи исследования.

Во второй главе сформулированы общие подходы к организации метапоиска текстовых сведений. Введено понятие запроса и бинарные операции на множестве запросов. На основании этого множества предложена математическая модель информационно-поисковой машины.

Для решения задачи повышения эффективности поиска информации синтезирована модель параметрической оптимизации запроса к информационно-поисковой машине. Предложен подход к формализации информационной потребности пользователя.

Разработана база знаний в виде семантической сети, позволяющая в соответствии с введёнными понятиями, предложенными математическими моделями и алгоритмами осуществлять оптимизацию запроса, взаимодействуя с пользователем. Обоснована необходимость разработки методов автоматического заполнения базы новыми знаниями.

В третьей главе введено понятие коллокации. Построена нечеткая векторно-пространственная модель текстового документа на основе формализации коллокаций, отличающейся учетом количества слов между термами. Предложенная модель, в отличие от классической векторно-пространственной, помимо количества появлений термов в тексте учитывает их взаимное расположение.

Введена метрика на множестве текстовых документов. На её основе разработаны математическая модель и алгоритм кластеризации информационного массива, отличающийся учетом встречающихся в тексте коллокаций, формализованных функциями принадлежности, и позволяющий разбить информационный массив на группы семантически близких документов, а также поставить в соответствие таким группам запросы.

Разработаны алгоритмы фаззификации и дефаззификации расстояний между термами в коллокациях. Выбраны Т,8-нормы, операция отрицания.

Проведена оценка эффективности полученных в ходе исследования моделей и алгоритмов.

В заключении кратко изложены основные результаты диссертационных исследований в виде выводов.

В приложениях приведено описание атрибутов и методов разработанных классов, частные виды предложенной функции фаззификации для двумерного и трёхмерного пространств, копии актов о реализации результатов исследований.

Заключение диссертации по теме «Теоретические основы информатики», Поляков, Дмитрий Вадимович

3.7 Выводы

В третьей главе предложена математическая модель текстового документа, формализованного с помощью нечёткой векторно-пространственной модели.

Каждым элементом матрицы, представляющей в модели документ, является функция принадлежности. Она формализует расстояние между термами в коллокации, соответствующей элементу матрицы. На основании введённой модели предложена метрика и агломеративный иерархический алгоритм кластеризации по нечётким коллокациям.

Разработанный алгоритм позволяет сопоставить кластерам характеристические параметры - элементы матрицы нечёткой пространственно-векторной модели, отражающие семантическую составляющую кластера.

Результат дефаззификации функции принадлежности представляет собой элемент множества запросов, из которых состоит база знаний. По сути, иерархическая структура, групп документов, получаемая в результате кластеризации по нечётким коллокациям посредством выявления характеристических параметров и дефаззификации преобразуется в семантическую подсеть, которая присоединяется к базе знаний, тем самым пополняя её новыми знаниями, полученными в результате кластеризации, в автоматическом режиме.

ЗАКЛЮЧЕНИЕ

Подводя итог, приведём основные результаты работы и сформулируем рекомендации и перспективы дальнейшей разработки темы.

•Синтезирована математическая модель параметрической оптимизации запроса, отличающаяся адаптацией к числу найденных документов и информационной потребности пользователя и позволяющая произвольному запросу поставить в соответствие пертинентность его результатов на основании мнения пользователя о включённых в этот запрос коллокациях и количестве документов полученных в результате поиска.

•Построена нечёткая векторно-пространственная модель текстового документа на основе нечёткого представления коллокаций, отличающаяся учётом количества слов между термами в коллокациях формализованных с помощью нечётких множеств, которая в отличие от классической векторно-пространственной модели помимо количества появлений термов в тексте учитывает их взаимное расположение.

•Разработан алгоритм кластеризации информационного массива на основе метрики на множестве текстовых документов, отличающийся учётом встречающихся в тексте коллокаций, формализованных функциями принадлежности и позволяющий разбить информационный массив на группы семантически близких документов, а также поставить в соответствие таким группам запросы.

•Проведена оценка эффективности полученных в ходе исследования моделей и алгоритмов, позволяющая говорить как минимум о некоторых условиях, в которых предложенные алгоритмы позволяют существенно повысить эффективность поиска, а именно: увеличить точность на величину от 10% до 30%, при потребной полноте более 80%.

Таким образом, научная задача - разработка моделей оптимизации запроса, текстового документа и алгоритма кластеризации информационных массивов для обеспечения эффективного поиска — решена, а поставленная цель - повышение эффективности анализа текста на основе кластеризации с учётом коллокаций, формализованных нечётким образом - достигнута.

Рекомендации и перспективы дальнейшей разработки темы. Построенные математические модели и алгоритм кластеризации информационного массива могут служить основой для построения интеллектуальных поисковых систем, анализирующих семантику текстовой информации.

Список литературы диссертационного исследования кандидат технических наук Поляков, Дмитрий Вадимович, 2013 год

СПИСОК ИСПОЛЬЗОВАННЫХ источников

1. Гасанов, Э.Э. Теория хранения и поиска информации: учеб. / Э.Э Гасанов, В.Б. Кудрявцев. - М.: ФИЗМАТЛИТ, 2002. - 288 с.

2. Адельсон-Вельский, Г.М. Алгоритм организации информации. / Г.М. Адельсон-Вельский, Е.М. Ландис. // ДАН СССР - 1962. - Т. 146. - С.263-266.

3. Белобродский, А.В. Об одном способе поиска релевантных векторов. / А.В. Белобродский, В.Н. Решетников // Вопросы оптимизации и управления. - М.: Изд-во Моск. ун-та, 1979. - С.59-63.

4. Ben-Or, М. Lower bounds for algebraic computation trees. / M. Ben-Or. //Proc. Ibth ACM Annu. Symp. Theory Comput. -1983. - C.80-86.

5. Ferguson, D.E. Fibonaccian searching. / D.E. Ferguson. // С ACM. - 1960. - Vol. 3. -C.648.

6. Yuval, G. Finding nearest neighbours. / G. Yuval. // Inform Processing Lett. - 1976. — Vol. 5. - C.63-65.

7. Fredman, M.L. An algorithm for finding best match in logarithmic expected time. / M.L. Fredman, J.L. Bentley, R.A. Finkel. // ACM Trans. Math. Software. - 1977. -Vol. 3, - C.209-226.

8. Fredman, M.L. An algorithm for finding nearest neighbors. / M.L. Fredman, F. Baskett, J. Shustek. // IEEE Trans. Comput. - 1975. - C. 1000-1006.

9. Burkhard, W.A. Some Approaches to best match file searching. / W.A Burkhard, R.M. Keller. // Commun. Ass. Comput. Mach. - 1973. - Vol. 16. - C.230-236.

10. Минский, M. Персептроны. / M. Минский, С. Пейперт. - M.: Книга по требованию, 2012. - 263 с.

11. Солтон, Г. Динамические библиотечно-информационные системы. / Г. Солтон. - М.: Мир, 1979. -557 с.

12. Решетников, В.Н. Алгебраическая теория информационного поиска. / В.Н. Решетников. // Программирование. - 1979, № 3. -С. 68-74.

13. Черный, А.И. Введение в теорию информационного поиска. / А.И. Черный. -М.: Наука, 1975.-235 с.

14. Ли, Д. Вычислительная геометрия. Обзор. / Д. Ли, Ф. Препарата. // Кибернетический сб. - 1987, Т. 24. - С. 5-96.

15. Препарата, Ф. Вычислительная геометрия: Введение. / Ф. Препарата, М. Шеймос. - М.: Мир, 1989. - 478 с.

16. Bentley, J.L. Multidimensional binary search trees used for asso- associative searching. / J.L. Bentley. // Commun. Ass. Comput. Mach. - 1975. - Vol. 18. - C. 509517.

17. Bentley, J.L. Data structures for range searching. / J.L. Bentley, J.H. Friedman. // Comput. Surveys. - 1979. - Vol. 11. - C. 397-409.

18. Bentley, J.L. Efficient worst-case data structures for range searching. / J.L. Bentley, H.A. Maurer. // Acta Inform. - 1980. - Vol. 13. - C. 155-168.

19. Bentley, J.L. A problem in multivariate statistics: Algorithms, data structure and applications. / J.L. Bentley, M.I. Shamos. // Proc. 15th Allerton Conf. Commun., Contr., Comput. - 1977. — C. 193-201.

20. Bentley, J.L. Analysis of range range searching in quad trees. / J.L. Bentley, D.F. Stanat. // Inform. Processing Lett. - 1975. - Vol. 3. - C. 170-173.

21. Lee, D.T. Worst case analysis for region and partial region searches in multidimensional binary search trees and bal- ansed quad trees. / D.T. Lee, C.K. Wong. // Ada Informatica. - 1977. - Vol. 9. - C. 23-29.

22. Lee, D.T. Quintari trees: A file structures for multi- multidimensional database system. / D.T. Lee, C.K. Wong. // ACM Trans. Database Syst. - 1980. — C.339-353.

23. Ландэ, Д.В. ИНТЕРНЕТИКА: Навигация в сложных сетях: модели и алгоритмы / Д.В. Ландэ, А.А. Санарский, И.В. Безсуднов. - М.: ЛИБРОКОМ, 2009. - 264 с.

24. Salton, G. Extended Boolean information retrieval. / G. Salton, E. Fox, H. Wu. // Communications of the ACM. - 2001. - Vol. 26, № 4. - C. 35-43.

25. Salton, G. A Vector Space Model for Automatic Indexing. / G. Salton, A. Wong, C. Yang. // Communications of the ACM. - 1975. - C. 613-620.

26. Salton, G. Selective Text Traversal. / G. Salton, A. Singhal. - Department of Computer Science, Cornell University, Ithaca - 1995. - C. 131-144.

27. Salton, G. Automatic Information Retrieval. / G. Salton. - Cornell University -1980.-C. 41-54.

28. Egghe, L. The relation between Pearson's correlation coefficient r and Salton's cosine measure. / L. Egghe, L. Leydesdorff. // Journal of the American Society for

Information Science & Technology (forthcoming). - 2009. - Vol. 60, № 2. - C. 232239.

29. Salton, G. Term-weighting approaches in automatic text retrieval. / G. Salton, C. Buckley. // Information Processing & Management. - 1988. - C. 513-523.

30. Robertson, S.E. Simple, proven approaches to text retrieval. / S.E. Robertson, K.S. Jones. // Cambridge Technical Report. - 1997. - C.21-23.

31. Нечёткие множества и теория возможностей. // Последние достижения: пер. с англ. / Под ред. P.P. Ягера. - М.: Радио и связь, 1986. - 408 с.

32. Нечеткие множества в моделях управления и искусственного интеллекта. // Проблемы искусственного интеллекта. / Под ред. Д. А. Поспелова. - М.: Наука. Гл. ред. физ.-мат, лит., 1986. -312 с.

33. Вятченин, Д.А. Применение нечетких чисел для обоснования кластеров в методах нечеткой кластеризации. / Д.А. Вятченин. // Объединенный институт проблем информатики НАН Беларуси, г. Минск - 2008. - С. 523-533.

34. Бондаренко, А.В. Формальный метод нечеткого поиска персональной информации. / А.В. Бондаренко, [и др.]. — Москва, 2009. - 25 с.

35. Zadeh, L.A. A note on web intelligence, world knowledge and fuzzy logic. / L.A. Zadeh, V. Novak, I. Perfilieva. // Berkeley Initiative in Soft Computing (BISC), Computer Science Division and the Electronics Research. - Data & Knowledge Engineering, 2004. - C. 291-304.

36. Nakov, P. Search Engine Statistics Beyond the «-gram: Application to Noun Compound Bracketing. / P. Nakov, M. Hearst. // Berkeley - 2003. - C. 41-49.

37. Шарапов, P.В. Учёт гипертекстовых ссылок между документами при ранжировании результатов поиска / Р.В. Шарапов, Е.В. Шарапова, Е.А. Торохова // Изд-во:ВГУ . - 2001. - С. 1-4.

38. Некрестьянов, И.С. Обнаружение структурного подобия HTML-документов / И.С. Некрестьянов, Е. Павлова // Труды IV Всерос. конф. RCDL'2002. Т. 2. -Санкт-Петербург: СПГУ - 2002. - С. 38-54.

39. Microformats [Электронный ресурс] - Режим доступа: http ://microformats .org/about.

40. Ландэ, Д.В. Поиск знаний в Internet. / Д.В. Ландэ - М.: Диалектика-Вильяме, 2005.-270 с.

41. Berry M.W. Survey of Text Mining. / M.W. Berry. // Clustering, Classification, and Retrieval. - 2004. - 244 c.

42. Ермаков, A.E. Ассоциативная модель порождения текста в задаче классификации. / А.Е. Ермаков, В.В. Плешко. // Информационные технологии. -[Электронный ресурс] - Режим доступа: http://www.rco.ru/article.asp?ob_no=32

43. Ермаков, А.Е. Компонент выделения особых объектов в тексте. / А.Е. Ермаков, В.В. Плешко, В.А. Митюнин. // М: Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. -2003. - С. 33-41.

44. Ермаков, А.Е. Тематический анализ текста с выявлением сверхфразовой структуры. / А.Е. Ермаков. - Информационные технологии [Электронный ресурс] - Режим доступа: http://www.rco.ru/article.asp?ob_no=33.

45. Ермаков, А.Е. Автоматизация онтологического инжиниринга извлечения знаний из текста. / А.Е. Ермаков. // М: Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2008. -2008.-С. 41-49.

46. Ермаков, А.Е. Извлечение знаний из текста и их обработка: состояние и перспективы. / А.Е. Ермаков. // Информационные технологии, 2009. - №7 - С. 5055.

47. Федотов, А.Н. Проблемы поиска информации - история и технологии / А. Н. Федотов, В.Б Барахин //Новосибирск, Вестник НГУ - Том 7, вып. 2 - 2009. - С. 317.

48. Ozawa, S A study of feature extraction and selection using independent component analysis / S. Ozawa, M. Kotani // Proc. of 7th Int. Conf. on Neural Info. Processing -2000.-C. 369-374.

49. Watanabe, Y. Feature extraction of palm prints using supervised independent component analysis / Y. Watanabe, M. Hirahara, T. Nagano // Proc. of 7th Int. Conf. on Neural Info. Processing - 2000. - C. 330-337.

50. Савина, А.Н. Исследование коллокаций с помощью экспериментов с информантами / А.Н. Савина, Е.В. Ягунова // Труды международной конференции «Корпусная лингвистика-2011». - СПб.: С.-Петербургский гос. университет, Филологический факультет, - 2011. - С. 1-7.

51. Пивоварова, JI.M. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов / Л.М. Пивоварова, Е.В. Ягунова // Материалы Симпозиума «Терминология и знание» Москва, -2010.-С. 21-34.

52. Papka, R. Online News Event Detection, Clustering and Tracking / R Papka. // University of Massachusetts at Amherst. - 1999. - C.l 15-123.

53. Del Corso, G.M. Ranking a stream of news. International World Wide Web Conference / G.M Del Corso и [др.]. // Proceedings of the 14th international conference on World Wide Web. Chiba, Japan. - 2005. - C. 97 - 106.

54. Ландэ Д.В. Основы интеграции информационных потоков / Д.В. Ландэ. - К.: Инжиниринг, 2006. - 240 с.

55. Аграновский, А.В. Индексация массивов документов / А.В. Аграновский, Р.Е. Арутюнян // Мир ПК, - № 06. - 2003. - [Электронный ресурс] -Режим доступа: http://old.osp.ru/pcworld/2003/06/165855.

56. Pennacchiotti, М. Entity Extraction via Ensemble Semantics / M. Pennacchiotti, P. Pantel // Conference on Empirical Methods in Natural Language Processing. - 2009. -C. 238 - 247.

57. Exner, P. Entity Extraction: From Unstructured Text to DBpedia RDF Triples / P. Exner, P. Nugues // Department of Computer science Lund University, - 2010. - C. 17 -29.

58. Post, H.F. Feature Extraction and Visualisation of Flow Fields // H.F. Post и [др.]. // EUROGRAPHICS 2002, - 2002. - С. 20 - 52.

59. Popescu, A. Class extraction from the World Wide Web / A. Popescu, A. Yates, O. Etzioni. // AAAI-04 Workshop on Adaptive Text Extraction and Mining, - 2004. - C. 68 - 73.

60. Vossen, P. KYOTO: an open platform for mining facts / P. Vossen Post и [др.]. // Proceedings of the 6th Workshop on Ontologies and Lexical Resources (Ontolex 2010) , - 2010. - C. 1-10.

61. Novalija, I Ontology extension using text mining for news analysis / .1. Novalija -Ljubljana, Slovenia, 2011. - 118 c.

62. Intelligent text analysis [Электронный ресурс] - Режим доступа: http://medlibrary.org/medwiki/Intelligent_text_analysis.

63. Lotfi A. Zadeh. From Search Engines to Question-Answering systems - The Problems of World Knowledge, Relevance Deduction and Precisiationl / Lotfi A. Zadeh. - Berkeley: Computer Science Division and the Electronics Research Laboratory, Department of EEC, 1776. -210 c.

64. Celikyilmaz, A. A Semantic Question/Answering System using Topic Models / A. Celikyilmaz // Computer Science Division University of California, Berkeley. - 2010. -C. 1-4.

I

65. Поиск и распространение информации. Термины и определения. Система стандартов по информации, библиотечному и издательскому делу. - Взамен ГОСТ 7.27-80; введ. 31.03.1997. - Минск, 2001. - Режим доступа: http://www.docload.ru/Basesdoc/6/6316/index.htm

66. Program to evaluate TREC results using SMART evaluation procedures. [Электронный ресурс] - Режим доступа: http://www-nlpir.nist.gov/projects/trecvid/trecvid.tools/ trec_eval/ README

67. Серия TREC конференции в соавторстве с NIST (ITL) Информационные технологии Лаборатории поиска группы из Отдела информационного доступа (IAD). [Электронный ресурс]. - Режим доступа: http://trec.nist.gov.

68. Российский семинар по Оценке Методов Информационного Поиска. [Электронный ресурс]. - Режим доступа: http://romip.ru.

69. [TREC, 2003] Proceedings of the Twelfth Text Retrieval Conference (TREC 2003). Appendix 1, Common Evaluation Measures. [Электронный ресурс]. - Режим доступа: http://trec.nist.gov/pubs/trecl2/appendices/measures.ps,,

70. Осипов, Г.С. EXACTUS - система интеллектуального метапоиска в сети Интернет / Г.С. Осипов, И.А. Тихомиров, И.В. Смирнов. // М.: Институт системного анализа РАН. - 2010. - С. 1-10.

71. Сергеев, А.Ю. Эффективность тематико-ориентированного интернет-поиска / А.Ю. Сергеев, В.М. Тютюнник // Международный журнал экспериментального образования. - 2012. -№7. - С. 61-66.

72. Князева, А.А. Ранжированный поиск в библиографических базах данных / А.А. Князева, О.С. Колобов, И.Ю. Турчановский, A.M. Федотов. // Новосибирск: Вестник НГУ. Серия: Информационные технологии. Том 7, выпуск 4. - 2009. - С. 81-96.

73. Агеев, М. Приложение А. Официальные метрики РОМИП 2010 / М. Агеев, И. Кураленок, И. Некрестьянов // Труды РОМИП'2010. СПб.: Изд-во НУ ЦСИ. -2010.-С. 172-187.

74. Zhai, С.Х. Statistical language models for Information retrieval a critical review / C.X. Zhai. // Foundations and Trends in Information Retrieval Vol. 2, No. 3. - 2008. -C. 137-213.

75. Powers, D.M.V. Evaluation: from precision, recall and F-measure to roc, informedness, markedness and correlation / D.M.V. Powers // Journal of Machine Learning Technologies, Volume 2, Issue 1. - 2011. - C. 37-63.

76. Hauptmann, A.G. Indexing and Search of Multimodal Information / A.G. Hauptmann, H.D. Wactlar // Pittsburgh: Carnegie Mellon University. - 2000. - 10-14

77. Красильников, П.В. Воспроизведение лучших результатов ad hoc поиска семинара РОМИП / П.В. Красильников // М:МГУ, Механико-математический факультет. - 2005. - С. 7-16.

78. Информационный поиск. Структура. [Электронный ресурс] - Режим доступа: http://wiki.liveinternet.ru/IRyinformacionnyjjPoisk

79. Аунг, Ч.Я. Методики и алгоритмы автоматизации технологических процессов визуализации, обработки и поиска изображений в графических базах знаний: автореф. дис. канд. техн. наук: 05.13.06 / Ч.Я. Аунг. - М., 2010. -26 с.

80. Dean-Hall, A. Overview of the TREC 2012 Contextual Suggestion Track / A. Dean-Hall, и [др.]. // The Twenty-First Text Retrieval Conference (TREC 2012) Proceedings.

- Режим доступа: http://trec.nist.gov/pubs/trec21/t21.proceedings.html

81. Dean-Hall, A. Overview of the TREC 2012 Contextual Suggestion Track / A. Dean-Hall, и [др.]. // The Twenty-First Text Retrieval Conference (TREC 2012) Proceedings.

- Режим доступа: http://trec.nist.gov/pubs/trec21/t21.proceedings.html

82. Dean-Hall, A. Building an Entity-Centric Stream Filtering Test Collection for TREC 2012 / A. Dean-Hall, и [др.]. // The Twenty-First Text Retrieval Conference (TREC 2012) Proceedings. - Режим доступа: http://trec.nist.gov/pubs/trec2 l/t21 .proceedings.html

83. Дивинский, А.П. Труды четвертого российского семинара РОМИП'2006. / А.П. Дивинский, Н.В. Бабичев. - СПб: НУ ЦСИ, 2006. - 274 с.

84. Sebastiani, F. Machine Learning in Automated Text Categorization. / F. Sebastiani. 11 ACM Computing Surveys. — March 2002. — Vol. 34, no. 1. — C. 1-47.

85. Ландэ, Д.В. Теория информационного поиска: учебное пособие /Д.Э. Ландэ. -Киев: МСУ, 2006. - 42 с.

86. Мандель, И.Д. Кластерный анализ. / И.Д. Мандель. - М.: Финансы и статистика, 1988. - 176 с.

87. Айвазян, С.А. Прикладная статистика: Классификация и снижение размерности. / С.А. Айвазян, В.М. Бухштабер, Е.С. Енюков, Л.Д. Мешалкин. - М.: Финансы и статистика, 1989. - 607 с.

88. Landauer, Т.К. An introduction to latent semantic analysis. / Т.К. Landauer, D. Laham, P.W. Foltz. // Discourse Processes. - 1998. - Vol. 25. - C. 259-284.

89. Leopold, E. On Semantic Spaces. / E. Leopold. // LDV Forum. - 2005. - Vol. 20. -C. 63-86.

90. Баглей С.Г. Кластеризация документов с использованием метаинформации. / С.Г. Баглей, А.В. Антонов, B.C. Мешков, А.В. Суханов. // Труды международной конференции Диалог 2006. - М.: Корпорация Галактика, 2006. - С. 38-45.

91. Баглей, С.Г.. Кластеризация документов с использованием метаинформации. / С.Г. Баглей [и др.]. - М.: корпорация «Галактика», 2009. - 45 с.

92. Гантмахер, Ф.Р. Теория матриц /Ф.Р. Гантмахер. - М.: Наука, 1996. - 576 с.

93. Стрижов, В.В. Информационное моделирование. Конспект лекций./ В. В. Стрижов. - М.: 2001. - 6 с.

94. Лемешков, Б.Ю. О применении и мощности критериев проверки однородности дисперсий. / Б.Ю. Лемешков [и др.]. - Новосибирск: измерительная техника, 2010. - 20 с.

95. К.М. Кириченко. Обзор методов кластеризации текстовой информации. / К.М. Кириченко, Герасимов М.Б. // Санкт-Петербург: STAR SPB. - 2008. - С.21-25.

96. A.M. Андреев. Метод кластеризации документов текстовых коллекций и синтеза аннотаций кластеров. /A.M. Андреев, [и др.] - М.: МГТУ им. Н.Э. Баумана, 2008. -10 с.

97. Hofmann, Т Probabilistic latent semantic indexing. / Т. Hofmann // In Proc. of the SIGIR'99. -1999. - C. 50-57.

98. Pelleg D., X-means: Extending K-means with Efficient Estimation of the Number of Clusters / D. Pelleg, A. Moore // School of Computer Science, Carnegie Mellon University, Pittsburgh. - 2000. - C. 1-8.

99. Прикладная статистика и основы эконометрики / С.А. Айвазян, B.C. Мхитарян. - М.: Юнити, 1998. - 1000 с.

100. Kurafuji, Т. Plural Morphemes, Definiteness, and the Notion of Semantic Parameter. / Takeo Kurafuji. // Language and Linguistics. - 2004. - Vol. 5, no.l. - C. 211-242.

101. Sridevi, U.K. A Concept Relation Sub Graph in Semantic Web using Genetic Algorithm. / U.K. Sridevi, N.Nagaveni. // International Journal of Power, Energy and Artificial Intelligence. - December 2009. - Vol. 3, no.l. - C. 141-146.

102. Shenghua, B. Optimizing Web Search Using Social Annotations. / Shenghua В. и [др.]. // 16th International World Wide Web Conference. - Banff, Alberta, CANADA. -2007.-C. 501-510.

103. Maisonnasse, L. Revisiting the Dependence Language Model for Information Retrieval. / L. Maisonnasse, E. Gaussier, J. Chevallet. - Amsterdam, The Netherlands -2007 -C. 17-26

104. Hogan, A. Performing Object Consolidation on the Semantic Web Data Graph / A. Hogan, A. Harth, S. Decker. - Workshop at 16th International World Wide Web Conference. Banff, Alberta, Canada. - 2007. - C.l-3.

105. Bizer, C. Quality-Driven Information Filtering in the Context of Web-Based Information Systems. / Chris Bizer. - Berlin: STI International Off-Site, 2007. - 195 c.

106. Андреев, A.M. Автоматическая классификация текстовых документов с. использованием нейросетевых алгоритмов, и семантического анализа. / A.M. Андреев [и др.]. - М.: НПЦ «ИНТЕЛТЕК ПЛЮС», 2009. - С. 140-149.

107. Захарова, И.В. Математическая модель семантического поиска с использованием онтологического подхода. / И.В. Захарова. - Челябинск: ГОУ ВПО, 2012.- 120 с.

108. Мисуно, И.С. Векторные и распределенные представления, отражающие меру семантической связи слов. / Мисуно И.С., Рачковский Д.А., Слипченко С.В. // Математические модели и системы, №3 - 2005. - С. 50-66.

109. Firth, J. R. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis. / J.R. Firth. - Oxford: Philological Society. Reprinted in F. R.Palmer (cd),1952. - 32 с.

110. Недошивина, E.B. Учёт синтаксических связей при поиске коллокаций / Е. В. Недошивина // Natural Language Processing. - 2008. - С. 1-3.

111. Пивоварова, JIM. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (предварительные наблюдения)./ JI.M. Пивоварова, Е.В. Ягунова.// М: Материалы Симпозиума "Терминология и знание". - 2010. - С. 7-14.

112. Киселев М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики. / М.В. Киселев, B.C. Пивоваров, М.М. Шмулевич // М: Компания Megaputer Intelligence . - 2005. - С. 10-17.

113. Raj К. В. Article: Fuzzy Set Theoretic Approach To Collocation Extraction. / Raj Kishor Bisht, H.S Dhami. // International Journal of Computer Applications. - August

2010.-Vol. 5, no. 3.-C. 43-49.

114. Ягунова, E.B. От коллокаций к конструкциям. / Е.В. Ягунова, JI.M. Пивоварова. // СПб.: Труды Института лингвистических исследований РАН. -

2011.-С. 79-84.

115. Кривко, И.П. Специфика синонимической аттракции в лексиконе индивида: синергетический подход: автореф. дис. ... канд. филологич. наук: 10.02.19 / И.П. Кривко. - Курск, 2010. - 23 с.

116. Невзорова, O.A. К разработке нового словаря функциональных омонимов на основе Национального корпуса русского языка. / O.A. Невзорова, Ю.В. Зинькина. // Национальный корпус русского языка и проблемы гуманитарного образования. Материалы международной научной конференции. - М., 2007. - С. 61-63.

117. Капустин, В.А. Ранговая статистика встречаемости слов в большой текстовой коллекции. / В.А. Капустин, A.A. Ямсен. // Труды RCDL - 2006. - С. 13-19.

118. Ягунова, Е.В. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов. / Е.В. Ягунова, Л.М. Пивоварова. ИМ: Сб. НТИ-Сер. 2, №6. - 2010. -С.67-71.

119. Захаров, В.П. Статистический метод выявления коллокаций. / В.П. Захаров, М.В. Хохлова. // Языковая инженерия в поиске смыслов. XI Всероссийская объединенная конференция «Интернет и современное общество». - СПб., 2008. -С. 40-54.

120. Захаров, В.П. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке. [Электронный ресурс] / В.П. Захаров, М.В. Хохлова. - Санкт-Петербургский государственный университет, Институт лингвистических исследований РАН, Санкт-Петербург, 2010. - Режим доступа: http://www.dialog-21 .ru/dialog2010/materials/html/22.htm.

121.Ландэ, Д.В. Метапоиск доступных научно-технических документов в Интернете / Д.В. Ландэ, A.A. Снарский, В.В. Жигало. // Труды 12-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2010 г. Казань — 2010. — С.321-325.

122. Поляков, Д.В. Модель системы поиска и кластеризации сведений в сети Интернет, с использованием существующих информациионно-поисковых машин /Д.В. Поляков //Сб. Методы управления потоками в транспортных системах, г. Москва. Изд-во: МАДИ. - 2009. - С. 122-129.

123. Поляков, Д.В. Алгоритм поиска идентичных объектов на непрерывном множестве / Д.В. Поляков //Сб. Методы управления потоками в транс-портных системах, г. Москва. Изд-во: МАДИ. - 2009. - С. 114-121.

124. Поляков, Д.В. Модель информационной системы метапоиска и мониторинга сведений в сети Интернет /Д.В. Поляков, М.П. Аль-Балуши, М. Ауад, Х.Д. Лыонг //Сб. Методы управления потоками в транспортных системах, г. Москва. Изд-во: МАДИ. - 2010. - С. 116-124.

125. Савин, И.И. Текстовая кластеризация алгоритмом ROCK / И.И. Савин // Труды конференции Телематика'2010, 2010 - С.111-115.

126. Поляков, Д.В. Принципы построения системы метапоиска и мониторинга сведений в сети Интернет / Д.В. Поляков //Информатика: проблемы, методология, технологии: материалы XI Международной научно-методической конференции, Издательско-полиграфический центр ВГУ. - 2011. - Т. 2. - С. 190-192.

127. Поляков, Д.В. К вопросу о построении информационной системы метапоиска и мониторинга сведений в сети Интернет на основе нечёткого представления коллокаций / Д.В. Поляков //Сборник научных работ Всероссийского конкурса научно-исследовательских работ студентов и аспирантов в области информатики и информационных технологий. Белгород: БелГУ. - 2011 - Том 1. - С. 419-424.

128. Поляков, Д.В. Информационная система метапоиска и мониторинга сведений в сети Интернет, на основе нечёткого представления коллокаций/ Д.В. Поляков//Материалы IV-ой Межвузовской научно-практической ежегодной конференции «Новые технологии и инновационные разработки». Тамбов: ТГТУ -2011 - С. 73-75.

129. Блюмин, C.JI. Развитие понятия о «числе» некоторые современные представления /С.Л. Блюмин. - Липецк, 2005 - 30 с.

130. . Поляков, Д.В. Определение соответствия результатов поиска информационной потребности пользователя /Д.В. Поляков, М.П. Аль-Балуши, М. Ауад, Х.Д. Лыонг //Сб. Методы управления потоками в транспортных системах, г. Москва. Изд-во: МАДИ. - 2010. - С. 134-145.

131. Громов, Ю.Ю.. Нечеткий подход к определению пертинентности результатов поиска и выбору оптимального запроса /Ю.Ю. Громов, Д.В. Поляков, О.Г. Иванова, В.Е. Дидрих //Вестник Воронежского института ФСИН России, г. Воронеж. ООО ИПЦ «Научная книга». - 2011. - №2 - С. 49-55.

132. Громов, Ю.Ю. Подход к определению меры количества и качества информации на основе теории нечетких множеств. /Ю.Ю. Громов, О.Г. Иванова, А.Ю. Громова, Д.В. Поляков //Техника и безопасность объектов уголовно-исполнительной системы-2011. ФКОУ ВПО Воронежский институт ФСИН России, г. Воронеж: ИПЦ «Научная книга». - Т. 1. - 2011. - С. 183-187.

133. Поляков, Д.В. Использование математического аппарата нечеткой логики для определения пертинентности результатов поиска текстовых сведений / Д.В. Поляков, М.П. Аль-Балуши, М. Ауад, X. Д. Лыонг. //Математические методы и информационно-технические средства: Труды VIII Всероссийской научно-практической конференции, Краснодарский университет МВД России. - 2012. -С.163.

134. Поляков, Д.В. Построение пертинентного запроса к информационно-поисковой машине на основе математического аппарата нечеткой логики /Д.В. Поляков, В.В. Самойлов, М. Ауад, Хак Д. Лыонг. //Математические методы и информационно-технические средства: Труды VIII Всероссийской научно-практической конференции, Краснодарский университет МВД России. - 2012. -С.167.

135. Поляков, Д.В. Определение целевой функции поиска текстовых сведений в сети Интернет /Д.В. Поляков, М.П. Аль-Балуши, М. Ауад, X. Д. Лыонг. //Математические методы и информационно-технические средства: Труды VIII Всероссийской научно-практической конференции, Краснодарский университет МВД России. - 2012. - С.168.

136. Поляков, Д.В. Определение пертинентности результатов запроса с использованием нечеткой логики /Д.В. Поляков, Ю.В. Минин, В.Е. Подольский, А.Ю. Громова //Приборы и системы. Управление, контроль, диагностика. -2012. -№3 - С.29-33.

137. Заде, Л. Понятие лингвистической переменной и её приближение к принятию приближённых решений / Л. Заде - М: МИР, 1973. - 167с.

138. Громов, Ю.Ю. Нечеткий подход к описанию информационной потребности пользователя для поиска и кластеризации сведений в сети Интернет /Ю.Ю. Громов, Д.В. Поляков, О.Г. Иванова, В.Е. Дидрих //Вестник Воронежского института ФСИН России. - Воронеж: ООО ИПЦ «Научная книга». - 2011. - №2 -С. 78-82.

139. Громов Ю.Ю. Формализация информационной потребности пользователя на основе нечеткой логики /Ю.Ю. Громов [и др.] //Приборы и системы. Управление, контроль, диагностика. - 2012. - №3 - С.47-50.

140. Громов, Ю.Ю. Формализация информационной потребности с помощью коллокаций на основе теории нечётких множеств для пертинентного поиска текстовых сведений /Ю.Ю. Громов, Д.В. Поляков, Х.Д. Лыонг, А.Б.М.П.Б. Шихук //Информация и безопасность. Воронеж: Издательско-полиграфический центр Воронежского государственного университета. - 2012. - Т. 15. - №2 - С. 213-218.

141. Поляков, Д.В. Нечёткий подход к описанию информационной потребности пользователя /Д.В. Поляков, М.П. Аль-Балуши, М. Ауад, Х.Д. Лыонг //Сб.

Методы управления потоками в транспортных системах, г. Москва. Изд-во: МАДИ. - 2010. - С. 124-134.

142. Васильев, Н. Метрические пространства / Н. Васильев. // М:Квант. - 1990. -№1. - С. 17-23.

143. Фиников, С.П. Аналитическая геометрия: Курс лекций. Изд. 3 / С.П. Фиников. М: Изд-во ЛИБРОКОМ. - 2008. - 328с.

144. Поляков, Д.В. Кластеризация сведений на основе нечёткого представления взаимного расположения термов в документах /Д.В. Поляков, М.П. Аль-Балуши, М. Ауад, Х.Д. Лыонг //Сб. Методы управления потоками в транспортных системах, г. Москва. Изд-во: МАДИ. - 2010. - С. 107-115.

145. Поляков, Д.В. К вопросу построения математической модели кластеризации текстовых сведений /Д.В. Поляков, В.В. Самойлов, М.П. Аль-Балуши, X. Д. Лыонг. //Математические методы и информационно-технические средства: Труды VIII Всероссийской научно-практической конференции, Краснодарский университет МВД России. - 2012. - С.164.

146. Иванова, О.Г. Кластеризация текстовых коллекций на основе нечеткого описания коллокаций /О.Г. Иванова, Д.В. Поляков, А.Ю. Громова, В.Е. Дидрих //Информация и безопасность. - Воронеж: Издательско-полиграфический центр Воронежского государственного университета. - 2011. - №3 - С. 459-462.

147. Батыршин, И.З. Основные операции нечёткой логики / И.З. Батыршин. -Казань: Отечество, 2001. - 100 с.

148. Yager, R.R. A. Uninorm aggregation operators. - Fuzzy Sets and Systems /R.R. Yager, A Rubalov. - 1996. - С. 111 - 120.

149. Громов, Ю.Ю. К вопросу о генерации непрерывно дифференцируемых архимедовых Т- и S-норм / Ю.Ю. Громов, Д.В. Поляков, О.Г. Иванова, В.Е. Дидрих //Вестник Воронежского института ФСИН России, г. Воронеж. ООО ИПЦ «Научная книга». -2011. - №1. - С.50-52.

150. Поляков, Д.В. Подход к генерации Т, S - норм на основе рядов Фурье /Д.В. Поляков, Л.В. Пучков, М.П. Аль-Балуши, М. Ауад. //Математические методы и информационно-технические средства: Труды VIII Всероссийской научно-практической конференции, Краснодарский университет МВД России. - 2012. -С.165.

151. Громов, Ю.Ю. Выбор архимедовых норм и конорм на основе использования рядов Фурье /Ю.Ю. Громов, Д.В. Поляков, О.Г. Иванова, Ю.В. Минин //Приборы и системы. Управление, контроль, диагностика. -2012. - №3 - С.3-4.

152. Поляков, Д.В. Метод фаззификации векторов в n-мерном пространстве /Д.В. Поляков, JI.B. Пучков, В.В. Самойлов, Т.О. Авдеева. //Математические методы и информационно-технические средства: Труды VIII Всероссийской научно-практической конференции, Краснодарский университет МВД России. - 2012. -С.166.

153. Громов, Ю.Ю. Построение многомерных функций принадлежности / Ю.Ю. Громов, Д.В. Поляков, А.П. Ведерникова, Ю.В. Минин, Т.Г. Самхарадзе, О.Г. Иванова //Приборы и системы. Управление, контроль, диагностика. -2012. - №11 -С. 21-26.

ПРИЛОЖЕНИЕ А. Описание разработанных функций базы знаний

Таблица 1 - Пояснение к фрагменту диаграммы классов БЗ (Рисунок 2.8)

Имя класса: Father Request

Атрибуты

Request: *father, Список адресов экземпляров класса Request, являющихся предками данного экземпляра в БЗ.

int: KollRez; Количество документов, получаемых в результате использования запроса соответствующего данному экземпляру класса.

double: Tochnost; Точность поиска. В соответствии с (2.35), (2.42), (2.44)

double: Polnota; Полнота поиска. В соответствии с (2.34), (2.42), (2.44)

double: FNorma; F-норма. В соответствии с (2.28), (2.42), (2.44)

Операции

XML: ReqQ; Действие операции аналогично работе, рассмотренного ранее отображения Req с тем лишь уточнением, что результат возвращается в формате XML.

int: Norm{XML); Возвращает количество документов, в некотором XML-файле. Вычисление атрибута KollRez будем осуществлять как суперпозицию функций: KollRez = Norm(Req(.)). В силу того, что объём документов в Интернете постоянно возрастает, необходимо периодически обновлять значение атрибута KollRez.

void: jFQ; Операция вычисления атрибута FNorma в соответствии с (2.28), (2.42) и (2.44), на основе значений атрибутов KollRez, Polnota и Tochnost.

void: r(); Операция вычисления атрибута Polnota в соответствии с (2.34), (2.42) и (2.44), на основе значения атрибута Tochnost.

OnEq ие ChangeÇ) Поисковая функция, действие которой формализовано в разделе 2.5.

Имя класса: Simple Request

Атрибуты

int: *vectorN\ P{Simple_Request).

kollocation *Daughter.; Адрес коллокации - Koll{Simple Request).

Операции

void: p{)\ Операция вычисления атрибута Tochnost в соответствии с (2.35) и (2.42).

Имя класса: Request

Атрибуты

string: type\ Переменная type содержит в себе тип операции, которому соответствует данный узел базы знаний и может принимать одно из трёх значений: «конъюнкция», «дизъюнкция», «отрицание».

Request: *son; Список адресов экземпляров класса Request, являющихся потомками данного экземпляра.

Операции

void: pQ; Операция вычисления атрибута Tochnost, который в силу (2.35), (2.44) и структуры БЗ вычисляется как конъюнкция, дизъюнкция или отрицание (в зависимости от значения параметра type) соответствующих атрибутов потомков данного экземпляра.

Приложение А (продолжение) Таблица 2 - Пояснение к структуре класса КоИосайоп (Рисунок 2.9)

Имя класса: КоИосайоп

Атрибуты

string: *пате; Массив термов 5 , 5 , я , ...5, , в соответствии 1 '1 '2 '3 '/-1 11 с (2.36)

bool: *st; Массив степенейр^ р^ рь, ...р^, рц в соответствии с (2.36)

Simple Request: *father; Адрес соответствующего коллокации элементарного запроса

<R, Ar>: eque\ Значение пары нечётких переменных, соответствующих данной коллокации

Kollocation: *addr, Список адресов коллокаций

Rools: *rool\ Правила вывода

Операции

Ask UserQ; Функция обеспечивающая, выяснение у пользователя значения атрибута eque. По умолчанию /лАк - 0,5 .

OnEq ue ChangeQ; Специальная функция, которая срабатывает при изменении значения eque. Подробно алгоритм её работы описан в разделе 2.5.

ПРИЛОЖЕНИЕ Б. Вид функции принадлежности для / равного 2 и 3

Пусть 1 = 2, в этом случае (3.54) принимает вид:

1

к - 21 +1

-х-

2Л-1 1-2 Я где к е Я - частный случай вектора К(к) (при / = 1).

Гиперкубами единичного пространства являются отрезки, которые задаются двумя значениями Х\ 0 или 1. Итак, при /1=1 задаётся отрезок [к-1, к] и на этом отрезке функция принадлежности представляет собой прямую: /лК(х) = х + \-к, а при X = 0 задаётся отрезок \к, к+1], на котором функция принадлежности имеет вид другой прямой: /лК{х) = -х + к +1, на остальной части области определения /лК{х) = 0. Формула (1) задаёт общий вид рк(х).

х + к,х е[к -1,к], /лК(х) = 1-х + к + 1,х е[к,к + 1], (2)

0,хё[к-1,к]п[к,к + \]ш,

График /лК (х) представлен на рисунке 1.

У i 1 ! I

1 1 1 1 М*) X

| /Т<Г

0 1 ! к- 1 1 / к к+1 к_тах

1 ! |

Рисунок 1 - График функции принадлежности, фаззифицирующий вектор

расстояний К(к) при 1 = 2 Согласно формуле (2) и рисунку 2 частный случай построения функции принадлежности (3.55) - фаззификация расстояния между двумя термами -представляет собой «классическое» треугольное число.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат технических наук Поляков, Дмитрий Вадимович

Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Система поиска текстовых документов на основе автоматически формируемого электронного каталога2010 год, кандидат технических наук Борисюк, Федор Владимирович

Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич

Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК

Информационно-поисковая система с ранжированием на основе нейронных сетей с бинарной функцией выхода2009 год, кандидат технических наук Занин, Дмитрий Евгеньевич

Онтологическая информационная поддержка проектирования в электронных архивах технической документации2015 год, кандидат наук Субхангулов Руслан Айратович

Заключение диссертации по теме «Теоретические основы информатики», Поляков, Дмитрий Вадимович

Список литературы диссертационного исследования кандидат технических наук Поляков, Дмитрий Вадимович, 2013 год