Методы и алгоритмы интеллектуализации проектирования технических систем посредством тематической сегментации текстов тема диссертации и автореферата по ВАК РФ 05.13.06, кандидат технических наук Добренко, Наталья Викторовна

  • Добренко, Наталья Викторовна
  • кандидат технических науккандидат технических наук
  • 2018, Санкт-Петербург
  • Специальность ВАК РФ05.13.06
  • Количество страниц 0
Добренко, Наталья Викторовна. Методы и алгоритмы интеллектуализации проектирования технических систем посредством тематической сегментации текстов: дис. кандидат технических наук: 05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям). Санкт-Петербург. 2018. 0 с.

Оглавление диссертации кандидат технических наук Добренко, Наталья Викторовна

СОДЕРЖАНИЕ

Содержание

Введение

ГЛАВА 1. ПРОБЛЕМНО-ОРИЕНТИРОВАННОЕ ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛИ ЗАДАЧИ ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ

НАУЧНЫХ ТЕКСТОВ

1.1. Место задачи тематической сегментации научных текстов в общей структуре процесса проектирования технических систем

1.2 Анализ профессиональных интернет-форумов как предметной области для тематической сегментации

1.3 Анализ научной прозы как предметной области для тематической

сегментации

1.4. Разработка проблемно-ориентированной модели задачи тематической

сегментации научных текстов

1.5 Постановка задач диссертационного исследования

Выводы по главе 1

Глава 2. РАЗРАБОТКА МЕТОДИКИ ОТБОРА И НАСТРОЙКИ ПАРАМЕТРОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ НАУЧНЫХ ТЕКСТОВ

2.1. Разработка методики отбора и настройки параметров модели тематической сегментации для профессиональных интернет-форумов

2.1.1. Формирование и разметка обучающей выборки

2.1.2. Отбор признаков для машинного обучения

2.1.3. Выбор показателей качества суммаризации интернет-форумов

2.1.4. Отбор и настройка алгоритмов машинного обучения

для суммаризации интернет-форумов

2.2. Разработка методики отбора и настройки параметров модели тематической

сегментации для текстов научной прозы

2.2.1. Формирование и разметка обучающей выборки

Формирование экспериментального набора данных

Разметка обучающей выборки

Предобработка текстов обучающей выборки

2.2.2. Выбор показателей качества тематической сегментации

для текстов научной прозы

2.2.3. Отбор и настройка алгоритмов машинного обучения

для тематической сегментации научной прозы

Отбор алгоритмов

Специфика настройки параметров алгоритмов для тематической сегментации

научной прозы

Эффективность тематической сегментации научной прозы в зависимости

от характеристик текстов

Выводы по главе 2

Глава 3. РАЗРАБОТКА МЕТОДА КОМПОЗИЦИИ АЛГОРИТМОВ ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ НАУЧНЫХ ТЕКСТОВ И СРЕДСТВА ЕГО ПРОГРАММНОЙ ПОДДЕРЖКИ

3.1 Ансамблевый метод структуризации научных текстов

3.2 Программная реализации сервиса тематической сегментации

для профессиональных интернет-форумов

3.3 Архитектура и программная реализация сервиса тематической сегментации

для научной прозы

Выводы по главе 3

Глава 4. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ПРОВЕРОК РАЗРАБОТАННОГО МЕТОДА КОМПОЗИЦИИ АЛГОРИТМОВ

ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ

Выводы по главе 4

ЗАКЛЮЧЕНИЕ

Список литературы

Источники на русском языке

Источники на английском языке

Рекомендованный список диссертаций по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Введение диссертации (часть автореферата) на тему «Методы и алгоритмы интеллектуализации проектирования технических систем посредством тематической сегментации текстов»

ВВЕДЕНИЕ

Актуальность темы. В современном профессиональном образовании в качестве средств обучения широко используются компьютерные тренажеры - программно-технические системы, позволяющие сформировать у будущих специалистов качества, определяемые их профессиональной деятельностью. В условиях быстро меняющихся требований к квалификации будущего специалиста педагог должен иметь возможность совместно с проектировщиком гибко и оперативно проектировать и модифицировать такие системы. Поэтому интеллектуализация их проектирования является важной задачей в рамках формирования АСУ образовательного процесса.

Однако в общей структуре процесса проектирования технических систем имеются процедуры, интеллектуализации которых до сих пор уделялось недостаточное внимание, и среди них - поиск и анализ научно-технической информации. Как показывает практика, эта проблема особенно важна для таких этапов проектирования, как разработка технического задания и НИР, когда требуется оперативно освоить максимально широкий спектр научной и технической информации, релевантной рассматриваемой задаче. При этом наиболее актуальная информация содержится в оригинальных текстах - в научных статьях и монографиях, а также на тематических форумах Интернета, часто написанных на иностранном языке. Исследования показывают, что структура научных текстов далеко не всегда может быть представлена типовыми атрибутами информационного поиска, такими как оглавление, метатеги или набор ключевых слов.

Интеллектуализация проектирования тренажеров как сложных программм-но-технических систем может быть связана с тем, чтобы предоставить педагогу и проектировщику возможность анализировать не весь потенциально интересный текст, а только его фрагменты, содержащие релевантную информацию, профессиональную значимую для подготовки будущих специалистов. Для их выделения необходимо решить задачу тематической сегментации (ТС) текстов - автоматического членения документа на последовательность сегментов с однородной семантикой (топиков), учитывающих внутренние особенности текста и целей запроса. ТС мо-

жет обеспечить исходную структуру текста из топиков в качестве опорной, чтобы он смог построить свою интерпретацию с минимальным затратами ресурсов - выбрать для чтения то, что необходимо, или убрать то, что заведомо не требуется.

Использование ТС текстов при проектировании компьютерных тренажеров позволит сократить время их создания и улучшить качество профессиональной подготовки будущих специалистов. Поэтому разработка и исследование методов и алгоритмов интеллектуализации проектирования таких сложных программно-технических систем, как компьютерные тренажеры, посредством ТС является актуальной и своевременной задачей.

Степень научной разработанности проблемы. Вопросы интеллектуализации проектирования технических систем представлены в работах таких отечественных и зарубежных авторов, как И.О. Жаринов, А.Г. Коробейников, В.М. Курейчик, И.П. Норенков, И.В. Романова, Н.Г. Ярушкина, P.J.W. ten Hagen, T. Tomiyama, а применительно к образованию - в работах В.Н. Васильева и Л.С. Лисициной. Однако, как показал анализ литературных источников, в общем комплексе задач проектирования технических систем недостаточное внимание уделяется интеллектуализации поиска и анализа научно-технической информации. Эта задача практически не поддерживается существующими средствами САПР. Вопросы автоматической обработки текстов на естественном языке широко представлены в литературе, причем в качестве базового подхода рассматривается машинное обучение. Здесь нужно отметить работы таких отечественных авторов, как Ю.И. Журавлев, И.А. Бессмертный, Е.И. Большакова, К.В. Воронцов,. Н.Н. Леонтьева, Н.В. Лукашевич, С.И. Николенко. Не менее широко этот круг вопросов рассматривают и зарубежные авторы, в том числе М. Hearst, G. Ingersoll, D. Jurafsky, Ch. Manning, G. Marchionini, J. Martin, R. Mitkov, T. Morton, H. Schutze. В работах Воронцова К.В. и Журавлева Ю.И. раскрыты преимущества ансамблирования отдельных алгоритмов машинного обучения для повышения эффективности классификации.

Однако большинство исследований, посвященных ТС протяженных текстов, направлено на тексты из социальных сетей и новостных ресурсов, что не

позволяет учесть специфику научных текстов. При обработке текстов Интернет-форумов преобладают такие задачи, как сентимент-анализ, выделение фактографической информации, анализ активности пользователей, в то время как задача выделения профессионально значимой информации из текстов Интернет-форумов в известных работах не рассматривается.

Цели и задачи исследования. Цель диссертационной работы состоит в разработке методов и алгоритмов интеллектуализации проектирования технических систем посредством тематической сегментации научных текстов. В соответствии с поставленной целью необходимо решить следующие задачи:

1. Провести проблемно-ориентированное исследование научных текстов, выделить специфические свойства задачи тематической сегментации научных текстов как объектов машинного обучения.

2. Разработать методику отбора и настройки алгоритмов машинного обучения для тематической сегментации научных текстов.

3. Разработать метод композиции (ансамблирования) алгоритмов тематиче-ской сегментации и средство его программной поддержки.

Методы исследования. В диссертационной работе применяются различные методы и алгоритмы машинного обучения. При разработке программного обеспечения использованы методы объектно-ориентированного программирования. Достоверность работы. Теоретические и экспериментальные исследования, проведенные в работе, являются обоснованными и достоверными, что подтверждается представлением основных результатов на российских и международных конфере-ниях, а также сравнительным анализом полученных результатов с исследованиями в этой области.

Научная новизна работы состоит в разработке методов и алгоритмов интеллектуализации проектирования технических систем посредством тематической сегментации текстов. При этом:

1. Разработана методика отбора алгоритмов машинного обучения и настройки их параметров для тематической сегментации научных текстов, отличающаяся

тем, что она является единой для текстов разных жанров и позволяет учесть внутреннюю структуру текста и цель запроса. 2. Разработан ансамблевый метод структуризации научных текстов, основанный на алгоритмах тематической сегментации текстов, и средство его программной поддержки. Метод позволяет реализовать одновременную демонстрацию нескольких вариантов тематической сегментации. Теоретическая значимость работы обусловлена совершенствованием метода и алгоритмов тематической сегментации научных текстов.

Практическая значимость результатов диссертации. Практическая значимость работы состоит в разработанной системе визуализации ТС протяженных текстов, применяемой для удобства понимания семантической структуры текста в целом и его фрагментации, при использовании различных алгоритмов сегментации и их композиций. Специфику сервиса реализуют следующие компоненты: утилита для визуализации тематической структуры связных текстов (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660417 от 21.09.2017); утилита для визуализации тематической структуры несегментированных текстов (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660443 от 21.09.2017); модуль обработки пользовательских запросов на анализ текста (Свидетельство о государственной регистрации программы для ЭВМ № 2017 660432 от 21.09.2017).

Разработанная система демонстрирует структуру текста, что позволяет педагогу и проектировщику при проектировании компьютерных тренажеров выделять и анализировать не весь текст целиком, а только фрагменты, соответствующие текущим информационным потребностям. Архитектура системы для тематической сегментации научных текстов является модульной, что позволяет добавлять новые алгоритмы машинного обучения и представлять одновременно несколько результатов сегментации (в виде линеек) для одного текста. Соответствие паспорту специальности. Работа выполнена в соответствии с паспортом специальности ВАК РФ 05.13.06 «Автоматизация и управление технологическими процессами и производствами (по отраслям)», п. 15, 17.

На защиту выносятся:

1. Методика отбора алгоритмов машинного обучения и настройки их параметров для интеллектуализации проектирования технических систем посредством тематической сегментации текстов.

2. Ансамблевый метод представления результатов тематической сегментации текстов для интеллектуализации проектирования технических систем и средство его программной поддержки.

Степень достоверности и апробация результатов исследования. Основные положения диссертационной работы докладывались и обсуждались на: XVI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (С.-Петербург, 2014); International Conference on Knowledge Engineering and the Semantic Web (Казань, 2014); 20 International Conference «Dialogue» (Прага, 2014); XVIII объединенной конференции «Интернет и современное общество. Компьютерная лингвистика и вычислительные онтологии» (С.-Петербург, 2015); IV, V Всероссийских конгрессах молодых ученых (С.-Петербург, 2015, 2016); International Conference on Knowledge Engineering and the Semantic Web (Москва, 2015); XLV, XLVI, XLVII научной и учебно-методической конференции Университета ИТМО (С.Петербург, 2016, 2017, 2018); 21st International Conference on Text, Speech and Dialogue (Брно, 2018).

По материалам диссертационной работы опубликованы десять научных работ, в том числе пять в рецензируемых журналах, включенных в перечень ВАК, и пять - в рецензируемых журналах, включенных в базу данных Scopus, зарегистрировано девять результатов интеллектуальной деятельности.

Работа выполнена при финансовой поддержке Министерства образования и науки РФ. Соглашение №14.578.21.0196 от 03.10.2016 (проект RFMEFI57816X0196). Результаты работы использованы в Университете ИТМО (акты внедрения в НИР № 615870 и НИР № 617042), в АО «Навигатор» (акт использования от 11.10.2018) и в ГБУ ДО ЦДЮТТ Кировского р-на СПб (акт использования от 27.07.2018).

Личный вклад соискателя состоит в планировании научной работы и в участии на всех этапах работы, в определении постановки и решения задач диссертационного исследования, в самостоятельном обзоре отечественной и зарубежной литературы по изучаемой проблематике, в проведении проблемно-ориентированного исследования научных текстов, в написании и оформлении рукописи диссертации, основных публикаций по выполненной работе. Соискатель принимал непосредственное участие в получении и анализе результатов исследования, организовывал проведение, обработку и интерпретацию экспериментальных данных.

Распределение работ между соавторами публикаций: Добренко Н.В. принимала участие на всех этапах работы; Гусарова Н.Ф. - постановка задач исследований; Боярский К.К., Станкевич А.С., Шалыто А.А. - общая координация работ; Артемова Г.О., Бурая К.И., Трофимов В.А., Грозин В.А. - проблемно-ориентированное исследование; Нигматуллин Н., Ведерников Н., Васильев А. - написание кода; Авдеева Н., Макаренко А., Ватьян А., Нин Т., Виноградов П.Д. - тестирование и отладка; Каневский Е., Гузевич Д. - обзор литературы. Доля личного вклада соискателя в статьях, написанных в соавторстве, не меньше, чем у каждого из соавторов. Структура диссертации. Диссертационная работа состоит из введения, четырех глав, заключения, списка литературных источников.

ГЛАВА 1. ПРОБЛЕМНО-ОРИЕНТИРОВАННОЕ ИССЛЕДОВАНИЕ И РАЗРАБОТКА МОДЕЛИ ЗАДАЧИ ТЕМАТИЧЕСКОЙ СЕГМЕНТАЦИИ НАУЧНЫХ ТЕКСТОВ

1.1 Место задачи тематической сегментации научных текстов в общей структуре интеллектуализации процесса проектирования технических систем

Проектирование - многоступенчатый итерационный процесс с возрастающей детализацией и точностью проработок, связанный с получением достоверной и полной информации и позволяющий принимать решения на основе оптимальных компромиссов с минимальным техническим и экономическим риском [26]. Проектирование современных технических систем предполагает разделение этого процесса на несколько взаимосвязанных и последовательных этапов: разработка технического задания (ТЗ), предварительное проектирование, в ходе которого ведется научно-исследовательская работа (НИР) и результатом которого является техническое предложение, эскизный проект, технический проект, рабочий проект, технология испытания и изготовления разработанного объекта (сертификация) [18]. На рисунке 1 представлены основные этапы проектирования технических систем.

» • Г I

13 на проектируемый обьСКТ НИР СКР Техническое проектирование Рабочее просктироватгис Изготовление и испытания спроектированною объекта Внесение коррекции

1) Пакетный поиск 2) Анализ выбранной информации и формулировка Технически* I ребокшип (ТГ) к проектируемому объекту 3) Выдача ТТ 1) Формирование критериев качества и > правления 2) Управление научным -»кснери-мешом 3) Ратработка математических моделей 4) Разработка новых технических средств 5) Отработка технологических процессов 6) Выдача 1 ехннчсских Предложений (ТП> 1) Эскиз проектируемой системы 2) Предварительные проектные решения 3) Первые проектные документы Уточнение решений, принятых При ЭСКИЗНОМ проектировании Оформление проектных документов и жептуатанион-нон локумента-цин

Все документы — только исходные данные (ИЛ) пли Рабочего Проекта

Рисунок 1. Этапы проектирования сложных систем [18]

Основным способом повышения эффективности проектирования технических систем, сокращения ресурсных и временных затрат на проектирование является его интеллектуализация [4, 37, 42]. При этом классические процедуры проектирования усиливаются различными информационными технологиями, в том числе средствами машинной графики, обработки знаний, специализированными базами данных и пакетами прикладных программ, которые позволяют автоматизировать расчетные, оптимизационные и имитационные процедуры [18, 21, 37, 55].

В [57, 58] выделены основные парадигмы, лежащие в основе интеллектуализации САПР. Так, на базе парадигмы человеко-машинного взаимодействия развиваются диалоговые, вопросно-ответные подсистемы САПР, которые обеспечивают активное участие пользователя в решении задач проектирования. На базе парадигмы инженерии знаний были созданы модели представления знаний (фреймы, продукции, семантические сети), которые, в свою очередь, послужили основой для разработки и внедрения в САПР экспертных систем различного типа и назначения. Парадигмы мягких вычислений и вычислительного интеллекта сочетают в себе подходы нечеткой логики, генетических вычислений и нейроком-пьютинга, тем самым обеспечивая качественный рост интеллектуальных возможностей САПР.

С точки зрения проблематики диссертационной работы интерес представляют аспекты интеллектуализации, связанные с извлечением, представлением и использованием знаний проектировщиков.

• Нечеткие экспертные системы представляют знания в форме совокупности нечетких продукций и лингвистических переменных; знания в этом случае фиксируются в виде функций принадлежности, которые строятся на базе статистики предыдущих решений или опыта экспертов.

• Мягкие экспертные системы представляют знания как совокупность лингвистических переменных, нечетких продукций и обученных нейронных сетей, при этом вывод по нечетким продукциям обеспечивается комбинацией генетических алгоритмов с шагами многокритериального выбора решений.

Тем самым формируется экспертная система проектирующего типа, которая сочетает экспертизу и расчетные процедуры.

• САПР на базе вычислительного интеллекта позволяют моделировать рассуждения проектировщика на базе метода байесовских сетей доверия, выявлять скрытые структуры в массиве документов на базе их индексирования (формирования пар «слово-частота встречаемости в документе»).

• САПР на базе гранулярных вычислений выполняют анализ временных рядов, описывающих развитие класса проектируемых систем. В качестве знаний здесь рассматриваются выявленные нечеткие тенденции о динамике различных показателей, получаемые на базе доступной статистики и экспертных мнений. Тем самым повышается информативность результатов моделирования и прогнозирования, а в целом - эффективность проектных процедур.

Как следует из приведенного описания, эффективность использования рассмотренных средств интеллектуализации САПР во многом определяется полнотой извлеченных знаний и их соответствием конкретной задаче проектирования. Для оценки возможности извлечения профессиональных знаний из эксперта в [13, 14] предлагается условная шкала:

1. знания, используемые для изложения или доказательства и представимые в словесной форме;

2. знания, которые эксперт применяет в своей реальной практике и которые он принципиально может выразить в словесной форме;

3. опыт - знания глубинных уровней, отвечающие за креативные, творческие решения эксперта.

Существенно подчеркнуть, что подавляющее большинство методов извлечения знаний из эксперта ориентировано на верхний и частично на средний уровни этой шкалы.

Как указывается в [57] и подтверждается практикой проектирования, «знания, используемые разработчиком на этапе общего проектирования, легко укладываются в форму продукций типа ситуация-действие». Эти знания, как правило,

соответствуют на шкале уровням 1 и 2, т.е. они могут быть извлечены из эксперта, формализованы и далее использованы в интеллектуальных САПР.

В то же время в процессе проектирования присутствуют этапы, требующие от проектировщика нестандартных, креативных, творческих решений, которые опираются на его опыт, интуицию и широкий диапазон профессиональных умений и навыков. Интеллектуализация этих этапов проектирования, очевидно, должна быть связана с тем, чтобы помочь проектировщику более эффективно формировать собственные профессиональные знания, максимально соответствующие (релевантные) конкретной решаемой задаче проектирования.

Профессиональные знания - это характеризующие особенности конкретной деятельности сведения, которые необходимы для эффективной ее реализации [45]. В рамках компетентностного подхода [39] чаще используется термин «профессионально значимая информация» (ПЗИ) [32].

Можно выделить ряд особенностей ПЗИ, характерных для участников процесса проектирования технических систем.

• Для повышения эффективности проектирования технических систем требуется привлечение к коллективной разработке проекта большого числа высококвалифицированных специалистов различных специальностей [26], для каждого из которых характерен свой объем и содержание ПЗИ.

• Содержание и специфика ПЗИ, необходимой конкретному участнику процесса проектирования, зависят от назначения, условий работы и особенностей эксплуатации проектируемой системы, а также степени знакомства разработчика с ней.

• В современном мире, вследствие постоянного возникновения новых технологий, принципы создания технических систем также непрерывно совершенствуются и меняются. Поэтому объем и содержание ПЗИ, которой владеет каждый разработчик, должны оперативно обновляться.

Таким образом, в процессе проектирования технических систем могут быть выделены этапы, на которых проектировщик сталкивается с необходимостью оперативного освоения максимально широкого спектра научной и технической

информации, релевантной конкретной задаче проектирования. Анализ показывает и практика подтверждает, что наиболее значимыми в этом плане являются этапы разработки ТЗ и предварительного проектирования (НИР), выделенные на рисунке 1. Поиск, отбор и анализ научно-технической информации на этапе разработки ТЗ являются базой для формирования технических требований к системе, а на этапе предварительного проектирования (этапе НИР) обеспечивают поиск принципиальной возможности построения системы. Качество решений, принимаемых на этапах разработки ТЗ и предварительного проектирования, оказывает основное влияние на продолжительность процесса создания новой технической системы.

На этапе разработки ТЗ, на основе предоставленных заказчиком исходных данных и проведенного проектировщиком исследования, составляется ТЗ, которое содержит основные технические требования к разрабатываемой системе и служит основанием для ее проектирования [4]. В дальнейшем отобранное техническое решение, если оно вышло за рамки ограничений ТЗ, проходит множественные этапы согласования с заказчиком, при этом проектировщик должен давать обоснование отобранных, отличающихся от первоначальных, требований. От качества разработанного ТЗ зависят результаты дальнейшего проектирования системы. На этом этапе поиск, отбор и анализ научно-технической информации выступают как база для формирования основных технических требований, предъявляемых к системе, ограничений или особых условий эксплуатации проектируемой системы.

Поиск и анализ необходимой научно-технической информации выполняется также на этапе проводимого в рамках НИР предварительного проектирования [4]. Результатом данного этапа является техническое предложение, содержащее выводы о новых принципах построения системы, научно-обоснованный подход, результаты анализа проведенных экспериментальных проверок, а также варианты построения системы. На этом этапе поиск и анализ научно-технической информации является базой для решения следующих задач:

• поиск и сравнительный анализ вариантов реализации системы с целью выявления их достоинств и недостатков;

• разработка новых технических средств;

• отбор наилучшего из нескольких вариантов построения системы на основе выбранного критерия эффективности или сравнительного анализа основных характеристик.

Как показывает практика, процесс сбора и освоения необходимой научно-технической информации по проекту требует от проектировщика огромных трудозатрат. Особенно это характерно для высокодинамичных областей проектирования, где требуется исследовать и учитывать самые актуальные из существующих на сегодняшний день разработок-аналогов. Например, по оценкам проектировщиков систем ближней и дальней радионавигации, сбор и анализ научно-технической информации занимает у них от 20 до 30% от общего времени разработки, а в некоторых случаях и больше.

Большую роль в повышении эффективности поиска научно-технической информации играют современные информационно-поисковые системы (ИПС). Стандарт [20] определяет ИПС как совокупность справочно-информационного фонда и технических средств информационного поиска в нем. Стандарт также устанавливает показатели качества поиска:

• релевантность - устанавливаемое при информационном поиске соответствие содержания документа информационному запросу;

• точность поиска - отношение количества выданных релевантных документов к общему числу выданных документов;

• полнота поиска - отношение количества выданных релевантных документов к общему числу релевантных документов, имеющихся в информационном массиве.

В основу работы ИПС положена следующая базовая концепция [17, 41, 108]: искомые документы имеют некоторый общий признак или набор признаков, который пользователь может выразить в формальном виде, понятном поисковой системе. В качестве такого признака обычно выступают ключевые слова, непосредственно входящие в состав поискового запроса или опосредованно получаемые из него (например, через набор синонимов), а также различная метаинформа-

ция, которой снабжаются документы при их загрузке в информационный фонд. Соответственно, по степени формализации предмета поиска задачи ИПС классифицируются на три типа [17]:

1. поиск при полных знаниях пользователя о существе искомого объекта - например, поиск фактографических данных;

2. поиск документов, раскрывающих определенное понятие - например, подбор информации по некоторой теме, полностью определяемой набором ключевых слов;

3. проблемный поиск при отсутствии четких знаний о предметной области и формального определения задачи. В этом случае пользователь, начиная поиск, не представляет, какая именно информация требуется для решения его профессиональной задачи, но именно этот тип поиска является основной составляющей творческого процесса.

Современные САПР, как правило, имеют развитую систему ИПС. Например, на этапе разработки технического задания с ее помощью осуществляется поиск и выбор необходимой научно-технической информации (о прототипах, патентных данных и т.д.) из имеющейся базы данных. На этом этапе могут быть автоматизированы отдельные операции анализа выбранной информации - например, группировка и сопоставление по заданным признакам. Однако, с точки зрения вышеприведенной классификации, решаемые здесь задачи не выходят за рамки поиска первого и второго типов.

Как показывает опыт проектировщиков современной техники, для решения задач третьего типа, т.е. на этапе НИР, информации, хранящейся в локальных базах САПР, уже недостаточно, и необходимо проводить информационный поиск более широко, на базе ресурсов Интернет и поисковых машин, реализующих полнотекстовый поиск. В этом случае, в ситуации проблемного поиска, поисковые признаки заранее неизвестны и определяются итеративным путем, в процессе переформулирования поискового запроса, однако вероятность пропуска необходимой информации все равно остается. Для сохранения полноты поиска пользователь вынужден увеличивать число анализируемых документов, т.е. осваивать за-

Похожие диссертационные работы по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Список литературы диссертационного исследования кандидат технических наук Добренко, Наталья Викторовна, 2018 год

СПИСОК ЛИТЕРАТУРЫ Источники на русском языке

1. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие/ Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышин-ский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с. ISBN 978-5-9909752-1-7

2. Агаркова Н.В.(Добренко), Артемова Г.О., Гусарова Н.Ф. Система поддержки принятия проектных решений для документирования научно-технической информации // Научно-технический вестник информационных технологий, механики и оптики - 2012. - № 1(77). - С. 128-134

3. Айсина Р.М. Обзор средств визуализации тематических моделей коллекций текстовых документов // Машинное обучение и анализ данных (http://jmlda.org). -2015. -Т. 1, № 11. - С.1584-1618

4. Алиев Т.И. Основы проектирования систем. - СПб: Университет ИТМО, 2015. - 120 с.

5. Бессмертный И.А., Юй Чуцяо, Ма Пенюй. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16. № 6. С. 1096-1102.doi: 10.17586/2226-1494-2016-16-6-1096-1102

6. Большакова Е.И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика. М.: МИЭМ. 2011.

7. Боярский К.К., Гусарова Н.Ф., Добренко Н.В., Каневский Е.А., Авдеева Н.А. Исследование специфики применения алгоритмов тематической сегментации для научных текстов // Аналитика и управление данными в областях с интенсивным использованием данных/ Труды конференции. 2015. - С. 181-189

8. Бурая К.И., Виноградов П.Д., Грозин В.А., Гусарова Н.Ф., Добренко Н.В., Трофимов В.А. Автоматическая суммаризация веб-форумов как источников профессионально значимой информации // Научно-технический вестник информационных технологий, механики и оптики - 2016. - Т. 16. - № 3(103). - С. 482-496

9. Бурая К.И., Грозин В.А., Гусарова Н.Ф., Добренко Н.В. Методы машинного обучения для выделения профессионально значимой информации из веб-форумов // Дистанционное и виртуальное образование, 2015, №12, с. 46-63.

10. ван Дейк Т.А., Кинч В. Статегии понимания связного текста // Новое в зарубежной лингвистике. Вып. 23. Когнитивные аспекты языка. М., 1988.

11. Воронцов К.В. Машинное обучение (курс лекций). Электронный ресурс. -Режим доступа: http://www.machmeleammg.ru/wiki/mdex.php?titie= Машинное обучение (курс лекций, К.В.Воронцов), своб. Дата обращения 23.07.2015

12. Выбор алгоритмов машинного обучения Microsoft Azure / Электронный ресурс. - Режим доступа:Шр8://а2иге.тюго80й.сот/ги-ru/documentation/articles/machine-learning-algorithm-choice/

13. Гаврилова Т.А., Кудрявцев Д.В., Муромцев Д.И. Инженерия знаний. Модели и методы. СПб: Лань, 2016. 324 стр. ISBN 978-5-8114-2128-2

14. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. СПб: Питер, 2000. - 384 с.

15. Гатчин Ю.А., Жаринов И.О., Жаринов О.О. Архитектура программного обеспечения автоматизированного рабочего места разработчика бортового авиационного оборудования // Научно-технический вестник информационных технологий, механики и оптики, 2012, No 2 (78), с. 140

16. Годин А.М. Стаистические и другие величины и их применение в различных отраслях деятельности.: учеб.пособие для вузов (спец. «Статистика» и др. экон. спец.) / Годин А.М., Русин В.Н., Соколин В.П.: под общей ред. А.М. Година. - Библиогр.: с.249-250. - М.Дашков и Ко, 2009. - 252 с.

17. Голицына О.Л., Максимов Н.В., Партыка Т.Л., Попов И.И. Информационные технологии. Учебник. М.: Инфра-М, 2015. 608 стр. ISBN 978-5-91134178-7

18. Головицына М.В. Интеллектуальные САПР для разработки современных конструкций и технологических процессов. М.: ИНТУИТ, 2016. ISBN 978-594774-847-5

19. Горячев А. В., Новакова Н. Е. Моделирование коммуникативных процессов в САПР. Учеб. пособие, СПб. Изд-во СПбГЭТУ «ЛЭТИ», 2010

20. ГОСТ 7.73-96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения.

21. Гришенцев А.Ю., Коробейников А.Г., Гурьянов А.В., Шукалов А.В. Автоматизация проектирования распределенных геоинформационных систем. 2017

22. Гусарова Н.Ф., Коваленко М.Н., Маятин А.В., Петров В.А., Шилов И.В. Использование иерархически организованного текстового форума как средства online поддержки научно-технического проектирования // Научно-технический вестник информационных технологий, механики и оптики. 2005. № 20. С. 243-247.

23. Джонсон Н. Лион Ф. Статистика и планирование эксперимента в технике и науке: Методы планирования эксперимента. - М.: Мир, 1981. - 520 с.

24. Добренко Н.В. Композиция алгоритмов тематической сегментации текстов как средство интеллектуализации проектирования технических систем // Научно-технический вестник информационных технологий, механики и оптики - 2018. - Т. 18. - № 4(116). - С. 690-694

25. Дыбина А. Разработка текстовой базы на основе анализа структуры научного текста // International Journal "Information Technologies & Knowledge" Vol.6, Number 1, 2012 93-99

26. Егер С.М., Матвеенко А.М., Шаталов И.А. Основы авиационной техники. Учебник. — М.: Изд-во МАИ, 1999. — 576 с.

27. Журавлёв Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики . 1978. Т. 33. С. 5-68

28. Избачков Ю.С., Петров В.Н., Васильев А.А., Телина И.С. Информационные системы: Учебник для вузов. 3-е изд. - СПб.: Питер, 2011. - 544 с.: ил.

29. Ингерсолл Г.С., Мортон Т.С., Фэррис Э.Л. Обработка неструктурированных текстов. Поиск, организация и манипулирование / Пер. с англ. — М.: ДМК Пресс, 2015.

30. Информационные технологии при проектировании и управлении техническими системами: учебное пособие: в 4-х ч. / В.А. Немтинов, С.В. Карпуш-кин, В.Г. Мокрозуб [и др.]. - Тамбов: Изд-во ГОУ ВПО ТГТУ, 2011. - Ч. 2. -160 с.

31. Каневский Е.А., Боярский К.К.. Семантико-синтаксический анализатор SemSin // Международная конференция по компьютерной лингвистике «Диа-лог-2012», Бекасово, 30 мая - 3 июня 2012 г.

32. Концепция и методика разработки контрольно-оценочных средств // ФГАУ «Федеральный институт развития образования». Электронный ресурс. - Режим доступа: http://www.firo.ru/?page_id=7513

33. Коробейников А.Г., Федосовский М.Е., Гришенцев А.Ю., Поляков В.И. Метод концептуального представления предметных задач в инженерии знаний для систем автоматизированного проектирования // Труды Конгресса по интеллектуальным системам и информационным технологиям "IS&IT"17. Научное издание в 3-х томах. 2017. Т. 1. С. 114-122.

34. Котюрова М П. Стилистика научной речи. М.: Академия. 2010.

35. Красовский Г.И., Филаретов Г.Ф. Планирование эксперимента. - Мн.: Изд-во БГУ, 1982. - 302 с.

36. Крейнес М.Г. Модели текстов и текстовых коллекций для поиска и анализа информации // ТРУДЫ МФТИ. 2017. Том 9, No 3. С. 132-142.

37. Курейчик В.М., Курейчик В.В., Нужнов Е.В. VI Международная научно-техническая конференция "Интеллектуальные системы" (AIS'06). XXI Международная научно-техническая конференция "Интеллектуальные САПР" (CAD - 2006)" // Пробл. управл., 2007, № 1, 79-82

38. Леонтьева Н.Н. Автоматическое понимание текстов: Системы, модели, ресурсы: Учебное пособие — М.: Академия, 2006.

39. Лисицына Л.С. Методология проектирования модульных компетентностно-ориентированных образовательных программ. - СПб: СПбГУ ИТМО, 2009. -50 с.

40

41

42

43

44

45

46

47

48

49

50

51

52

53

Лукашевич Н.В. Тезаурусы в задачах информационного поиска. — М.: Изд-во Московского университета, 2011

Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2011. 528 с.

Норенков И. П. Основы автоматизированного проектирования. - М.: Изд-во МГТУ им. Н. Э. Баумана, 2002 г.-336 с.

Нугуманова А.Б., Бессмертный И.А., Пецина П., Байбурин Е. Обогащение модели bag of words семантическими связями для повышения качества классификации текстов предметной области. Программные продукты и системы. 2016. № 2. С. 89-99. [Тип: Статья, Год: 2016]

Паринов А.В. Интеллектуальные подсистемы САПР / Учебное пособие. 2007. 118 с.

Психология. Под ред. Дружинина В.Н. - 2-е изд. - СПб.: 2009. - 656 с. Романова И.В. Интеллектуальные подсистемы САПР. Омск: ОмГТУ, 2008. -62 стр.

Словарь языка интернета.ги / под редакцией М. А. Кронгауза. — М. : АСТ-Пресс, 2016. — С. 223. — ISBN 978-5-462-01853-4.

Смольянина Е.А. Типы связности в научном тексте ((на материале научной статьи на английском языке M. Black "Metaphor") // Вестник Пермского университета. Российская и зарубежная филология. - 2013. Вып. 4(24). - С. 140150.

Стилистический энциклопедический словарь русского языка / под ред. М.Н. Кожиной. — М. : Флинта : Наука, 2003

Топ-10 data mining-алгоритмов простым языком / Электронный ресурс. - Режим доступа: https://habrahabr.ru/company/itinvest/blog/262155/ Трофимова Г.К. Русский язык и культура речи. М.: Флинта, 2005. - 160 стр. Тузов В.А. Компьютерная семантика русского языка. СПб., 2004 Усачева О.Ю. Анализ дискурса диалогической коммуникации в Интернете [Текст]: монография. - М.: Изд-во МГОУ, 2011. - 370 с

54. Учителев Н.В. Классификация текстовой информации с помощью SVM // Информационные технологии и системы. 2013. № 1. С. 335-340.

55. Яблочников Е.И., Фомина Ю.Н., Саломатина А.А. Компьютерные технологии в жизненном цикле изделия: Учебное пособие. - СПб: СПбГУ ИТМО, 2010. - 188 с.

56. Янина А.О., Воронцов К.В. Мультимодальные тематические модели для разведочного поиска в коллективном блоке // Интеллектуализация обработки информации Тезисы докладов 11-й Международной конференции. с. 186-187. 2016.

57. Ярушкина Н.Г. Интеллектуализация автоматизированного проектирования сложных технических систем в условиях неопределенности // Автоматизация процессов управления, № 1 (23) 2011, с. 13-19

58. Ярушкина Н.Г. Основы теории нечетких и гибридных систем. М.: Финансы и статистика, 2004. 320 страниц; ISBN: 5-279-02776-6

Источники на английском языке

59. Abbasi A, Chen H., Salem A. Sentiment Analysis in Multiple Languages: Feature Selection for Opinion Classification in Web Forums. The University of Arizona, 2007. Электронный ресурс. - Режим доступа: http://ai.arizona.edu/intranet/papers/AhmedAbbasi SentimentTOIS.pdf

60. Alguliev Rasim M., Aliguliyev Ramiz M., Hajirahimova Makrufa S., Mehdiyev Chingiz A.. MCMR: Maximum coverage and minimum redundant text summarization model. Expert Systems with Applications 38 (2011) 14514-14522

61. Almahy Ibrahim, Salim Naomie. Web Discussion Summarization: Study Review. In: Proceedings of the First International Conference on Advanced Data and Information Engineering (DaEng-2013). Ed. Tutut Herawan, Mustafa Mat Deris, Jemal Abawajy . Springer Verlag, 2013. Pp.649-658.

62. Artemova G., Boyarsky K., Gouzevitch D., Gusarova N., Dobrenko N., Kanevsky E., Petrova D. Text Categorization for Generation of a Historical Shipbuilding On-

tology // Communications in Computer and Information Science - 2014, Vol. 468, pp. 1-14

63. Artemova G., Gusarova N.F., Dobrenko N.V., Trofimov V., Vatian A. Analysis of the classification methods of cancer types by computer tomography images // Communications in Computer and Information Science - 2016, Vol. 674, pp. 526531

64. Atkins S. Corpus Design Criteria - British National Corpus. 1991. Электронный ресурс. - Режим доступа: www.natcorp.ox.ac.uk/archive/vault/tgaw02.pdf, last access 2018/06/06.

65. Avdeeva N., Artemova G., Boyarsky K., Gusarova N., Dobrenko N., Kanevsky E. Subtopic Segmentation of Scientific Texts: Parameter Optimisation // Communications in Computer and Information Science - 2015, Vol. 518, pp. 3-15

66. Banea C., Mihalcea R., Wiebe Janyce. Sense-level subjectivity in a multilingual setting. Computer Speech and Language 28 (2014) 7-19.

67. Bayomi M., Levacher K., Ghorab M.R., Lawless S. OntoSeg: a Novel Approach to Text Segmentation using Ontological Similarity // 2015 IEEE 15th International Conference on Data Mining Workshops, рр. 1274-1281

68. Beliga S., Mesrovic A., Martinic-Ipsic S. An Overview of Graph-Based Keyword Extraction Methods and Approaches // JIOS Vol.39 N0 1 (2015) Pp. 1-20

69. Biber D., Conrad S. (2009), Register, Genre, and Style. Cambridge: CUP

70. Biber, D. Representativeness in corpus design. Literary and Linguistic Computing, 1993, 8/4, pp. 243-57.

71. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006. 738 p.

72. Biyani P., Bhati S., Caragea C., Mitra P. Using non-lexical features for identifying factual and opinionative threads in online forums. Knowledge-Based Systems, Volume 69, October 2014, Pages 170-178 (2014)

73. Biyani P., Bhatia, S., Caragea, C., Mitra P. Thread specific features are helpful for identifying subjectivity orientation of online forum threads. In: COLING 2012, 24th International Conference on Computational Linguistics, Mumbai, India, pp. 295-310 (2012)

74. Boyd-Graber J., Chang J., Gerrish S., Wang C., and Blei D. Reading Tea Leaves: How Humans Interpret Topic Models. Neural Information Processing Systems, 2009

75. Burrough-Boenisch J. Culture and conventions: wrighting and reading Dutch scientific English. Utrecht: LOT (2002)

76. Carbonaro A. WordNet-based Summarization to Enhance Learning Interaction Tutoring. Peer Reviewed Papers - Vol. 6, n. 2, May 2010

77. Cardoso P.C.F., Taboada M., Pardo T.A.S. Subtopic Annotation in a Corpus of News Texts: Steps Towards Automatic Subtopic Segmentation // Proceedings of the Brazilian Symposium in Information and Human Language Technology, 2013

78. Chen J.-S., Hsieh C.-L., & Hsu F.-C. (2000). A study on Chinese word segmentation: Genetic algorithm approach. Information Management Research, 2(2), 27-44.

79. Choi F. Y. Y. Advances in Domain Independent Linear Text Segmentation // Proceedings of the 1st North American Chapter of the Association for Computational Linguistics Conference, 2000, pp. 26-33.

80. Choi F. Y. Y., Wiemer-Hastings P., Moore J. Latent Semantic Analysis for Text Segmentation // Proceedings of Conference on Empirical Methods in Natural Language, 2001, pp. 109-117.

81. Dascalu M., Trausan-Matu S., Dessus Ph. Cohesion-based Analysis of CSCL Conversations: Holistic and Individual Perspectives // CSCL 2013 Proceedings. Vol.1, pp.145-152

82. Dias G., Alves E., Lopes J. Topic segmentation algorithms for text summarization and passage retrieval: an exhaustive evaluation. In: AAAI 2007 Proceedings of the Twenty-Second AAAI Conference on Artificial Intelligence, July 22-26, 2007, Vancouver, British Columbia, Canada

83. Ding S.L., Cong G., Lin C.Y., Zhu X.Y. Using conditional random fields to extract contexts and answers of questions from online forums. In: Proceedings of the 46th Annual Meeting of the Association of Computational Linguistics. Columbus, Ohio: ACL, 2008. 710-718

84. Eisenstein J., Barzilay R. Bayesian Unsupervised Topic Segmentation // Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2008, pp. 334-343.

85. Elbedweihy K.M., Wrigley S.N., Clough P., Ciravegna F. An overview of semantic search evaluation initiatives // Web Semantics: Science, Services and Agents on the World Wide Web 30 (2015) 82-105

86. Ercan G., Cicekli I. Lexical cohesion based topic modeling for summarization // Proceedings of the 9th International Conference in Computational Linguistics and Intelligent Text Processing, CICLing 2008, Haifa, Israel, February 17-23, pages 582-592, 2008

87. Fleiss J. L. Measuring nominal scale agreement among many raters. Psychological Bulletin, Vol. 76, 1971, No. 5 pp. 378-382

88. Fougères Alain-Jérôme, Ostrosi Egon Intelligent agents for feature modelling in computer aided design // Journal of Computational Design and Engineering. Volume 5, Issue 1, January 2018, Pages 19-40

89. Freeman L. C. Centrality in social networks: Conceptual clarification. In: Social Networks, vol. 1, pp. 215-239 (1978)

90. Garbacea C., Tsagkias M., and de Rijke M. Feature Selection and Data Sampling Methods for Learning Reputation Dimensions The University of Amsterdam at RepLab 2014 http://ceur-ws.org/Vol-1180/CLEF2014wn-Rep-GarbaceaEt2014.pdf.

91. Google Книги. Расширенный поиск книг. - Электронный ресурс. Режим доступа: https://books.google.ru/advanced book search?hl=ru, своб. Дата обращения 15.09.2018

92. Grozin V.A., Dobrenko N.V., Gusarova N. F., Ning Tao. The application of machine learning methods for analysis of text forums for creating learning objects // Computational Linguistics and Intellectual Technologies. 2015. Issue 14(21), vol. 1. Pp. 202-213.

93. Grozin V.A., Gusarova N.F., Dobrenko N.V. Feature selection for language independent text forum summarization // Communications in Computer and Information Science - 2015, Vol. 518, pp. 63-71

94. Halliday M.A.K., and Hasan R. Cohesion in English. London: Longman (1976).

95. Harman D., Information Retrieval Evaluation // Synthesis Lectures on Information Concepts, Retrieval, and Services, Morgan & Claypool Publishers, 2011.

96. Hearst M. A. Multi-paragraph Segmentation of Expository Text // Proceedings of the 32Nd Annual Meeting on Association for Computational Linguistics, 1994, pp. 9-16.

97. Herbrich R., Graepel T., Obermayer K. Large-Margin Thresholded Ensembles for Ordinal Regression: Theory and Practice // Advances in Large Margin Classifiers, MIT Press, January 2000, p. 115-132

98. Hogenboom A., Heerschop B., Frasincar F., Kaymak U., de Jong F. Multi-lingual support for lexicon-based sentiment analysis guided by semantics. Decision Support Systems 62 (2014) 43-53.

99. Huang C.-C. Automated knowledge transfer for Internet forum. Master thesis, Graduate School of Information Management, I-Shou University, Taiwan, ROC.

100. Järvelin K., Kekäläinen J. Cumulated gain-based evaluation of IR techniques // ACM Transactions on Information Systems (TOIS) Volume 20 Issue 4, October 2002 Pages 422-446

101. Jurafsky D., Martin J. Speech and Language Processing. An Introduction to Natural Language Processing, Comp. Linguistics and Speech Recognition. 2nd Edition.Prentice Hall, 2000. ISBN 978-0131873216

102. Kelly D. Methods for evaluating interactive information retrieval systems with users // Found. Trends Inf. Retr. 3 (2009) 1224.

103. Li Yung-Ming, Liao Tzu-Fong, Lai Cheng-Yang. A social recommender mechanism for improving knowledge sharing in online forums. Information Processing and Management 48 (2012) 978-994

104. Lidong Bing, Piji Li, Yi Liao, Wai Lam, Weiwei Guo, Rebecca J. Passonneau. Abstractive Multi-Document Summarization via Phrase Selection and Merging // arXiv:1506.01597v2 [cs.CL] 5 Jun 2015

105. Lin Liu, Lin Tang, Wen Dong, Shaowen Yao, Wei Zhou An overview of topic modeling and its current applications in bioinformatics. SpringerPlus December 2016, doi: 10.1186/s40064-016-3252-8

106. Lloret E. Topic Detection and Segmentation // Automatic Text Summarization. December 13, 2009

107. MALLET (Machine Learning for Language Toolkit). Электронный ресурс. -Режим доступа: http://mallet.cs.umass.edu/

108. Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge: Cambridge University Press, 2008. ISBN-13: 978-0521865715

109. Marhionini G. Exploratory searh: From finding to understanding // Commun. ACM. 2006.Vol. 49, no. 4. Pp. 41-46.

110. Misra H., Yvon F., Jose J.M., Cappe O. Text Segmentation via Topic Modeling: An Analytical Study // IKM'09, November 2-6, 2009, Hong Kong, China

111. Mitkov R. Discourse Processing. In: The Handbook of Computational Linguistics and Natural Language Processing. A. Clark, C. Fox, and S. Lappin (Eds), Wiley-Blackwell, 2010.

112. Mitra R., Angheluta R., Jeuniaux P., Moens M.-F. Progressive Fuzzy Clustering For Noun Phrase Coreference Resolution // DIR 4'th DutchBelgian Information Retrieval Workshop, 2003

113. Moens M.-F., Angheluta R., De Busser R., and Jeuniaux P. Summarizing Texts at Various Levels of Detail. In: Computer-Assisted Information Retrieval (Recherche d'Information et ses Applications) - RIAO 2004, 7th International Conference, University of Avignon, France, April 26-28, 2004.

114. Mohri M., Moreno P., Weinstein E. Discriminative Topic Segmentation of Text and Speech // Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS) 2010, Chia Laguna Resort, Sardinia, Italy. Volume 9 of JMLR:W&CP 9

115. Myers G. Lexical cohesion and specialized knowledge in science and popular science texts. Discourse Processes, Vol. 14, Issue 1 (1991)

116. Nenkova A., McKeown K. A Survey of Text Summarization Techniques // Mining Text Data, Springer, 2012, pp 43-76

117. Nettleton David F. Data mining of social networks represented as graphs // Computer Science Review. Volume 7, February 2013, Pages 1-34

118. Newman M.E.J., 2001. Scientific collaboration networks. II. Shortest paths, weighted networks, and centrality. Physical Review E 64, 016132.

119. Nugumanova A., Bessmertny I.A., Baiburin Y., Mansurova M. A new operation-alization of contrastive term extraction approach based on recognition of both representative and specific terms. Communications in Computer and Information Science. 2016. Vol. 649. pp. 103-118. [Тип: Статья, Год: 2016]

120. Pak I. and Teh P.L. Text Segmentation Techniques: A Critical Review. In: Ivan Zelinka, Pandian Vasant, Vo Hoang Duy, Tran Trong Dao. Innovative Computing, Optimization and Its Applications: Modelling and Simulation. Springer, 2017.

121. Pérez R.A., Medina Pagola J.E. An Incremental Text Segmentation by Clustering Cohesion // In book: Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, pp.261-268, 2010

122. Prince V., Labadi'e A. Text Segmentation based on Document Understanding for Information Retrieval. NLDB'07, Jun 2007, pp.295-304, 2007. <lirmm-00161996>

123. Randaccio M. Language change in scientific discourse. Journal of Science Communication, Vol. 3, No 2 (2004)

124. Ren Zhaochun, Jun Ma, Shuaiqiang Wang and Yang Liu. Summarizing Web Forum Threads based on a Latent Topic Propagation Process. CIKM' 11, October 2428, 2011, Glasgow, Scotland, UK.

125. Riedl M., and Biemann C. Text Segmentation with Topic Models. In: JLCL 2012, Band 27(1), p. 47-69

126. Ries, K. Segmentation Conversation by Topic, Initiative, and Style. In: Anni R. Coden, Eric W. Brown, Savitha Srinivasan, Information Retrieval Techniques for Speech Applications. Springer, 2002.

127. Romero C., López M.-I., Luna J.-M., Ventura S. Predicting students' final performance from participation in on-line discussion forums. In: Computers & Education, vol. 68, pp. 458-472 (2013)

128. Said D., Wanas N. Clustering posts in online discussion forum threads. // International Journal of Computer Science & Information Technology (IJCSIT). 2011.Vol 3, No 2

129. Saracevic T. Evaluation of evaluation in information retrieval // Proceedings of SIGIR, 1995, pp. 138-146.

130. Shalev-Shwartz Shai and Ben-David Shai. Understanding Machine Learning: From Theory to Algorithms. Cambridge University Press, 2014. 446 p. ISBN: 9781107057135

131. Smine B., Faiz R., Desclés J-P.: Relevant learning objects extraction based on semantic annotation // Int. J. Metadata, Semantics and Ontologies, vol. 8(1), pp. 1327 (2013)

132. Sondhi P., Gupta M., Cheng Xiang Zhai, Hockenmaier J. Shallow Information Extraction from Medical Forum Data // COLING '10 Proceedings of the 23rd International Conference on Computational Lin-guistics: Posters. Pp. 1158-1166

133. Song F., Darling W., Duric A., Kroon F. An Iterative Approach to Text Segmentation // Advances in Information Retrieval SE - 63, vol. 6611. Springer Berlin Heidelberg, 2011, pp. 629-640.

134. Spârck Jones K. Automatic summarising: the state of the art. Information Processing and Management, Special Issue on Automatic Summarising, 2007.

135. Stark H.A. What do paragraph markings do? // Discourse Processes, 1988,11, p. 275-303.

136. Steinberger R. Challenges and methods for multilingual text mining. Электронный ресурс. - Режим доступа: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.167.4724

137. Tao Yu-Hui, Liu Shu-Chu, Lin Chih-Lung. Summary of FAQs from a topical forum based on the native composition structure. Expert Systems with Applications 38 (2011) 527-535

138. Tatar D., Inkpen D., Czibula G.a Text segmentation using Roget-based weighted lexical chains // Computing and Informatics, Vol. 32, 2013, 393-410

139. ten Hagen Paul J. W., Tomiyama Tetsuo Intelligent CAD Systems I: Theoretical and Methodological Aspects. Springer Publishing Company, 2012. ISBN:3642729479 9783642729478

140. Text visualization techniques: Taxonomy, visual survey, and community insights // 2015 IEEE Pacific Visualization Symposium (PacificVis)/ Электронный ресурс. - Режим доступа: https://ieeexplore.ieee.org/document/7156366/

141. Tomiyama Tetsuo. Intelligent computer-aided design systems: Past 20 years and future 20 years // Artificial Intelligence for Engineering Design, Analysis and Manufacturing (2007), 21, 27-29.

142. Vatian A., Dobrenko N., Makarenko A., Nigmatullin N., Vedernikov N., Vasilev A., Stankevich A., Gusarova N., Shalyto A. Adaptation of Algorithms for Medical Information Retrieval for Working on Russian-Language Text Content // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) - 2018, Vol. 11107, pp. 106-114

143. Vorontsov K.V., Potapenko A.A. Additive regularization of topic models. Machine Learning, Special Issue on Data Analysis and Intelligent Optimization (2014). doi: 10.1007/s 10994-014-5476-6

144. Wang Bao-Xun, Liu Bing-Quan, Sun Cheng-Jie, Wang Xiao-Long, Sun Lin. Thread Segmentation Based Answer Detection in Chinese Online Forums // Acta Automatica Sinica, Vol.39, №. 1, 2013.

145. Wang Lu, Cardie Claire. Summarizing Decisions in Spoken Meetings. Proceedings of the Workshop on Automatic Summarization for Different Genres, Media, and Languages, pages 16-24, Portland, Oregon, June 23, 2011. Association for Computational Linguistics

146. Weka 3: Data Mining Software in Java. / Электронный ресурс. - Режим доступа: http: //www.cs.waikato .ac. nz/ml/weka/

147. White R.W., Roth R. A. Exploratory Searh: Beyond the Query-Response Paradigm. Synthesis Lectures on Information Conepts, Retrieval, and Servies. Morgan and Claypool Publishers, 2009.

148. Yaari Y. Segmentation of Expository Texts by Hierarchical Agglomerative Clustering // Proceedings of RANLP'97

149. Yang, S. J. H., & Chen, I. Y. L. (2008). A social network-based system for supporting interactive collaboration in knowledge sharing over peer-to-peer network. International Journal of Human-Computer Studies, 66(1), 36-40.

150. Zhang Shuyou, Xu Jinghua, Gou Huawei, Tan Jianrong. A Research Review on the Key Technologies of Intelligent Design for Customized Products // Engineering 3(2017)631-640

151. Zhao Hua, Zeng Qingtian. Micro-blog Keyword Extraction Method Based on Graph Model and Semantic Space // Journal of Multimedia, Vol. 8, No. 5, October 2013

152. Zhou Liang and Hovy Eduard. 2005. Digesting virtual "geek" culture: The summarization of technical internet relay chats. In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL '05, pages 298-305, Stroudsburg, PA, USA. Association for Computational Linguistics.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.