Модель и методы обработки текстовой информации в задачах системы управления документами

Корытов Павел Валерьевич

Модель и методы обработки текстовой информации в задачах системы управления документами тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Корытов Павел Валерьевич

Корытов Павел Валерьевич
кандидат наук
2025

Специальность ВАК РФ00.00.00

Количество страниц 118

Корытов Павел Валерьевич. Модель и методы обработки текстовой информации в задачах системы управления документами: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В.И. Ульянова (Ленина)». 2025. 118 с.

Оглавление диссертации кандидат наук Корытов Павел Валерьевич

1.9 Выводы по первой главе

2 Формализация процесса обработки текстовой информации и разработка метода извлечения ключевых слов

2.1 Формальная модель процесса обработки текстовой информации

2.1.1 Оценка объема работы при автоматизации

2.1.2 Учёт корректировки результатов пользователем при автоматизации

2.1.3 Объяснимость при автоматизации

2.1.4 Формальное описание разрабатываемого комплекса методов

2.2 Разработка метода извлечения ключевых слов

2.2.1 Предлагаемый метод

2.2.2 Учёт корректировки результатов по ключевым словам

2.2.3 Учёт корректировки результатов по строке из ключевых слов

2.2.4 Учёт корректировки результатов по предложениям с ключевыми словами

2.2.5 Учёт корректировки результатов по строке из предложений

с ключевыми словами

2.2.6 Выбор метода канонизации

2.2.7 Оценка качества на бенчмарках из РП

2.3 Обучение модели извлечения именованных сущностей

2.3.1 Используемые данные

2.3.2 Обработка данных

2.3.3 Способ оценки модели

2.3.4 Сравнение методов

2.4 Выводы по второй главе

3 Разработка метода формирования представления групп текстовых документов

3.1 Описание методов группировки текстов и формирования представлений групп

3.2 Оптимизация метода векторизации корпуса документов

3.3 Выбор метода классификации для учёта корректировки результатов пользователем

3.4 Извлечение ключевых слов из групп

3.5 Формирование названия и репрезентативных документов

3.6 Определение дубликатов документов

3.7 Выводы по третьей главе

4 Разработка метода сравнения текстов

4.1 Постановка задачи сравнения текстов

4.2 Разработка предлагаемого метода и экспериментальная оценка

4.2.1 Извлечение ключевых слов

4.2.2 Получение векторных представлений ключевых слов

4.2.3 Нормализация корпусов

4.2.4 Объяснимый поиск семантически схожих документов

4.2.5 Постобработка с помощью би-кодировщика

4.2.6 Постобработка путём учёта корректировки результатов пользователем

4.2.7 Обсуждение результатов

4.3 Выводы по четвертой главе

Заключение

Список использованных источников

Приложение А. Пример работы

Введение диссертации (часть автореферата) на тему «Модель и методы обработки текстовой информации в задачах системы управления документами»

ВВЕДЕНИЕ

Актуальность темы исследования. Согласно ГОСТ Р ИСО 30300-2015, все организации в ходе своей деятельности производят информацию об осуществлении рабочих процессов. Одним из видов производимой информации являются текстовые документы, которые входят в активы организации как информационные ресурсы. Средством управления документами в цифровой среде являются системы управления документами (СУД) [1].

Показано, что корректная автоматизация управления документами увеличивает экономическую эффективность организации. Прямые эффекты включают снижение временных затрат на управление, улучшение взаимодействия с контрагентами (например, повышение точности и скорости платежей подрядчикам), повышение прозрачности информации за счёт её централизованного хранения и т.п. Это выражается в долгосрочных стратегических преимуществах для организации [2].

Одной из проблем управления документами является информационная перегрузка [3]. С точки зрения теории систем массового обслуживания, ситуация информационной перегрузки возникает, когда интенсивность потока заявок (документов) превышает способность системы к их обработке. В этом случае в управление организацией вносится элемент неопределённости, поскольку руководитель не получает полный объем информации для принятия верного решения [4].

Одной из причин информационной перегрузки является большой объем и разнообразие документов, поступающих из разных источников. Так, в исследовании [5] утверждается, что одной из причин банкротства компании Enron была невозможность руководства обработать полный объем информации в отведённое время. Схожая ситуация наблюдается при автоматизации процессов в вузах - разнообразные виды деятельности в университетах (образование, наука, инновации и т.д.) формирует множество разнородных информационных потоков от разных источников, что в свою очередь приводит к перегруженности процессов [6].

При этом, согласно ГОСТ Р ИСО 15489-1-2019, неотъемлемым свойством

документа являются его метаданные. Метаданные могут использоваться как для определения свойств отдельно взятого документа (например, ключевые слова документа или его принадлежность к более общей группе), так и для установления связи документа с другими. Наличие метаданных является компонентом комплексности и системности СУД [7].

В данной работе рассматривается задача определения семантической схожести документов из нескольких информационных потоков, в которой возможна возникновение информационной перегрузки при больших объемах потоков. Установления семантического сходства является частным случаем задачи сравнения документов, в которой результатом сравнения является количественное значение данного сходства [8]. В случае СУД результат установления семантического сходства используется как метаданные, описывающие связь между документами. Примерами таких задач могут быть:

• Подбор команды проекта, где необходимо сравнение описания проекта (например, технического задания) с портфолио и публикациями сотрудников. Сходством является оценка компетентности сотрудника для участия в данном проекте.

• Автоматизированное распределение входного потока документов по подразделениям организации. Входящие документы сравниваются с положениями о подразделениях и должностными инструкциями работников. Семантическим сходством является оценка того, что документ соответствует задачам подразделения.

• Оценка актуальности рабочих программ дисциплин относительно вакансий на рынке труда. Сходством является оценка возможности студента получить работу по данной вакансии после изучения дисциплин образовательной программы.

Во всех вышеприведенных случаях, сравнение необходимо произвести для каждой пары документов. Поэтому, линейное увеличение объема потоков документов приводит к квадратичному росту количества требуемых сравнений. Например, рост количества проектов и сотрудников порождает необходимость определить компетентность каждого сотрудника для каждого проекта. Это обуславли-

вает информационную перегрузку. Избежать этого можно путём автоматизации процесса сравнения.

В задаче сравнения документов, рассматриваемой в работе, есть несколько особенностей. Во-первых, объем информационных потоков может быть большой — например, число вакансий на рынке труда исчисляется миллионами (данные портала "Работа в России"). В этом случае, для решения задачи требуется объединение документов в семантически схожие группы и формирования релевантного представления группы, сравнение с которым позволяет установить семантическую схожесть со всеми документами группы.

Во-вторых, в последнее время популярным способом обработки текстовых документов стали методы на основе нейронных сетей [9]. Недостатком этих методов является необъяснимость полученного результата [10]. Это ограничивает их применение в задачах сравнения документов, т.к. не сохраняется информация о причинах определения сематической схожести документов. Поэтому в данной работе рассматривается задача сохранения метаданных (ключевых слов, именованных сущностей, групп документов) на основании которых выполняется сравнение.

В-третьих, в общем случае реализация методов по принципу "обучения с учителем" затруднена по причине сложности сбора экспертной информации для предварительного обучения; однако, возможен учет корректировки полученных результатов от пользователей системы.

Использование корректировки результатов необходимо для учёта особенностей предметной области. Поскольку в данной работе формальная модель предметной области не строится, учёт корректировки результатов является способом повышения качества результатов за счёт выявления информации, специфичной для выбранной области. Например, в задаче сравнения документов можно выделить ключевые слова, важные для данной предметной области, или отбросить неважные.

Объектом исследования являются процессы обработки текстовой информации в задачах систем управления документами.

Предметом исследования являются методы обработки текстовой информа-

ции для извлечения ключевых слов, группировки документов и сравнения документов путём определения семантической схожести.

Целью работы является снижение числа ручных операций, проводимых пользователем при сравнении документов в системах управления документами за счет применения методов интеллектуального анализа текстов. Для достижения цели необходимо решить научные задачи:

1. провести анализ систем управления документами и процессов извлечения ключевых слов, группировки и сравнения документов;

2. произвести формализацию и постановку задачи для соответствующих процессов в системах управления документами;

3. разработать метод извлечения ключевых слов из текстовых документов, который не требует экспертной информации для начала работы, но позволяет повысить качество за счет учета корректировки результатов пользователем;

4. разработать метод формирования представления группы схожих текстовых документов, проверяющий корректность составленного представления за счёт использования ключевых слов.

5. разработать метод сравнения текстовых документов путём определения семантической схожести с использованием полученных ранее результатов, интегрирующий разработанные подходы в единую систему.

6. произвести экспериментальную оценку качества работы общего процесса сравнения документов.

Степень разработанности темы исследования. Фундаментальные основы исследования автоматизации управления документами в России заложены академиком В.М. Глушковым. С.П. Белов исследовал внедрение средств электронного документооборота и управления документами в организации с точки зрения теории управления.

Наиболее ранние результаты в области сравнения текстов относятся к В.И. Левенштейну, M. Jaro, R. Hamming, рассматривающих задачу с точки зрения динамического программирования и теории информации.

В связи с развитием Интернета и повышением актуальности задачи информационного поиска, в работах M. Henzinger, A. Broder, G.S. Manku были разрабо-

таны алгоритмы эффективного вычисления расстояния Жаккара для устранения дубликатов в поисковых системах.

Это же обстоятельство привело к созданию Page L. алгоритма PageRank для определения важности страниц, приведшее к появлению семейства графовых алгоритмов извлечения ключевых слов. В частности, работы F. Boudin представляют комплексное исследование этой задачи.

Позднее, развитие нейросетевых технологий, в частности архитектур "транс-формер" A. Vaswani et al. и BERT J. Devlin, открыло путь к применению нейросетевых технологий для обработки текстов. Основные результаты в направлении сравнения текстов с использованием BERT относятся к И. Гуревич, N. Reimers.

Эти же архитектуры использованы Д. Ангеловым и M. Grooterndorst для решения задачи кластеризации текстов и извлечения ключевых слов.

Методы и средства исследования. Для достижения цели исследования и получения запланированных результатов использовались следующие основные подходы, методы и информационные технологии: систематический анализ литературы, связанной с темой исследования; статистические методы и алгоритмы обработки естественного языка; методы глубокого обучения для обработки естественного языка, основанные на архитектуре BERT, алгоритмы машинного обучения для кластеризации и классификации, большие языковые модели; математический аппарат теории множеств; экспериментальная апробация.

На защиту диссертационной работы выносятся следующие положения:

1. Формальная модель процесса обработки текстовой информации для извлечения ключевых слов, группировки и определения сематической схожести документов, учитывающая корректировку результатов пользователем.

2. Метод извлечения ключевых слов из текстовых документов, не требующий начальной экспертной информации о тексте, но улучшающий качество извлечения за счёт учета корректировки результатов пользователем.

3. Метод формирования представления групп текстовых документов, использующий ключевые слова документов для контроля релевантности представления.

4. Метод сравнения наборов текстовых документов, использующий векторные

представления ключевых слов, которые учитывают семантический смысл, и улучшающий качество сравнения с помощью анализа корректировки результата пользователем.

Научная новизна работы заключается в следующем:

1. Сформирована модель процесса обработки текстовой информации, базирующаяся на разработанных методах для определения семантической схожести документов, учитывающая корректировку результатов пользователем.

2. Предложен метод извлечения ключевых слов, в отличие от существующих, не требующий экспертной информации на начальном этапе работы, но улучшающий качество извлечения за счёт корректировки результата пользователем.

3. Предложен метод формирования представления группы схожих документов, в отличие от существующих осуществляющий проверку корректности результата по наиболее релевантным ключевым словам группы.

4. Предложен метод сравнения наборов текстовых документов, в отличие от существующих аналогичных методов позволяющий сохранить информацию, на основании которой выполнено сравнение, а также улучшить качество сравнения за счёт корректировки результатов пользователем. Теоретическая ценность работы заключается в разработке модели, позволяющей формализовать процесс обработки текстовой информации для извлечения ключевых слов и определения сематической схожести документов, а также комплекса методов обработки текстовой информации, не требующих экспертной информации о текстах в начале работы и способных улучшить качество сравнения с помощью анализа корректировки результата пользователем.

Практическая ценность работы заключается том, что разработанные методы могут уменьшить ручных операций в системах управления документами.

Достоверность результатов обеспечена анализом научной литературы, связанной с темой исследования, анализом актуальных методов и средств решения поставленных задач, а также экспериментальной проверкой качества работы методов по отдельности и в составе общего процесса.

Внедрение результатов работы. Теоретические и практические результаты работы в части сравнения текстовых документов были использованы в ООО "Смартилайзер".

Результаты использованы для реализации процесса сравнения вакансий и резюме студентов при разработке портала "Студентов". Заказчик — СПб ГАУ "Центр трудовых ресурсов"; проект реализуется в рамках государственной программы Санкт-Петербурга "Содействие занятости населения в Санкт-Петербурге", утвержденной постановлением Правительства Санкт-Петербурга от 17.06.2014 №490.

Кроме того, результаты использованы в разработке ИС "Индивидуальные образовательные траектории" СПбГЭТУ "ЛЭТИ" для анализа соответствия образовательных программ требованиям рынка труда.

Апробация результатов. Результатом выполнения диссертационной работы является разработанный комплекс методов и реализующие его программы для ЭВМ, на которые получено 11 свидетельств о регистрации программного обеспечения для ЭВМ,. Промежуточные результаты были представлены на конференциях SCM, ElConRus, "Наука настоящего и будущего", проходивших в 2022-2025 годах. Во время выполнения работы опубликовано 8 работ по теме диссертации (из них 5 в изданиях индексируемых Scopus, 2 в журнале из перечня ВАК).

Личный вклад автора. Все результаты, изложенные в диссертации и сформулированные в положениях, выносимых на защиту, получены автором лично или при его непосредственном участии.

Благодарности. Работа выполнена при поддержке гранта Российского научного фонда №25-11-20020 (https://rscf.ru/project/25-11-20020/) и Санкт-Петербургского научного фонда.

1 ПОСТАНОВКА ЗАДАЧИ И ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ

В настоящей главе, на основе данных из введения, приведена постановка задачи сравнения документов, определены требования к разрабатываемым методам. Исходя из этого, приведен обзор существующих способов решения задач сравнения документов и вспомогательных задач извлечения ключевых слов, именованных сущностей и группировки документов. Для задачи извлечения ключевых слов описаны способы оценки, и приведены результаты этой оценки.

1.1 Описание объекта управления и требований к разрабатываемому комплексу методов

Как было указано во введении, в работе рассматривается задача сравнения документов из нескольких информационных потоков. Автоматизацию решения задачи можно рассмотреть с точки зрения управления данным процессом.

В данном случае объектом управления (УО) является сам процесс сравнения документов из двух информационных потоков (иначе — корпусов документов) Х\,Х2, содержащих в данный момент текстовые документы х\ и х2. "Возмущениями" в данном случае является как временной сдвиг документов, т.е. претерпевание ранее обработанными документами изменений, так и появление новых документов со временем.

Продуктом процесса является тТх\х2 £ {0,1} — значение семантического сходства двух документов (1 — документы сходны в рамках предметной области процесса, т.е. идентичны по смыслу, 0 — нет).

Поэтому в данной работе рассматривается разработка комплекса методов для автоматизации управления процессом. Этапы становления механизма управления в терминологии [3] приведены на рис. 1.1; пунктирной линией отображены информационные потоки, обычной линией — воздействия. Реализацией механизма управления является блок "комплекс методов" (КМ).

На 0-м этапе лицо, принимающее решения (ЛПР), принимает решение о схожести каждой пары документов х\, х2 самостоятельно. При этом предполагается, что ЛПР получает обратную связь о корректности решения.

Этап 0 Этап 1 Этап 2

Рисунок 1.1 - Этапы становления механизма управления

На 1-м этапе ЛПР получает помощь в принятии решения от КМ. Данная помощь заключается (но не ограничивается) в предоставлении ЛПР значения семантического сходства mx1x2 Е [0,1], являющегося результатом сравнения двух документов x\,x2. При этом важно соблюдение двух требований:

1. Отсутствие необходимости в экспертных данных для начала работы. Это требование обусловлено трудностью сбора этих данных в условиях достаточно объемных информационных потоков.

2. Объяснимость результата сравнения mx1x2. Это поможет ЛПР оценить корректность результата и подскажет, как изменить один из документов для увеличения или уменьшения значения сходства.

На 2-м этапе КМ использует два вида корректировки результатов — непосредственные (ЛПР корректирует промежуточные результаты работы) и опосредованные, заключающиеся в истории принятых ЛПР решений о схожести документов. Это выдвигает требование:

3. Улучшение качества работы (будет определено далее) путём учёта корректировки результатов пользователем.

Кроме того, ресурсные ограничения среды исполнения программной реализации КМ выдвигают ещё одно требование:

4. Отсутствие высоких требований к вычислительным ресурсам (использование не более 8ГБ VRAM).

1.2 Описание исходных данных

В качестве конкретных данных для решения поставленных задач выбраны два основных набора данных.

Первый набор данных — рабочие программы (РП) СПбГЭТУ "ЛЭТИ", ведущиеся в ИС "Индивидуальные образовательные траектории ' (ИОТ) Рабочая программа представляет собой описание дисциплины, проводимой в вузе и содержит разделы, такие как аннотация, цели, задачи, примеры вопросов к экзамену и т.п. РП в ИС "ИОТ" имеют внутреннюю структуру, соответствующую этим разделам, но поскольку эта структура не помогает в решение поставленных задач, РП преобразованы в простую строку текста. Пример РП приведен в листинге 1. Всего в наборе 13483 РП (включая дубликаты).

Листинг 1. Пример РП

1

Web-технологии. Курс «Web-технологии» охватывает широкий ^ спектр технологий и подходов, использующихся при ^ разработке Интернет-сайтов и web-приложений. ^ Рассматриваются основы построения web-приложений с ^ использованием HTML, CSS. ...

Второй набор данных — тексты вакансий, скачанные с порталов "Работа в России" и HeadHunter. Они также преобразованы в строку текста. Всего в наборе 84040 вакансии. Размер и характер данного набора (множество похожих вакансий) обуславливает необходимость группировки для производства "обобщенных вакансий".

Таким образом, решение задачи сравнения текстов на данных наборах позволяет определить соответствие дисциплины рынку труда и её актуальность. Объяснимый характер сравнения позволит понять, как нужно изменить дисциплину, чтобы она лучше соответствовала рынку труда. Также, определение сходства между дисциплинами в рамках одной образовательной программы (ОП) позволит построить "граф зависимости дисциплин", в частности, чтобы определить, изучение каких дисциплин ОП является предусловием для изучения других.

1 https://digital.etu.ru/trajectories/

1.3 Обзор способов сравнения текстов и определения семантической схожести

В общем виде, метод попарного сравнения текстов можно описать как:

d : (xb x2) ^ [0,1],

где xi,x2 — две произвольных текстовых строки на естественном языке, [0,1] — результат сравнения, в случае, если метод работает независимо для каждой пары строк.

Если метод также использует информацию из корпусов текста, сигнатура приобретает вид:

d : (xi,X2,Xi,X2) ^ [0,1].

1.3.1 Методы на основе расстояния редактирования

Один из вариантов сравнения строк — метрики на основе расстояния редактирования. К ним относятся расстояния Левенштейна (Levenstein), (Damerau-Levenstein) [11], Джаро (Jaro) [12], Джаро-Винклера (Jaro-Winkler) [13], Indel (insert / delete), Хэмминга (hamming), наибольшая общая подпоследовательность (LCS).

Во всех случаях в основе метрик лежат атомарные операции над строками: вставка, удаление, замена и перестановка символов; различные метрики используют различный набор операций. Значение метрики зависит от минимального количества операций, которые необходимо провести, чтобы преобразовать одну строку в другую. Как правило, значения метрик вычисляются путём динамического программирования.

Для расстояний Левенштейна, Дамерау-Левенштейна, Indel и Хэмминга, нормализация метрики f к [0,1] выглядит следующим образом:

w ч , f(x1,x2) df(x1, x2) = 1--71-Л-h '

max(|xi|, x2\)

(при этом расстояние Хэмминга определено только в случае \x1\ = |x2|).

Для наименьшей общей подпоследовательности:

LCS(xi,x2)

dLCs(xi,x2) = 1 - -¡-¡—-¡-j-

\xi\ + x2 \

Расстояния Джаро и Джаро-Винклера уже нормализованы необходимым образом.

В целом, описанные методы применяются для решения задач, похожих на поставленную. Например, LCS применяется в системах контроля версий для определения разницы между версиями одного текстового документа [14]; также, метрики на основе расстояния Левенштейна применяются для сравнения цепочек РНК и ДНК на разных ветвях дерева эволюции [15] или при поиске грамматических ошибок.

Общий недостаток данных методов — их зависимость от используемых символов в строке, и от их порядка. Т.е. замена слова на синоним, добавление незначащего предложения, перестановка слов увеличивают расстояния метрик, что не позволяет использовать их для определения семантической схожести, т.е. поиска схожих "по смыслу" документов.

1.3.2 Методы на основе токенов

Часть проблем с расстояниями редактирования можно решить, введя информацию о токенах — атомарных подстроках, выделяемых алгоритмом токениза-ции:

где II — единичный токен.

В рассматриваемых методах природа рациональной токенизации будет отличаться в зависимости от языка. Для аналитических языков вроде стандартного китайского, токенами могут выступать единичные слова без дополнительных изменений.

Для неагглютинативных языков с синтетическими аспектами (отчасти английский, особенно — русский, немецкий), слова также необходимо преобразовать в каноническую форму с помощью стемминга или лемматизации, т.е. очистить от морфологических следов контекста (склонений, спряжений и т.п.). Для агглютинативных языков (например, финский) слова нужно также разобрать по корням.

С использованием информации о токенах можно модифицировать расстоя-

ния редактирования. Например, библиотека RapidFuzz модифицирует расстояние Indel, реализуя эвристическое вычисление максимального расстояния до подстроки (раг^а!_га^о), сортировку токенов перед сравнением (token_sort_ratio), сортировку и устранение дубликатов токенов строк (token_set_ratio). Это отчасти решает проблему перестановок слов и лишних незначащих предложений, но не синонимов.

Также возможным вариантом является вычисление коэффициента Жаккара на множестве токенов:

П Шк(х2)

■7(Х1,Х2) = Юк(ж1) и ЮкЫ

В отличие от расстояний редактирования, этот подход хорошо масштабируется на попарное сравнение текстов в большом корпусе с помощью алгоритмов MinHash [16] или SimHash [17]. Благодаря этому, данный подход используется при поиске дубликатов в поисковых системах [18].

Особенностью вышеописанных вариантов является одинаковый вес у всех токенов, что затрудняет сравнение различных документов, например, документов разного размера, использующих одни и те же ключевые токены. Значимость этой проблемы можно уменьшить, взвесив токены, например, по схеме TF-IDF:

т^г, X, х) = tf(t, х) • idf(t, х) Ьщ^х) • 1оё —- ,

У 7 У 7 У 7 ехfreq(t/,x) 6\{х' : х' е Х,г е х'}[

где г — токен, х — документ, X — корпус.

С использованием этих весов можно вычислить схожесть через косинусное расстояние [19]:

^«ж(х1,х2,Х1 ,Х2)= tfidf^(г,х1,Х1) • tfidfя(г,х2,Х2),

ге1ок(ж1)Пок(ж2)

где tfidfN соответствующим образом нормализован:

tfidfN (г,х,Х)

tfidfN (г,х,Х) = —

^'ех'х'ех tfidf(t', х', X)2

Также возможна нестрогая модификация TF-IDF с использованием похожих

токенов вместо строгого пересечения [20]:

dtfidfSoft(x1 ,x2,X1, Х2) =

= У^ tfidfN(i1,x1,X1) • tfidfN(t1,x2,X2) • maxsim(t2,x2),

t1G{tGx1 |3t2Gx2 :sim(tbt2 )>#}

где sim — функция определения похожести токенов (в источнике используется расстояние Джаро-Винклера), в — порог похожести.

Это является стандартной операцией в анализе данных [19].

Преимуществом данных методов является относительная объяснимость, т.к. пересечение токенов само по себе несёт информацию. Тем не менее в больших документах токенов может быть много, что вносит ограничения. Также в данных методах по-прежнему не решена проблема синонимов — замена слов на синонимы увеличивает расстояние, что ограничивает применения методов для определения семантической схожести.

1.3.3 Методы на основе нейросетей

Последняя рассмотренная в работе группа методов — некоторые методы на основе нейросетей, в частности, BERT и Sentence-BERT [21].

Стандартный вариант сравнения текстов с использованием BERT — расчёт расстояния между их векторными представлениями (эмбеддингами); часто используется косинусное расстояние. Используемые в таком режиме модели называются би-кодировщиками (bi-encoder) [22].

4i-enc(x1,^2) = Sc (embed(x1), embed(x2)),

где embed : x ^ EX,EX = {exi}N=1 G RN — функция отображения текста в векторное пространство размерности N,

— косинусное расстояние.

Альтернативный подход — использование модели, сразу принимающей на вход два текста и возвращающей их значение схожести (кросс-кодировщика, cross-

t2GX2

encoder):

^cross-enc : (xbx2) ^ [0,1].

Этот подход может показывать лучшие результаты, чем би-кодировщики, но хуже масштабируется на большие корпусы текстов, поскольку тексты обрабатываются попарно.

В обоих подходах, модели BERT необязательно дообучать на целевых корпусах X\,X2, т.к. существующие модели уже предобучены на миллиардах токе-нов. Тем не менее можно дообучить модели на наборе данных попарного сходства B, что может привести к улучшению качества сравнения [22]. Выбрать конкретную модель можно с помощью актуальных результатов бенчмарка MTEB [23], но в любом случае, для достоверных результатов требуется проверка качества работы на выбранной предметной области.

Список литературы диссертационного исследования кандидат наук Корытов Павел Валерьевич, 2025 год

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. ГОСТ Р ИСО 30300-2015 Система стандартов по информации, библиотечному и издательскому делу. Информация и документация. Системы управления документами. Основные положения и словарь. — М. : Стандартинформ, 2016.— 19 с.

2. Potential positive impacts of digitalization of construction-phase information management for project owners / Q. K. Jahanger, J. Louis, C. Pestana, D. Trejo // Journal of Information Technology in Construction. — 2021. — Vol. 26. — P. 1-22. — ISSN 1874-4753. — DOI: 10.36680/j.itcon.2021.001.

3. Белов С. Подготовка предприятий к внедрению систем электронного документооборота. — М. : Издательство "Мир Науки", 2016. — 210 с. — ISBN 978-5-9907048-9-3.

4. Causes, consequences, and strategies to deal with information overload: A scoping review / L. Shahrzadi, A. Mansouri, M. Alavi, A. Shabani // International Journal of Information Management Data Insights. — 2024. — Nov. — Vol. 4, no. 2. — P. 100261. —ISSN 26670968.—DOI: 10.1016/jjjimei.2024.100261.

5. Roy M.-C., Roy M.-J., Bouchard L. Improving board knowledge with information and communication technologies // Electronic Journal of Knowledge Management. — 2017. — Vol. 15, no. 4. — P. 215-224.

6. Подходы к автоматизации документооборота в вузе / Н. Волкова [и др.] // Вестник Новосибирского государственного университета. Серия: Информационные технологии. — 2017. — Т. 15, № 1. — С. 36—46.

7. ГОСТ Р ИСО 15489-1-2019 Система стандартов по информации, библиотечному и издательскому делу. Информация и документация. Управление документами. Часть 1. Понятия и принципы. — М. : Стандартинформ, 2019. — 25 с.

8. Бермудес С. Метод измерения семантического сходства текстовых документов // Известия ЮФУ Технические науки. — 2017. — Т. 3, № 188. — С. 17— 29. —DOI: 10.23683/2311-3103-2017-3-17-29.

9. Chandrasekaran D., Mago V. Evolution of Semantic Similarity—A Survey // ACM Computing Surveys. — 2022. — Mar. 31. — Vol. 54, no. 2. — P. 1-37. — ISSN 0360-0300, 1557-7341.—DOI: 10.1145/3440755.

10. Rudin C. Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead // Nature Machine Intelligence. —

2019. — May 13. — Vol. 1, no. 5. — P. 206-215. — ISSN 2522-5839. — DOI: 10.1038/s42256-019-0048-x.

11. Damerau F. J. A technique for computer detection and correction of spelling errors // Communications of the ACM. — 1964. — Mar. — Vol. 7, no. 3. — P. 171176.— ISSN 0001-0782, 1557-7317. — DOI: 10.1145/363958.363994.

12. Jaro M. A. Probabilistic linkage of large public health data files // Statistics in Medicine. — 1995. — Mar. 15. — Vol. 14, no. 5-7. — P. 491-498. — ISSN 0277-6715, 1097-0258.—DOI: 10.1002/sim.4780140510.

13. Winkler W. The state of record linkage and current research problems // Statist. Med. — 1999. — Окт. — Т. 14.

14. Nugroho Y. S., Hata H., Matsumoto K. How different are different diff algorithms in Git?: Use -histogram for code changes // Empirical Software Engineering. —

2020. — Jan. — Vol. 25, no. 1. — P. 790-823. — ISSN 1382-3256,1573-7616. — DOI: 10.1007/s10664-019-09772-z.

15. A General Edit Distance between RNA Structures / T. Jiang, G. Lin, B. Ma, K. Zhang // Journal of Computational Biology. — 2002. — Apr. — Vol. 9, no. 2. — P. 371-388.— ISSN 1066-5277. —DOI: 10.1089/10665270252935511.

16. Henzinger M. Finding near-duplicate web pages: a large-scale evaluation of algorithms // Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR06: The 29th Annual International SIGIR Conference). — Seattle Washington USA : ACM,

08/06/2006. — P. 284-291. — ISBN 978-1-59593-369-0. — DOI: 10. 1145/ 1148170.1148222.

17. Broder A. On the resemblance and containment of documents // Proceedings. Compression and Complexity of SEQUENCES 1997 (Cat. No.97TB100171) (Compression and Complexity of SEQUENCES 1997). — Salerno, Italy : IEEE Com-put. Soc, 1998. — P. 21-29. — ISBN 978-0-8186-8132-5. — DOI: 10.1109/ SEQUEN.1997.666900.

18. Manku G. S., Jain A., Das Sarma A. Detecting near-duplicates for web crawling // Proceedings of the 16th international conference on World Wide Web (WWW'07: 16th International World Wide Web Conference). — Banff Alberta Canada : ACM, 05/08/2007. — P. 141-150. — ISBN 978-1-59593-654-7. — DOI: 10. 1145/ 1242572.1242592.

19. Peng T., Mackay C. Approximate String Matching Techniques // Proceedings of the 16th International Conference on Enterprise Information Systems (16th International Conference on Enterprise Information Systems). — Lisbon, Portugal : SCITEPRESS - Science and and Technology Publications, 2014. — P. 217224. — DOI: 10.5220/0004892802170224.

20. Cohen W. W, Ravikumar P., Fienberg S. E. A comparison of string distance metrics for name-matching tasks // Proceedings of the 2003 international conference on information integration on the web. — Acapulco, Mexico : AAAI Press, 2003. — P. 73-78. — (IIWEB'03).

21. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). — Hong Kong, China : Association for Computational Linguistics, 2019. — P. 3982-3992. — DOI: 10.18653/v1/ D19-1410.

22. Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks / N. Thakur, N. Reimers, J. Daxenberger, I.

Gurevych // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies). — Online : Association for Computational Linguistics, 2021. —P. 296-310. —DOI: 10.18653/v1/2021.naacl-main.28.

23. MTEB: Massive Text Embedding Benchmark / N. Muennighoff, N. Tazi, L. Magne, N. Reimers // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. — Dubrovnik, Croatia : Association for Computational Linguistics, 2023. — P. 2014-2037. — DOI: 10.48550/arXiv. 2210.07316.

24. YAKE! Keyword extraction from single documents using multiple local features / R. Campos [et al.] // Information Sciences. — 2020. — Jan. — Vol. 509. —P. 257289.— ISSN 00200255.—DOI: 10.1016/j.ins.2019.09.013.

25. Page L. The PageRank citation ranking: Bringing order to the web / Technical Report. — 1999.

26. Mihalcea R., Tarau P. TextRank: Bringing order into text // Proceedings of the 2004 conference on empirical methods in natural language processing / под ред. D. Lin, D. Wu. — Barcelona, Spain : Association for Computational Linguistics, 07.2004. — С. 404—411.

27. WanX., Xiao J. CollabRank: Towards a Collaborative Approach to Single - Document Keyphrase Extraction // Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). — Coling 2008 Organizing Committee, 2008. — P. 969-976.

28. Bougouin A., Boudin F., Daille B. TopicRank: Graph-based topic ranking for keyphrase extraction // Proceedings of the sixth international joint conference on natural language processing / ed. by R. Mitkov, J. C. Park. — Nagoya, Japan : Asian Federation of Natural Language Processing, 10/2013. — P. 543-551.

29. Florescu C., Caragea C. PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Proceedings of the 55th Annual Meeting of the Association f Computational Linguistics (Volume 1: Long Papers)). — Vancouver, Canada : Association for Computational Linguistics, 2017. — P. 1105-1115. — DOI: 10.18653/v1/P17-1102.

30. Zehtab-Salmasi A., Feizi-DerakhshiM.-R., BalafarM.-A. FRAKE: Fusional Realtime Automatic Keyword Extraction. — Вер. 2. — 2021. — DOI: 10.48550/ ARXIV.2104.04830. — URL: https://arxiv.org/abs/2104.04830 (дата обр. 30.10.2024). — Пред. пуб.

31. Boudin F. pke: an open source python-based keyphrase extraction toolkit // Proceedings of COLING 2016, the 26th international conference on computational linguistics: System demonstrations. — Osaka, Japan, 12/2016. — P. 69-73.

32. GrootendorstM. MaartenGr/KeyBERT. —Вер. v0.1.3. — Zenodo, 25.01.2021. — DOI: 10.5281/ZENODO.4461265.

33. Reimers N., Gurevych I. Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). — Punta Cana, Dominican Republic : Association for Computational Linguistics, 2020. — P. 4512-4525. — DOI: 10.18653/v1/2020.emnlp-main.365.

34. Learning Rich Representation of Keyphrases from Text / M. Kulkarni, D. Ma-hata, R. Arora, R. Bhowmik // Findings of the Association for Computational Linguistics: NAACL 2022. — Seattle, United States : Association for Computational Linguistics, 07/10/2022. — P. 891-906. — DOI: 10.18653/v1/2022. findings -naacl.67.

35. Сорочина М., Корытов П., Холод И. Применение нейросетевых методов извлечения ключевых слов для составления резюме студента по рабочим программам // XXVI Международная конференция по мягким вычислениям и

измерениям (SCM-2023). Сборник докладов. — СПб. : СПбГЭТУ «ЛЭТИ», 2023. — С. 186—189. — ISBN 978-5-7629-3198-4.

36. WikiNEuRal: Combined Neural and Knowledge-based Silver Data Creation for Multilingual NER / S. Tedeschi [et al.] // Findings of the Association for Computational Linguistics: EMNLP 2021 (Findings of the Association for Computational Linguistics: EMNLP 2021). — Punta Cana, Dominican Republic : Association for Computational Linguistics, 2021. — P. 2521-2533. — DOI: 10.18653/v1/ 2021.findings-emnlp.215.

37. Efficient Estimation of Word Representations in Vector Space / T. Mikolov, K. Chen, G. Corrado, J. Dean // Proceedings of the International Conference on Learning Representations (ICLR 2013). — arXiv, 06.09.2013.

38. The Llama 3 Herd of Models / A. Grattafiori [и др.]. — 23.11.2024. — DOI: 10.48550/arXiv.2407.21783. — URL: http://arxiv.org/abs/2407.21783 (дата обр. 13.12.2024).—Пред. пуб.

39. Qwen2 technical report / A. Yang [и др.]. — 2024. — URL: https://arxiv.org/abs/ 2407.10671 (дата обр. 31.08.2025).

40. Потапов А. T-Lite и T-Pro - открытые русскоязычные опенсорс-модели на 7 и на 32 млрд параметров / Хабр / Habr. — 11.12.2024. — URL: https://habr. com/ru/companies/tbank/articles/865582/ (дата обр. 03.01.2025).

41. NLP Evaluation in trouble: On the Need to Measure LLM Data Contamination for each Benchmark / O. Sainz [et al.] // Findings of the Association for Computational Linguistics: EMNLP 2023. — Association for Computational Linguistics, 10/27/2023. —P. 10776-10787. —DOI: 10.18653/v1/2023.findings-emnlp.722.

42. Fine Tuning LLM for Enterprise: Practical Guidelines and Recommendations / M. R. J, K. VM, H. Warrier, Y. Gupta. — 23.03.2024. — DOI: 10.48550/arXiv. 2404.10779. — URL: http://arxiv.org/abs/2404.10779 (дата обр. 03.01.2025). — Пред. пуб.

43. Lovins J. B. Development of a stemming algorithm // Mech. Transl. Comput. Linguistics. — 1968. — Т. 11, № 1/2. — С. 22—31.

44. A density-based algorithm for discovering clusters in large spatial databases with noise. / M. Ester, H.-P. Kriegel, J. Sander, X. Xu, [et al.] // Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). Vol. 96. — Munich : Institute for Computer Science, 1996. — P. 226-231.

45. Introducing Claude 3.5 Sonnet. — 2024. — URL: https://www.anthropic.com/ news/claude-3-5-sonnet (дата обр. 13.12.2024).

46. DeepSeek-V3 technical report / DeepSeek-AI [et al.]. — 2024. — URL: https: //arxiv.org/abs/2412.19437 (visited on 08/31/2025).

47. OpenRouter - a unified interface for LLMs. — URL: https://openrouter.ai/ (дата обр. 14.01.2025).

48. Prompt Engineering Guide | Prompt Engineering Guide. — URL: https://www. promptingguide.ai/ (дата обр. 13.12.2024).

49. spaCy: Industrial-strength Natural Language Processing in Python /1. Montani [и др.]. — Вер. v3.7.2. — Zenodo, 16.10.2023. — DOI: 10. 5281/ZENODO. 1212303.

50. Hulth A. Improved automatic keyword extraction given more linguistic knowledge // Proceedings of the 2003 conference on Empirical methods in natural language processing -. Vol. 10 (the 2003 conference). — Association for Computational Linguistics, 2003. — P. 216-223. — DOI: 10.3115/1119355.1119383.

51. A Survey on Deep Learning for Named Entity Recognition / J. Li, A. Sun, J. Han, C. Li // IEEE Transactions on Knowledge and Data Engineering. — 2022. — 1 янв. — Т. 34, № 1. — С. 50—70. — ISSN 1041-4347, 1558-2191, 23263865. —DOI: 10.1109/TKDE.2020.2981314.

52. Unsupervised named-entity extraction from the Web: An experimental study / O. Etzioni [et al.] // Artificial Intelligence. — 2005. — June. — Vol. 165, no. 1. — P. 91-134. —ISSN 00043702.—DOI: 10.1016/j.artint.2005.03.001.

53. Sekine S., Nobata C. Definition, dictionaries and tagger for Extended Named Entity Hierarchy // (LREC 2004. Fourth International Conference On Language Resources and Evaluation). — Lisbon, Portugal: European Language Resources Association, 2004.—P. 1977-1980.

54. Chang W. C., Tsou C. H., Huang A. Fast Rule-based NER in SpaCy for Chest Radiography Reports with CheXpert's 14 Categories // 2024 46th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC) (2024 46th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC)). — Orlando, FL, USA : IEEE, 07/15/2024.—P. 1-4. —ISBN 979-8-3503-7149-9.—DOI: 10.1109/EMBC53108 2024.10782341.

55. Campos D., Matos S., Luis J. Biomedical Named Entity Recognition: A Survey of Machine-Learning Tools // Theory and Applications for Advanced Text Mining / ed. by S. Sakurai. — InTech, 11/21/2012. — ISBN 978-953-51-0852-8. — DOI: 10.5772/51066.

56. McNamee P., Mayfield J. Entity extraction without language-specific resources // proceeding of the 6th conference on Natural language learning - COLING-02. Vol. 20 (proceeding of the 6th conference). — Not Known : Association for Computational Linguistics, 2002. — P. 1-4.—DOI: 10.3115/1118853.1118873.

57. Sharnagat R. Named Entity Recognition: A Literature Survey / Center For Indian Language Technology. —2014. —URL: https://www.cfilt.iitb.ac.in/resources/ surveys/rahul-ner-survey.pdf (дата обр. 08.06.2025).

58. Joint extraction of entities and relations based on a novel tagging scheme / S. Zheng [et al.] // Proceedings of the 55th annual meeting of the association for computational linguistics (volume 1: Long papers) / ed. by R. Barzilay, M.-Y. Kan. — Vancouver, Canada: Association for Computational Linguistics, 2017. — P. 1227-1236.—DOI: 10.18653/v1/P17-1113.

59. Kuru O., Can O. A., Yuret D. CharNER: Character-level named entity recognition // Proceedings of COLING 2016, the 26th international conference on compu-

tational linguistics: Technical papers / ed. by Y. Matsumoto, R. Prasad. — Osaka, Japan : The COLING 2016 Organizing Committee, 12/2016. — P. 911-921.

60. Google's neural machine translation system: Bridging the gap between human and machine translation / Y. Wu [и др.] // CoRR. — 2016. — Т. abs/1609.08144. — DOI: 10.48550/arXiv.1609.08144.

61. Analysis of Approaches for Identifying Key Skills in Vacancies / P. V. Korytov, E. A. Andreeva, Y. Y. Gribestkiy, 1.1. Kholod// 2024 XXVII International Conference on Soft Computing and Measurements (SCM). — Saint-Petersburg : IEEE, 2024. — P. 242-245. — DOI: 10.1109/SCM62608.2024.10554269.

62. Named entity recognition using BERT BiLSTM CRF for chinese electronic health records / Z. Dai [et al.] // 2019 12th international congress on image and signal processing, BioMedical engineering and informatics (CISP-BMEI). — 2019. — P. 1-5.—DOI: 10.1109/CISP-BMEI48845.2019.8965823.

63. Lee D. D., Seung H. S. Learning the parts of objects by non-negative matrix factorization // Nature. — 1999. — Oct. — Vol. 401, no. 6755. — P. 788-791. — ISSN 0028-0836, 1476-4687. — DOI: 10.1038/44565.

64. BleiD. M., NgA. Y., Michael I. J. Latent Dirichlet Allocation// Journal ofMachine Learning Research. — 2003. — № 3. — С. 993—1022.

65. Angelov D. Top2Vec: Distributed Representations of Topics. — 19.08.2020. — DOI: 10.48550/arXiv.2008.09470. — URL: http://arxiv.org/abs/2008.09470 (дата обр. 08.06.2025). —Пред. пуб.

66. Le Q., Mikolov T. Distributed representations of sentences and documents // Proceedings of the 31st international conference on machine learning. Vol. 32 / ed. by E. P. Xing, T. Jebara. — Bejing, China : PMLR, 06/22/2014-06/24/2014. — P. 1188-1196. — (Proceedings of machine learning research ; 2).

67. McInnes L., Healy J., Melville J.UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. — Version 3. — 2018. — DOI: 10.48550/ ARXIV. 1802.03426. — URL: https://arxiv.org/abs/1802.03426 (visited on 06/01/2024). — Pre-published.

68. Campello R. J. G. B., Moulavi D., Sander J.Density-Based Clustering Based on Hierarchical Density Estimates // Advances in Knowledge Discovery and Data Mining. Vol. 7819 / ed. by J. Pei [et al.] ; red. by D. Hutchison [et al.]. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2013. — P. 160-172. — ISBN 978-3642-37455-5 978-3-642-37456-2. — DOI: 10.1007/978-3-642-37456-2_14.

69. Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure. — 03/11/2022. — URL: http://arxiv.org/abs/2203.05794 (visited on 06/02/2024). — Pre-published.

70. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension / M. Lewis [et al.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — Association for Computational Linguistics, 2020. — P. 7871-7880. — DOI: 10.18653/ v1/2020.acl-main.703.

71. RoBERTa: A Robustly Optimized BERT Pretraining Approach / Y. Liu [и др.]. — 26.07.2019. — DOI: 10.48550/arXiv. 1907.11692. — URL: http://arxiv.org/abs/ 1907.11692 (дата обр. 13.12.2024). — Пред. пуб.

72. Yin W, Hay J., Roth D. Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach // (EMNLP-IJCNLP 2019-2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processin). — Hong Kong, China : Association for Computational Linguistics, 2019. — С. 3914—3923. — DOI: 10.18653/v1/ D19-1404.

73. apache/solr: Apache Solr open-source search software. — URL: https://github. com/apache/solr (дата обр. 18.09.2025).

74. elasticsearch/elasticsearch. — 2015. — URL: https://github. com/elasticsearch/ elasticsearch.

75. Rand W M. Objective Criteria for the Evaluation of Clustering Methods // Journal of the American Statistical Association. — 1971. — Dec. — Vol. 66, no. 336. —

P. 846-850.— ISSN 0162-1459, 1537-274X. — DOI: 10.1080/01621459.1971. 10482356.

76. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter / V. Sanh, L. Debut, J. Chaumond, T. Wolf// NeurIPS EMCA2 workshop. — 2019.

77. SpanBERT: Improving Pre-training by Representing and Predicting Spans / M. Joshi [и др.] // Transactions of the Association for Computational Linguistics. — 2020. — Т. 8, № 01. — С. 64—77. — ISSN 2307-387X. — DOI: 10.1162/tacl_ a_00300.

78. Keyphrase Extraction from Scholarly Articles as Sequence Labeling using Con-textualized Embeddings / D. Sahrawat [et al.]. — 10/19/2019. — URL: http:// arxiv.org/abs/1910.08840 (visited on 06/19/2023). — Pre-published.

79. Citation-Enhanced Keyphrase Extraction from Research Papers: A Supervised Approach / C. Caragea, F. A. Bulgarov, A. Godea, S. Das Gollapalli // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP)). — Doha, Qatar: Association for Computational Linguistics, 2014.—P. 1435-1446.—DOI: 10.3115/v1/D14-1150.

80. Expert Feature-Engineering vs. Deep Neural Networks: Which Is Better for SensorFree Affect Detection? / Y. Jiang [и др.] // Artificial Intelligence in Education. Т. 10947 / под ред. C. Penstein Rosé [и др.]. — Cham : Springer International Publishing, 2018. —С. 198—211. —ISBN 978-3-319-93842-4 978-3-319-93843-1.—DOI: 10.1007/978-3-319-93843-1_15.

81. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // Компьютерная лингвистика и информационные технологии. Vol. 18. — М. : МИФИ, 2019. — P. 333-339. — (25). — DOI: 10.48550/ARXIV.1905.07213.

82. DeepPavlov: Open-Source Library for Dialogue Systems / M. Burtsev [et al.] // Proceedings of ACL 2018, System Demonstrations (Proceedings of ACL 2018,

System Demonstrations). — Melbourne, Australia : Association for Computational Linguistics, 2018. — P. 122-127. — DOI: 10.18653M/P18-4021.

83. HuggingFace's Transformers: State-of-the-art Natural Language Processing / T. Wolf [и др.]. — 13.07.2020. — URL: http://arxiv.org/abs/1910.03771 (дата обр. 11.03.2023).—Пред. пуб.

84. Korytov P. V., Kholod 1.1. Application of Text Analysis Methods to Recommend Student Choices // 2022 XXV International Conference on Soft Computing and Measurements (SCM) (2022 XXV International Conference on Soft Computing and Measurements (SCM)). — СПб.: IEEE, 05/25/2022. — P. 107-110. — ISBN 978-1-6654-9669-8. — DOI: 10.1109/SCM55405.2022.9794830.

85. Корытов П. Применение методов анализа текста для рекомендаций образовательных траекторий / Корытов Павел. — СПб. : СПбГЭТУ "ЛЭТИ", 2022. — 78 с.

86. Kholod 1.1., Korytov P. V., Sorochina M. V. Application of Neural Network Keyword Extraction Methods for Student's CV Compilation from Discipline Work Programs // 2023 XXVI International Conference on Soft Computing and Measurements (SCM) (2023 XXVI International Conference on Soft Computing and Measurements (SCM)). — Saint-Petersburg: IEEE, 05/24/2023. —P. 143-146. — ISBN 979-8-3503-2248-4. —DOI: 10.1109/SCM58628.2023.10159061.

87. Дале Д. Рейтинг русскоязычных энкодеров предложений. — 2022. — URL: https://habr.com/ru/articles/669674/ (дата обр. 01.06.2024).

88. Model2Vec: The fastest state-of-the-art static embeddings in the world. — 2024. — URL: https://github.com/MinishLab/model2vec (дата обр. 14.12.2024).

89. Scikit-learn: Machine learning in Python / F. Pedregosa [и др.] // Journal of Machine Learning Research. — 2011. — Т. 12. — С. 2825—2830.

90. Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine. // Proc. of MLMTA-2003. — 2003.

91. ekzhu/datasketch: v1.6.5/E. Zhu [и др.]. —Вер. v1.6.5. —Zenodo, 04.06.2024. — DOI: 10.5281/ZEN0D0.11462182.

92. TheFaiss library/M. Douze [etal.]. —2024. —URL: https://arxiv.org/abs/2401. 08281 (visited on 04/02/2025).

93. The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design / A. Snegirev [и др.]. — 2024. — URL: https://arxiv. org/abs/2408.12503 (дата обр. 02.04.2025).

94. Dale D. Маленький и быстрый BERT для русского языка. — 06.2021. — URL: https://habr.com/ru/post/562064/ (дата обр. 02.04.2025).

ПРИЛОЖЕНИЕ А. ПРИМЕР РАБОТЫ

Для конкретного примера можно рассмотреть две РПД СПбГЭТУ "ЛЭТИ", "Web-технологии" и "Web-программирование". Первые несколько строчек РПД с NER-разметкой приведены на рис. 4.2 и рис. 4.3.

Курск Web-технологии Technology » ОХВЭТЫВЭеТ ШИРОКИЙ СПбКТр ТеХНОЛОГИЙ И ПОДХОДОВ, использующихся при разработке Интернет-сайтов и web-приложений. Рассматриваются основы построения web-приложений с использованием HTML ProgLanguage CSS ProgLanguage .Студенты последовательно изучают основы протокола HTTP ProgLanguage , настройку web-сервера, основы

JavaScript ProgLanguage t TypeScrípt ProgLanguage и PHP ProgLanguage , построение СТЭТИЧеСКИХ HTML-страниц И оформления С использованием CSS ProgLanguage, LESS ProgLanguage И

SASS ProgLanguage , разработку Сервера ГфИЛОЖеНИ Й С И С ПОЛ ЬЗОВЭН ИеМ Node.JS Tool .Построение серверной части на основе Express Tool и Nest Tool , разработка клиентских приложений с использованием Angular Tool , React Tool и Vue ProgLanguage .Выполнение модульного тестирования Method web-приложений, сборка приложений с использованием GULP ProgLanguage и Webpack Tool , обеспечение безопасности web-приложений.. Целью дисциплины является приобретение теоретических знаний о современных web-технологиях Technology и фреймворках и практических умений и навыков по всем этапам

Рисунок 4.2 - Первые строчки РП "Web-технологии"

Дисциплина «Web-программирование» предусматривает теоретическое и практическое обучение студентов технологии программирования web-приложений Technology с использованием языка Java ProgLanguage . Основное вниманиеуделено изучению принципам построения трехзвенных архитектур с использованием сервера ApacheTomcat Tool , применению технологий JSP Too. и

GWT Tool для обеспечения работы клиента и взаимодействия с базой данных. Курс содержит лекционные занятия и лабораторные работы, при выполнении которых студенты овладевают практическими навыками разработки Web -приложений echnoiogy .. Цель освоения

Рисунок 4.3 - Первые строчки РП "Web-программирование"

Сравнение этих РПД с некоторыми сгруппированными вакансиями web-разработчика с использованием методов, разработанных в работе, приведено в таблице 4.7.

Таблица 4.7. Сравнение группы вакансий '^еЬ-разработчик Уиеоэ" с рабочими программами '^еЬ-технологии" (1) и '^еЬ-программирование" (2)

Группа вакансий Число вакансий Схожесть (РП 1) Схожесть (РП 2)

Web-разработчик Vue.js 90 0.60 0.08

Web-разработчик PHP 37 0.57 0.16

Web-разработчик 293 0.55 0.13

Web разработчик Laravel 105 0.54 0.10

Full-stack разработчик 55 0.50 0.11

Как можно заметить, разработанный метод определяет первую РПД как более схожую с актуальными вакансиями, чем вторую. Чтобы понять причину такого вердикта, можно посмотреть объяснение сравнения для обеих РП (таблица 4.8).

Причина заключается в том, что РПД отличаются по содержанию. В первой рассматривается большой набор доступных технологий, т.е. основные web-фреймворки (Vue.js, React, Angular), различные библиотеки, средства сборки, и т.п. Рабочая программа составлена с учётом требований рынка, в частности — популярности различных технологий на StackOverflow Survey, средней зарплаты программистов, владеющих технологиями и т.п. Поэтому студенту, изучившему эту дисциплину, открываются вакансии с различными технологиями web-разработки.

Вторая рабочая программа фокусируется на единственной технологии Apache Tomcat и JSP (Java). После изучения этой дисциплины студент должен искать вакансию с конкретной изученной технологией, которые доступны в меньшем числе, поэтому их ключевые слова имеют меньший вес в группах вакансий.

Таблица 4.8. Сравнение группы вакансий "Web-разработчик Vue.js" с рабочими программами "Web-технологии" (1) и "Web-программирование" (2)

Ключевое слово группы Вес Найдено в РП 1 Найдено в РП 2

git 0.28

javascript 0.24 +

php 0.24 +

docker 0.21

плюсом 0.20 +

typescript 0.19 +

css 0.19 + +

html 0.17 +

mysql 0.16 +

sass 0.16 + +

vue.js 0.16 +

gitlab 0.16

jquery 0.15 +

postgresql 0.15 +

linux 0.14 +

webpack 0.13 +

mongodb 0.13 +

js 0.12 + +

html5 0.12

vue 0.11 +

rest 0.11 +

scss 0.11 + +

css3 0.11 +

es6 0.11

api 0.11

nuxt.js 0.11 +

laravel 0.10 +

ооп 0.10 +

sql 0.10 +

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Корытов Павел Валерьевич

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Нейросетевой механизм кросс-внимания в задачах извлечения информации из текстов на примере биомедицинских данных2021 год, кандидат наук Алимова Ильсеяр Салимовна

Метод обнаружения межъязыковых заимствований в текстах2023 год, кандидат наук Аветисян Карен Ишханович

Модели, методы и программные средства извлечения оценочных отношений на основе фреймовой базы знаний2022 год, кандидат наук Русначенко Николай Леонидович

Введение диссертации (часть автореферата) на тему «Модель и методы обработки текстовой информации в задачах системы управления документами»

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Модель, метод и алгоритмы Data Mining для интеллектуальной обработки и анализа текстов на естественном языке2025 год, кандидат наук Мансур Али Махмуд

Терминологический поиск в коллекциях математических текстов2014 год, кандидат наук Заикин, Данила Александрович

Метод и алгоритмы создания онтологий на основе анализа метаданных и контекста слабоструктурированного контента2019 год, кандидат наук Волчек Дмитрий Геннадьевич

Методы сравнения и построения устойчивых к шуму программных систем в задачах обработки текстов2019 год, кандидат наук Малых Валентин Андреевич

Список литературы диссертационного исследования кандидат наук Корытов Павел Валерьевич, 2025 год