Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Менглиев Давлатёр Бахтиярович

  • Менглиев Давлатёр Бахтиярович
  • кандидат науккандидат наук
  • 2025, ФГАОУ ВО «Новосибирский национальный исследовательский государственный университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 98
Менглиев Давлатёр Бахтиярович. Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Новосибирский национальный исследовательский государственный университет». 2025. 98 с.

Оглавление диссертации кандидат наук Менглиев Давлатёр Бахтиярович

Введение

Глава 1. Основные подходы распознавания именованных сущностей

1.1 Правило-ориентированные методы

1.2 Статистические методы машинного обучения

1.3 Нейросетевые методы

1.4 Гибридные методы

1.5 Мультиязычные методы

1.6 Выводы по Главе

Глава 2. Основные понятия именованных сущностей и морфологии узбекского языка

2.1 Морфология узбекского языка и его особенности в компьютерной лингвистике

2.1.1 Агглютинативная природа языка

2.1.2 Вариативность и омонимия

2.1.3 Проблемы отсутствия ресурсов и данных

2.1.4 Диалектальное разнообразие

2.1.5 Ограниченная стандартизация и двойная письменность

2.2 Синтаксические особенности узбекского языка

2.3 Понятие именованных сущностей и их классификация

2.3.1 Определение именованных сущностей

2.3.2 Классификация именованных сущностей

2.3.3 Роль NER в обработке естественного языка

2.3.4 Особенности именованных сущностей в узбекском языке

2.3.5 Применение NER в узбекском языке

2.5 Выводы по Главе

Глава 3. Гибридный алгоритм распознавания именованных сущностей в узбекском языке

3.1 Формирование словаря именованных сущностей

3.2 Разработка правило-ориентированных алгоритмов

3.3 Выбор модели для выявления именованных сущностей

3.3.1 BERT

3.3.2 CNN (+BiLSTM)

3.3.3 Spacy

3.4 Выводы по Главе

Глава 4. Оценка эффективности разработанного инструмента

4.1 Оценка алгоритмов морфологического анализа

4.2 Оценка моделей ИИ на базе mBERT, Spacy и BiLSTM

4.3 Сравнение метрик моих моделей с аналогами

4.4 Выводы по Главе

Заключение

Использованная литература

80

Публикации автора по теме диссертации

Список рисунков

Список таблиц

Приложение А. Акты о внедрении

Введение

Объект исследования — процессы автоматической обработки естественного языка на примере узбекского языка, в частности связанные с распознаванием именованных сущностей.

Предмет исследования — разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке, в котором совмещены правило-ориентированные алгоритмы с нейросетевыми технологиями.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке»

Актуальность исследования

Разработка инструментов и ресурсов для распознавания именованных сущностей (РИС) в узбекском языке представляет собой важное направление в области компьютерной лингвистики и обработки естественного языка. Узбекский язык, являющийся государственным языком Узбекистана, используется более чем 35 миллионами человек и имеет уникальные языковые особенности, которые создают как сложности, так и возможности для автоматической обработки текстов [1-3].

В последние годы в Узбекистане наблюдается стремительный рост применения искусственного интеллекта, а также объема текстовой информации в электронном виде — от правительственных документов и научных исследований до СМИ, социальных сетей и маркетплейсов [4-7]. Кроме того, в стране активно развиваются такие направления как электронная коммерция, цифровизация логистики и в целом - цифровая трансформация [8-9] Этот рост подчеркивает необходимость создания эффективных автоматизированных систем для анализа текстов, включая извлечение информации, перевод, обработку больших данных и информационный поиск. Инструменты для распознавания именованных сущностей могут значительно улучшить качество работы таких систем, предоставляя возможность выделять и классифицировать ключевые элементы текста, такие как имена собственные, названия организаций и географические объекты [10-11].

Узбекский язык относится к агглютинативным языкам тюркской семьи, что означает, что он обладает сложной морфологией и богатой словообразовательной структурой [12-13]. Например, в узбекском языке существительные и глаголы могут иметь множество форм в зависимости от падежа, числа, времени и других грамматических категорий [14-15]. Эти особенности создают дополнительные сложности для автоматической обработки текста, поскольку требуют точных морфологических и синтаксических анализаторов, способных различать корни слов и их аффиксы.

Сложность также заключается в наличии множества диалектов и вариаций в узбекском языке, что затрудняет создание универсальных инструментов для

анализа текстов [16-18]. Большинство существующих NER-систем разрабатывались для языков с меньшей морфологической вариативностью и большей доступностью ресурсов, таких как английский или китайский [19-24]. Для наиболее близких к узбекскому, из того же тюркского семейства языков -казахский и татарский [25-28] Поэтому создание специализированных моделей и инструментов для узбекского языка является важным и актуальным исследовательским направлением.

Целью данного исследования является разработка методов и программных средств для распознавания именованных сущностей в узбекском языке, с учетом его лингвистических особенностей и многообразия диалектов. Это позволит улучшить качество автоматической обработки текстов на узбекском языке, поддержать развитие цифровых технологий в Узбекистане и создать базу для применения разработанных методов и подходов к другим тюркским языкам.

Задачи исследования:

Для достижения указанной цели применяется гибридный подход, сочетающий правило-ориентированные (лингвистические) методы с нейросетевыми моделями глубокого обучения (BERT, CNN+BiLSTM, SpaCy). Метод исследования включает следующие этапы:

1. Сбор и предварительная обработка данных: создание и аннотирование специализированного корпуса узбекских текстов с учетом агглютинативной морфологии и различных диалектных форм.

2. Разработка и систематизация лингвистических правил и словарей, учитывающих морфологические и диалектные особенности узбекского языка. Эти ресурсы применяются на этапе предварительной и постобработки текстов.

3. Подготовка и экспериментальная оценка различных нейросетевых моделей, их сравнительный анализ и выявление наилучших решений применительно к задаче распознавания именованных сущностей.

4. Валидация и тестирование на специально сформированном тестовом наборе текстов, анализ ошибок и последующее улучшение алгоритмов.

Научная новизна

1. Впервые разработан гибридный алгоритм распознавания именованных сущностей для узбекского языка, который сочетает правило-ориентированные методы с современными нейросетевыми моделями. Этот алгоритм учитывает агглютинативную природу узбекского языка и его диалектные особенности, которые являются серьёзной преградой для существующих решений.

2. Впервые подготовлен аннотированный корпус текстов на узбекском языке объемом 10 000 предложений, содержащий разметку

именованных сущностей по категориям: имена лиц, названия организаций, географические объекты и др. Этот ресурс восполняет недостаток лингвистических данных для узбекского языка и может быть использован в будущих исследованиях.

3. Впервые проведен сравнительный анализ эффективности моделей глубокого обучения (BERT, CNN+BiLSTM, SpaCy) в задаче распознавания именованных сущностей для узбекского языка. Выявлены особенности применения этих моделей к агглютинативным языкам и предложены рекомендации по их оптимизации.

4. Разработаны и впервые систематизированы лингвистические правила и словари, учитывающие морфологические особенности узбекского языка, что улучшило качество распознавания именованных сущностей и может быть интегрировано в другие NLP-системы для узбекского языка.

5. Впервые разработан алгоритм и словарь для стандартизации диалектных слов узбекского языка в формальную версию.

Практическая ценность исследования

Результаты исследования имеют значительную практическую ценность и применены следующими организациями:

1. Хорезмский областной хокимият (офис Губернатора Хорезмской области) -предложенный алгоритм используется для ускорения классификации прошений, жалоб и обращений граждан региона. В частности, благодаря внедрению алгоритма выявления именованных сущностей, время, затрачиваемое на распределение обращений граждан по соответствующим ведомствам, сократилось на 30% (прилагается Акт о внедрении).

2. Хорезмский областной филиал АК «Узбектелеком» - были внедрены алгоритмы транслитерации кириллицы на латиницу, стандартизации диалектных форм на формальные эквиваленты, а также выявления именованных сущностей. Необходимо отметить, что после внедрения вышеупомянутых алгоритмов, время, затрачиваемое на первичную обработку обращений, сократилось на 50%, а общая скорость обработки обращений граждан (от момента получения обращения до её выполнения) увеличилась на 30% (прилагается Акт о внедрении).

3. Ургенчский филиал Ташкентского университета информационных технологий (УФТУИТ) - были использованы для успешной реализации научно-прикладных исследовательских грантов, которые были выполнены командами ученых УФТУИТ. Материалы диссертационной работы были включены в состав таких учебных курсов как «Компьютерная лингвистика»

и «Поиск и извлечения информации», которые ведутся к студентов магистратуры УФТУИТ (прилагается Акт о внедрении). 4. OOO "ZUV EXPRESS" (резидент ИТ-парка Узбекистана) - были использованы алгоритмы предобработки текстов, в частности алгоритм морфологического анализа, транслитерации букв из кириллицы на латиницу, а также диалектное стандартизация. Кроме того, отдельно упомянуты языковые модели выявления именованных сущностей, на базе которых были использованы технологии BERT, Keras и Tensorflow.

Теоретическая ценность исследования заключается в том, что в работе впервые для тюркского языка разработан гибридный алгоритм, сочетающий в себе правило-ориентированные алгоритмы с нейросетевыми моделями. Это позволяет более точно выявлять именованные сущности в текстах узбекского языка, учитывая его морфологические и диалектические особенности. Основные результаты диссертации

1. Разработан гибридный алгоритм распознавания именованных сущностей для узбекского языка, который сочетает правило-ориентированные методы с современными нейросетевыми моделями (BERT, CNN + BiLSTM, SpaCy). Алгоритм учитывает агглютинативную природу узбекского языка и диалектальное разнообразие, что позволяет повысить точность распознавания именованных сущностей.

2. Сформирован аннотированный корпус текстов на узбекском языке объемом 10 000 предложений из законодательных актов, юридических документов, новостных сайтов, а также вручную созданные предложения для увеличения количества именованных сущностей. Проведена ручная аннотация по схеме BIOES, что обеспечивает более точное определение границ именованных сущностей. Корпус восполняет недостаток лингвистических ресурсов для узбекского языка и может быть использован в будущих исследованиях.

3. Разработаны правило-ориентированные алгоритмы предварительной обработки текста, в частности:

- Алгоритм транслитерации успешно преобразует кириллические символы в латиницу с точностью 100%, что важно из-за двойной письменности узбекского языка.

- Алгоритм стандартизации преобразует диалектные слова в литературные аналоги с точностью 97,4%, учитывая диалектальное разнообразие.

- Алгоритм морфологического анализа обрабатывает сложные словоформы с точностью 94,8%, что существенно для агглютинативного языка.

- Алгоритм постобработки позволяет существенно улучшить результаты анализа текстов языковыми моделями, путем исполнения встроенных правил.

4. Проведен сравнительный анализ нейросетевых моделей NER:

- Модель mBERT достигла наилучших результатов с Fl-мерой 92,0% без постобработки (95,2% с постобработкой), демонстрируя высокую способность обрабатывать контекст и сложные языковые структуры.

- Модель CNN + BiLSTM показала Fl-меру 90,8% без постобработки (93,8% с постобработкой), являясь компромиссом между точностью и скоростью обучения и инференса.

- Модель SpaCy достигла Fl-меры 76,5% без постобработки (81,1% с постобработкой), но обладает преимуществом в скорости обработки, что делает ее подходящей для приложений с ограниченными ресурсами.

5. Установлено влияние предварительной обработки на эффективность моделей:

- Качественная предварительная обработка текстов с помощью разработанных правило-ориентированных алгоритмов повышает точность и полноту распознавания именованных сущностей.

- Улучшение качества входных данных способствует повышению производительности нейросетевых моделей.

6. Разработаны лингвистические ресурсы и словари для узбекского языка:

- Созданы словари диалектных слов, аффиксов и транслитерации, учитывающие морфологические особенности языка.

- Эти ресурсы могут быть интегрированы в другие системы обработки естественного языка и способствуют развитию технологий для узбекского языка.

7. Внесен вклад в развитие технологий обработки естественного языка для узбекского языка:

- Результаты исследования способствуют улучшению качества цифровых сервисов на узбекском языке.

- Созданы предпосылки для дальнейших исследований и разработок в области искусственного интеллекта и компьютерной лингвистики для узбекского языка.

Апробация работы.

Основные результаты работы были представлены на 10 международных

конференциях, в их числе: 1. Международная конференция, 2022 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON 2022), Екатеринбург, Россия, 11-13 ноября 2022г.;

2. Международная конференция, 2023 IEEE 24th International Conference of Young Professionals in Electron Devices and Materials (EDM), Алтай, Россия, 29 июня - 02 июля 2023г.;

3. Международная конференция, 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), Новосибирск, Россия, 28-29 сентября 2023г.;

4. Международная конференция, 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Новосибирск, Россия, 10-12 ноября 2023г.;

5. Международная конференция, 2024 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), Екатеринбург, Россия, 13-15 мая 2024г.;

6. Международная конференция, 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Алтай, Россия, 28 июня - 02 июля 2024г.;

7. Международная конференция, 2024 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Новосибирск, Россия, 30 сентября - 02 октября 2024г.;

8. Международная конференция, Modern problems of applied science and engineering, Самарканд, Узбекистан, 02-03 мая 2024г.

9. IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), Новосибирск, Россия, 15-17 ноября 2024г.

10.4th International Conference on Technological Advancements in Computational Sciences (ICTACS - 2024), Ташкент, Узбекистан, 13-15 ноября 2024г.

Все доклады были сделаны мной лично.

Публикации. Основные результаты по теме диссертации изложены в 23 статьях, 3 из которых изданы в периодических научных журналах, оставшиеся включены в сборник материалов конференции. Все публикации проиндексированы в базе Scopus. В частности, была опубликована статья «Development of Intellectual Web System for Morph Analyzing of Uzbek Words» в журнале Applied Sciences (Q2 на базе Web of Science).

Объем и структура работы. Диссертация состоит из введения, 4 глав и заключения. Полный объем диссертации составляет 98 страниц, включая 36 рисунков и 15 таблиц. Список литературы содержит 94 наименований

Глава 1. Основные подходы распознавания именованных сущностей

С развитием технологий и увеличением объемов доступных текстовых данных, подходы к NER претерпели значительные изменения — от ранних правил и статистических моделей до современных нейросетевых и мультиязычных методов [31]. В данной секции рассматриваются основные существующие подходы к NER, их преимущества и недостатки, а также их применимость к языкам с ограниченными ресурсами, таким как узбекский.

1.1 Правило-ориентированные методы

Правило-ориентированные методы являются одними из первых и наиболее фундаментальных подходов в задаче распознавания именованных сущностей [32]. Эти методы строятся на основе заранее определенных лингвистических правил и шаблонов, созданных экспертами.

Грамматические правила и шаблоны

Правило-ориентированные методы основываются на языковых особенностях, учитывающих структуру и использование слов в языке [33]. Для узбекского языка, например, можно выделить несколько типичных правил и шаблонов:

— Имена людей или организаций часто начинаются с заглавной буквы [34]. Это правило может быть использовано для идентификации имен собственных в тексте. Однако, в узбекском языке встречаются исключения, такие как имена, которые могут иметь разные окончания(Davlatyor / Davlatnazar / Davlatboy / Davlatmurod) или включать дефисы(qo'ra-Bair, qari-Yusuf).

— Узбекский язык характеризуется богатой аффиксацией [35]. Например, топонимы часто заканчиваются на суффиксы "-кент", "-кала" (город) или "-кургон" (укрепление). Используя правила, можно определить географические объекты, базируясь на подобных суффиксах.

— Шаблоны могут быть созданы для распознавания типичных конструкций, содержащих именованные сущности. Например, шаблон "город [имя]" может использоваться для поиска названий населенных пунктов.

Регулярные выражения

Регулярные выражения — это достаточно популярный инструмент для создания шаблонов, которые соответствуют определенным структурам в тексте [36]. В контексте NER для узбекского языка регулярные выражения могут быть использованы для распознавания:

— Дат: Например, шаблоны, которые соответствуют датам в форматах "12 май 2021" или "12/05/2021".

— Адресов: Адреса могут быть определены с помощью регулярных выражений, которые ищут комбинации улиц, номеров домов и названий населенных пунктов.

Использование словарей (газетеров)

Словари (или газетеры) — это заранее составленные списки именованных сущностей, такие как списки имен, названий мест, организаций и прочих объектов

[37]. Эти списки используются для прямого поиска и сопоставления сущностей в тексте. Для узбекского языка можно использовать словари:

— Имен собственных: Например, "Абдулла", "Нуриддин", которые часто встречаются в узбекских текстах.

— Топонимов: Включают географические названия, такие как "Тошкент", "Самарканд".

— Организаций: Списки известных организаций, таких как "Узбекистон Республикаси давлат ахборот агентлиги".

Преимущества правило-ориентированных методов

— В условиях, когда доступно мало данных, можно создать эффективные правила, учитывающие особенности узбекского языка, чтобы достичь высоких показателей точности для специфических доменов.

— Эти методы не зависят от больших объемов данных для обучения, что делает их полезными для низкоресурсных языков.

— Правила легко интерпретировать и объяснить, что важно для прозрачности и доверия к системе.

Ограничения правило-ориентированных методов

— Правила могут быть эффективны в ограниченных контекстах, но требуют адаптации и постоянной поддержки для работы с новыми текстами и ситуациями.

— Система не будет в состоянии распознать новые именованные сущности, которые не были заранее определены в правилах или словарях.

— Разработка эффективных правил требует глубоких лингвистических знаний и значительного времени на их настройку и тестирование.

Примеры применения правило-ориентированных методов для узбекского языка

Одним из ярких примеров реализации подобного подхода является работа

[38], опубликованная в рамках конференции IEEE. Авторы разработали инструмент для распознавания именованных сущностей в узбекском языке, основанный на правило-ориентированном подходе и использовании газетеров — списков географических имен, которые ускоряют процесс и уменьшают ошибки омонимии. Было создано два алгоритма: первый использует морфологический анализ, учитывая агглютинативную природу узбекского языка, и эффективно распознает сущности из газетера, но успешно идентифицирует лишь 24% новых сущностей; второй дополняет морфологический анализ синтаксическим, учитывая структуру предложений и повышая точность до 68% для сущностей,

отсутствующих в газетере. Преимущества подхода включают простоту реализации, масштабируемость и отсутствие необходимости в больших размеченных данных, что особенно важно для языков с ограниченными ресурсами, однако зависимость от полноты газетеров и ограниченная применимость правило-ориентированных методов к более сложным сущностям остаются ограничениями. Схема работы алгоримов изображены на рисунке 1 и рисунке 2 соответственно.

Рисунок 1 - Блок-схема работы алгоритма морфологического анализа

Рисунок 2 - Блок-схема работы алгоритма синтаксического анализа

Еще одним примером применения статистических методов является статья [39], где целью исследования является изучение и разработка методов распознавания именованных сущностей в текстах на узбекском языке. Статья подчеркивает важность задачи NER для обработки естественного языка и предлагает несколько подходов к созданию эффективной системы NER для узбекского языка, включая словарный подход, методы на основе правил, машинное обучение и глубокое обучение. Авторы представили пример интерфейса программы "Uzbek NER analyzer" для автоматической классификации слов по категориям в узбекских текстах, использующей словарные базы данных, такие как словари узбекских имен и топонимические словари, что позволяет идентифицировать известные именованные сущности на основе предварительно составленных списков. Они также отмечают возможность повышения точности с помощью методов машинного и глубокого обучения, упоминая модели LSTM,

CNN и трансформеры (например, BERT), хотя неясно, внедрены ли эти модели в текущей версии программы или рассматриваются для будущих исследований. Основные недостатки статьи включают отсутствие детальной информации о реализованном алгоритме и его технических характеристиках, а также отсутствие информации о доступе к программе, такой как ссылка на GitHub-репозиторий или сайт для скачивания. На рисунке 3 изображен интерфейс предлагаемой программы.

Рисунок 3 - Интерфейс разработанной программы выявления именованных сущностей

Статья [40] посвящена разработке интеллектуального веб-приложения для морфологического анализа узбекских слов, используя правило-ориентированный подход на основе генерации словоформ и анализа корней слов, включая модифицированный под узбекский язык алгоритм стемминга Портера. Программа применяет правила для анализа структуры слова, определяя падежи, числа и принадлежность, и сравнивается с существующими решениями, такими как UzMor (архитектура показана на рисунке 4), который использует словарь из 30 000 корней для генерации более 1,5 миллиона словоформ через отсечение аффиксов, и Uz-Kaz-Nlp-Tools (скриншот интерфейса изображен на рисунке 5), использующий расширенную базу аффиксов без хранения корней слов для распознавания большего числа частей речи. Учитывая ограничения этих решений, авторы предложили новую систему UzMorphoanalyzer (UM) с базой данных из более 80 000 корней слов, расширенной базой из более 100 аффиксов и базой слов-исключений, что позволяет обрабатывать сложные морфологические формы основных частей речи. Программа анализирует входное слово, разлагает его на корень и аффиксы и возвращает морфологическую информацию, такую как число, падеж и принадлежность; например, слово "uylarimizga" ("нашим домам") разбивается на "uy" (корень, "дом"), "lar" (множественное число), "imiz" ("наш"), "ga" (дательный падеж). В ходе тестирования на 200 словах из разных частей речи система правильно обработала все слова, что демонстрирует её эффективность в морфологическом анализе узбекского языка. На рисунке 6 изображена архитектура UzMorphoanalyzer, а на рисунке 7 его интерфейс.

Ьо1а +- 1аггтйг

Рисунок 4 - Архитектура алгоритма ^Мог

«\Vord» (Ыпоког1аг)

а

Word+a+ab

(Шпо) + (ког) + <1аг)

N01111

МШ= <а>

М№ <аЬ>

и

Словарь Словарь

основ 1 оковчаввЙ

Рисунок 5 -Интерфейс веб-приложения Ш-Ка2-Мр-Тоо18

Рисунок 6 - Архитектура веб-приложения морфологического анализа ^МогрЬоапа^ег

Рисунок 7 - Интерфейс веб-приложения морфологического анализа UzMorphoanalyzer 1.2 Статистические методы машинного обучения

В рамках методов машинного обучения можно подчеркнуть такие алгоритмы, как Наивный Байесовский классификатор [41], логистическая регрессия [42] и НММ (скрытые марковские модели) [43] и др. Они обучаются на размеченных корпусах данных.

Наивный байесовский классификатор

Наивный Байесовский классификатор — это простой и эффективный вероятностный классификатор, который использует теорему Байеса для предсказания класса объекта. Основное предположение этого метода заключается в том, что все признаки (или слова) условно независимы друг от друга при заданном классе. Это предположение называется "наивным", поскольку в реальной жизни признаки не всегда независимы, но классификатор все равно показывает хорошие результаты в различных задачах.

Теорема Байеса

Теорема Байеса (формула 1) используется для расчета апостериорной вероятности класса:

Р(Х1С)*Р(С)

Р(С! X)

Р(Х)

(1)

где:

— Р(С/Х) — вероятность класса С при условии набора признаков X (апостериорная вероятность).

— Р(Х/С)— вероятность наблюдения X при условии класса С (правдоподобие).

— Р(С) — априорная вероятность класса С.

— Р(Х) — полная вероятность набора признаков X. Пример использования в КЬГ

Для задачи анализа тональности, каждый документ (текст) представляется как вектор признаков (например, частота слов), и наивный Байесовский классификатор предсказывает, является ли текст положительным или отрицательным. Плюсы и Минусы: Плюсы:

— Наивный Байесовский классификатор легко реализовать и быстро обучать, что позволяет быстро прототипировать модели для NER.

Минусы:

— NER является задачей последовательной разметки, где важен контекст соседних слов. Наивный Байесовский классификатор не учитывает последовательность слов, что снижает его эффективность в NER.

— В NER контекст и взаимосвязи между словами критически важны. Предположение о независимости признаков ограничивает способность модели улавливать эти зависимости.

— В сравнении с более современными методами, Наивный Байес часто показывает низкую точность в задачах NER.

Logistic regression (логистическая регрессия)

Логистическая регрессия — это метод статистического анализа, используемый для бинарной классификации, который предсказывает вероятность принадлежности наблюдения к одному из двух классов. В отличие от линейной регрессии, логистическая регрессия использует логистическую функцию (сигмоиду), чтобы ограничить выходные значения в диапазоне от 0 до 1.

Логистическая функция

Функция логистической регрессии выглядит следующим образом (формула 2):

i

Р(У = ЦХ) - 1 + е-(р0+ plXl+ Р2Х2+-.+ РпХп) (2

где:

— P(y=1 /X) — вероятность принадлежности к классу 1 (положительный класс) при условии набора признаков X.

— До, р1,.. .,ри — коэффициенты модели (веса признаков).

— X1,X2,---,X„ — входные признаки.

Пример использования в NLP

Для задачи классификации текста (например, спам/не спам), логистическая регрессия обучается на векторах признаков (например, TF-IDF или частота слов) и предсказывает вероятность, что сообщение является спамом.

Плюсы и Минусы

Плюсы:

— Коэффициенты модели могут помочь понять влияние отдельных признаков на предсказание, что полезно при анализе результатов NER.

— Можно использовать различные инженерные признаки, включая лингвистические, для улучшения модели.

Минусы:

— Как и Наивный Байес, логистическая регрессия не учитывает последовательную природу текста, что является существенным недостатком для NER.

— Логистическая регрессия не справляется с нелинейными зависимостями без дополнительных трансформаций признаков.

Support vector machines (svm, метод опорных векторов)

Метод опорных векторов (Support Vector Machines, SVM) — это алгоритм машинного обучения, используемый для задач классификации и регрессии [44]. Основная идея SVM заключается в поиске гиперплоскости, которая максимально разделяет данные на разные классы. Эта гиперплоскость выбирается таким образом, чтобы расстояние (зазор) между гиперплоскостью и ближайшими точками (опорными векторами) каждого класса было максимальным.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Менглиев Давлатёр Бахтиярович, 2025 год

Использованная литература

1. Kuriyozov E., Matlatipov S., Alonso A., Gómez-Rodríguez C. Construction and Evaluation of Sentiment Datasets for Low-Resource Languages: The Case of Uzbek // Human Language Technology. Challenges for Computer Science and Linguistics. LTC 2019. Lecture Notes in Computer Science, 2022, vol 13212, Springer, Cham, pp. 232-243. [Electronic resource] URL: https://doi.org/10.1007/978-3-031-05328-3 15 (дата обращения: 16.10.2024)

2. Matlatipov, S., Tukeyev, U., Aripov, M. (2020). Towards the Uzbek Language Endings as a Language Resource. In: Hernes, M., Wojtkiewicz, K., Szczerbicki, E. (eds) Advances in Computational Collective Intelligence. ICCCI 2020. Communications in Computer and Information Science, vol 1287. Springer, Cham. [Electronic resource] URL: https://doi.org/10.1007/978-3-030-63119-2 59 (дата обращения: 16.10.2024)

3. Design and Implementation of a Tool for Extracting Uzbek Syllables // 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 10-12 November 2023, pp. 1750-1755, [Electronic resource] URL: https://doi.org/10.1109/APEIE59731.2023.10347773 (дата обращения: 16.10.2024)

4. Указ Президента Республики Узбекистан, О Стратегии «Узбекистан - 2030», от 11.09.2023 г. № УП-158 [Электронный ресурс] URL: https://lex.uz/ru/docs/6600404 (дата обращения: 16.10.2024)

5. Состоялась презентация мер по развитию технологий искусственного интеллекта и стартап-проектов // Новость на официальном сайте Президента Республики Узбекистан [Электронный ресурс] URL: https://president.uz/ru/lists/view/7464 (дата обращения: 16.10.2024)

6. Хасанов Б.М. Интернет-СМИ в Узбекистане и их влияние на развитие гражданского общества // Локус: люди, общество, культуры, смыслы. 2017. №2. [Электронный ресурс] URL: https://cyberleninka.ru/article/n/internet-smi-v-uzbekistane-i-ih-vliyanie-na-razvitie-grazhdanskogo-obschestva (дата обращения: 16.10.2024)

7. Обзор Узбекистана Европейской экономической комиссией организации объединенных наций (ООН) // Инновации для устойчивого развития, С. 33. [Электронный ресурс] URL: https://unece.org/sites/default/files/2023-05/2207339 R ECE CECI 31 WEB.pdf (дата обращения: 16.10.2024)

8. Кобилов А.У., Рауфжонова Д.О. Влияние цифровых технологий на экономический рост Республики Узбекистан // Экономика и социум. 2022. №11-1 (102). [Электронный ресурс] URL: https://cyberleninka.ru/article/n/vliyanie-tsifrovyh-tehnologiy-na-ekonomicheskiy-rost-respubliki-uzbekistan (дата обращения: 16.10.2024)

9. Республика Узбекистан присоединилась к кампании «50-in-5» Новость на официальном сайте Министерства цифровых технологий Республики Узбекистан, 2024, [Электронный ресурс] URL: https://digital.uz/ru/news/view/22281/ (дата обращения: 16.10.2024)

10. Elov B., Samatboyeva M. Identifying ner (named entity recognition) objects in uzbek language texts // Science and innovation international scientific journal, 2023, vol. 2, issue 4, pp. 44-57.

11. Mengliev D., Barakhnin V., Abdurakhmonova N., Eshkulov M. Developing named entity recognition algorithms for Uzbek: Dataset insights and implementation // Data in Brief, 2024, volume 54, 110413. [Electronic resource] URL: https://doi.org/10.17632/p6rcwf4p9c.1 (дата обращения: 16.10.2024)

12. Kuriyozov E., Doval Y., Gomez-Rodriguez C. Cross-Lingual Word Embeddings for Turkic Languages // Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), Marseille, 11-16 May 2020, pp. 4054-4062.

13. Abdurakhmonova N., Ismailov A., Mengliev D. Developing NLP tool for linguistic analysis of Turkic languages // 2022 IEEE International Multi-Conference on Engineering, Yekaterinburg, Russian Federation, Computer and Information Sciences (SIBIRCON), 2022, pp. 1790-1793. [Electronic resource] URL: https://doi.org/10.1109/SIBIRCON56155.2022.10017049 (дата обращения: 16.10.2024).

14. Mengliev D., Akhmedov E., Barakhnin V., Hakimov Z., Alloyorov O. Utilizing Lexicographic Resources for Sentiment Classification in Uzbek Language // 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 2023, pp. 1720-1724. [Electronic resource] URL: https://doi.org/10.1109/APEIE59731.2023.10347765 (дата обращения: 16.10.2024).

15. Bakaev I., Shafiev T. Morphemic analysis of Uzbek nouns with Finite State Techniques // Journal of Physics: Conference Series, 2020, vol. 1546, 012076, [Electronic resource] URL: https://doi.org/10.1088/1742-6596/1546/1/012076 (дата обращения: 16.10.2024).

16. Mengliev D., Abdurakhmonova N., Hayitbayeva D., Barakhnin V. Automating the Transition from Dialectal to Literary Forms in Uzbek Language Texts: An Algorithmic Perspective // 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 2023, pp. 1440-1443, [Electronic resource] URL: https://doi.org/10.1109/APEIE59731.2023.10347617 (дата обращения: 16.10.2024).

17. Рахматова С.А., Кузибаева ММ. ОБЩНОСТЬ И СПЕЦИФИКА ДИАЛЕКТИКИ И ЕЕ ОТРАЖЕНИЕ В МОРФОЛОГИИ УЗБЕКСКОГО ЯЗЫКА // Экономика и социум. 2021. №9 (88). [Электронный ресурс] URL: https://cyberleninka.ru/article/n/obschnost-i-spetsifika-dialektiki-i-ee-otrazhenie-v-morfologii-uzbekskogo-yazyka (дата обращения: 16.10.2024).

18. Enazarov T. D. DIALEKTAL MATNLARNING LEKSIK TAHLILI METODINING AMALIY AHAMIYATI // ORIENSS, 2022, volume 2, issue 4. [Электронный ресурс] URL: https://cyberleninka.ru/article/n/dialektal-matnlarning-leksik-tahlili-metodining-amaliy-ahamiyati (дата обращения: 16.10.2024).

19. Cho H., Lee H. Biomedical named entity recognition using deep neural networks with contextual information // BMC Bioinformatics, 2019, vol. 20, 735.

20. Galea D., Laponogov I., Veselkov K. Exploiting and assessing multi-source data for supervised biomedical named entity recognition, Bioinformatics, vol. 34, issue 14, 2018.

21. Ahmed I., Sathyaraj R. Named Entity Recognition by Using Maximum Entropy // International Journal of Database Theory and Application, 2015, vol.8, No.2, pp.43-50.

22. Tran V.C., Nguyen N.T., Fujita H., Hoang D.T., Hwang D. A combination of active learning and self-learning for named entity recognition on Twitter using conditional random fields // Knowledge-Based Systems, 2017, vol. 132, pp. 179-187.

23. Liu P, Guo Y., Wang F., Li G. Chinese named entity recognition: The state of the art // Neurocomputing, 2022, vol. 473, pp. 37-53. [Electronic resource] URL: https://doi.org/10.1016/j.neucom.2021.10.101 (дата обращения: 16.10.2024).

24. Ma R., Peng M., Zhang Q., Wei Zh., Huang X. Simplify the Usage of Lexicon in Chinese NER // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, July 2020, pp. 5951-5960. [Electronic resource] URL: https://doi.org/10.18653/v1/2020.acl-main.528 (дата обращения: 16.10.2024).

25. Akhmed-Zaki D., Mansurova M., Barakhnin V., Kubis M., Chikibayeva D., Kyrgyzbayeva M. Development of Kazakh Named Entity Recognition Models // International Conference on Computational Collective Intelligence 2020, 2020, LNAI 12496, pp. 697-708.

26. Nevzorova O., Mukhamedshin D., Galieva A. Named Entity Recognition in Tatar: Corpus-Based Algorithm // CEUR-WS Conference proceedings, 2023, vol. 2023/4. Electronic resource] URL: https://ceur-ws.org/Vol-2303/paper4.pdf (дата обращения: 16.10.2024).

27. Mansurova M., Barakhnin V., Khibatkhanuly Y., Pastushkin I. Named Entity Extraction from Semistructured Data Using Machine Learning Algorithms // Computational Collective Intelligence (ICCCI 2019), 2019, pp. 58-69.

28. Yeshpanov R., Khassanov Y., Varol A.H. KazNERD: Kazakh Named Entity Recognition Dataset // Proceedings of the Thirteenth Language Resources and Evaluation Conference, 2022, Marseille, France, pp. 417-426.

29. Mengliev D. B, Barakhnin V. B., Samandarova B. S., Shamieva N. A., Rakhmanova U. U., Ibragimov B. B. Towards Effective Named Entity Recognition in Uzbek Medical Contexts // 2024 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Novosibirsk, Russian Federation, 2024, pp. 294-298. [Electronic resource] URL: https://doi.org/10.1109/SIBIRC0N63777.2024.10758445 (дата обращения: 16.10.2024)

30. Mengliev D., Barakhnin V., Eshkulov M., Palvanov B., Abdurakhmonova N., Khamraeva S. Dictionary-Based Medical Text Analysis in Uzbek: Overcoming the Low-Resource Challenge // 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), Novosibirsk, Russian Federation, 2023, pp. 85-89. [Electronic resource] URL: https://doi.org/10.1109/CSGB60362.2023.10329819 (дата обращения: 16.10.2024)

31. Mansurova M., Barakhnin V., Ospan A., Titkov R. Ontology-Driven Semantic Analysis of Tabular Data: An Iterative Approach with Advanced Entity Recognition // Appl. Sci. 2023, 13, 10918. [Electronic resource] URL: https://doi.org/10.3390/app131910918 (дата обращения: 16.10.2024)

32. Martin Atzmuller, Peter Klugl, Frank Puppe, "Rule-Based Information Extraction for Structured Data Acquisition using TEXTMARKER", LWA 2008 - Workshop-Woche: Lernen, Wissen & Adaptivitat, Wurzburg, 6.-8. Oktober 2008, Proceedings.

33. M. S. Sharipov, H. S. Adinaev, E. R. Kuriyozov. Rule-Based Punctuation Algorithm for the Uzbek Language. // 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, 2024, pp. 2410-2414. [Electronic resource] URL: https://doi.org/10.1109/EDM61683.2024.10615061.

34. K. Madatov, S. Bekchanov, J. Vicic. Dataset of stopwords extracted from Uzbek texts // Data in Brief, 2022, vol. 43108351. [Electronic resource] URL: https://doi.org/10.1016/j.dib.2022.108351 (дата обращения: 16.10.2024)

35. B. Mengliyev, S. Shahabitdinova, S. Khamroeva, S. Gulyamova and A. Botirova. The morphological analysis and synthesis of word forms in the linguistic analyzer // Journal of Language and Linguistic Studies, 2021, vol. 17, no. 1, pp. 558-564.

36. Kaur Gaganpreet. Usage of regular expressions in NLP // International Journal of Research in Engineering and Technology, 2014, volume 3, pp. 168-174. [Electronic resource] URL: https://doi.org//10.15623/ijret.2014.0301026 (дата обращения: 16.10.2024)

37. Machado Ivre, Alencar Rafael, Junior Roberto, Davis Clodoveu. An Ontological Gazetter for Geographic Information Retrieval // Proceedings of the Brazilian Symposium on GeoInformatics, December 2010, pp. 21-32.

38. D. B. Mengliev, V. B. Barakhnin, M. Atakhanov, B. B. Ibragimov, M. Eshkulov and B. Saidov, "Developing Rule-Based and Gazetteer Lists for Named Entity Recognition in Uzbek Language: Geographical Names," 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 2023, pp. 1500-1504. [Electronic resource] URL: https://doi.org/10.1109/APEIE59731.2023.10347697 (дата обращения: 16.10.2024)

39. B. Elov, M.Samatboyeva. Identifying ner (named entity recognition) objects in Uzbek language texts // Science and innovation international scientific journal, 2023, volume 2, issue 4.

40. D. Mengliev, V. Barakhnin, N. Abdurakhmonova. Development of Intellectual Web System for Morph Analyzing of Uzbek Words // Appl. Sci. 2021, 11, 9117. [Electronic resource] URL: https://doi.org/10.3390/app11199117 (дата обращения: 16.10.2024)

41. P. Domingos, M. J. Pazzani. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss // Machine Learning, 1997, vol. 29, nos. 2/3, pp. 103-130.

42. J.S. Cramer. The Origins of Logistic Regression // SSRN Electronic Journal, 2002, vol. 119, 4, pp. 1-15.

43. P. Wallisch, M. E. Lusignan, M. Benayoun, T. I. Baker, A. S. Dickey, N. G. Hatsopoulos. Chapter 32 - Markov Models // MATLAB for Neuroscientists (Second Edition), Academic Press, 2014, Pages 449-462. [Electronic resource] URL: https://doi.org/10.1016/B978-0-12-383836-0.00032-1 (дата обращения: 16.10.2024)

44. Y. Geng, Q. Li, G. Yang, W. Qiu. Support Vector Machine // (2024) 10.1007/978-981-97-3954-7_6.

45. S. Presse, I. Sgouralis. Hidden Markov Models // In book: Data Modeling for the Sciences: Applications, Basics, Computations, August 2023, [Electronic resource] URL: http://dx.doi.org/10.1017/9781009089555.011

46. E. Kuriyozov, S. Matlatipov. Building a New Sentiment Analysis Dataset for Uzbek Language and Creating Baseline Models // Proceedings 2019, 21(1), 37. [Electronic resource] URL: https://doi .org/10.3390/proceedings2019021037

47. M. Mansurova, V. Barakhnin, Y. Khibatkhanuly, I. Pastushkov. Named Entity Extraction from Semi-structured Data Using Machine Learning Algorithms // Nguyen, N., Chbeir, R., Exposito, E., Aniorte, P., Trawinski, B. (eds) Computational Collective Intelligence. ICCCI 2019. Lecture Notes in Computer Science(), vol 11684, Springer, Cham, 2019. [Electronic resource] URL: https://doi.org/10.1007/978-3-030-28374-2 6

48. V. Ingole, U. Kshirsagar, V. Singh, M. Yadav, B. Krishna, R. Kumar. A Hybrid Model for Soybean Yield Prediction Integrating Convolutional Neural Networks, Recurrent Neural Networks, and Graph Convolutional Networks // Computation, vol. 13, issue 4, 2025. [Electronic resource] URL: https://doi.org/10.3390/computati on13010004

49. N. Sangwan, V. Bhatnagar. Multi-branch LSTM encoded latent features with CNN-LSTM for Youtube popularity prediction // Scientific Reports, vol. 15, 2508, 2025. [Electronic resource] URL: https://doi.org/10.1038/s41598-025-86785-3

50. D. Akhmed-Zaki, M. Mansurova, V. Barakhnin, M. Kubis, D. Chikibayeva, M. Kyrgyzbayeva. Development of Kazakh Named Entity Recognition Models // In: Nguyen, N.T., Hoang, B.H., Huynh, C.P., Hwang, D., Trawinski, B., Vossen, G. (eds) Computational Collective Intelligence. ICCCI 2020. Lecture Notes in Computer Science(), vol 12496, Springer, Cham, 2020. [Electronic resource] URL: https://doi.org/10.1007/978-3-030-63007-2 54

51. A. Yusufu. UZNER: A Benchmark for Named Entity Recognition in Uzbek // Natural Language Processing and Chinese Computing. NLPCC 2023. Lecture Notes in Computer Science(), vol 14302. Springer, Cham, 2023. [Electronic resource] URL: https://doi.org/10.1007/978-3-031-44693-1 14

52. Z. Jin, X. He, X. Wu, X. Zhao. A hybrid Transformer approach for Chinese NER with features augmentation // Expert Systems with Applications, vol. 209, 118385, 2022. [Electronic resource] URL: https://doi.org/10.1016/j.eswa.2022.118385

53. B. Ji, R. Liu, S. Li. A hybrid approach for named entity recognition in Chinese electronic medical record // BMC Med Inform Decis Mak, 19 (Suppl 2), 64, 2019. [Electronic resource] URL: https://doi.org/10.1186/s12911-019-0767-2

54. S. Biswas, S. Mohanty, S. P. Mishra. A Hybrid Oriya Named Entity Recognition System: Integrating HMM with MaxEnt. 2009 Second International Conference on Emerging Trends in

Engineering & Technology, Nagpur, India, pp. 639-643, 2009. [Electronic resource] URL: https://doi.org/10.1109/ICETET.2009.10

55. B. Ayed, A. Biskri, I. Meunier. Automatic Text Summarization: A New Hybrid Model Based on Vector Space Modelling, Fuzzy Logic and Rhetorical Structure Analysis // Computational Collective Intelligence. ICCCI 2019. Lecture Notes in Computer Science(), vol 11684. Springer, Cham, 2019. [Electronic resource] URL: https://doi.org/10.1007/978-3-030-28374-2 3

56. I. Kalia, P. Singh, A. Kumar. Domain Adaptation for NER Using mBERT // Innovations in Computational Intelligence and Computer Vision (ICICV 2024), Lecture Notes in Networks and Systems, vol 1117. Springer, Singapore, 2024. [Electronic resource] URL: https://doi.org/10.1007/978-981-97-6992-6_14

57. E. Y. Akhmedov, D. E. Palchunov, D. Z. Khaitboeva, M. F. Ibragimov, O. R. Sultanov, L. S. Rakhimova. Sentiment Analysis in Uzbek Language Texts: a Study Using Neural Networks and Algorithms // 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, pp. 2460-2464, 2024. [Electronic resource] URL: doi: 10.1109/EDM61683.2024.10615017.

58. I. Azimova, K. Mavlonova, O. Saidaxmedova, O. Abdullayeva. The order of morpheme acquisition in uzbek language (examples of chinese students who learning Uzbek as a second language) // XVI International Scientific and Practical Conference "State and Prospects for the Development of Agribusiness - INTERAGROMASH 2023", October 2023.

59. M. Abjalova, O. Iskandarov, E. Adali. Educational Corpus of the Uzbek Language and its Opportunities. Educational Corpus of the Uzbek Language and its Opportunities // 2023 8th International Conference on Computer Science and Engineering (UBMK), 13-15 September 2023.

60. I. Kalia, P. Singh, A. Kumar. Domain Adaptation for NER Using mBERT // In book: Innovations in Computational Intelligence and Computer Vision, ICICV 2024. Lecture Notes in Networks and Systems, vol 1117. Springer, Singapore, 2024. [Electronic resource] URL: https://doi.org/10.1007/978-981-97-6992-6 14

61. L. Bobojonova, A.Akhundjanova, P. Ostheimer, S. Fellenz. BBPOS: BERT-based Part-of-Speech Tagging for Uzbek // arXiv:2501.10107v1 [cs.CL] 17 Jan 2025. [Electronic resource] URL: https://doi.org/10.48550/arXiv.2501.10107

62. T. Alimov. Функционально-семантическая характеристика личных эвфемизмов узбекского языка сквозь призму русской и английской культур // Филология: научные исследования. 2024. № 11. С. 23-39.

63. F. Alijonova. Analysis of some exceptions in homonymy and homonymic models in uzbek electronic corpus manager // International Journal of Literature and Languages, vol. 04, issue 05, pp. 61-64.

64. T. Alimov, M. Kupriyanova. Socio-cultural specificity of the etiquette forms of greetings and addresses in the Uzbek and Russian languages // vol. 17, issue 11, 2024.

65. U. Kuziyev. Stages of development of loanwords in the uzbek language // Вестник Намаганского государственного университета, выпуск 10, 2024 [ISSN:2181-0427].

66. N.Abdurakhmonova, N. Shamiyeva. Creating an English-Uzbek Bilingual Thesaurus of Frequently Used Adjectives in Uzbek Corpus // 2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), pp. 1640-1644, 25 December 2024. [Electronic resource] URL: https://doi.org/10.1109/PIERE62470.2024.10804960 (дата обращения: 16.10.2024).

67. I. Rabbimov, S. Kobilov, I. Mporas. Uzbek News Categorization using Word Embeddings and Convolutional Neural Networks // 2020 IEEE 14th International Conference on Application of Information and Communication Technologies (AICT), pp. 1-5, Tashkent, Uzbekistan, 2020.

68. Y. Fu, N. Lin, Z. Yang, S. Jiang. Towards Malay named entity recognition: an open-source dataset and a multi-task framework // Connection Science, vol. 35, issue 1, 2023.

69. E. Yulianti, N. Bhary, J. Abdurrohman, F. Wahyuzan, E. Qadri, H. Husin. Named entity recognition on Indonesian legal documents: a dataset and study using transformer-based models // International Journal of Electrical and Copmuter Engineering, vol. 14, issue 5, 2024. [Electronic resource] URL: http://doi.org/10.11591/ijece.v14i5.pp5489-5501

70. N. Marzouk, H. Nayel, A. Elsawy. Advancing Arabic Scientific Text Analysis: Evaluating Machine Learning Models for Named Entity Recognition // Benha Journal of Applied Sciences, vol. 9, issue 5, pp. 45-48, 2024.

71. D. B. Mengliev, N. Z. Abdurakhmonova, H. Rahimov, N. Y. Zolotykh, A. A. Ubaydullayev and B. B. Ibragimov. Automated Recognition of Named Entities and Dialect Standardization in Uzbek Legal Texts // 2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), Novosibirsk, Russian Federation, pp. 1050-1053, 2024. [Electronic resource] URL: http://doi.org/10.1109/PIERE62470.2024.10804942

72. D. B. Mengliev, N. Z. Abdurakhmonova, V. B. Barakhnin, R. K. Shirinova, A. R. Iskandarova and A. Z. Otemisov. Building a Comprehensive Uzbek Lexicon: Bridging Dialects for Text Standardization // 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, pp. 2440-2444, 2024. [Electronic resource] URL: http://doi.org/10.1109/EDM61683.2024.10614985

73. Z. Xidiraliyeva. On the study of the vocalism of the Uzbek language Iqon dialect // Uzbekistan language and culture, vol. 3, issue 4, pp. 74-89, 2021.

74. U. Salaev, E. Kuriyozov, C. Rodrigez. A machine transliteration tool between Uzbek alphabets // arXiv:2205.09578v1 [cs.CL] 19 May 2022.

75. T. Tog'ayev, G. Tavaldiyeva, M. Akromova, K. Nazarov. (на узбекском: Толковый словарь узбекского языка на кириллице и латинице: более 14 тысяч слов) O'zbek tilining kirill va lotin alifbolaridagi imlo lug'ati: 14 mingdan ortiq so'z // Издательство "Sharq", 1999.

76. B. Mansurov, A. Mansurov. Uzbek Cyrillic-Latin-Cyrillic Machine Transliteration //

arXiv:2101.05162 [cs.CL] 13 January 2021. [Electronic resource] URL: https://doi.org/10.48550/arXiv.2101.05162

77. D. B. Mengliev, V. B. Barakhnin, B. R. Saidov, M. Atakhanov, M. O. Eshkulov, B. B. Ibragimov. A Computational Approach to Recognizing Poetry Genres in Uzbek Texts // 2024 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Novosibirsk, Russian Federation, pp. 319-322, 2024. [Electronic resource] URL: https://doi.org/10.1109/SIBIRCON63777.2024.10758540

78. D. B. Mengliev, N. Z. Abdurakhmonova, R. K. Shirinova, M. F. Saparova, I. M. Azimov and B. B. Ibragimov. Automated Detection of Allusions in Uzbek Language: A Computational Approach. 2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), Novosibirsk, Russian Federation, pp. 1560-1564, 2024. [Electronic resource] URL: https://doi.org/10.1109/PIERE62470.2024.10804911

79. N. Abdurakhmonova, A. Ismailov. The development of syntactic analyzer algorithm for the uzbek language // Международная научно-практическая конференция (на узбекском: Роль науки и знаний в развитии общества) "Ilm-fan rivoji va jamiyat taraqqiyotida tutgan o'rni", май 2023.

80. M. Sharipov, J. Mattiev, J. Sobirov, R. Baltayev. Creating a morphological and syntactic tagged corpus for the Uzbek language // The International Conference and Workshop on Agglutinative Language Technologies as a challenge of Natural Language Processing (ALTNLP), Koper, Slovenia, June 7-8, 2022. [Electronic resource] URL: https://doi.org/10.48550/arXiv.2210.15234

81. Н. Ахмедова. Семантическая-синтаксическая асимметрия в узбекском языке // Russian Linguistic Bulletin, vol. 2, issue 2, 2015. [Электронный ресурс] URL: https://rulb.org/archive/2-

2-2015-june/semanticheskaia-sintaksicheskaia-asimmetriia-v-uzbekskom-iazyke (дата

обращения: 15.12.2024)

82. G. Azamatova. Grammatical category of number in uzbek language // International Journal of Literature And Languages, vol. 4, issue 6, pp. 12-15, 2024. [Electronic resource] URL: https://doi.org/10.37547/ijll/Yolume04Issue06-03

83. С. Худайбердиевна, О. Солихова. Об опосредственной валентности в узбекоском языке // SCIENTIFIC WORK journal, vol. 15, issue 5, pp. 9-14, 2021.

84. M. Rakhmatov. The role of the Connector in the Development of the Uzbek Language Syntax // Golden Scripts, vol. 2, issue 3, pp. 54-74, 2020.

85. N. Abdurakhmonova, N. Shamieva, E. Adali. Exploring the Semantic Complexity of Adjective-Noun Collocations between Uzbek and English for Improved Machine Translation // 2024 9th International Conference on Computer Science and Engineering (UBMK), Antalya, Turkiye, pp. 14, 2024. [Electronic resource] URL: https://doi.org/10.1109/UBMK63289.2024.10773511

86. Y. Gribanova. Predicate formation and verb-stranding ellipsis in Uzbek // Glossa a journal of general linguistics, vol. 5, issue 1, 124, 2020.

87. S. Ostonova. English idioms translation's specifications in uzbek language // Scientific Reports of Bukhara State University, vo. 5, issue 1, pp. 147-158, 2021.

88. Y. Zhang, G. Xiao. Named Entity Recognition Datasets: A Classification Framework // International Journal of Computational Intelligence Systems, vol. 17, 71, 2024. [Electronic resource] URL: https://doi .org/10.1007/s44196-024-00456-1

89. P. Zhang, Z. Yang, X. Dong, J. Li, S. Chen. Named Entity Recognition Study for Distribution Network Operation // Advances in Transdisciplinary Engineering, vol. 64, pp. 602-609, 2024.

90. Y. Wang, P. Li, X. Yang, H. Luo, X. Jiang, K. Luo, Y. Tan. Vocabulary-Enhanced Named Entity Recognition and its Application on Distribution Network Maintenance // Journal of Circuits, Systems and Computers, September 2024. [Electronic resource] URL: https://doi.org/10.1142/S0218126625501002

91. N. Jofche, K. Mishev, R. Stojanov, M. Jovanovik, E. Zdravevski, D. Trajanov. Named Entity Recognition and Knowledge Extraction from Pharmaceutical Texts using Transfer Learning // Procedia Computer Science vol. 203, pp. 721-726, 2022.

92. Законодательная база Республики Узбекистан, [Электронный ресурс] URL: www.lex.uz

93. E. Sang, J. Veenstra, "Representing text chunks", Ninth Conference of the European Chapter of the Association for Computational Linguistics, pp. 173-179, 1999.

94. Berk, G., Erden, B., Gungor, T. Representing Overlaps in Sequence Labeling Tasks with a Novel Tagging Scheme: Bigappy-Unicrossy // Computational Linguistics and Intelligent Text Processing. CICLing 2019. Lecture Notes in Computer Science, vol 13451. Springer, Cham. https://doi.org/10.1007/978-3-031-24337-0 44

Публикации автора по теме диссертации

1. Mengliev D., Barakhnin V., Abdurakhmonova N., Eshkulov M. Developing named entity recognition algorithms for Uzbek: Dataset insights and implementation // Data in Brief, 2024, volume 54, 110413. [Electronic resource] URL: https://doi.org/10.17632/p6rcwf4p9c.1 (дата обращения: 16.10.2024)

2. Abdurakhmonova N., Ismailov A., Mengliev D. Developing NLP tool for linguistic analysis of Turkic languages // 2022 IEEE International Multi-Conference on Engineering, Yekaterinburg, Russian Federation, Computer and Information Sciences (SIBIRCON), 2022, pp. 1790-1793. [Electronic resource] URL: https://doi.org/10.1109/SIBIRC0N56155.2022.10017049 (дата обращения: 16.10.2024).

3. Mengliev D., Akhmedov E., Barakhnin V., Hakimov Z., Alloyorov O. Utilizing Lexicographic Resources for Sentiment Classification in Uzbek Language // 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 2023, pp. 1720-1724. [Electronic resource] URL: https://doi.org/10.1109/APEIE59731.2023.10347765 (дата обращения: 16.10.2024).

4. Mengliev D., Abdurakhmonova N., Hayitbayeva D., Barakhnin V. Automating the Transition from Dialectal to Literary Forms in Uzbek Language Texts: An Algorithmic Perspective // 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 2023, pp. 1440-1443, [Electronic resource] URL: https://doi.org/10.1109/APEIE59731.2023.10347617 (дата обращения: 16.10.2024).

5. Mengliev D., Barakhnin V., Atakhanov M., Ibragimov B., Eshkulov M., Saidov B. Developing Rule-Based and Gazetteer Lists for Named Entity Recognition in Uzbek Language: Geographical Names // 2023 IEEE XVI International Scientific and Technical Conference Actual Problems of Electronic Instrument Engineering (APEIE), Novosibirsk, Russian Federation, 2023, pp. 15001504. [Electronic resource] URL: https://10.1109/APEIE59731.2023.10347697 (дата обращения: 16.10.2024)

6. Mengliev D., Barakhnin V., Eshkulov M., Palvanov B., Abdurakhmonova N., Khamraeva S. Dictionary-Based Medical Text Analysis in Uzbek: Overcoming the Low-Resource Challenge // 2023 IEEE Ural-Siberian Conference on Computational Technologies in Cognitive Science, Genomics and Biomedicine (CSGB), Novosibirsk, Russian Federation, 2023, pp. 85-89. [Electronic resource] URL: https://doi.org/10.1109/CSGB60362.2023.10329819 (дата обращения: 16.10.2024)

7. Mengliev D. B, Barakhnin V. B., Samandarova B. S., Shamieva N. A., Rakhmanova U. U., Ibragimov B. B. Towards Effective Named Entity Recognition in Uzbek Medical Contexts // 2024 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Novosibirsk, Russian Federation, 2024, pp. 294-298. [Electronic resource] URL: https://doi.org/10.1109/SIBIRC0N63777.2024.10758445 (дата обращения: 16.10.2024)

8. D. Mengliev, V. Barakhnin, N. Abdurakhmonova. Development of Intellectual Web System for Morph Analyzing of Uzbek Words // Appl. Sci. 2021, 11, 9117. [Electronic resource] URL: https://doi.org/10.3390/app11199117 (дата обращения: 16.10.2024)

9. D. B. Mengliev, N. Z. Abdurakhmonova, H. Rahimov, N. Y. Zolotykh, A. A. Ubaydullayev, B. B. Ibragimov. Automated Recognition of Named Entities and Dialect Standardization in Uzbek Legal Texts // 2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), Novosibirsk, Russian Federation, 2024, pp. 1050-1053. [Electronic resource] URL: http://doi.org/10.1109/PIERE62470.2024.10804942

10. D. B. Mengliev, V. B. Barakhnin, B. R. Saidov, M. Atakhanov, M. O. Eshkulov, B. B. Ibragimov. A Computational Approach to Recognizing Poetry Genres in Uzbek Texts // 2024 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON),

Novosibirsk, Russian Federation, 2024, pp. 319-322. [Electronic resource] URL: https://doi.org/10.1109/SIBIRCON63777.2024.10758540

11. D. B. Mengliev, N. Z. Abdurakhmonova, R. K. Shirinova, M. F. Saparova, I. M. Azimov, B. B. Ibragimov. Automated Detection of Allusions in Uzbek Language: A Computational Approach // 2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), Novosibirsk, Russian Federation, 2024, pp. 1560-1564. [Electronic resource] URL: https://doi.org/10.1109/PIERE62470.2024.10804911

12. D. B. Mengliev, N. Z. Abdurakhmonova, V. B. Barakhnin, G. I. Kuvondikova, Z. G. Kadirova, B. B. Ibragimov. Development of Named Entity Recognition Model for Analysis of Oceanographic Texts in Uzbek Language // 2024 4th International Conference on Technological Advancements in Computational Sciences (ICTACS), Tashkent, Uzbekistan, 2024, pp. 1-5. [Electronic resource] URL: https://doi.org/10.1109/ICTACS62700.2024.10840741

13. D. B. Mengliev, N. Z. Abdurakhmonova, V. B. Barakhnin, A. R. Iskandarova, F. R. Topildiyeva, E. Y. Akhmedov, "Development of an Algorithm for Automatic Analysis of Sentiment in School Essays of the Uzbek Language // 2024 IEEE 3rd International Conference on Problems of Informatics, Electronics and Radio Engineering (PIERE), Novosibirsk, Russian Federation, 2024, pp. 15701573. [Electronic resource] URL: https://doi.org/10.1109/PIERE62470.2024.10804909

14. D. B. Mengliev, V. B. Barakhnin, M. O. Eshkulov, O. T. Allamov, B. B. Ibragimov, T. A. Khudaybergenov. Development of a Legal Document Recognition Algorithm for the Karakalpak Language // 2024 IEEE International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), Novosibirsk, Russian Federation, 2024, pp. 323-326. [Electronic resource] URL: https://doi.org/10.1109/SIBIRCON63777.2024.10758548

15. D. Mengliev, N. Abdurakhmonova, V. Barakhnin, K. Vasliddinova, H. Rahimov, K. Djalolova. Enhancing Sentiment Analysis in Uzbek Language Texts through Weighted Lexical Features // 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, 2024, pp. 2450-2453. [Electronic resource] URL: https://doi.org/10.1109/EDM61683.2024.10615124

16. D. B. Mengliev, N. Z. Abdurakhmonova, V. B. Barakhnin, R. K. Shirinova, A. R. Iskandarova, A. Z. Otemisov. Building a Comprehensive Uzbek Lexicon: Bridging Dialects for Text Standardization // 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, 2024, pp. 2440-2444. [Electronic resource] URL: https://doi.org/10.1109/EDM61683.2024.10614985

17. D. B. Mengliev, V. B. Barakhnin, N. R. Boltayev, S. A. Polatova, M. O. Eshkulov, B. B. Ibragimov. Advancing Karakalpak Linguistics with Dictionary-Based Morphological Analysis: Implications for Text Correction Systems // 2024 IEEE 25th International Conference of Young Professionals in Electron Devices and Materials (EDM), Altai, Russian Federation, 2024, pp. 2380-2383. [Electronic resource] URL: https://doi.org/10.1109/EDM61683.2024.10615182

18. D. Mengliev, M. Eshkulov, V. Barakhnin, R. Abdullayev, N. Boltayev, B. Ibragimov. Linguistic Nuances in Text Analysis: TF-IDF Metric's Algorithm Implementation for the Karakalpak Language Recognition // 2024 IEEE Ural-Siberian Conference on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), Yekaterinburg, Russian Federation, 2024, pp. 019-022. [Electronic resource] URL: https://doi.org/10.1109/USBEREIT61901.2024.10584051

19. D. B. Mengliev, V. B. Barakhnin, B. B. Ibragimov. Rule-Based Syntactic Analysis for Uzbek Language: An Alternative Approach to Overcome Data Scarcity and Enhance Interpretability // 2023 IEEE 24th International Conference of Young Professionals in Electron Devices and Materials (EDM), Novosibirsk, Russian Federation, 2023, pp. 1910-1915. [Electronic resource] URL: https://doi.org/10.1109/EDM58354.2023.10225235

20. D. Mengliev, V. Barakhnin, S. Madirimov, B. Ibragimov, M. Eshkulov, B. Saidov. Unveiling the variance of Uzbek language: A rule-based algorithm for dialect recognition // AIP Conf. Proc. 27 November 2024, vol. 3244 (1), 030012. [Electronic resource] URL: https://doi.org/10.1063/5.0241409

21. D. Mengliev, N. Urinboeva, S. Sharipov, S. Polatova, M. Atakhanov, S. Khamraeva, N. Boltayev. Assessing the poetry of a text and its emotional content using a hybrid approach // AIP Conf. Proc. 27 November 2024, vol. 3244 (1), 030060. [Electronic resource] URL: https://doi.org/10.1063/5.0241412

22. D. Mengliev, V. Barakhnin, A. Sultonboyev, B. Ibragimov, M. Eshkulov, R. Abdullayev. Developing a dictionary-centric named entity recognition system for Karakalpak language // AIP Conf. Proc. 27 November 2024, vol. 3244 (1), 030044. [Electronic resource] URL: https://doi.org/10.1063/5.0241411

23. D. Mengliev, V. Barakhnin, M. Eshkulov, B. Ibragimov, S. Madirimov. A comprehensive dataset and neural network approach for named entity recognition in the Uzbek language // Data in Brief, 2025, vol. 58, 111249.

Список рисунков

Рисунок 1 - Блок-схема работы алгоритма морфологического анализа.........................12

Рисунок 2 - Блок-схема работы алгоритма синтаксического анализа............................12

Рисунок 3 - Интерфейс разработанной программы выявления именованных сущностей.. .13

Рисунок 4 - Архитектура алгоритма UzMor............................................................14

Рисунок 5 -Интерфейс веб-приложения Uz-Kaz-Nlp-Tools.........................................14

Рисунок 6 - Архитектура веб-приложения морфологического анализа UzMorphoanalyzer..14 Рисунок 7 - Интерфейс веб-приложения морфологического анализа UzMorphoanalyzer.. ..15

Рисунок 8 - Архитектура модели BERT.................................................................23

Рисунок 9 - Пример идентификации именованных сущностей.....................................24

Рисунок 10 - Результаты сравнений моделей...........................................................24

Рисунок 11 - Пример построения словоформ путем конкатенации аффиксов...................29

Рисунок 12 - Притяжательные окончания в узбекском языке.......................................30

Рисунок 13 - Падежные окончания в узбекском языке...............................................30

Рисунок 14 - Регионы, где большинство населения говорит на карлукском диалекте.........32

Рисунок 15 - Регионы, где большинство населения говорит на огузском диалекте............32

Рисунок 16 - Регионы, где большинство населения говорит на кыпчакском диалекте........33

Рисунок 17 - Примеры слов различных диалектов в узбекском языке .........33

Рисунок 18 - Современный алфавит узбекского языка...............................................34

Рисунок 19 - Общая схема работы правило-ориентированных алгоритмов......................45

Рисунок 20 - Блок-схема работы алгоритма транслитерации букв.................................46

Рисунок 21 - Блок-схема работы алгоритма стандартизации слов..................................47

Рисунок 22 - Блок-схема работы алгоритма морфологического анализа.........49

Рисунок 23 - Общая схема работы всех правило-ориентированных алгоритмов.....50

Рисунок 24 - График изменения метрик модели mBERT во время (до)обучения...............53

Рисунок 25 - Архитектура дообученной модели mBERT.............................................54

Рисунок 26 - Архитектура обученной модели на базе сверточных нейронных сетей...........57

Рисунок 27 - График изменения метрик модели на базе свёрточной нейронной сети..........58

Рисунок 28 - Журнал обучения модели на базе Spacy.................................................61

Рисунок 29 - График изменения метрик модели SpaCy во время обучения..............................61

Рисунок 30 - Архитектура модели на базе Spacy........................................................63

Рисунок 31 - Сравнение результатов правило-ориентированных алгоритмов..........................67

Рисунок 32 - Сравнение результатов эффективности работы языковых моделей (до

постобработки)..................................................................................................................................68

Рисунок 33 - Сравнение результатов эффективности работы языковых моделей (после

постобработки)..................................................................................................................................70

Рисунок 34 - Сравнение результатов эффективности работы mBERT в разрезе различных

тематик................................... ...73

Рисунок 35 - Сравнение результатов эффективности работы CNN+BiLSTM в разрезе различных

тематик.............................................................................................................74

Рисунок 36 - Сравнение результатов эффективности работы SpaCy в разрезе различных тематик.................................... .75

Список таблиц

1. Аннотирование слов в предложении по схеме BIO....................................41

2. Аннотирование слов в предложении по схеме BIOES................................42

3. Словарь соответствий кириллических букв к латинскому...........................45

4. Словарь диалектных слов для стандартизации словоформ..........................48

5. Пример структуры словаря для алгоритма пост-обработки.........................51

6. Результаты оценки алгоритма транслитерации........................................66

7. Результаты оценки алгоритма стандартизации.........................................67

8. Результаты оценки алгоритма морфологического анализа...........................67

9. Общая эффективность правило-ориентированных алгоритмов.....................68

10. Сравнение моделей по основным метрикам на тестовом наборе данных (до постобработки)....................................................................................69

11. Сравнение моделей по основным метрикам на тестовом наборе данных (после постобработки)....................................................................................70

12. Результаты тестирования mBERT в разрезе сущностей (до и после постобработки)....................................................................................71

13. Результаты тестирования модели CNN(+BiLSTM) в разрезе сущностей.........72

14. Результаты тестирования модели SpaCy в разрезе сущностей.....................72

15. Сравнительный анализ NER-алгоритмов................................................75

Приложение А. Акты о внедрении

IJRO.GOV.UZ тизими орцали ЭРИ билан тасдик^анган, Хухокат коди: РВ22748171

0'гВЕК18Т(Ш ЯЕ8РиВЫКА81 ХОЯАгМ У1ЬОУАТ1 НОК1МЬЮ1

МАНКАМА81

220100, Urganch вЬаЬп, А1-Хогагпиу ко'сЬав!, 29-иу, 1е1еГоп: (62) 223-00-76, Гаке: 223-00-22

2025-уИ 18Теуга1 07-4-09/1714-8ОП Urganch вЬ.

АКТ

о внедрении результатов диссертационной работы

Тема исследования(диссертации): Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке.

Настоящим подтверждается, что хокимият Хорезмской области внедрил результаты диссертационной работы Д.Б.Менглиева, посвященной разработке гибридного алгоритма распознавания именованных сущностей в узбекском языке, для повышения эффективности и автоматизации обработки обращений граждан, поступающих в приёмную хокимията.

Детали внедрения:

• Разработанный алгоритм, сочетающий правило-ориентированные методы и нейросетевые модели, используется для автоматического выявления ключевых объектов (имена граждан, названия организаций, местоположения и проч.) в узбекоязычных текстах обращений.

• Точное распознавание именованных сущностей позволяет оперативно сортировать и маршрутизировать обращения к соответствующим ведомствам, ускоряя их рассмотрение. В частности, алгоритм помогает эффективно выявлять основные категории (например, вопросы здравоохранения, социального обеспечения, проблем ЖКХ), автоматически распределяя входящие заявки по тематическим разделам.

Результаты внедрения:

• Благодаря автоматическому извлечению главных сущностей и тем, среднее время первичной обработки одного обращения сокращено на 30%.

• Система маршрутизации реже требует ручной корректировки, что позволяет сотрудникам хокимията быстрее передавать обращения в профильные организации или ведомства.

• Руководство получает сводные сведения намного быстрее о ключевых проблемах граждан, что облегчает планирование решений на государственном уровне.

Результаты диссертационной работы Д.Б.Менглиева оказались востребованными в работе приёмной хокимията Хорезмской области. Внедрение гибридного алгоритма распознавания именованных сущностей, а также разработанных лингвистических ресурсов и моделей позволило увеличить точность сортировки и классификации обращений, снизить нагрузку на сотрудников и повысить оперативность принятия решений.

Заместитель хокима области:

ООО "ZUV EXPRESS" № - 00896

«22» октябрь 2024 г.

АКТ

о внедрении научно-исследовательских результатов диссертационной работы Менглнева Давлатёра Ьахтияровича по теме «Разработка гибридною алгоритма распознавания именованных сущностей в узбекском языке»

Настоящий акт подтверждает, что результаты диссертационного исследования по теме «Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке», полученные соискателем Менг лиевым Давлатером Бахтияровичем по специальности 2.3.5 - «Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей» применяются в ООО «ZUV EXPRESS» в процессе проведения научных исследований для анализа текстовой информации.

Д.Менглиев разработал несколько правило-ориентированных алгоритмов для предобработки текстов на узбекском языке, а также обучил языковые модели для дальнейшей их обработки с целью выявления именованных сущностей. В работе использованы достаточно актуальные технологии в виде BERT, Keras и Tensorflow, которые активно используются как научным сообществом, так и предприятиями-разрабогчиками.

Из реализованных Д.Менглиевым алгоритмов и моделей, мы используем каждый из них в работе нашей компании. В частности, правило-ориентированные алгоритмы помогают корректировать как наши тексты, так и тексты наших покупателей. Модели, предназначенные для выявления именованных сущностей активно применяются для выявления ключевой информации из текстов (жалобы, предложения, заявления и др.), количество которых ежемесячно превышает более 500.

Благодаря внедрению результатов диссертации, производительность компании в контексте документооборота выросла на 23%, что, вне всякого сомнения, подчеркивает важность и практический интерес предлагаемого решения.

O'ZBEKISTON RESPUBLIKASI RAQAMLITEXNOLOGIYALAR VAZIRLIGI

МИНИСТЕРСТВО ЦИФРОВЫХ ТЕХНОЛОГИЙ РЕСПУБЛИКИ УЗБЕКИСТАН

Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologivalari univcrsiteti Irganch filial!

Ургенчский филиал Ташкентского

университета информационных технологий имени Мухаммеда ал-Хоразмий

220КЮ Urganch sh, Al - Хогалшч kochasi, i 10. Tel \ Fax. (998) 62-224-61-32 E-mail infoa'ubluit.uz. www.ubtuil.uz

220100, г. Ургенч, ул аль-Хорсзми, 110 Тел \ Факс: (998)62-224^61-32 E-mail infoaubtuitu/ wway ubtuit.uz

№ - 1227

«24» октября 2024 r.

АКТ

о внедрении результатов диссертационной работы

Тема исследования(диссертации): Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке.

Настоящим подтверждается, что результаты диссертационного исследования, полученные соискателем Д.Б.Менглиевым по специальности 2.3.5 - «Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей» применяются в Ургенчском филиале Ташкентского университета информационных технологий имени Мухаммада ал-Хоразмий (в дальнейшем УФТУИТ).

Детали внедрения:

• Созданный аннотированный корпус из 10 000 предложений используется для научно-исследовательских проектов студентов и преподавателей, а также в курсовых и дипломных работах

• Разработанные правило-ориентированные алгоритмы транслитерации, стандартизации и морфологического анализа внедрены в текущие исследования таких кафедр как «Программный инжинринг» и «Информационные технологии».

• Результаты диссертационной работы (модели, алгоритмы и аннотированный корпус) были использованы для успешной реализации научно-прикладных исследовательских грантов (AL-42101210, Smart City sensor infrastructure monitoring system; IL-402104155, Исследование национального и духовного наследия Хорезмского оазиса XIX века через изучение комплекса Хафт Шуаро и создание электронного приложения (на узбекском, русском, английском языках)), которые были выполнены командами ученых УФТУИТ. Данные научные проекты финансировались Агентством инновационного развития Республики Узбекистан.

Обученные языковые модели в рамках данной исследовательской работы являются хорошим инструментом для выполнения ряда задач на практике, а также может стать фундаментом для систем, способных выполнять более сложные задачи. Сообщаем о том, что материалы данной диссертационной работы будут включены в состав таких учебных курсов как «Компьют i извлечение информации», которые

Выполнил: Ю Т\раев Тел: 2246137

ведутся у студентов м

Директор:

Ш.Х.Исмоилов

Ф UZTELECOM

O'ZBEKTELEKOM aksiyadorlik kompaniyasi XORAZM filial!

Q 220100, Urganch sh., Al-Beruniy ko'chasi, 1 uy xortel{5>uztelecom uz

(+998 62) 225 57 51 (+998 62) 223 07 36 <$ uztelecom.uz

F1 5-01 -1 □/1 41 Б _-son

2024v. " 14" 12

АКТ

о внедрении научно-исследовательских результатов диссертационной работы

Менглиева Давлатёра Бахтияровича по теме «Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке»

Настоящий акт подтверждает, что результаты диссертационного исследования по теме «Разработка гибридного алгоритма распознавания именованных сущностей в узбекском языке», полученные соискателем Менглиевым Давлатером Бахтняровичем по специальности 2.3.5 — «Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей» применяются в ряде практических задач Хорезмского филиала АК "Узбектелеком".

Являясь национальным оператором в сфере телекоммуникации в Узбекистане, на Компания предоставляет все виды услуг телекоммуникаций с высоким качеством обслуживания.

В связи с этим, к нам часто обращаются как физические, так и юридические лнца. Одной из наиболее часто встречающихся проблем в нашей коммуникации с физическими и юридическими лицами является переписка, в которой применяется кириллица, а также слова из местного (Хорезмского) диалекта.

После внедрения алгоритмов, которые были реализованы в рамках диссертационной работы Д.Менглиева, эффективность работы в коммуникации значительно улучшилась. В частности, время, затрачиваемое на первичный анализ и сортировку обращений физических лиц, где присутствовали вышеупомянутые проблемы сократилось почти вдвое. А скорость обработки этих обращений в полном цикле (от момента получения обращения до её выполнения) увеличилась на 30%.

Более того, благодаря такой возможности как распознавание именованных сущностей мы можем извлекать ключевые элементы из текстов обращений, что

ISO 9001

Свидетельство об официальной регистрации программы для ЭВМ Выдано Агентством интеллектуальной собственности при Министерстве юстиции Республики

Узбекистан

ELEKTRON HISOBLASH MASHINALARI UCHUN YARATILGAN DASTURNING RASMIY RO'YXATDAN O'TKAZILGANLIGI TO'G'RISIDAGI

GUVOHNOMA

O'ZBEKISTON RESPUBLIKASI ADLIYA VAZIRLIGI № DGU 26772

Ushbu guvohnoma O'zbekiston Respublikasining "ELEKTRON HISOBLASH MASHINALARI UCHUN YARATILGAN DASTURLAR VA MA'LUMOTLAR BAZALARINING HUQUQIY HIMOYASI TO'G'RISIDA"gi Qonuniga asosan quyidagi elektron hisoblash mashinalari uchun yaratilgan dasturga berildi

WordCorpusCreator

(DASTUR NOMI)

Talabnoma kelib tushgan sana: 04.08.2023 (210) Talabnoma raqami: DGU 20236081

Huquq egasi(lari): MENGLIYEV DAVLATYOR BAXTIYAROVICH, UZ Dastur muallifi(lari): MENGLIYEV DAVLATYOR BAXTIYAROVICH, UZ

Свидетельство об официальной регистрации программы для ЭВМ Выдано Агентством интеллектуальной собственности при Министерстве юстиции Республики

Узбекистан

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.