Оценка сложности текста методами машинного обучения (на материале русского языка) тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Морозов Дмитрий Алексеевич
- Специальность ВАК РФ00.00.00
- Количество страниц 136
Оглавление диссертации кандидат наук Морозов Дмитрий Алексеевич
Введение
Глава 1. Обзор методов автоматической оценки сложности
текста
1.1 Сложность текста и её автоматическая оценка
1.2 Актуальные подходы на материале русского языка
Глава 2. Алгоритм оценки эффективности применения
лингвистических признаков
2.1 Алгоритм оценки эффективности
2.2 Реализация алгоритма
2.2.1 Общая структура программного комплекса
2.2.2 Методы машинного обучения
2.3 Выводы
Глава 3. Связь сложности текста и различных
лингвистических характеристик
3.1 Лингвистические характеристики
3.2 Подготовка данных
3.3 Результаты
3.4 Эксперимент с англоязычными корпусами
3.5 Результаты для англоязычных корпусов
3.6 Выводы
Глава 4. Поиск дополнительных лингвистических
характеристик и алгоритмы их автоматического
извлечения
4.1 Определение тематики текста при помощи ключевых слов
4.1.1 Анализ актуальных подходов к генерации ключевых слов
на материале английского языка
4.1.2 Оценка качества работы алгоритмов на материале
русского языка
4.1.3 Сравнение вклада в оценку сложности текста разных
групп тематических признаков
4.2 Анализ критериев лексической сложности текста и их применимости при оценке сложности текста
4.2.1 Семантическая сложность слова: анализ предметной области
4.2.2 Генерация морфемных разборов
4.2.3 Сравнение вклада в оценку сложности текста разных
групп лексических признаков
4.3 Исследование информативности и влияния синтаксических признаков
4.3.1 Исследуемые синтаксические характеристики
4.3.2 Формирование набора информативных синтаксических признаков
4.3.3 Сравнение вклада наборов синтаксических признаков
4.4 Сравнение предложенных признаков с ранее изученными
4.5 Выводы
Заключение
Список литературы
Публикации автора по теме диссертации
Список рисунков
Список таблиц
Приложение А. Точность оценки сложности (результаты по
корпусам)
Приложение Б. Справка о внедрении результатов в
Национальный корпус русского языка
136
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы разрешения лексической неоднозначности на основе автоматически размеченных семантических корпусов2022 год, кандидат наук Большина Ангелина Сергеевна
Связь квантитативных параметров письменной речи студентов РКИ и эритажников с различными уровнями владения языком: корпусное исследование2025 год, кандидат наук Вахранев Антон Юрьевич
Метод и алгоритмы интерпретации неполных высказываний пользователя для управления устройствами Интернета вещей на основе онтологического подхода2019 год, кандидат наук Шилин Иван Андреевич
Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе2004 год, кандидат филологических наук Чардин, Иван Сергеевич
Методы и средства морфологической сегментации для систем автоматической обработки текстов2022 год, кандидат наук Сапин Александр Сергеевич
Введение диссертации (часть автореферата) на тему «Оценка сложности текста методами машинного обучения (на материале русского языка)»
Введение
Объект исследования: алгоритмы оценки сложности текста методами машинного обучения с использованием в качестве признакового описания автоматически вычисляемых лингвистических характеристик текста.
Актуальность выбранной темы исследования
Сложность текста имеет решающее значение для процесса коммуникации, так как избыточно сложные относительно уровня коммуникативных навыков читателя тексты могут оказаться трудными для понимания. Особенно важно оценивать сложность в тех ситуациях, когда у текста большое множество заранее неизвестных адресатов, не имеющих возможности скорректировать понимание через непосредственное общение с автором. К таким ситуациям относятся, например, составление текстов договоров и законов, создание инструкций к приборам, написание учебников родного или иностранного языка, подбор литературы для внеклассного чтения. Особенно востребована оценка сложности учебных текстов для детей, поскольку к таким текстам предъявляется сразу несколько требований, отчасти противоречащих друг другу. Ученики должны хорошо понимать эти тексты, они должны быть актуальны и интересны и одновременно учить читателей как новым концепциям, так и новым словам и конструкциям. В таком случае количественную оценку сложности текста можно ассоциировать с возрастом потенциальных адресатов текста в терминах классов школы.
Исторически оценка сложности текста и его возрастная маркировка проводилась экспертами вручную, что делало процесс долгим и трудоемким, а результат субъективным. Появление инструментария для машинной обработки языка и высокая востребованность привели к появлению ряда подходов к автоматической оценке сложности текста. Такие подходы строились на простых моделях, чаще всего линейной регрессии, а в качестве признакового описания использовались легко вычисляемые параметры, такие как средняя длина предложения, среднее число слогов в слове и доля слов, входящих в списки наиболее частотных [1—5]. Несмотря на кажущуюся примитивность, подобные алгоритмы хорошо себя зарекомендовали и продолжают использоваться в прикладных
задачах и в настоящее время, например, в оценке сложности текстов страховых договоров1.
Развитие методов обработки естественного языка и накопление аннотированных соответствующим образом коллекций текстов (корпусов) естественным образом привели к попыткам задействовать в задаче автоматической оценки сложности текста более сложные модели и лингвистические характеристики. Использование полностью автоматизированных подходов, опирающихся на высокоабстрактные характеристики текста, может позволить при необходимости повторно обучать и адаптировать модель к постоянно меняющимся реалиям, включая смещение в распространённости тех или иных слов, грамматических и синтаксических конструкций, уровень подготовленности читателя заданного возраста.
Заметного успеха как и в многих других областях обработки естественного языка удалось добиться с использованием алгоритмов машинного обучения и богатого признакового описания, состоящего как из векторизованного представления самих текстов, так и заранее вычисленных лингвистических характеристик [6—8]. В то же время, представленные в различных работах результаты получены на материале текстовых корпусов самых разных размеров и доменов с использованием множества моделей машинного обучения и алгоритмов формирования признакового описания. Это затрудняет объективное сравнение эффективности использования тех или иных типов характеристик и выбор оптимального набора признаков.
Применительно к русскому языку ситуация усложняется тем фактом, что подавляющее большинство исследований в этой области проведены на основе англоязычных корпусов. Так, все классические индексы удобочитаемости (такие как, например, формула Флеша — Кинкейда [1] и индекс Колман — Лиау [2]) разрабатывались для английского языка, и их адаптация для русского — это отдельная задача [9, 10]. Однако в последние годы стало появляться всё больше исследований, посвящённых автоматической оценке сложности текстов именно на русском языке [9—25].
При этом, многие из полученных результатов, как и в случае английского языка, сложно сравнивать из-за различий в доменах, правилах аннотации, применяемых моделях и признаковых описаниях. В частности, ра-
1 CHAPTER 699a. READABLE LANGUAGE IN INSURANCE POLICIES. GENERAL STATUTES OF CONNECTICUT. https://www .cga.ct.gov/current/pub/chap_699a.htm#sec_38a-297
боты, посвящённые поиску численных лингвистических характеристик текста, наиболее полезных при автоматической оценке сложности русскоязычных текстов, используют различные способы определить эффективность признаков. В некоторых работах рассматриваются отдельные признаки [19, 24], в других же — сгруппированные наборы признаков [18, 20]. Другое различие заключается в выборе стратегии формирования признакового описания: значения лингвистических характеристик могут как дополнять векторное представление самого текста [18, 20], так и быть составлять его целиком [19, 24]. Различия в методологии не позволяют судить об эффективности тех или иных лингвистических характеристик в целом, в связи с чем неясно, существует ли оптимальный набор лингвистических характеристик, которые необходимо включать в признаковое описание вне зависимости от вида сложности, конкретного корпуса или алгоритма классификации.
Однако главной проблемой, на наш взгляд, следует считать не разницу в постановке экспериментов, а различия в самом исследуемом явлении. Несмотря на использование схожих шкал измерения, например, классов школы, в разных работах зачастую исследуются различные виды сложности, определяемые экстралингвистическими параметрами, что приводит в разночтениях в трактовке сложности текста и родственных понятий: читабельности, удобочитаемости, text complexity, readability [10, 14].
Для иллюстрации обратим внимание на русскоязычные тексты для школьников 5-9 класса. Просмотрев список произведений, рекомендованных для внеклассного чтения Министерством просвещения РФ в средней школе, мы встретим такие произведения как «Дон Кихот» (М. де Сервантес), «Зов предков» (Д. Лондон), «Повелитель мух» (У. Голдинг) и «Ранние журавли» (Ч. Айматов). Этот вид сложности сформирован требованиями к школьному образованию: тексты должны быть понятны читателю, но при этом содержать новые для него языковые конструкции, лексику, средства выразительности, развивая его умение выражать мысли, кроме того, такие тексты должны дополнять для школьника картину мира. Если же рассмотреть другой вид сложности — возрастную разметку текстов согласно Федеральному закону2 на ресурсе Ли-трес3 — только два из этих текстов будут отнесены к категории 12+ (наиболее схожей по возрасту со средней школой), а именно «Дон Кихот» и «Повелитель
2О защите детей от информации, причиняющей вред их здоровью и развитию. Федеральный закон РФ №4Э6-ФЗ. http://pravo.gov.ru/proxy/ips/?docbody&nd=102144583
3Магазин электронных книг Литрес. https://www.litres.ru/
мух»; «Зов предков» отнесён к категории 0+, тогда как «Ранние журавли» — к категории 16+. Этот вид сложности не связан напрямую со сложностью лексики или применяемых художественных средств, а только с описываемыми в тексте явлениями и событиями. Цель такой разметки — оградить детей от нежелательной для них информации, а не порекомендовать книги, понятные и интересные в соответствующем возрасте. При этом среди книг, которые выбирают для чтения сами школьники (то есть понятные и в то же время актуальные для них), из перечисленных произведений упоминается только «Повелитель мух» (причём в возрастной категории 10-11 класс) [115]. Это может быть связано с ещё одной важной особенностью сложности: зависимостью от времени. Понятно, что актуальность реалий, обсуждаемых в произведениях, делает их понимание проще для современников. В то же время, в «Евгении Онегине» (А. Пушкин) (рекомендованном, между прочим, для 9 класса и имеющем отметку 12+ согласно Литрес) можно найти отрывок, сложность которого для современных школьников в первую очередь определяется наличием большого количества устаревшей лексики и исчезнувших реалий:
Бразды пушистые взрывая,
Летит кибитка удалая;
Ямщик сидит на облучке
В тулупе, в красном кушаке.4
Рассмотренные примеры демонстрируют одновременное существование множества неэквивалентных друг другу видов сложности, некоторые из которых заданы правилами (например, требованиями закона), другие же заданы в неявном виде через размеченный по сложности набор данных (например, утверждённый список рекомендованной литературы для внеклассного чтения).
В то же время ясно, что результаты исследования эффективности тех или иных алгоритмов оценки сложности, полученные на наборе данных, иллюстрирующем конкретный вид сложности, не обязаны быть верны и для других видов сложности. В таком случае, возникает задача обобщения накопленной информации на различные виды сложности. Настоящая работа посвящена одному из основных аспектов такого обобщения: исследованию эффективности
4Подробнее этот пример и его восприятие школьниками рассмотрены в книге «Лингвистика для всех. Летние лингвистические школы 2005 и 2006» (ред.-сост. Е. В. Муравенко, О. Ю. Шеманаева., М.: МЦНМО, 2008.) на страницах 10-11.
применения в качестве элементов признакового описания признаков разной лингвистической природы.
Представленное в настоящей работе исследование тесно связано с созданием и развитием аннотированной коллекции текстов в составе Национального корпуса русского языка (НКРЯ)5, иллюстрирующей один из видов сложности: ожидаемый возраст читателя. Подобный корпус позволяет проводить исследования вокабуляра текстов, действительно читаемых носителями языка школьного возраста, а не гипотетически адресованных школьникам. При этом, наполнение корпуса путём проведения масштабных лингвистических экспериментов с привлечением школьников является длительным и трудозатратным процессом. Создание эффективного алгоритма предварительной аннотации сложности текста позволит в значительной мере автоматизировать пополнение корпуса.
В рамках настоящей работы решается научно-техническая задача разработки и реализации алгоритма измерения качества и эффективности применения групп признаков различной лингвистической природы при оценке сложности текста методами машинного обучения с целью автоматизации пополнения аннотированной коллекции текстов в составе Национального корпуса русского языка. Представленное исследование соответствует пункту 2 специальности 1.2.1. «Искусственный интеллект и машинное обучение»: «Исследования в области оценки качества и эффективности алгоритмических и программных решений для систем искусственного интеллекта и машинного обучения. Методики сравнения и выбора алгоритмических и программных решений при многих критериях.»
Решение поставленной задачи состоит из следующих этапов:
1. Разработка и реализация в виде программного продукта алгоритма измерения эффективности применения групп признаков различной лингвистической природы при оценке сложности текста методами машинного обучения.
2. Формирование множества лингвистических характеристик, используемых для формирования признакового описания текста в алгоритмах оценки сложности, разработка и реализация в виде программного продукта методики вычисления описанных лингвистических характеристик, оценка эффективности использования этих характеристик в
5Национальный корпус русского языка. https://ruscorpora.ru
признаковом описании на материале нескольких корпусов русскоязычных текстов, относящихся к различным видам сложности, проведение межъязыкового сравнения эффективности на материале русского и английского языков.
3. Тестирование предложенного алгоритма на материале лингвистических характеристик, ранее не использовавшихся при оценке сложности методами машинного обучения, в том числе: разработка методики их вычисления и обогащения ими признакового описания, реализация разработанных алгоритмов в виде программного продукта, проведение сравнения эффективности использования этих характеристик в признаковом описании с эффективностью использования ранее изученных.
Научная новизна работы
1. Предложены оригинальные показатели эффективности групп признаков различной лингвистической природы при автоматической оценке сложности текста методами машинного обучения: информативность и влияние, где информативность определена как отношение качества модели, обученной на признаковом описании, состоящем только из значений вычисленных лингвистических характеристик, к качеству модели, обученной на векторном представлении текста, а влияние — как отношение качества модели, обученной на признаковом описании, состоящем из конкатенации векторного представления текста и значений вычисленных лингвистических характеристик, к качеству модели, обученной только на векторном представлении текста. Разработан алгоритм вычисления этих величин, обобщаемый на произвольное множество характеристик, алгоритмов машинного обучения, корпусов текстов и видов сложности.
2. Проведено сравнение эффективности в совокупности более 300 лингвистических характеристик в задаче автоматической оценки сложности текста на русском языке с использованием четырёх алгоритмов машинного обучения на материале четырёх аннотированных корпусов, что на момент проведения эксперимента стало наиболее масштабным подобным экспериментом для русского языка.
3. Впервые (для языковой пары русский-английский) проведено масштабное межъязыковое сравнение алгоритмов автоматической оценки
сложности текста в зависимости от языка корпуса, стратегии разметки, состава признакового описания.
4. Впервые подготовлен корпус, состоящий из русскоязычных художественных текстов, аннотированный информацией о реальном, а не нормативном возрасте прочтения произведения, собранной на основании опроса более 2000 респондентов школьного возраста, что отличает его от аналогичных русскоязычных корпусов, природа возрастной разметки которых опирается на школьную программу или Федеральный закон 436-Ф3 «О защите детей от информации, причиняющей вред их здоровью и развитию».
5. Впервые изучена применимость предобученных моделей автоматического реферирования "текст-в-текст" на базе архитектуры Transformer [26] в задаче генерации ключевых слов на материале русского языка, проведено сравнение с ранее представленными алгоритмами.
6. Впервые проведено масштабное исследование обобщающей способности алгоритмов построения морфемного разбора для слов русского языка на материале трёх словарей с различной парадигмой морфемного членения (в том числе ранее не использовавшегося словаря Кузнецовой — Ефремовой), в ходе которого впервые для данной задачи была изучена устойчивость алгоритмов к уменьшению обобщающей выборки. Проведённое исследование позволило обнаружить ранее неизвестный существенный недостаток обобщающей способности всех изученных алгоритмов, заключающийся в значительном падении качества на словах с корнями, не встретившимися в обучающей выборке.
7. Впервые подготовлен набор слов русского языка с экспериментально оценённой семантической сложностью. Предложен оригинальный подход к формализации понятия семантической сложности слов при помощи оценки коварности слова.
Личный вклад
1. Соискателем адаптированы и разработаны методы вычисления лингвистических характеристик текста для русского и английского языков. Разработана и реализована в виде научно-исследовательской версии программного продукта библиотека методов для формирования признакового описания текста и оценки его сложности с возможностью
обучения моделей на пользовательском корпусе текстов. Для демонстрации возможностей библиотеки подготовлен интернет-ресурс «Сложность текста», доступный по адресу https://readability.mca. nsu.ru. При помощи разработанной библиотеки (в соавторстве с А. В. Глазковой и Б. Л. Иомдиным) проведено наиболее масштабное сравнение (на момент публикации) влияния и информативности различных лингвистических характеристик текста в задаче оценки его сложности на материале русского языка. Соискателем предложен набор ранее не изученных в контексте задачи оценки сложности текста лингвистических характеристик, разработаны и реализованы алгоритмы их вычисления, проведено сравнение влияния и информативности этих характеристик с предыдущими данными.
2. Соискателем проведена серия экспериментов по последовательной адаптации известных алгоритмов генерации ключевых слов к художественным текстам на русском языке. Разработана и реализована в виде научно-исследовательской версии программного продукта библиотека методов для генерации ключевых слов для русскоязычных текстов. Для демонстрации возможностей библиотеки подготовлен интернет-ресурс «Ключевые Слова», доступный по адресу https://keyphrases.mca. nsu.ru.
3. Соискателем проведён анализ алгоритмов генерации морфемных разборов для слов русского языка, проанализирована обобщающая способность алгоритмов на материале трёх наборов данных с различной парадигмой морфемного членения, продемонстрировано значительное падение качества всех изученных алгоритмов при использовании на словах с корнями, не встретившимися в обучающей выборке. Разработана и реализована в виде научно-исследовательской версии программного продукта библиотека методов для генерации морфемных разборов для лемм русского языка. Для демонстрации возможностей библиотеки подготовлен интернет-ресурс «Морфемный разбор», доступный по адресу https://morphemes.mca.nsu.ru. Методы генерации морфемных разборов внедрены соискателем в Национальный корпус русского языка (справка о внедрении находится в Приложении Б).
Практическая значимость и внедрение
1. Исходный код разработанного программного комплекса доступен в репозитории по адресу: https://github.com/morozowdmitry/ readability и может быть использован для получения данных об эффективности тех или иных вновь предлагаемых лингвистических характеристик с возможностью соотнесения результатов с полученными ранее, что было продемонстрировано на материале трёх групп характеристик, ранее не применявшихся в задаче оценки сложности текста.
2. Проведённое исследование позволяет приблизиться к определению оптимального признакового описания при построении алгоритма автоматической оценки сложности текста. Разработанный алгоритм оценки сложности текста и подготовленный в ходе разработки аннотированный по сложности корпус художественных текстов интегрированы в Национальный корпус русского языка (корпус «От 2 до 15»6, справка о внедрении находится в Приложении Б). Наличие такого корпуса в составе НКРЯ позволяет проводить исследования вокабуляра текстов, действительно читаемых носителями языка школьного возраста, а не гипотетически адресованных школьникам.
3. Проведённое исследование алгоритмов генерации ключевых слов позволило изучить качество работы этих алгоритмов на русскоязычных текстах, разработанные модели могут быть в дальнейшем использованы для разметки данных и улучшения поиска по базам данных научных публикаций.
4. Разработанные модели генерации морфемных разборов обучены на двух валидированных лингвистами словарях, относящихся к двум популярным парадигмам морфемного членения слова, что позволяет с высокой точностью доразметить слова, не вошедшие в эти словари. Результаты применения алгоритма могут быть использованы для поиска однокоренных слов, что необходимо при обучении языку. Разработанные модели интегрированы в сервис Портрет слова Национального корпуса русского языка (справка о внедрении находится в Приложении Б).
6Корпус «От 2 до 15» в составе НКРЯ. https://ruscorpora.ru/search/kids
Основные результаты диссертации
1. Предложен подход к формализации измерения эффективности применения групп признаков различной лингвистической природы при автоматической оценке сложности текста методами машинного обучения, заключающийся в вычислении двух величин: информативности (то есть отношения качества модели, обученной на признаковом описании, состоящем только из значений вычисленных лингвистических характеристик, к качеству модели, обученной на векторном представлении текста) и влияния (то есть отношения качества модели, обученной на признаковом описании, состоящем из конкатенации векторного представления текста и значений вычисленных лингвистических характеристик, к качеству модели, обученной только на векторном представлении текста). Разработан и реализован в виде расширяемого модульного программного комплекса алгоритм для вычисления этих величин.
2. Проведено тестирование разработанного программного комплекса на материале четырёх русскоязычных и двух англоязычных корпусов, четырёх алгоритмов машинного обучения и более чем 300 автоматически вычисляемых лингвистических характеристик. Эксперимент показал применимость предложенного подхода в рамках задачи автоматической оценки сложности текста методами машинного обучения.
3. Установлены наиболее и наименее информативные и влиятельные группы характеристик для различных сочетаний (корпус текстов, алгоритм машинного обучения). Определено, что информативность и влияние группы характеристик заметно зависит от каждого из этих параметров, причём выделить такую группу характеристик, которая была бы наиболее информативной и/или влиятельной во всех случаях, не удаётся. Таким образом, используемое при построении алгоритма автоматической оценки сложности признаковое описание должно формироваться на основании выбранного вида сложности, соответствующего ему корпуса текстов и алгоритма машинного обучения.
4. Показано, что качество алгоритмов, обученных только на лингвистических характеристиках, как правило уступает качеству алгоритмов, обученных на векторном представлении текста. Таким образом, эффективная оценка сложности текста вероятнее всего не может быть
проведена только на основании лингвистических характеристик. В то же время, в большинстве случаев использование лингвистических характеристик в совокупности с векторным представлением позволяет повысить качество разметки относительно алгоритмов, обученных только на векторном представлении.
5. Обнаружено, что при усреднении по алгоритмам самые высокие значения информативности и влияния чаще всего достигаются в случае группы тематических маркеров, построенных при помощи латентного размещения Дирихле. Эта группа является единственной со значением информативности выше 1 в семи из восьми проведённых серий экспериментов. Выяснено, что среди остальных используемых исследователями групп характеристик наиболее информативными и влиятельными следует считать морфологические. При этом подтверждено, что используемые исследователями наборы лингвистических характеристик не являются оптимальными. Использование более полных или сильнее ассоциированных со сложностью текста групп характеристик позволяет превзойти упоминаемые в литературе наборы признаков, что иллюстрируют информативность полного набора синтаксических признаков и влияние признаков, связанных со сложностью морфемной структуры лексики.
Апробация работы. Научная работа в рамках исследования поддерживалась грантами:
1. 2019-2022, РФФИ, проект 19-29-14224 мк, «Автоматическое определение сложности слов в текстах для детей разного возраста». Руководитель — к.филол.н. Б. Л. Иомдин.
2. 2022-2023, грант Президента Российской Федерации для государственной поддержки молодых российских ученых - кандидатов наук «Исследование и разработка подходов к генерации ключевых слов для научных текстов (с помощью методов автоматического реферирования и трансферного обучения)». Руководитель — к.т.н. А. В. Глазкова.
Результаты, полученные в ходе работы, были представлены на 11 международных и всероссийских конференциях, в их числе:
1. 25-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог», Москва, Россия, 29 мая-1 июня 2019 г.;
2. 26-я международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог», онлайн, 17-20 июня 2020 г.;
3. Международная конференция «Марчуковские научные чтения 2021», Академгородок, Новосибирск, Россия, 4-8 октября 2021 г;
4. XXIV международная конференция Data Analytics and Managment in Data Intensive Domains, ИТМО, Санкт-Петербург, 4-7 октября 2022 г.;
5. IX Международная конференция и молодежная школа «Информационные технологии и нанотехнологии» (ИТНТ-2023), Самара, 17-21 апреля 2023 г.;
6. XXV международная конференция Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL 2023), НИУ ВШЭ, Москва, 24-27 октября 2023 г.;
7. Открытая конференция ИСП РАН, ИСП РАН, Москва, 4-5 декабря
2023 г.;
8. Открытая конференция ИСП РАН, ИСП РАН, Москва, 11-12 декабря
2024 г..
Публикации. Основные результаты по теме диссертации изложены в 19 печатных изданиях, 5 из которых изданы в периодических научных журналах, индексируемых Scopus (в скобках приведены квартили журналов согласно Scimago Journal Rank):
1. (Q1) Morozov, D. A. Text complexity and linguistic features: Their correlation in English and Russian [Текст] / D. A. Morozov, A. V. Glazkova,
B. L. Iomdin // Russian Journal of Linguistics. — 2022. — Т. 26, № 2. —
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы и средства морфологической сегментации для систем автоматической обработки текстов2023 год, кандидат наук Сапин Александр Сергеевич
Разработка моделей и алгоритмов для комплекса автоматической обработки и анализа потоков новостных сообщений на основе методов компьютерной лингвистики2014 год, кандидат наук Казенников, Антон Олегович
Математические модели, методы и алгоритмы построения размеченных корпусов текстов2013 год, кандидат наук Седов, Алексей Владимирович
Автоматическое разрешение кореференции местоимений третьего лица русскоязычных текстов2008 год, кандидат технических наук Толпегин, Павел Владимирович
Формальное выделение приёмов и стратегий аргументации в текстах научной коммуникации2025 год, кандидат наук Пименов Иван Сергеевич
Список литературы диссертационного исследования кандидат наук Морозов Дмитрий Алексеевич, 2025 год
Список литературы
1. Derivation of new readability formulas (automated readability index, fog count and Flesch reading ease formula) for navy enlisted personnel [Текст] : тех. отч. / J. P. Kincaid [и др.] ; Naval Technical Training Command Millington TN Research Branch. — 1975.
2. Coleman, M. A computer readability formula designed for machine scoring. [Текст] / M. Coleman, T. L. Liau // Journal of Applied Psychology. — 1975. — Т. 60, № 2. — С. 283.
3. Senter, R. Automated readability index [Текст] : тех. отч. / R. Senter, E. A. Smith ; CINCINNATI UNIV OH. — 1967.
4. McLaughlin, G. H. SMOG grading - a new readability formula [Текст] / G. H. McLaughlin // Journal of reading. — 1969. — Т. 12, № 8. — С. 639—646.
5. Dale, E. A formula for predicting readability: Instructions [Текст] / E. Dale, J. S. Chall // Educational research bulletin. — 1948. — С. 37—54.
6. Cantos, P. Readability indices for the assessment of textbooks: a feasibility study in the context of EFL [Текст] / P. Cantos, A. Almela // Vigo International Journal of Applied Linguistics. — 2019. — Май. — С. 31—52.
7. Lo Bosco, G. DeepEva: A deep neural network architecture for assessing sentence complexity in Italian and English languages [Текст] / G. Lo Bosco, G. Pilato, D. Schicchi // Array. — 2021. — Т. 12. — С. 100097. — URL: https://www.sciencedirect.com/science/article/pii/S2590005621000424.
8. Martinc, M. Supervised and Unsupervised Neural Approaches to Text Readability [Текст] / M. Martinc, S. Pollak, M. Robnik-Sikonja // Computational Linguistics. — 2021. — Март. — Т. 47. — С. 1—39.
9. Оборнева, И. В. Автоматизированная оценка сложности учебных текстов на основе статистических параметров [Текст] : канд.пед.наук / Оборнева Ирина Владимировна. — 2006. — С. 165.
10. Солнышкина, М. И. Сложность текста: этапы изучения в отечественном прикладном языкознании [Текст] / М. И. Солнышкина, А. С. Кисельни-ков // Вестник Томского государственного университета. Филология. — 2015. — Т. 6. — С. 86—99. — URL: http://vital.lib.tsu.ru/vital/access/ manager/Repository/vtls:000520347.
11. Karpov, N. Single-Sentence Readability Prediction in Russian [Текст] / N. Karpov, J. Baranova, F. Vitugin // Analysis of Images, Social Networks and Texts / под ред. D. I. Ignatov [и др.]. — Cham : Springer International Publishing, 2014. — С. 91—100.
12. Solnyshkina, M. Readability Formula for Russian Texts: A Modified Version [Текст] / M. Solnyshkina, V. Ivanov, V. Solovyev // 17th Mexican International Conference on Artificial Intelligence, MICAI 2018, Guadalajara, Mexico, October 22-27, 2018, Proceedings, Part II. — 10.2018. — С. 132—145.
13. Ivanov, V. V. Efficiency of Text Readability Features in Russian Academic Texts [Текст] / V. V. Ivanov, M. I. Solnyshkina, V. D. Solovyev // Komp'juternaja Lingvistika I Intellektual'nye Tehnologii. — 2018. — С. 267—283.
14. Solnyshkina, M. I. The Structure of Cross-Linguistic Differences: Meaning and Context of 'Readability' and its Russian Equivalent 'Chitabelnost' [Текст] / M. I. Solnyshkina, E. V. Harkova, M. B. Kazachkova // Journal of Language and Education. — 2020. — Март. — Т. 6, № 1. — С. 103—119. — URL: https://jle.hse.ru/article/view/7176.
15. Lexical Features of Text Complexity: the case of Russian academic texts [Текст] / Churunina, Anna [и др.] // SHS Web Conf. — 2020. — Т. 88. — С. 01009. — URL: https://doi.org/10.1051/shsconf/20208801009.
16. Моделирование зон частотного словаря для оценки лексической сложности русских текстов [Текст] / О. В. Блинова [и др.] // Komp'juternaja Lingvistika I Intellektual'nye Tehnologii. — 2020.
17. Kiselnikov, Aleksander. Fundamentals of materials (text readability evaluation) [Текст] / Kiselnikov, Aleksander, Vakhitova, Diliara, Kazymova, Tatiana // E3S Web Conf. — 2021. — Т. 274. — С. 12006. — URL: https: //doi.org/10.1051/e3sconf/202127412006.
18. Glazkova, A. A Comparative Study of Feature Types for Age-Based Text Classification [Текст] / A. Glazkova, Y. Egorov, M. Glazkov // Analysis of Images, Social Networks and Texts. — Cham : Springer International Publishing, 2021. — С. 120—134.
19. Isaeva, U. Investigating the Robustness of Reading Difficulty Models for Russian Educational Texts [Текст] / U. Isaeva, A. Sorokin // Recent Trends in Analysis of Images, Social Networks and Texts / под ред. W. M. P. van der Aalst [и др.]. — Cham : Springer International Publishing,
2021. — С. 65—77.
20. Blinova, O. A hybrid model of complexity estimation: Evidence from Russian legal texts [Текст] / O. Blinova, N. Tarasov // Frontiers in Artificial Intelligence. — 2022. — Т. 5. — URL: https://www.frontiersin.org/articles/ 10.3389/frai.2022.1008530.
21. Блинова, О. В. Оценка сложности русских правовых текстов: архитектура модели [Текст] / О. В. Блинова // Мир русского слова. — 2022. — Т. 2. — С. 4—13.
22. Блинова, О. Метрики сложности русских правовых текстов: отбор, использование, первичная оценка эффективности [Текст] / О. Блинова, Н. Тарасов // Komp'juternaja Lingvistika I Intellektual'nye Tehnologii. —
2022. — С. 1017—1028.
23. Об определении сложности мультимодальных текстов сайтов российских университетов (на материале корпуса PolyLing) [Текст] / М. С. Коган [и др.] // International Journal of Open Information Technologies. — 2023. — Т. 12.
24. Solovyev, V. Readability formulas for three levels of Russian school textbooks [Текст] / V. Solovyev, V. Ivanov, M. Solnyshkina // Investigations on applied mathematics and informatics. Part II—1. — St. Petersburg, 2023. — Т. 529. — С. 140—156. — (Zap. Nauchn. Sem. POMI).
25. Чурунина, А. А. Лексическое разноообразие как предиктор сложности учебников по русскому языку [Текст] / А. А. Чурунина, М. И. Солныш-кина, И. Э. Ярмакеев // Русистика. — 2023. — Т. 21, № 2. — С. 212—227. — URL: https://journals.rudn.ru/russian-language-studies/article/view/35271.
26. Transformers: State-of-the-art natural language processing [Текст] / T. Wolf [и др.] // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. — 2020. — С. 38—45.
27. Лернер, И. Я. Критерии сложности некоторых элементов учебника [Текст] / И. Я. Лернер // Проблемы школьного учебника. — М., 1974. — Т. 1. — С. 47—58.
28. Fisher, D. Text Complexity: Raising Rigor in Reading [Текст] / D. Fisher, N. Frey, D. Lapp. — International Reading Association, 2012. — URL: https: //books.google.ru/books?id=ln3QoUr2DekC.
29. Crossley, S. A. Assessing Text Readability Using Cognitively Based Indices [Текст] / S. A. Crossley, J. Greenfield, D. S. McNamara // TESOL Quarterly. — 2008. — Т. 42, № 3. — С. 475—493. — URL: http://www. jstor.org/stable/40264479 (дата обр. 21.04.2024).
30. Common Core State Standards [Текст]. — National Governors Association Center for Best Practices, Council of Chief State School Officers, 2010.
31. Лапошина, А. Н. Влияние частотности слов текста на его сложность: экспериментальное исследование читателей младшего школьного возраста методом айтрекинга [Текст] / А. Н. Лапошина, М. Ю. Лебедева, А. А. Берлин Хенис // Russian Journal of Linguistics. — 2022. — Т. 26, № 2. — С. 493—514. — URL: https://journals.rudn.ru/linguistics/article/view/ 31335.
32. Rayner, K. Eye movements in reading and information processing: 20 years of research [Текст] / K. Rayner // Psychological Bulletin. — 1998. — Т. 124(3). — С. 372—422.
33. Clifton, C. Chapter 15 - Eye movements in reading words and sentences [Текст] / C. Clifton, A. Staub, K. Rayner // Eye Movements / под ред. R. P. Van Gompel [и др.]. — Oxford : Elsevier, 2007. — С. 341—371. — URL: https://www.sciencedirect.com/science/article/pii/B9780080449807500173.
34. Frequent Words Improve Readability and Short Words Improve Understandability for People with Dyslexia [Текст] / L. Rello [и др.] // Human-Computer Interaction - INTERACT 2013 / под ред. P. Kotze [и др.]. — Berlin, Heidelberg : Springer Berlin Heidelberg, 2013. — С. 203—219.
35. The word frequency effect during sentence reading: A linear or nonlinear effect of log frequency? [Текст] / S. J. White [и др.] // Quarterly Journal of Experimental Psychology. — 2018. — Т. 71, № 1. — С. 46—55. — URL: https://doi.org/10.1080/17470218.2016.1240813.
36. Henderson, J. Covert visual attention and extrafoveal information use during object identification [Текст] / J. Henderson, A. Pollatsek, K. Rayner // Perception & Psychophysics. — 1989. — Т. 45. — С. 196—208.
37. Griffin, Z. M. Observing the what and when of language production for different age groups by monitoring speakers' eye movements [Текст] / Z. M. Griffin, D. H. Spieler // Brain and Language. — 2006. — Т. 99, № 3. — С. 272—288. — URL: https://www.sciencedirect.com/science/article/pii/ S0093934X05002786 ; Language Comprehension across the Life Span.
38. Eye movements and word skipping during reading: Effects of word length and predictability [Текст] / K. Rayner [и др.] // Journal of Experimental Psychology: Human Perception and Performance. — 2011. — Т. 37(2). — С. 514—528.
39. Tiffin-Richards, S. P. Children's and adults' parafoveal processes in German: Phonological and orthographic effects [Текст] / S. P. Tiffin-Richards, S. Schroeder // Journal of Cognitive Psychology. — 2015. — Т. 27, № 5. — С. 531—548.
40. Farris-Trimble, A. Morpho-phonological regularities influence the dynamics of real-time word recognition: Evidence from artificial language learning [Текст] / A. Farris-Trimble, B. McMurray // Laboratory phonology. — 2018. — Т. 9, № 1. — С. 2.
41. Luke, S. G. Children's eye-movements during reading reflect the quality of lexical representations: An individual differences approach [Текст] / S. G. Luke, J. M. Henderson, F. Ferreira // Journal of Experimental Psychology: Learning, Memory, and Cognition. — 2015. — Т. 41(6). — С. 1675—1683.
42. Anne K. Rau, K. M. The Transition From Sublexical to Lexical Processing in a Consistent Orthography: An Eye-Tracking Study [Текст] / K. M. Anne K. Rau, K. Landerl // Scientific Studies of Reading. — 2014. — Т. 18, № 3. — С. 224—233.
43. Effects of orthographic consistency on eye movement behavior: German and English children and adults process the same words differently [Текст] / A. K. Rau [и др.] // Journal of Experimental Child Psychology. — 2015. — Т. 130. — С. 92—105. — URL: https://www.sciencedirect.com/science/ article/pii/S0022096514001829.
44. Flesch, R. A new readability yardstick [Текст] / R. Flesch // Journal of Applied Psychology. — 1948. — Т. 32. — С. 211—233.
45. Hochreiter, S. Long short-term memory [Текст] / S. Hochreiter, J. Schmidhuber // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.
46. Cortes, C. Support-vector networks [Текст] / C. Cortes, V. Vapnik // Machine learning. — 1995. — Т. 20, № 3. — С. 273—297.
47. Ho, T. K. Random decision forests [Текст] / T. K. Ho // Proceedings of 3rd international conference on document analysis and recognition. Т. 1. — IEEE. 1995. — С. 278—282.
48. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Текст] / J. Devlin [и др.] // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). — Minneapolis, Minnesota : Association for Computational Linguistics, 2019. — С. 4171—4186.
49. A Comparison of Features for Automatic Readability Assessment [Текст] / L. Feng [и др.] //. — 01.2010. — С. 276—284.
50. Learning to Classify Text Complexity for the Italian Language Using Support Vector Machines [Текст] / V. Santucci [и др.] // Computational Science and Its Applications - ICCSA 2020 / под ред. O. Gervasi [и др.]. — Cham : Springer International Publishing, 2020. — С. 367—376.
51. Vladika, J. TUM sebis at GermEval 2022: A Hybrid Model Leveraging Gaussian Processes and Fine-Tuned XLM-RoBERTa for German Text Complexity Analysis [Текст] / J. Vladika, S. Meisenbacher, F. Matthes // Proceedings of the GermEval 2022 Workshop on Text Complexity Assessment of German Text / под ред. S. Moller, S. Mohtaj, B. Naderi. — Potsdam, Germany : Association for Computational Linguistics, 09.2022. — С. 51—56. — URL: https://aclanthology.org/2022.germeval-1.9.
52. Unsupervised Cross-lingual Representation Learning at Scale [Текст] / A. Conneau [и др.]. — 2020. — arXiv: 1911.02116 [cs.CL].
53. Deutsch, T. Linguistic Features for Readability Assessment [Текст] / T. Deutsch, M. Jasbi, S. Shieber // Proceedings of the Fifteenth Workshop on Innovative Use of NLP for Building Educational Applications / под ред. J. Burstein [и др.]. — Seattle, WA, USA ^ Online : Association for Computational Linguistics, 07.2020. — С. 1—17. — URL: https : / / aclanthology.org/2020.bea-1.1.
54. Friedman, J. H. Greedy function approximation: a gradient boosting machine [Текст] / J. H. Friedman // Annals of statistics. — 2001. — С. 1189—1232.
55. Lexical analysis of the Russian language textbooks for primary school: corpus study [Текст] / A. N. Laposhina [и др.] // Komp'juternaja Lingvistika I Intellektual'nye Tehnologii. Т. 18. — 2019. — С. 351—363.
56. Stanza: A Python Natural Language Processing Toolkit for Many Human Languages [Текст] / P. Qi [и др.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. — 2020. — URL: https://nlp.stanford.edu/pubs/qi2020stanza.pdf.
57. Shavrina, T. TO THE METHODOLOGY OF CORPUS CONSTRUCTION FOR MACHINE LEARNING: «TAIGA» SYNTAX TREE CORPUS AND PARSER [Текст] / T. Shavrina, O. Shapovalova // Proceedings of "CORPORA^!?' International Conference. — Saint-Petersbourg, 2017.
58. СинТагРус сегодня [Текст] / Е. С. Иншакова [и др.] // Труды Института русского языка им. В.В. Виноградова. — 2019. — Т. 21. — С. 14—40.
59. Kutuzov, A. WebVectors: a toolkit for building web interfaces for vector semantic models [Текст] / A. Kutuzov, E. Kuzmenko // International Conference on Analysis of Images, Social Networks and Texts. — Springer. 2016. — С. 155—161.
60. Reimers, N. Sentence-BERT: Sentence Embeddings using Siamese BERTNetworks [Текст] / N. Reimers, I. Gurevych // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. — Association for Computational Linguistics, 11.2019.
61. Reimers, N. Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation [Текст] / N. Reimers, I. Gurevych // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. — Association for Computational Linguistics, 11.2020.
62. Korobov, M. Morphological analyzer and generator for Russian and Ukrainian languages [Текст] / M. Korobov // International Conference on Analysis of Images, Social Networks and Texts. — Springer. 2015. — С. 320—332.
63. Honnibal, M. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing [Текст] / M. Honnibal, I. Montani. — 2017. — To appear.
64. Ляшевская, О. Н. Частотный словарь современного русского языка на материалах Национального корпуса русского языка [Текст] / О. Н. Ляшевская, С. А. Шаров. — Москва : Издательский центр "Азбуковник", 2009. — С. 1087.
65. Sorokin, A. Deep Convolutional Networks for Supervised Morpheme Segmentation of Russian Language [Текст] / A. Sorokin, A. Kravtsova // Artificial Intelligence and Natural Language / под ред. D. Ustalov [и др.]. — Cham : Springer International Publishing, 2018. — С. 3—10.
66. Scikit-learn: Machine learning in Python [Текст] / F. Pedregosa [и др.] // the Journal of machine Learning research. — 2011. — Т. 12. — С. 2825—2830.
67. Keras [Электронный ресурс] / F. Chollet [и др.]. — 2015. — URL: https: //github.com/fchollet/keras.
68. Kingma, D. P. Adam: A Method for Stochastic Optimization [Текст] / D. P. Kingma, J. Ba. — 2017. — arXiv: 1412.6980 [cs.LG].
69. Templin, M. C. Certain language skills in children; their development and interrelationships [Текст] / M. C. Templin. — Minneapolis : University of Minnesota Press, 1957.
70. Blei, D. M. Latent dirichlet allocation [Текст] / D. M. Blei, A. Y. Ng, M. I. Jordan // the Journal of machine Learning research. — 2003. — Т. 3. — С. 993—1022.
71. Gensim—statistical semantics in Python [Текст] / R. Rehurek, P. Sojka [и др.] // Retrieved from gensim.org. — 2011.
72. Куратов, Ю. Адаптация глубоких двунаправленных многоязычных моделей на основе архитектуры Transformer для русского языка [Текст] / Ю. Куратов, М. Архипов // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Т. 18. — 2019. — С. 333—339.
73. Loshchilov, I. Decoupled Weight Decay Regularization [Текст] / I. Loshchilov,
F. Hutter. — 2019.
74. Vajjala, S. OneStopEnglish corpus: A new corpus for automatic readability assessment and text simplification [Текст] / S. Vajjala, I. Lucic // Proceedings of the Thirteenth Workshop on Innovative Use of NLP for Building Educational Applications. — Association for Computational Linguistics, 2018. — С. 297—304.
75. TF-IDF [Текст] // Encyclopedia of Machine Learning / под ред. C. Sammut,
G. I. Webb. — Boston, MA : Springer US, 2010. — С. 986—987. — URL: https: //doi.org/10.1007/978-0-387-30164-8_832.
76. YAKE! Keyword extraction from single documents using multiple local features [Текст] / R. Campos [и др.] // Information Sciences. — 2020. — Т. 509. — С. 257—289. — URL: https://www.sciencedirect.com/science/ article/pii/S0020025519308588.
77. Bougouin, A. TopicRank: Graph-Based Topic Ranking for Keyphrase Extraction [Текст] / A. Bougouin, F. Boudin, B. Daille // Proceedings of the Sixth International Joint Conference on Natural Language Processing / под ред. R. Mitkov, J. C. Park. — Nagoya, Japan : Asian Federation of Natural Language Processing, 10.2013. — С. 543—551. — URL: https : //aclanthology.org/I13-1062.
78. The PageRank citation ranking: Bringing order to the web: Stanford InfoLab [Текст] / L. Page [и др.] // Navigation, findability and the usage of cultural heritage on the web: an exploratory study. — 1999.
79. Grootendorst, M. KeyBERT: Minimal keyword extraction with BERT. [Текст] / M. Grootendorst. — Вер. v0.3.0. — 2020. — URL: https://doi. org/10.5281/zenodo.4461265.
80. KEA: Practical Automatic Keyphrase Extraction [Текст] / I. Witten [и др.] //. — 08.1999. — С. 254—255.
81. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension [Текст] / M. Lewis [и др.] // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics / под ред. D. Jurafsky [и др.]. — Online : Association for Computational Linguistics, 07.2020. — С. 7871—7880. — URL: https: / / aclanthology.org/2020.acl-main.703.
82. Exploring the limits of transfer learning with a unified text-to-text transformer [Текст] / C. Raffel [и др.] //J. Mach. Learn. Res. — 2020. — Янв. — Т. 21, № 1.
83. On the Evaluation Metrics for Paraphrase Generation [Текст] / L. Shen [и др.]. — 2022. — arXiv: 2202.08479 [cs.CL].
84. Stowe, K. Exploring Metaphoric Paraphrase Generation [Текст] / K. Stowe, N. Beck, I. Gurevych // Proceedings of the 25th Conference on Computational Natural Language Learning / под ред. A. Bisazza, O. Abend. — Online : Association for Computational Linguistics, 11.2021. — С. 323—336. — URL: https://aclanthology.org/2021.conll-1.26.
85. Lin, C.-Y. ROUGE: A Package for Automatic Evaluation of Summaries [Текст] / C.-Y. Lin // Text Summarization Branches Out. — Barcelona, Spain : Association for Computational Linguistics, 07.2004. — С. 74—81. — URL: https://aclanthology.org/W04-1013.
86. BERTScore: Evaluating Text Generation with BERT [Текст] / T. Zhang [и др.] // International Conference on Learning Representations. — 2019.
87. Morozov, D. "Keyphrases CS&Math Russian", Mendeley Data, V1 [Электронный ресурс] / D. Morozov, A. Glazkova. — 2022. — URL: https://data. mendeley.com/datasets/dv3j9wc59v/1.
88. Boudin, F. pke: an open source python-based keyphrase extraction toolkit [Текст] / F. Boudin // Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: System Demonstrations / под ред. H. Watanabe. — Osaka, Japan : The COLING 2016 Organizing Committee, 12.2016. — С. 69—73. — URL: https://aclanthology.org/C16-2015.
89. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer [Текст] / L. Xue [и др.] // Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. — 2021. — С. 483—498.
90. Gerasimenko, N. A. ruSciBERT: a transformer language model for obtaining semantic embeddings of scientific texts in Russian [Текст] / N. A. Gerasimenko, A. S. Chernyavsky, M. Nikiforova // Doklady Mathematics. Т. 106. — Springer. 2022. — S95—S96.
91. Попова, З. ЛЕКСИЧЕСКАЯ СИСТЕМА ЯЗЫКА (внутренняя организация, категориальный аппарат и приемы описания) [Текст] / З. Попова, И. Стернин. — URSS, 2014.
92. Mikk, J. Word Length as an Indicator of Semantic Complexity [Текст] / J. Mikk, H. Uibo, J. Elts // Text as a Linguistic Paradigm: Levels, Constituents, Constructs. Quantitative linguistics 60. — 2001. — Янв. — Т. 60. — С. 187—195.
93. Lewis, M. The length of words reflects their conceptual complexity [Текст] / M. Lewis, M. Frank // Cognition. — 2016. — Авг. — Т. 153. — С. 182—195.
94. Dan Melamed, I. Measuring Semantic Entropy [Текст] / I. Dan Melamed // Proceedings of the SIGLEX Workshop on Tagging Text with Lexical Semantics. — 2002. — С. 41—46.
95. Raukko, J. Polysemy as complexity? [Текст] / J. Raukko //A man of measure. — Finland : The Linguistic Association of Finland, 2006. — С. 357—361. — (SKY journal of linguistics).
96. Баранов, М. Т. Обогащение словарного запаса учащихся [Текст] / М. Т. Баранов // Методика преподавания русского языка. — М. : Академия, 2001. — Гл. 10. С. 232—236.
97. Левенштейн, В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов [Текст] / В. И. Левенштейн // Доклады Академий Наук СССР. — 1965. — Т. 163.4. — С. 845—848.
98. Шмелёв, Д. Очерки по семасиологии русского языка [Текст] / Д. Шмелёв. — Просвещение, 1964. — С. 184.
99. Долопчев, В. П. Опыт словаря неправильностей в русской разговорной речи [Текст] / В. П. Долопчев. — 1909.
100. Шарапова, Е. «Ложные друзья читателя» в «больших романах» Ф.М. Достоевского [Текст] / Е. Шарапова // Русский язык и литература в профессиональной коммуникации и мультикультурном пространстве: материалы Международной научно-практической конференции. — 2018. — С. 360—364.
101. Кузнецов, (р. С. А. Большой толковый словарь русского языка [Текст] / (. р. С. А. Кузнецов. — СПб.: Норинт, 1998.
102. Словарь языка интернета. RU [Текст] / М. А. Кронгауз [и др.]. — АСТ-ПРЕСС, 2016. — (Словари XXI века, Словари для интеллектуальных гурманов).
103. Иомдин, Б. Л. Как определять однокоренные слова? [Текст] / Б. Л. Иом-дин // Русская речь. — 2019. — Т. 1. — С. 109—115.
104. Тихонов, А. Н. Словообразовательный словарь русского языка: В 2 т. [Текст] / А. Н. Тихонов. — 2-е изд. — Москва : Русский язык, 1990.
105. Кузнецова, А. И. Словарь морфем русского языка [Текст] / А. И. Кузнецова, Т. Ф. Ефремова. — Москва : Русский язык, 1986.
106. The SIGMORPHON 2022 Shared Task on Morpheme Segmentation [Текст] / K. Batsuren [и др.] // Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology / под ред. G. Nicolai, E. Chodroff. — Seattle, Washington : Association for Computational Linguistics, 07.2022. — С. 103—116. — URL: https:// aclanthology.org/2022.sigmorphon-1.11.
107. Bolshakova, E. I. An Experimental Study of Neural Morpheme Segmentation Models for Russian Word Forms [Текст] / E. I. Bolshakova, A. S. Sapin // Proceedings of the Computational Models in Language and Speech Workshop (CMLS 2020) co-located with 16th International Conference on Computational and Cognitive Linguistics (TEL 2020), Kazan, Russia, November 12-13, 2020. Т. 2780 / под ред. A. M. Elizarov, N. V. Loukachevitch. — CEUR-WS.org, 2020. — С. 79—89. — (CEUR Workshop Proceedings). — URL: https://ceur-ws.org/Vol-2780/paper7.pdf.
108. Большакова, Е. И. Сравнение моделей морфемного разбора для русского языка, основанных на машинном обучении [Текст] / Е. И. Большакова, А. С. Сапин // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». Т. 18. — 2019. — С. 104—113.
109. Большаков, И. А. Кросслексика: универсум связей между русскими словами [Текст] / И. А. Большаков // Бизнес-информатика. — 2013. — Т. №3
(25).
110. Арефьев, Н. В. Морфемная сегментация с помощью sequence to sequence нейронной сети [Текст] / Н. В. Арефьев, Т. Ю. Грацианова, К. П. Попов // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2018». Т. 17. — 2018. — С. 82—91.
111. Национальный корпус русского языка 2.0: новые возможности и перспективы развития. [Текст] / С. О. Савчук [и др.] // Вопросы языкознания. — 2024. — Т. 2. — С. 7—34.
112. Cover, T. Entropy, Relative Entropy, and Mutual Information [Текст] / T. Cover, A. Joy // Elements of Information Theory. — John Wiley & Sons, Ltd, 2005. — Гл. 2. С. 13—55. — eprint: https://onlinelibrary.wiley.com/doi/ pdf/10.1002/047174882X.ch2. — URL: https://onlinelibrary.wiley.com/doi/ abs/10.1002/047174882X.ch2.
113. Classification and Regression Trees [Текст] / L. Breiman [и др.]. — Chapman, Hall/CRC, 1984.
114. Permutation importance: A corrected feature importance measure [Текст] / A. Altmann [и др.] // Bioinformatics (Oxford, England). — 2010. — Апр. — Т. 26. — С. 1340—7.
Публикации автора по теме диссертации
В периодических научных журналах, входящих в международную
базу цитирования Scopus
115. Morozov, D. A. Text complexity and linguistic features: Their correlation in English and Russian [Текст] / D. A. Morozov, A. V. Glazkova, B. L. Iomdin // Russian Journal of Linguistics. — 2022. — Т. 26, № 2. — С. 426—448.
116. Иомдин, Б. Л. Кто поймет «Незнайку»? Автоматическое определение сложности текстов для детей [Текст] / Б. Л. Иомдин, Д. А. Морозов // Русская речь. — 2021. — Т. 5. — С. 55—68.
117. Glazkova, A. Applying Transformer-Based Text Summarization for Keyphrase Generation [Текст] / A. Glazkova, D. Morozov // Lobachevskii Journal of Mathematics. — 2023. — Т. 44. — С. 123—136.
118. Keyword Generation for Russian-Language Scientific Texts Using the mT5 Model [Текст] / A. V. Glazkova [и др.] // Automatic Control and Computer Sciences. — 2024. — Т. 58. — С. 995—1002.
119. Automatic Morpheme Segmentation for Russian: Can an Algorithm Replace Experts? [Текст] / D. Morozov [и др.] // Journal of Language and Education. — 2024. — Дек. — Т. 10, № 4. — С. 71—84.
В изданиях из списка ВАК РФ
120. Генерация ключевых слов для аннотаций русскоязычных научных статей [Текст] / Д. А. Морозов [и др.] // Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. — 2023. — Май. — Т. 21. — С. 54—66.
121. Генерация ключевых слов для русскоязычных научных текстов с помощью модели mT5. [Текст] / А. В. Глазкова [и др.] // Моделирование и анализ информационных систем. — 2023. — Т. 30(4). — С. 418—428.
122. Ключевые слова, морфемные разборы и синтаксические деревья в задаче оценки сложности текста [Текст] / Д. Морозов [и др.] // Моделирование и анализ информационных систем. — 2024. — Т. 31(2). — С. 206—220.
В сборниках трудов конференций, индексируемых международной
базой цитирования Scopus
123. Glazkova, A. Multi-task fine-tuning for generating keyphrases in a scientific domain [Текст] / A. Glazkova, D. Morozov // 2023 IX International Conference on Information Technology and Nanotechnology (ITNT). — 2023. — С. 1—5.
124. Glazkova, A. Cross-Domain Robustness of Transformer-Based Keyphrase Generation [Текст] / A. Glazkova, D. Morozov // Data Analytics and Management in Data Intensive Domains / под ред. J. Baixeries [и др.]. — Cham : Springer Nature Switzerland, 2024. — С. 249—265.
125. Garipov, T. Generalization Ability of CNN-Based Morpheme Segmentation [Текст] / T. Garipov, D. Morozov, A. Glazkova // 2023 Ivannikov Ispras Open Conference (ISPRAS). — 2023. — С. 58—62.
126. Exploring the Feature Space for Cross-Domain Assessing the Complexity of Russian-Language Texts [Текст] / D. Morozov [и др.] // 2024 Ivannikov Ispras Open Conference (ISPRAS). — 2024. — С. 1—8.
В сборниках трудов иных конференций и тезисах докладов
127. Morozov, D. A. Convolutional neural networks and readability evaluation for Russian texts [Текст] / D. A. Morozov // INTERNATIONAL CONFERENCE MARCHUK SCIENTIFIC READINGS 2021 (4—8 окт. 2021). — Akademgorodok, Novosibirsk, Russia, 2021. — С. 180.
128. Глазкова, А. В. Многозадачное дообучение для генерации ключевых слов к научным текстам [Текст] / А. В. Глазкова, Д. А. Морозов // ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И НАНОТЕХНОЛОГИИ (ИТНТ-2023). Том 4. Искусственный интеллект. Сборник трудов по материалам IX Международной конференции и молодежной школы (г. Самара, 17-23 апреля 2023 г.) Т. 4. — 2023.
129. Морозов, Д. А. Критерии семантической сложности слова [Текст] / Д. А. Морозов, Б. Л. Иомдин // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2019». 18 (доп. том). — 2019. — С. 119—131.
130. Морозов, Д. А. Семантическая сложность слов русского языка и ее критерии на примере коротких низкочастотных слов [Текст] / Д. А. Морозов // Международная научная студенческая конференция. Материалы 57-й Международной научной студенческой конференции : материалы секции Прикладная лингвистика (14—19 апр. 2019). — Новосибирск, 2019. — С. 15.
131. Иомдин, Б. Л. Коварные слова и где они обитают [Текст] / Б. Л. Иом-дин, Д. А. Морозов // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2020». 19 (доп. том). — 2020. — С. 1011—1024.
132. Морозов, Д. А. Графовая модель для поиска обманчиво знакомых слов [Текст] / Д. А. Морозов // Международная научная студенческая конференция. Материалы 58-й Международной научной студенческой конференции : материалы секции Математика (10—13 апр. 2020). — Новосибирск, 2020. — С. 153.
133. Морозов, Д. А. Модель ментальных соседей коварных слов русского языка [Текст] / Д. А. Морозов // Международная научная студенческая конференция. Материалы 59-й Международной научной студенческой конференции : материалы секции Литературоведение. Прикладная лингвистика. Языкознание (12—23 апр. 2021). — Новосибирск, 2021. — С. 76—77.
Список рисунков
2.1 Схема подготовки данных для экспериментов..........................36
2.2 Схема подготовки данных для экспериментов..........................37
2.3 Схема архитектуры CNN-моделей........................................40
2.4 Схема архитектуры MLP-моделей........................................41
4.1 Возрастная динамика в понимании слова форсить ....................77
4.2 Снижение качества при уменьшении обучающей выборки (согласно Accuracy) ....................................................................83
4.3 Снижение качества при уменьшении обучающей выборки (согласно WordAccuracy) ..............................................................83
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Список таблиц
Основные характеристики использованных корпусов текстов..... 49
Информативность характеристик (по отношению к векторному
представлению текста) .......................... 51
Средняя (по двум алгоритмам) информативность характеристик . . 51 Влияние характеристик (по отношению к векторному
представлению текста) .......................... 52
Среднее (по всем четырём алгоритмам) влияние характеристик ... 53 Количество корпусов, на которых модель, обученная на соответствующем признаковом описании, обладает
информативностью/влиянием выше 100%................ 54
Сравнение качества классификатора на основе BERT, базовых моделей и лучшего достигнутого для каждого из алгоритмов качества 54 Основные характеристики использованных корпусов англоязычных
текстов ................................... 56
Влияние характеристик (по отношению к векторному
представлению текста) для англоязычных корпусов .......... 57
Среднее (по всем четырём алгоритмам) влияние характеристик для
англоязычных корпусов .......................... 58
Сравнение качества классификатора на основе BERT, базовых моделей и лучшего достигнутого для каждого из алгоритмов качества для англоязычных корпусов .................. 58
Краткая характеристика датасета для эксперимента с генерацией
ключевых слов ............................... 65
Сравнение качества базовых алгоритмов генерации ключевых слов
с точки зрения F-меры .......................... 66
Сравнение качества базовых алгоритмов генерации ключевых слов
с точки зрения метрики ROUGE-1.................... 66
Сравнение качества базовых алгоритмов генерации ключевых слов
с точки зрения метрики BERTScore................... 66
Результаты сравнения базовых алгоритмов генерации ключевых слов, RuTermExtract и mT5 на материале корпуса русскоязычных
научных статей ............................... 68
Примеры ключевых слов......................... 69
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
Р-мера (в процентах) моделей при использовании различных
тематических характеристик текста................... 71
Информативность тематических характеристик (по отношению к
векторному представлению текста) ................... 71
Средняя (по двум алгоритмам) информативность тематических
характеристик ............................... 71
Влияние тематических характеристик (по отношению к векторному
представлению текста) .......................... 72
Среднее (по четырём алгоритмам) влияние тематических
характеристик ............................... 72
Краткая характеристика датасетов ................... 82
Сравнение качества работы алгоритмов морфемной сегментации . . 82 Сравнение качества работы алгоритмов морфемной сегментации на
словах с неизвестными модели корнями ................. 84
Р-мера (в процентах) моделей при использовании различных ассоциированных со сложностью лексики характеристик текста ... 86 Информативность лексических характеристик (по отношению к
векторному представлению текста) ................... 87
Средняя (по двум алгоритмам) информативность лексических
характеристик ............................... 87
Влияние лексических характеристик (по отношению к векторному
представлению текста) .......................... 87
Среднее (по всем четырём алгоритмам) влияние лексических
характеристик ............................... 87
Р-мера (в процентах) моделей при использовании различных
наборов синтаксических характеристик текста ............. 92
Информативность синтаксических характеристик (по отношению к
векторному представлению текста) ................... 93
Средняя (по двум алгоритмам) информативность синтаксических
характеристик ............................... 93
Влияние синтаксических характеристик (по отношению к
векторному представлению текста) ................... 93
Среднее (по всем четырём алгоритмам) влияние синтаксических характеристик ............................... 93
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
Средняя (по двум алгоритмам) информативность всех изученных
групп характеристик ........................... 94
Среднее (по всем четырём алгоритмам) влияние всех изученных групп характеристик ........................... 95
Результаты эксперимента FicChAd (метод случайного леса и метод
опорных векторов).............................122
Результаты эксперимента FicChAd (свёрточная нейронная сеть и
многослойный перцептрон)........................123
Результаты эксперимента FicRARS (метод случайного леса и метод
опорных векторов).............................124
Результаты эксперимента FicRARS (свёрточная нейронная сеть и
многослойный перцептрон) ........................ 125
Результаты для корпуса Тех1Воокз (метод случайного леса и метод
опорных векторов).............................126
Результаты для корпуса Тех1Воокэ (свёрточная нейронная сеть и
многослойный перцептрон) ........................ 127
Результаты для корпуса RecommendedLiterature (метод случайного
леса и метод опорных векторов) ..................... 128
Результаты для корпуса RecommendedLiterature (свёрточная
нейронная сеть и многослойный перцептрон) .............. 129
Результаты для корпуса BooksRead (метод случайного леса и метод
опорных векторов).............................130
Результаты для корпуса BooksRead (свёрточная нейронная сеть и
многослойный перцептрон) ........................ 131
Результаты для корпуса CommonCore (метод случайного леса и
метод опорных векторов)..........................132
Результаты для корпуса CommonCore (свёрточная нейронная сеть и
многослойный перцептрон).........................133
Результаты для корпуса OneStopEnglish (метод случайного леса и
метод опорных векторов)..........................134
Результаты для корпуса OneStopEnglish (свёрточная нейронная
сеть и многослойный перцептрон)..................... 135
Приложение А Точность оценки сложности (результаты по корпусам)
Полученные результаты (F-мера, точность и полнота в процентах) представлены в таблицах 38, 39 (для эксперимента FicChAd), 40, 41 (для эксперимента FicRARS), 42, 43 (для корпуса TB), 44, 45 (для корпуса RL), 46, 47 (для эксперимента BR). Серым цветом в каждой таблице выделены результаты, превзошедшие базовую модель хотя бы на 1%.
Полученные результаты для англоязычных корпусов (F-мера, точность и полнота в процентах) представлены в таблицах 48, 49 (для корпуса CC), 50, 51 (для корпуса OSE). Серым цветом в каждой таблице выделены результаты, превзошедшие базовую модель хотя бы на 1%.
Таблица 38 — Результаты эксперимента Р1еСЬА(! (метод случайного леса и метод опорных векторов)
Набор признаков Е-мера Точность Полнота
Метод случайного леса
Векторизация 74.30 ± 0.20 75.50 ± 0.30 74.50 ± 0.20
Традиционные 68.50 ± 0.10 68.60 ± 0.10 68.60 ± 0.10
Индексы 62.40 ± 0.20 62.40 ± 0.20 62.40 ± 0.20
Морфологические 68.30 ± 0.10 68.50 ± 0.10 68.40 ± 0.10
Пунктуационные 55.60 ± 0.10 55.60 ± 0.10 55.60 ± 0.10
Синтаксические 67.50 ± 0.10 67.50 ± 0.10 67.50 ± 0.10
Лексические 66.90 ± 0.20 67.00 ± 0.20 66.90 ± 0.20
Тематические 76.80 ± 0.30 78.00 ± 0.20 77.00 ± 0.20
Векторизация+Традиционные 75.30 ± 0.10 75.80 ± 0.10 75.40 ± 0.10
Векторизация+Индексы 74.30 ± 0.20 75.50 ± 0.30 74.50 ± 0.20
Векторизация+Морфологические 75.40 ± 0.10 76.20 ± 0.20 75.60 ± 0.10
Векторизация+Пунктуационные 73.90 ± 0.20 74.80 ± 0.20 74.10 ± 0.20
Векторизация+Синтаксические 74.30 ± 0.10 75.50 ± 0.20 74.60 ± 0.10
Векторизация+Лексические 74.60 ± 0.20 75.10 ± 0.20 74.70 ± 0.20
Векторизация+Тематические 76.40 ± 0.20 77.20 ± 0.20 76.60 ± 0.20
Метод опорных векторов
Векторизация 75.10 76.10 75.30
Традиционные 70.30 70.40 70.30
Индексы 66.10 66.20 66.10
Морфологические 69.10 69.20 69.20
Пунктуационные 61.40 61.40 61.40
Синтаксические 68.00 68.50 68.10
Лексические 65.40 65.40 65.40
Тематические 76.60 78.30 76.90
Векторизация+Традиционные 75.60 76.70 75.80
Векторизация+Индексы 75.10 76.10 75.30
Векторизация+Морфологические 75.80 76.90 76.00
Векторизация+Пунктуационные 75.00 76.10 75.20
Векторизация+Синтаксические 75.20 76.20 75.40
Векторизация+Лексические 75.00 76.10 75.20
Векторизация+Тематические 75.40 76.70 75.70
Таблица 39 — Результаты эксперимента FicChAd (свёрточная нейронная сеть и многослойный перцептрон)
Набор признаков Е-мера Точность Полнота
Свёрточная нейронная сеть
Векторизация 79.20 ± 0.50 81.30 ± 0.20 78.90 ± 0.50
Векторизация+Традиционные 79.40 ± 0.40 81.30 ± 0.30 79.20 ± 0.40
Векторизация+Индексы 76.80 ± 5.60 85.20 ± 8.30 73.20 ± 13.00
Векторизация+Морфологические 79.50 ± 0.50 81.50 ± 0.30 79.30 ± 0.60
Векторизация+Пунктуационные 79.40 ± 0.50 81.30 ± 0.10 79.10 ± 0.50
Векторизация+Синтаксические 79.30 ± 0.40 81.40 ± 0.30 79.10 ± 0.50
Векторизация+Лексические 79.60 ± 0.30 81.50 ± 0.30 79.40 ± 0.40
Векторизация+Тематические 79.30 ± 0.30 81.00 ± 0.30 79.10 ± 0.30
Многослойный перцептрон
Векторизация 66.60 ± 0.40 68.40 ± 1.40 66.20 ± 0.50
Векторизация+Традиционные 71.30 ± 1.10 73.40 ± 1.70 71.00 ± 1.50
Векторизация+Индексы 68.20 ± 1.10 72.10 ± 1.50 67.40 ± 1.60
Векторизация+Морфологические 71.50 ± 0.50 72.50 ± 0.50 71.40 ± 0.60
Векторизация+Пунктуационные 67.20 ± 0.50 69.60 ± 1.90 66.70 ± 1.00
Векторизация+Синтаксические 70.40 ± 0.30 71.50 ± 0.80 70.20 ± 0.50
Векторизация+Лексические 69.70 ± 0.50 70.70 ± 0.70 69.60 ± 0.60
Векторизация+Тематические 75.70 ± 2.50 79.30 ± 2.00 75.10 ± 3.30
Таблица 40 — Результаты эксперимента FicRARS (метод случайного леса и метод опорных векторов)
Набор признаков F-мера Точность Полнота
Метод случайного леса
Векторизация 42.70 ± 0.40 45.60 ± 0.70 47.40 ± 0.40
Традиционные 38.20 ± 0.20 39.80 ± 0.30 41.80 ± 0.20
Индексы 35.30 ± 0.30 35.50 ± 0.40 38.00 ± 0.20
Морфологические 39.40 ± 0.10 40.20 ± 1.00 44.30 ± 0.10
Пунктуационные 31.80 ± 0.20 32.10 ± 0.20 32.50 ± 0.20
Синтаксические 37.50 ± 0.10 42.70 ± 1.00 42.40 ± 0.10
Лексические 36.90 ± 0.10 37.80 ± 1.00 41.90 ± 0.10
Тематические 45.00 ± 0.20 49.60 ± 0.80 49.40 ± 0.20
Векторизация+Традиционные 43.30 ± 0.30 45.80 ± 0.70 48.10 ± 0.40
Векторизация+Индексы 43.40 ± 0.20 45.30 ± 0.90 48.00 ± 0.20
Векторизация+Морфологические 42.80 ± 0.20 45.40 ± 0.30 47.60 ± 0.20
Векторизация+Пунктуационные 42.50 ± 0.20 44.90 ± 0.90 47.30 ± 0.20
Векторизация+Синтаксические 43.20 ± 0.10 45.90 ± 0.50 47.90 ± 0.10
Векторизация+Лексические 42.40 ± 0.30 44.90 ± 0.90 47.30 ± 0.30
Векторизация+Тематические 43.70 ± 0.30 47.80 ± 1.20 48.40 ± 0.30
Метод опорных векторов
Векторизация 42.40 43.80 42.70
Традиционные 36.90 38.20 43.90
Индексы 35.50 36.10 41.80
Морфологические 38.30 37.00 43.70
Пунктуационные 35.10 31.40 42.00
Синтаксические 37.30 51.30 44.30
Лексические 35.50 35.40 40.90
Тематические 44.00 48.30 48.60
Векторизация+Традиционные 42.80 44.20 43.10
Векторизация+Индексы 42.50 43.80 42.80
Векторизация+Морфологические 42.60 44.00 42.90
Векторизация+Пунктуационные 42.40 43.70 42.70
Векторизация+Синтаксические 42.50 43.80 42.80
Векторизация+Лексические 42.40 43.80 42.70
Векторизация+Тематические 42.80 44.50 43.10
Таблица 41 — Результаты эксперимента РюКАКБ (свёрточная нейронная сеть и многослойный перцептрон)
Набор признаков Е-мера Точность Полнота
Свёрточная нейронная сеть
Векторизация 45.20 ± 1.10 47.80 ± 1.80 44.70 ± 1.00
Векторизация+Традиционные 45.70 ± 1.60 48.70 ± 2.70 45.10 ± 1.40
Векторизация+Индексы 45.90 ± 2.00 51.00 ± 6.30 44.80 ± 1.30
Векторизация+Морфологические 46.50 ± 1.30 52.50 ± 4.60 45.00 ± 0.60
Векторизация+Пунктуационные 45.20 ± 1.10 50.70 ± 2.50 44.00 ± 1.30
Векторизация+Синтаксические 46.40 ± 2.30 49.70 ± 3.10 45.50 ± 1.80
Векторизация+Лексические 45.40 ± 2.00 51.70 ± 8.30 43.70 ± 1.80
Векторизация+Тематические 46.00 ± 1.20 51.00 ± 4.70 45.00 ± 0.90
Многослойный перцептрон
Векторизация 44.00 ± 3.20 53.40 ± 8.50 40.40 ± 1.50
Векторизация+Традиционные 47.60 ± 1.40 57.70 ± 7.40 43.70 ± 1.70
Векторизация+Индексы 45.30 ± 3.80 57.80 ± 9.60 41.20 ± 2.60
Векторизация+Морфологические 46.50 ± 1.50 58.80 ± 8.40 42.30 ± 2.80
Векторизация+Пунктуационные 48.30 ± 2.50 59.00 ± 6.50 43.80 ± 2.20
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.