Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данных

Старченко Владимир Миронович

Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данных тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Старченко Владимир Миронович

Старченко Владимир Миронович
кандидат наук
2025

Специальность ВАК РФ00.00.00

Количество страниц 120

Старченко Владимир Миронович. Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данных: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет «Высшая школа экономики». 2025. 120 с.

Оглавление диссертации кандидат наук Старченко Владимир Миронович

Введение

Глава 1. Обзор литературы

1.1. Задача автоматического исправления ошибок

1.2. Методы решения задачи ОБО до появления машинного обучения

1.3. Методы решения задачи ОБО после появления машинного обучения

1.4. Последние достижения в области ОБО

1.5. Оценка моделей ОБО

1.6. Предел разрешающей способности в оценке качества работы моделей ОБО

1.7. Концентрированные наборы данных в обработке естественного языка

1.8. Выводы по главе

Глава 2. Анализ проблем современных моделей ОБО в задаче исправления ошибок на уровне символов

2.1. Вводные замечания

2.2. Определение ошибки правописания

2.3. Взаимосвязь между качеством работы моделей ОБО и орфографическими ошибками

2.4. Шум в обучающих и тестовых данных

2.4.1 Тестовые данные

2.4.2 Обучающие данные

2.4.3 Источник шума и способ его предотвращения

2.5. Наборы данных

2.5.1 Используемые наборы данных

2.5.2 Генерация синтетического набора данных

2.6. Качество работы моделей на ошибках на уровне символов с разными тестовыми наборами данных

2.6.1 Эксперимент 1: Сравнение работы моделей на ОоКЪЬ-2014 и с-ООЖЬ-2014

2.6.1.1 Настройка эксперимента

2.6.1.2 Инструмент исправления правописания

2.6.1.3 Оценка моделей

2.6.2 Эксперимент 2: Сравнение работы моделей на б-ОоКЪЬ-2014

2.7. Обсуждение

2.8. Выводы по главе

Глава 3. Создание компактной системы исправления ошибок на уровне

символов

3.1. Вводные замечания

3.2. Предыдущие исследования, разрабатывающие модели проверки правописания

3.3. Наборы данных

3.3.1. Набор данных для обучения

3.3.1.1. Концентрированный синтетический набор данных (CSD)

3.3.1.2. Неконцентрированный синтетический набор данных (NCSD)

3.3.1.3. cLang-8

3.3.1.4. Размеры наборов данных

3.3.2. Набор данных для оценки

3.4. Эксперименты

3.4.1. Эксперимент 1: Размер модели

3.4.2. Эксперимент 2: Архитектура модели

3.4.3. Эксперимент 3: Алгоритм обучения

3.4.3.1. Используемые наборы данных

3.4.3.2. Гиперпараметры обучения

3.4.4. Эксперимент 4: Сравнение с предыдущими исследованиями

3.5. Обсуждение

3.5.1. Эксперимент 1: Размер модели

3.5.2. Эксперимент 2: Архитектура модели

3.5.3. Эксперимент 3: Алгоритм обучения

3.5.4. Эксперимент 4: Сравнение с предыдущими исследованиями

3.6. Выводы по главе

Глава 4. Учет широкого контекста при тестировании моделей GEC

4.1. Вводные замечания

4.2. Зависимость от контекста в GEC

4.3. Материалы и методы

4.3.1. Рабочее определение ошибок, чувствительных к широкому контексту

4.3.2. Создание тестового набора данных с повышенной долей

контекстно-зависимых ошибок

4.3.2.1. Исходные данные

4.3.2.2. Разметка концентрированного набора данных

4.3.2.3. Согласованность между аннотаторами

4.3.3. Оценка контекстно-зависимых ошибок

4.3.3.1. Расчет оценки

4.3.3.2. Связь между длиной текста и Р05-мерой

4.3.4. Условия эксперимента

4.4. Результаты

4.4.1. Концентрированный набор данных контекстно-зависимых ошибок

4.4.2. Качество исправления ошибок систем ОБО на концентрированном наборе данных

4.5. Обсуждение

4.6. Выводы по главе

Заключение

Благодарности

Список литературы

Приложение А

Приложение B

Приложение О

Введение диссертации (часть автореферата) на тему «Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данных»

Введение

Автоматическое исправление ошибок (Grammatical error correction, далее GEC) в письменных текстах — актуальная задача обработки естественного языка (Natural language processing, NLP).

Во-первых, исправление ошибок является важной прикладной задачей: ее решение, среди прочего, актуально для инструментов, использующихся при написании и редактуре текстов, в инструментах для изучения иностранного языка, в образовательных приложениях для детей. Во-вторых, корректный ввод важен для других задач NLP. Инструменты обработки языка часто показывают более низкие результаты на запросах с ошибками, так как на стадии обучения имеют дело с отобранными грамотными текстами. В таких случаях системы GEC используются в качестве одной из стадий предобработки данных.

Несмотря на то, что общепринятое в мировой литературе название обсуждаемой задачи (Grammatical error correction) содержит фрагмент «грамматический», она стандартно ставится шире, предполагая, что система GEC в качестве выдачи производит полностью корректный текст, который мог бы быть написан образованным носителем языка. Для этого, помимо грамматических ошибок, система GEC должна обрабатывать ошибки остальных доменов: орфографические, лексические, связанные с развертыванием дискурса и другие.

Наиболее эффективные в настоящий момент системы GEC обученные основываются на больших языковых моделях, таких как BART и T5. Эти модели демонстрируют высокие результаты на стандартных тестах и даже превосходят по качеству работы экспертов-аннотаторов, в соответствии с распространенными метриками. Важно заметить, что более низкие оценки экспертов не являются результатом ошибок в их работе, а происходят из возможности использования разных перифраз при исправлении одних и тех же ошибок. С другой стороны, даже наиболее продвинутые модели показывают низкие результаты для ряда типов ошибок, которые без труда

исправляет образованный носитель языка. Среди таких можно перечислить ошибки на уровне символов (в первую очередь опечатки и орфографические ошибки), ошибки в определенных синтаксических конфигурациях, ошибки в длинных предложениях, ошибки, требующие обращения к широкому контексту.

Таким образом, задача ОБО в настоящий момент переживает кризис: качество результатов систем ОБО имеет пространство для роста, однако стандартно применяемые метрики, достигнув значений, близких к максимальным, не позволяют выявить улучшения в работе модели. Настоящее диссертационное исследование предлагает решение этой проблемы, состоящее в использовании концентрированных наборов данных, то есть таких, в которых значительно повышена доля ошибок определенного типа. Исследование тестирует это решение для двух типов ошибок, представляющих сложность для современных систем ОБО: ошибок на уровне слова и ошибок, требующих для исправления широкого контекста.

Объектом исследования являются системы автоматического исправления грамматических ошибок (системы ОБО).

Предметом исследования является качество работы систем ОБО, с учетом применения синтетических и концентрированных наборов данных для их обучения и оценки.

Актуальность исследования состоит в том, что дальнейший рост качества исправления с помощью моделей ОБО для случаев, которые они обрабатывают не оптимально, затруднен. Есть необходимость повысить разрешающую способность проверки качества работы моделей и разработать методологию их (до)обучения, которая позволит выровнять асимметрию в исправлении разных типов ошибок, повысив качество обработки части из них.

Степень разработанности проблемы. Более ранние исследования указывают на существование проблемы в соотношении уровня оценок современных моделей и реального качества их работы. Одновременно с исследованиями, справедливо сообщающими высочайшее качество

современных моделей GEC в соответствии с общепринятыми метриками, ряд работ указывает на слабые результаты исправления отдельных типов ошибок или конфигураций ошибок. Достаточно разработанных путей для устранения разрыва между оценками и реальными результатами моделей эти работы, однако, не предлагают. Одно из решений, которое можно обнаружить в исследованиях, состоит в том, что предоставляется не только общая оценка модели на тестовом наборе данных, но и отдельные значения для разных типов ошибок, которые в этом наборе данных размечены. Подобная оценка моделей стала более распространена после выпуска набора инструментов для работы с ошибками в текстах ERRANT (Error annotation toolkit), в котором отдельная оценка модели относительно результатов для разных типов ошибок имплементирована как одна из базовых возможностей. Тем не менее, подобная оценка не является стандартной практикой и наблюдается только в отдельных работах. Выполненная подобным образом проверка качества не может рассматриваться как полное решение проблемы также по той причине, что отдельные типы ошибок слабо представлены в тестовых наборах данных, в том числе в силу жанровой принадлежности включенных в них текстов.

Целью диссертационного исследования является разработка методологии использования концентрированных наборов данных для создания и оценки качества систем GEC, а также тестирование подхода на ошибках на уровне символов и ошибок, требующих для исправления широкого контекста.

Для выполнения цели поставлены следующие задачи:

1. Исследовать ограничения современных, наиболее эффективных на данный момент моделей GEC, определив типы ошибок, с которыми они систематически не справляются.

2. Проанализировать методы оценки качества систем GEC и выявить ограничения этих методов. Разработать методику тестирования моделей GEC с использованием концентрированных наборов данных.

3. Исследовать применение концентрированных наборов данных для обучения моделей ОБО. Разработать алгоритм генерации концентрированных наборов данных для обучения моделей ОБО на примере ошибок на уровне слова. Разработать практически применимую модель на основе этого исследования.

4. Разработать и протестировать алгоритм создания естественного концентрированного набора данных для оценки качества моделей на примере ошибок, требующих широкого контекста для исправления.

5. Создать синтетические и естественные концентрированные наборы данных для оценки качества моделей для тех типов ошибок, которые требуют улучшения качества работы моделей ОБО.

Научная новизна диссертационного исследования состоит в разработке оптимизированного подхода к обучению и тестированию моделей ОБО с использованием концентрированных наборов данных, который не применялся систематически в этой задаче.

Создан алгоритм генерации концентрированных наборов данных на примере ошибок на уровне слова. С использованием такого сгенерированного набора данных, разработана модель инструмента для проверки правописания, демонстрирующая наилучшие результаты среди доступных для этой задачи систем.

Для ошибок, чувствительных к широкому контексту, предложен и апробирован метод полуавтоматического сбора концентрированных наборов данных для оценки качества моделей машинного обучения.

Основная теоретическая значимость исследования состоит в предложенном пути для преодоления проблемы разрешающей способности при оценке систем ОБО, заключающемся в использовании концентрированных наборов данных при оценке качества работы моделей машинного обучения, а также в обосновании того факта, что повышенная концентрация ошибок при тренировке модели с последующим дообучением

на более стандартным образом распределенных данных не приводит к росту ложноположительных срабатываний модели.

Кроме того, сделан ряд обобщений, связанных с отдельными типами ошибок, представляющих трудность для систем GEC. Обоснована осмысленность отделения ошибок на уровне слова от других типов ошибок при решении задачи GEC современными системами. Сделан вывод о разном уровне сложности типов ошибок внутри класса ошибок, требующих для исправления широкого контекста.

Практическая значимость. Результаты диссертационного исследования имеют широкий спектр практических применений.

Общая методология, предложенная в исследовании, а также созданные концентрированные наборы данных позволят улучшить результаты систем GEC, которые, в свою очередь, используются в инструментах редактуры и корректуры, обучающих приложениях и на стадии предобработки для других задач NLP.

Разработанная нетребовательная к ресурсам система проверки правописания может быть использована как напрямую в качестве инструмента проверки правописания, так и на стадии предобработки, в том числе для более сложных и требовательных к ресурсам моделей GEC.

Экспериментальный материал собран из ряда наборов данных с аннотированными ошибками. Для формирования тестовых наборов данных использовались данные соревнования CoNLL-2014, корпус Write & Improve (по материалам соревнования BEA-2019) и корпус Russian Error-Annotated Learner English Corpus (REALEC). Для генерации набора с повышенной концентрацией ошибок на уровне слова используются материалы интернет-энциклопедии Википедия, для дообучения — набор данных cLang-8.

Теоретико-методологическую основу исследования составили работы по оцениванию качества систем GEC Briscoe T., Bryant C Napoles C., Chollampatt S., Gillian E., Grundkiewicz R., Hadiwinoto C., Junczys-Dowmunt M., Ng H. T., Post M., Qorib M. R., Sakaguchi K., Susanto R. H., Tetreault J., Wu S. M.

и др. Эти работы вводят меру F0.5 для задачи GEC и обосновывают преимущества этой меры по сравнению с другими способами оценки для этой задачи, а также предлагают конкретные разработанные инструменты для применения меры. Работы Atrasevych V., Briscoe T., Bryant C., Cao H., Chernodub A., Chollampatt S., Li R., Li W., Lin H., Ng H. T., Omelianchuk K., Qorib M. R., Skurzhanskyi O., Wang C., Wang H., Wang W., Yuan Z и др. предоставляют теоретическую основу исследования с точки зрения разработки и анализа текущего состояния моделей GEC. На защиту выносятся следующие положения:

1. Анализ распределения различных типов ошибок в тестовых наборах данных является важным инструментом для объективного отражения качества работы современных систем GEC.

2. Метод использования концентрированных наборов данных позволяет улучшить репрезентативность оценки систем GEC.

3. Метод использования концентрированных наборов данных позволяет улучшить качество работы систем GEC.

4. Синтетические данные, включая их использование в концентрированных наборах данных, продолжают представлять значительную ценность, несмотря на достигнутый уровень развития систем GEC.

5. Применение созданного автором специализированного нетребовательного к ресурсам инструмента исправления ошибок правописания, обучение и оценка качества которого выполнялась с использованием концентрированных наборов данных, улучшает качество работы современных систем GEC в целом.

6. Метод создания концентрированных наборов данных ошибок, разработанный на примере ошибок, требующих широкого контекста для их исправления, позволяет объективно оценивать качество работы современных систем GEC и репрезентативно показывает эффективность системы обрабатывать отдельные типы ошибок.

Личный вклад диссертанта состоит в разработке основной части теоретической составляющей исследования и полной реализации экспериментальной составляющей, в том числе создании программного кода для оценки моделей, разработке и реализации алгоритмов, используемых в исследовании (в частности, алгоритма обучения не требовательных к ресурсам инструментов проверки правописания). Подготовка к публикации части материалов, посвященных проблеме исправления ошибок на уровне слова современными моделями GEC (изложены в главе 2 диссертации), а также материалов, посвященных ошибкам, чувствительным к широкому контексту (изложены в главе 4 диссертации) выполнена вместе с соавторами. В частности, совместно выполнены аннотация наборов данных и анализ результатов.

Апробация работы. Основные положения результаты работы докладывались на Открытой конференции ИСП РАН им. В.П. Иванникова 2023 и 9-й традиционной ежегодной конференции «Колмогоровский семинар по компьютерной лингвистике и наукам о языке» 2025.

Результаты исследования опубликованы в 3 статьях. Все они опубликованы в журналах, включенных в список журналов высокого уровня, подготовленный в НИУ ВШЭ, а также индексируемых в базе Scopus:

1. Starchenko V. M., Starchenko A. M. Here we go again: Modern GEC models need help with spelling // Proc. Inst. Syst. Program. RAS. 2023. Vol. 35. №. 5. P. 215-228.

2. Starchenko V. No Need to Get Wasteful: The Way to Train a Lightweight Competitive Spelling Checker Using (Concentrated) Synthetic Datasets // Computación y Sistemas. 2024. Vol. 28. №. 4. P. 1865-1877.

3. Fighting Evaluation Inflation: Concentrated Datasets for Grammatical Error Correction Task / V. Starchenko, D. Kharlamova, E. Klykova, A. Shavrina, A. Starchenko, O. Vinogradova, O. Lyashevskaya // Journal of Language and Education. 2024. Vol. 10. №. 4. P. 112-129.

Структура диссертации. Диссертационная работа включает в себя введение, четыре главы, заключение, список литературы и 3 приложения. Первая глава является обзором литературы. Главы 2-3 разрабатывают методологию концентрированных наборов данных на материале ошибок на уровне слова. Глава 2 посвящена проблеме инфляции оценок результатов моделей на примере ошибок на уровне слова. Показано, что тестовый концентрированный набор данных может служить индикатором инфляции оценок. Глава 3 связана с разработкой легкого инструмента для исправления правописания на основе концентрированного обучающего набора данных. Описана серия экспериментов по его обучению и использованию, приводится сравнение с текущей SOTA-моделью (state of the art, лучшая существующая на данный момент) в этой области, а также анализируется применимость концентрированных наборов данных для подобного рода задач. В главе 4 рассматриваются ошибки, требующие для исправления широкого контекста. Показано, что методология концентрированных наборов данных масштабируется на ошибки, устроенные более сложным образом, чем ошибки на уровне слова. В заключении подводятся выводы работы. Общий объем диссертации составляет 120 страниц. Список литературы включает 114 наименований.

Глава 1. Обзор литературы

Настоящая глава представляет собой обзор литературы по теме диссертационного исследования. В этом разделе мы обозреваем исследования по рассматриваемой и смежным темам в общей перспективе. Раздел 1.1 посвящен задаче GEC в целом, а также очерчивает историю развития инструментов ее решения. Разделы 1.2, 1.3 и 1.4 описывают исторические подходы к методам решения задачи. Раздел 1.5 описывает стандартную метрику, используемую для оценки моделей GEC (Fo.s-мера) и затрагивает вопрос использования других метрик для оценки работоспособности моделей. Раздел 1.6 характеризует текущее состояние исследовательской области, сосредоточиваясь на основной проблеме, решению которой посвящена настоящая диссертация. Раздел 1.7 обсуждает использование концентрированных наборов данных для решения задачи GEC.

Для удобства чтения обсуждение более частных исследований, посвященных рассмотрению отдельных проблем, на которых фокусируется эта работа, приводится в начале глав, которые сосредоточиваются на проработке соответствующих проблем.

1.1. Задача автоматического исправления ошибок

Автоматическое исправление ошибок является важной прикладной задачей обработки естественного языка. Она включает не только обнаружение, классификацию и исправление форм и структур, которые «строго грамматичны по своей природе» [Bryant et al. 2023], но и более широкий контекстный анализ. Задача состоит из выявления и исправления орфографических и пунктуационных ошибок, изменения синтаксической структуры, а также подбора правильных слов и порядка слов для улучшения читаемости и ясности текста, а также улучшения качества текста, что обеспечивает согласованность исправления с предполагаемым смыслом и стилем текста [Du, Hashimoto 2023]. Технологии GEC могут быть

использованы в различных приложениях связанных с обработкой естественного языка, для помощи в преподавании учащимся или людям, изучающим язык как второй (L2). Они могут экономить время преподавателей языка, а также оптимизировать работу корректоров, редакторов и других специалистов, взаимодействующих с текстами.

Исследователи разрабатывают алгоритмы исправления ошибок в текстах с самого начала компьютерной эры. Первоначально практические исследования были сосредоточены на исправлении ошибок правописания [Cargill 1980; Bentley 1985], в то время как GEC в более широком смысле обсуждалась в основном как этап предварительной обработки для систем NLP, неспособных обрабатывать грамматически некорректный ввод [Kwasny, Sondheimer 1981; Jensen et al. 1993]. Первые инструменты GEC, созданные для практического применения, появились позже ([Burstein et al. 2003; Leacock et al. 2009] и др.), и они в основном основывались на подходах, базирующихся на правилах.

Практически ориентированные системы быстро перешли к моделям обучения с учителем, основанным на классификации (например, [Lee 2004; Rozovskaya, Roth 2010; Dahlmeier, Ng 2011; Dale et al. 2012]) и архитектурах статистического машинного перевода (например, [Brockett et al. 2006; Yuan, Felice 2013]). Подробный обзор исследований, посвященных GEC на этом этапе, представлен в работе [Leacock et al. 2014]).

1.2. Методы решения задачи GEC до появления машинного обучения

Методы, основанные на правилах, были одним из первых подходов к грамматической коррекции. Некоторые из этих систем применяли так называемые «mal-rules» (правила ошибок) [Burstein et al. 2003; Leacock et al. 2009], которые моделировали типичные ошибки, совершаемые изучающими язык, помогая системе их обнаруживать и исправлять. Подходы, основанные на синтаксическом анализе, такие как конечные автоматы [Hassan et al. 2008;

Pirinen, Linden 2010], использовали деревья синтаксического разбора и разметку частей речи для выявления ошибок.

Подходы на основе правил были эффективны для обработки четко определенных грамматических конструкций и обеспечивали высокую точность для известных типов ошибок. Они широко применялись в образовательных инструментах и системах проверки грамматики, где важно следование строгим правилам. Однако у этих подходов были значительные недостатки. Такая разработка требовала глубокой лингвистической экспертизы и постоянного расширения и изменения системы правил, что делало их сложными в масштабировании. Они плохо справлялись с неоднозначными предложениями, не учитывали изменения в языке, а также не умели адаптироваться к стилям письма и ошибкам, не предусмотренным заранее в системе. Из-за этих ограничений исследователи начали искать более гибкие и адаптивные подходы.

С развитием вычислительных мощностей и появлением больших корпусов текстов в качестве альтернативы системам на основе правил начали использоваться статистические методы. Эти методы применяли вероятностные модели для анализа текста и выявления грамматических ошибок. Одним из первых статистических подходов были n-граммные модели, которые анализировали последовательности слов и определяли вероятность конкретного словосочетания [Chodorow, Leacock 2000]. Если система находила маловероятную последовательность, она помечала ее как потенциальную грамматическую ошибку и предлагала более часто встречающийся вариант. Другие статистические методы использовали наборы похожих слов и грамматических конструкций, которые легко друг с другом спутать, позволяя системе выбирать наиболее подходящее слово или грамматическую форму в зависимости от контекста.

Другим важным статистическим подходом стала модель шумного канала (Noisy Channel Model, [Kernighan et al. 1990]), которая рассматривала грамматическую коррекцию как задачу восстановления исходного текста. В

этой модели предполагалось, что правильное предложение проходит через «шумный» канал, в результате чего появляются грамматические ошибки. Система должна была восстановить исходное правильное предложение, анализируя вероятностные преобразования текста. Этот метод позволял исправлять широкий спектр ошибок без необходимости вручную задавать правила исправления.

Статистические методы значительно улучшили результаты работы систем ОБО, введя в обработку текстов элементы вероятностного анализа. Они обеспечили большую гибкость и адаптивность по сравнению с методами на основе правил. Эти подходы могли опираться на большие корпуса текстов и применять выявленные закономерности к новым ошибкам, что делало их более эффективными для обработки реальных языковых данных. Однако у статистических моделей были и недостатки. Их точность зависела от объема и качества данных, на которые они опирались, а также они плохо справлялись с зависимостями на дальних расстояниях в предложении. Кроме того, такие системы часто вносили ненужные исправления, заменяя правильные конструкции на более частотные, но не всегда корректные в конкретном контексте.

1.3. Методы решения задачи СЕС после появления машинного обучения

Переход от статистических методов к ранним методам машинного обучения стал следующим этапом развития ОБО. В отличие от предыдущих подходов, которые полагались на фиксированные правила или вероятностные модели, методы машинного обучения использовали алгоритмы, обученные на размеченных данных, для предсказания и исправления грамматических ошибок. Одним из распространенных подходов стало обучение с учителем, при котором модели обучались на размеченных примерах правильных и ошибочных предложений. В этих моделях использовались лингвистические

признаки, такие как части речи, зависимости между словами и контекстные векторы слов, чтобы предсказывать корректные исправления.

На раннем этапе машинного обучения в GEC часто использовали отдельные классификаторы для различных типов ошибок [Han et al. 2006]. Например, один классификатор мог исправлять ошибки в употреблении артиклей (a vs. the), а другой — ошибки в выборе времени глагола. Эти классификаторы работали независимо друг от друга, а затем их прогнозы объединялись для получения исправленного текста. Среди наиболее распространенных подходов предлагались наивный байесовский классификатор, решающие деревья, метод опорных векторов (SVM) и персептрон. Созданные на их основе модели могли выявлять закономерности в больших объемах данных, что позволяло им обнаруживать более широкий спектр грамматических ошибок по сравнению с методами, основанными на правилах или статистике.

Несмотря на свои преимущества, ранние методы машинного обучения также имели ограничения. Они требовали сложной работы по инженерии признаков, то есть инженеры и лингвисты должны были вручную подбирать характеристики, наиболее подходящие для представления грамматических закономерностей. Этот процесс был трудоемким и требовал глубоких знаний лингвистики. Кроме того, такие модели плохо поддавались адаптации к разным стилям письма и доменам, так как их качество работы сильно зависело от качества обучающих данных. Еще одной проблемой было то, что работа нескольких классификаторов могла привести к конфликтующим исправлениям, что снижало качество конечного результата.

Развитие этих ранних методов GEC заложило основу для более продвинутых подходов, включая статистический машинный перевод и нейронный машинный перевод, которые впоследствии заменили традиционные методы. Каждый этап развития GEC вносил новые улучшения, постепенно смещая акцент с ручных правил и вероятностных моделей на системы, обучающиеся на больших объемах данных. Методы на основе

правил обеспечивали точность и интерпретируемость результатов, но были сложны в масштабировании. Статистические модели вводили гибкость, но плохо работали с длинными зависимостями в предложениях. Ранние методы машинного обучения использовали данные более эффективно, но требовали сложной настройки. В конечном итоге ограничения этих методов привели к появлению нейросетевых моделей, которые сегодня являются основой передовых систем грамматической коррекции.

Позднее системы GEC быстро развивались благодаря появлению методов глубокого обучения и больших языковых моделей. Были реализованы системы GEC на основе различных архитектур, включая рекуррентные нейронные сети (RNN — см. [Yuan et al. 2016; Xie et al. 2016; Wang et al. 2017]), сверточные нейронные сети (CNN — см. Chollampatt, Ng 2018] и трансформеры ([Edunov et al. 2018; Wang et al. 2019] и многие последующие исследования). Подробное обсуждение недавних достижений в области систем GEC представлено в работах [Wang et al. 2021] и [Bryant et al. 2023].

1.4. Последние достижения в области GEC

Один из наиболее значительных шагов в развитии GEC связан с переходом к глубоким нейросетевым моделям. Введение методов машинного перевода позволило рассматривать исправление ошибок как задачу перевода с ошибочного языка на корректный.

Появление нейронного машинного перевода, особенно моделей на основе архитектуры Transformer, привело к значительному улучшению точности исправлений. Предобученные языковые модели, такие как BERT [Devlin et al. 2019], T5 [Raffel et al. 2020], GPT [Östling et al. 2024; Radford et al. 2018] и BART [Lewis et al. 2020], были адаптированы для задач GEC и показали выдающиеся результаты. Эти модели, обученные на огромных текстовых корпусах, обеспечивают более точное понимание грамматической структуры и контекста предложений. В отличие от предыдущих подходов, нейросетевые модели лучше справляются с грамматическими ошибками и создают более

естественные исправления. Также набирают популярность редакционные модели (edit-based approaches, GECToR [Omelianchuk et al. 2020; Tarnavskyi et al. 2022], CTC-Copy6 [Zhang et al. 2023]), которые предлагают исправления точечно, а не переписывают все предложение.

Список литературы диссертационного исследования кандидат наук Старченко Владимир Миронович, 2025 год

Список литературы

A comprehensive survey of grammatical error correction / Y. Wang, Y. Wang, K. Dang, J. Liu, Z. Liu // ACM Trans. Intell. Syst. Technol. 2021. Oct. Vol. 12, no. 5. P. 1-51

A Methodology for Generative Spelling Correction via Natural Spelling Errors Emulation across Multiple Domains and Languages / N. Martynov, M. Baushenko, A. Kozlova, K. Kolomeytseva, A. Abramov, A. Fenogenova // Findings of the Association for Computational Linguistics: EACL 2024 / ed. by Y. Graham, M. Purver. St. Julian's, Malta : Association for Computational Linguistics, 03/2024. P. 138-155. URL: https://aclanthology.org/2024.findingseacl.10/

A simple recipe for multilingual grammatical error correction / S. Rothe, J. Mallinson, E. Malmi, S. Krause, A. Severyn // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Online : Association for Computational Linguistics, 2021

A Study of BFLOAT16 for Deep Learning Training / D. D. Kalamkar [et al.] // ArXiv. 2019

Agarwal A., Lavie A. Meteor, m-bleu and m-ter: Evaluation metrics for high-correlation with human rankings of machine translation output // Proceedings of the Third Workshop on Statistical Machine Translation. 2008. P. 115-118

Ahmed F., Luca E. W. D., Nürnberger A. Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness // Polibits. 2009. No. 40. P. 39-48

Alpaca: A strong, replicable instruction-following model / R. Taori, I. Gulrajani, T. Zhang, Y. Dubois, X. Li, C. Guestrin, P. Liang, T. B. Hashimoto // Stanford Center for Research on Foundation Models. https://crfm. stanford. edu/2023/03/13/alpaca.html. 2023. Vol. 3, no. 6. P. 7

Analyzing the performance of GPT-3.5 and GPT-4 in grammatical error correction / S. Coyne, K. Sakaguchi, D. Galvan-Sosa, M. Zock, K. Inui. 2023. Mar. arXiv: 2303.14342[cs.CL]

Augmentation methods for spelling corruptions / N. Martynov, M. Baushenko, A. Abramov, A. Fenogenova // Proceedings of the International Conference "Dialogue. 2023. Vol. 2023

Automated grammatical error detection for language learners, second edition / C. Leacock, M. Chodorow, M. Gamon, J. Tetreault. Cham : Springer International Publishing, 2014

Banerjee S., Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments // Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization / ed. by J. Goldstein, A. Lavie, C.-Y. Lin, C. Voss. Ann Arbor, Michigan : Association for Computational Linguistics, 06/2005. P. 65-72. URL: https://aclanthology.org/W05-0909/

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension / M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, L. Zettlemoyer // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics / ed. by D. Jurafsky, J. Chai, N. Schluter, J. Tetreault. Online : Association for Computational Linguistics, 07/2020. P. 7871-7880. DOI: 10.18653/v1/2020.acl-main.703. URL: https://aclanthology.org/2020. acl-main.703/

Bell S., Yannakoudakis H., Rei M. Context is Key: Grammatical Error Detection with Contextual Word Representations // Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications / ed. by H. Yannakoudakis, E. Kochmar, C. Leacock, N. Madnani, I. Pilan, T. Zesch. Florence, Italy : Association for Computational Linguistics, 08/2019. P. 103-115. DOI: 10.18653/v1/W19-4410. URL: https://aclanthology. org/W19-4410/

Bentley J. Programming pearls // Commun. ACM. 1985. May. Vol. 28, no. 5. P. 456-462

Bert: Pre-training of deep bidirectional transformers for language understanding / J. Devlin, M.-W. Chang, K. Lee, K. Toutanova // Proceedings of the 2019 conference of the North American chapter of the association for computational

linguistics: human language technologies, volume 1 (long and short papers). 2019. P. 4171-4186

Bleu: a Method for Automatic Evaluation of Machine Translation / K. Papineni, S. Roukos, T. Ward, W.-J. Zhu // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics / ed. by P. Isabelle, E. Charniak, D. Lin. Philadelphia, Pennsylvania, USA : Association for Computational Linguistics, 07/2002. P. 311-318. DOI: 10.3115/1073083.1073135. URL: https://aclanthology.org/P02-1040/

Brockett C., Dolan W. B., Gamon M. Correcting ESL errors using phrasal SMT techniques // Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL - ACL '06. Sydney, Australia : Association for Computational Linguistics, 2006

Bryant C., Felice M., Briscoe T. Automatic annotation and evaluation of error types for grammatical error correction // Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vancouver, Canada : Association for Computational Linguistics, 2017

Bryant C., Ng H. T. How far are we from fully automatic high quality grammatical error correction? // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing, China : Association for Computational Linguistics, 2015

Burstein J., Chodorow M., Leacock C. CriterionSM online essay evaluation: An application for automated evaluation of student essays // Proceedings of the Fifteenth Conference on Innovative Applications of Artificial Intelligence. 2003. P. 3-10

Buyuk O., Arslan L. M. Learning from mistakes: Improving spelling correction performance with automatic generation of realistic misspellings // Expert Syst. 2021. Aug. Vol. 38, no. 5

ByT5: Towards a token-free future with pre-trained byte-to-byte models / L. Xue, A. Barua, N. Constant, R. Al-Rfou, S. Narang, M. Kale, A. Roberts, C. Raffel // Trans. Assoc. Comput. Linguist. 2022. Mar. Vol. 10. P. 291-306

Cargill T. A. The design of a spelling checker's user interface // ACM SIGOA Newsl. 1980. July. Vol. 1, no. 3. P. 3-4

Castles A., Rastle K., Nation K. Ending the reading wars: Reading acquisition from novice to expert // Psychol. Sci. Public Interest. 2018. June. Vol. 19, no. 1. P. 5-51

Chodorow M., Leacock C. An unsupervised method for detecting grammatical errors // 1st Meeting of the North American Chapter of the Association for Computational Linguistics. 2000

Chollampatt S., Ng H. T. A reassessment of reference-based grammatical error correction metrics // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA : Association for Computational Linguistics, 2018. P. 2730-2741

Chollampatt S., Ng H. T. Connecting the dots: Towards human-level grammatical error correction // Proceedings of the 12th Workshop on Innovative Use of NLP for Building Educational Applications. Copenhagen, Denmark : Association for Computational Linguistics, 2017

Chollampatt S., Wang W., Ng H. T. Cross-Sentence Grammatical Error Correction // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy : Association for Computational Linguistics, 2019. P. 435-445

Corpora Generation for Grammatical Error Correction / J. Lichtarge, C. Alberti, S. Kumar, N. Shazeer, N. Parmar, S. Tong // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) / ed. by J. Burstein, C. Doran, T. Solorio. Minneapolis, Minnesota : Association for Computational Linguistics, 06/2019. P. 3291-3301. DOI: 10.18653/v1/N19-1333. URL: https://aclanthology.org/N19-1333/

CrowS-pairs: A challenge dataset for measuring social biases in masked language models / N. Nangia, C. Vania, R. Bhalerao, S. R. Bowman // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). Online : Association for Computational Linguistics, 2020

Dahlmeier D., Ng H. T. Grammatical error correction with alternating structure optimization // Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies. 2011. P. 915-923

Dahlmeier D., Ng H. T., Wu S. M. Building a large annotated corpus of learner English: The NUS corpus of learner English // Proceedings of the eighth workshop on innovative use of NLP for building educational applications. 2013. P. 22-31

Dahlmeier D., Ng H. T. Better Evaluation for Grammatical Error Correction // Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies / ed. by E. Fosler-Lussier, E. Riloff, S. Bangalore. Montréal, Canada : Association for Computational Linguistics, 06/2012. P. 568-572. URL: https : //aclanthology. org/N12-1067/

Dale R., Anisimoff I., Narroway G. HOO 2012: A report on the preposition and determiner error correction shared task // Proceedings of the Seventh Workshop on Building Educational Applications Using NLP. 2012. P. 54-62

Delden S. van, Bracewell D., Gomez F. Supervised and unsupervised automatic spelling correction algorithms // Proceedings of the 2004 IEEE International Conference on Information Reuse and Integration, 2004. IRI 2004. IEEE. 2004. P. 530-535

DRC: A dual route cascaded model of visual word recognition and reading aloud / M. Coltheart, K. Rastle, C. Perry, R. Langdon, J. Ziegler // Psychol. Rev. 2001. Vol. 108, no. 1. P. 204-256

Du Z., Hashimoto K. Exploiting paraphrasers and inverse paraphrasers: A novel approach to enhance English writing fluency through improved style transfer training data // Proceedings of the 2023 7th International Conference on Computer Science and Artificial Intelligence. 2023. P. 346-352

Evaluating prompting strategies for grammatical error correction based on language proficiency / M. Zeng, J. Kuang, M. Qiu, J. Song, J. Park. 2024. eprint: 2402.15930 (cs.CL)

Evaluation of Really Good Grammatical Error Correction / R. Ostling, K. Gillholm, M. Kurfali, M. Mattson, M. Wiren // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) / ed. by N. Calzolari, M.-Y. Kan, V. Hoste, A. Lenci, S. Sakti, N. Xue. Torino, Italia : ELRA, ICCL, 05/2024. P. 6582-6593. URL: https://aclanthology.org/2024.lrec-main.584/

Exploring the limits of transfer learning with a unified text-to-text transformer / C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, P. J. Liu // J. Mach. Learn. Res. 2020. Vol. 21

Fighting Evaluation Inflation: Concentrated Datasets for Grammatical Error Correction Task / V. Starchenko, D. Kharlamova, E. Klykova, A. Shavrina, A. Starchenko, O. Vinogradova, O. Lyashevskaya // Journal of Language and Education. 2024. Vol. 10, no. 4. P. 112-129

Fleiss J. L. Measuring nominal scale agreement among many raters. // Psychological bulletin. 1971. Vol. 76, no. 5. P. 378

Floridi L., Chiriatti M. Gpt-3: Its nature, scope, limits, and consequences // Minds and Machines. 2020. Vol. 30. P. 1-14

Ge T., Wei F., Zhou M. Fluency boost learning and inference for neural grammatical error correction // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia : Association for Computational Linguistics, 2018

GECToR - grammatical error correction: Tag, not rewrite / K. Omelianchuk, V. Atrasevych, A. Chernodub, O. Skurzhanskyi // Proceedings of the Fifteenth Workshop on Innovative Use of NLP for Building Educational Applications. Seattle, WA, USA ^ Online : Association for Computational Linguistics, 2020

Ghosh S., Kristensson P. O. Neural networks for text correction and completion in keyboard decoding. 2017

GLEU: Automatic Evaluation of Sentence-Level Fluency / A. Mutton, M. Dras, S. Wan, R. Dale // Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics / ed. by A. Zaenen, A. van den Bosch. Prague, Czech Republic : Association for Computational Linguistics, 06/2007. P. 344-351. URL: https://aclanthology.org/P07-1044/

GPTBIAS: A comprehensive framework for evaluating bias in large language models / J. Zhao, M. Fang, S. Pan, W. Yin, M. Pechenizkiy. 2023. eprint: 2312.06315 (cs.CL)

Grammatical Error Correction: A survey of the state of the art / C. Bryant, Z. Yuan, M. R. Qorib, H. Cao, H. T. Ng, T. Briscoe // Comput. Linguist. Assoc. Comput. Linguist. 2023. June. P. 1-59

Ground truth for grammaticality correction metrics / C. Napoles, K. Sakaguchi, M. Post, J. Tetreault // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers). Beijing, China : Association for Computational Linguistics, 2015

Grundkiewicz R., Junczys-Dowmunt M., Gillian E. Human evaluation of grammatical error correction systems // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal : Association for Computational Linguistics, 2015

Guo J., Sainath T., Weiss R. A Spelling Correction Model for End-to-end Speech Recognition // ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. May. P. 5651-5655. DOI: 10.1109/ICASSP.2019.8683745. URL: https://api.semanticscholar. org/CorpusID:67750495

Han N. R., Chodorow M., Leacock C. Detecting errors in English article usage by non-native speakers // Natural Language Engineering. 2006. Vol. 12, no. 2. P. 115-129

Hassan A., Noeman S., Awadalla H. H. Language independent text correction using finite state automata // Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-II. 2008

Hinson C., Huang H.-H., Chen H.-H. Heterogeneous recycle generation for Chinese grammatical error correction // Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain (Online) : International Committee on Computational Linguistics, 2020

Improving language understanding by generative pre-training / A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, [et al.]. 2018

Improving Seq2Seq Grammatical Error Correction via Decoding Interventions / H. Zhou, Y. Liu, Z. Li, M. Zhang, B. Zhang, C. Li, J. Zhang, F. Huang // Findings of the Association for Computational Linguistics: EMNLP 2023 / ed. by H. Bouamor, J. Pino, K. Bali. Singapore : Association for Computational Linguistics, 12/2023. P. 7393-7405. DOI: 10.18653/v1/2023.findingsemnlp.495. URL: https://aclanthology.org/2023.findings-emnlp.495/

Katsumata S., Komachi M. Stronger Baselines for Grammatical Error Correction Using a Pretrained Encoder-Decoder Model // Proceedings of the 1st Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics and the 10th International Joint Conference on Natural Language Processing. Suzhou, China : Association for Computational Linguistics, 2020. P. 827-832

Kernighan M. D., Church K. W., Gale W. A. A Spelling Correction Program Based on a Noisy Channel Model // COLING 1990 Volume 2: Papers presented to the 13th International Conference on Computational Linguistics. 1990. URL: https://aclanthology.org/C90-2036/

Kondrak G., Sherif T. Evaluation of Several Phonetic Similarity Algorithms on the Task of Cognate Identification // Proceedings of the Workshop on Linguistic Distances. Sydney, Australia : Association for Computational Linguistics, 2006. P. 43-50

Korre K., Pavlopoulos J. ERRANT: Assessing and Improving Grammatical Error Type Classification // Proceedings of the 4th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage. 2020. P. 85-89

Krippendorff K. Computing Krippendorffs alpha-reliability. 2011 Krippendorff K. Content analysis: An introduction to its methodology. Sage publications, 2018

Kudo T., Richardson J. SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Brussels, Belgium : Association for Computational Linguistics, 2018. P. 66-71

Kwasny S. C., Sondheimer N. K. Relaxation techniques for parsing grammatically ill-formed input in natural language understanding systems // American Journal of Computational Linguistics. 1981. Vol. 7, no. 2. P. 99-108

Leacock C., Gamon M., Brockett C. User input and interactions on Microsoft Research ESL assistant // Proceedings of the Fourth Workshop on Innovative Use of NLP for Building Educational Applications. 2009. P. 73-81

Lee J. S. Automatic article restoration // Proceedings of the Student Research Workshop at HLT-NAACL 2004. 2004. P. 31-36

Li W., Wang H. Detection-correction structure via General Language Model for grammatical error correction. 2024. eprint: 2405.17804 (cs.CL)

LLaMA: Open and efficient foundation language models / H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Roziere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, G. Lample. 2023. Feb. arXiv: 2302.13971[cs.CL]

LongT5: Efficient Text-To-Text Transformer for Long Sequences / M. Guo, J. Ainslie, D. Uthus, S. Ontanon, J. Ni, Y.-H. Sung, Y. Yang // Findings of the Association for Computational Linguistics: NAACL 2022. Seattle, United States : Association for Computational Linguistics, 2022. P. 724-736

Marzi G., Balzano M., Marchiori D. K-Alpha calculator-krippendorffs alpha calculator: a user-friendly tool for computing krippendorffs alpha inter-rater reliability coefficient // MethodsX. 2024. Vol. 12. P. 102545

Multi-agent dual learning / Y. Wang, Y. Xia, T. He, F. Tian, T. Qin, C. Zhai, T. Y. Liu // Proceedings of the International Conference on Learning Representations (ICLR). 2019

Multi-Class Grammatical Error Detection for Correction: A Tale of Two Systems / Z. Yuan, S. Taslimipoor, C. Davis, C. Bryant // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing / ed. by M.-F. Moens, X. Huang, L. Specia, S. W.-t. Yih. Online, Punta Cana, Dominican Republic : Association for Computational Linguistics, 11/2021. P. 8722-8736. DOI: 10.18653/v1/2021.emnlp-main.687. URL: https: //aclanthology.org/2021.emnlp-main.687/

MultiGED-2023 shared task at NLP4CALL: Multilingual grammatical error detection / E. Volodina, C. Bryant, A. Caines, O. De Clercq, J.-C. Frey, E. Ershova, A. Rosen, O. Vinogradova // Proceedings of the 12th workshop on NLP for computer assisted language learning. 2023. P. 1-16

Napoles C., Sakaguchi K., Tetreault J. JFLEG: A fluency corpus and benchmark for grammatical error correction // Proceedings of the 15th Conference of the European Chapter. Vol. 2 / ed. by M. Lapata, P. Blunsom, A. Koller. Valencia, Spain : Association for Computational Linguistics, 2017. P. 229-234

Napoles C., Sakaguchi K., Tetreault J. There's No Comparison: Reference-less Evaluation Metrics in Grammatical Error Correction // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing / ed. by J. Su, K. Duh, X. Carreras. Austin, Texas : Association for Computational Linguistics, 11/2016. P. 2109-2115. DOI: 10.18653/v1/D16-1228. URL: https: //aclanthology. org/D 16-1228/

Nather M. An in-depth comparison of 14 spelling correction tools on a common benchmark // Proceedings of the Twelfth Language Resources and Evaluation Conference. 2020. P. 1849-1857

Neural language correction with character-based attention / Z. Xie, A. Avati, N. Arivazhagan, D. Jurafsky, A. Y. Ng. 2016. eprint: 1603.09727 (cs.CL)

Non-autoregressive Text Editing with Copy-aware Latent Alignments / Y. Zhang, Y. Zhang, L. Cui, G. Fu // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing / ed. by H. Bouamor, J. Pino, K. Bali. Singapore : Association for Computational Linguistics, 12/2023. P. 7075-7085. DOI: 10.18653/v1/2023.emnlp-main.437. URL:

https://aclanthology.org/2023.emnlp-main.437/

Overview of NLPTEA-2018 share task Chinese grammatical error diagnosis / G. Rao, Q. Gong, B. Zhang, E. Xun // Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications. 2018. P. 42-51

Parse Fitting and Prose Fixing / K. Jensen, G. Heidorn, L. Miller, Y. Ravin // The Kluwer International Series in Engineering and Computer Science. Boston, MA : Springer US, 1993. P. 53-64

Perplexity—a measure of the difficulty of speech recognition tasks / F. Jelinek, R. L. Mercer, L. R. Bahl, J. K. Baker // The Journal of the Acoustical Society of America. 1977. Vol. 62, S1. S63-S63

Pirinen T., Linden K. Finite-State Spell-Checking with Weighted Language and Error Models: Building and Evaluating Spell-Checkers with Wikipedia as Corpus // Proceedings of LREC 2010. 05/2010. ISBN 2-9517408-6-7. LREC 2010 ; Conference date: 17-05-2010 Through 23-05-2010

Qiu Z., Qu Y. A two-stage model for chinese grammatical error correction // IEEE Access. 2019. Vol. 7. P. 146-772

Qorib M. R., Ng H. T. Grammatical error correction: Are we there yet? // Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea, 2022. P. 2794-2800

Randolph J. J. Free-Marginal Multirater Kappa (multirater K [free]): An Alternative to Fleiss' Fixed-Marginal Multirater Kappa. // Online submission. 2005

Rozovskaya A., Roth D. Training paradigms for correcting errors in grammar and usage // Human language technologies: The 2010 annual conference of the north american chapter of the association for computational linguistics. 2010. P. 154-162 Rozovskaya A., Roth D. Grammatical Error Correction: Machine Translation and Classifiers // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany : Association for Computational Linguistics, 2016

Sakaguchi K., Post M., Van Durme B. Grammatical error correction with neural reinforcement learning // Proceedings of the Eighth International Joint Conference on Natural Language Processing. Vol. 2. Taipei, Taiwan : Short Papers, 2017. P. 366-372

Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers / Y. Tay, M. Dehghani, J. Rao, W. Fedus, S. Abnar, H. W. Chung, S. Narang, D. Yogatama, A. Vaswani, D. Metzler // ArXiv. 2021. Vol. 2109, no. 10686

Self-Instruct: Aligning Language Models with Self-Generated Instructions / Y. Wang, Y. Kordi, S. Mishra, A. Liu, N. A. Smith, D. Khashabi, H. Hajishirzi // Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) / ed. by A. Rogers, J. Boyd-Graber, N. Okazaki. Toronto, Canada : Association for Computational Linguistics, 07/2023. P. 13484-13508. DOI: 10.18653/v1/2023.acl-long.754. URL:

https://aclanthology.org/2023.acl-long.754/

Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Vol. 1. Berlin, Germany : Association for Computational Linguistics, 2016. P. 1715-1725

Spelling error correction using a nested RNN model and pseudo training data / H. Li, Y. Wang, X. Liu, Z. Sheng, S. Wei // arXiv preprint arXiv:1811.00238. 2018 Starchenko V. M. No need to get wasteful: The way to train a lightweight competitive spelling checker. 2024

Starchenko V. M., Starchenko A. M. Here we go again: Modern GEC models need help with spelling // Proc. Inst. Syst. Program. RAS. 2023. Vol. 35, no. 5. P. 215-228

Studying the effect and treatment of misspelled queries in Cross-Language Information Retrieval / J. Vilares, M. A. Alonso, Y. Doval, M. Vilares // Inf. Process. Manag. 2016. July. Vol. 52, no. 4. P. 646-657

Stuker S., Fay J., Berkling K. Towards context-dependent phonetic spelling error correction in children's freely composed text for diagnostic and pedagogical purposes // Interspeech 2011. ISCA : ISCA, 08/2011. P. 1601-1604

Susanto R. H., Phandi P., Ng H. T. System combination for grammatical error correction // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar : Association for Computational Linguistics, 2014

SynGEC: Syntax-enhanced grammatical error correction with a tailored GEC-oriented parser / Y. Zhang, B. Zhang, Z. Li, Z. Bao, C. Li, M. Zhang // Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. Abu Dhabi, United Arab Emirates : Association for Computational Linguistics, 2022. P. 2518-2531

Taghva K., Stofsky E. OCRSpell: an interactive spelling correction system for OCR errors in text // Int. J. Doc. Anal. Recognit. 2001. Mar. Vol. 3, no. 3. P. 125137

Tajiri T., Komachi M., Matsumoto Y. Tense and aspect error correction for ESL learners using global context // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Vol. 2 / ed. by Short Papers, H. Li, C.Y. Lin, M. Osborne, G. G. Lee, J. C. Park. Jeju Island, Korea : Association for Computational Linguistics, 2012. P. 198-202

Taking the correction difficulty into account in grammatical error correction evaluation / T. Gotou, R. Nagata, M. Mita, K. Hanawa // Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain (Online) : International Committee on Computational Linguistics, 2020

Tarnavskyi M., Chernodub A., Omelianchuk K. Ensembling and Knowledge Distilling of Large Sequence Taggers for Grammatical Error Correction // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) / ed. by S. Muresan, P. Nakov, A. Villavicencio. Dublin, Ireland : Association for Computational Linguistics, 05/2022. P. 3842-3852. DOI: 10.18653/v1/2022.acl-long.266. URL: https://aclanthology.org/2022.acl-long.266/

The BEA-2019 shared task on grammatical error correction / C. Bryant, M. Felice, 0. E. Andersen, T. Briscoe // Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications. Florence, Italy : Association for Computational Linguistics, 2019

The CoNLL-2014 shared task on grammatical error correction / H. T. Ng, S. M. Wu, T. Briscoe, C. Hadiwinoto, R. H. Susanto, C. Bryant // Proceedings of the Eighteenth Conference on Computational Natural Language Learning: Shared Task. Baltimore, Maryland : Association for Computational Linguistics, 2014

The effect of learner corpus size in grammatical error correction of ESL writings / T. Mizumoto, Y. Hayashibe, M. Komachi, M. Nagata, Y. Matsumoto // Proceedings of COLING 2012: Posters / ed. by M. Kay, C. Boitet. India, 2012. P. 863-872

Understanding back-translation at scale / S. Edunov, M. Ott, M. Auli, D. Grangier // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium : Association for Computational Linguistics, 2018

Vinogradova O., Lyashevskaya O. Review of practices of collecting and annotating texts in the learner corpus REALEC // Lecture Notes in Computer Science. Cham : Springer International Publishing, 2022. P. 77-88. (Lecture notes in computer science)

Wang C., Li R., Lin H. Deep context model for grammatical error correction // 7th ISCA Workshop on Speech and Language Technology in Education (SLaTE 2017). ISCA : ISCA, 08/2017

Warrens M. J. Inequalities between multi-rater kappas // Advances in data analysis and classification. 2010. Vol. 4. P. 271-286

Yannakoudakis H., Briscoe T., Medlock B. A new dataset and method for automatically grading ESOL texts // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies / ed. by D. Lin, Y. Matsumoto, R. Mihalcea. Portland, Oregon, USA : Association for Computational Linguistics, 2011. P. 180-189

Yuan Z., Felice M. Constrained grammatical error correction using statistical machine translation // Proceedings of the Seventeenth Conference on Computational Natural Language Learning: Shared Task. 2013. P. 52-61

Yuan Z., Briscoe T., Felice M. Candidate re-ranking for SMT-based grammatical error correction // Proceedings of the 11th Workshop on Innovative Use of NLP for Building Educational Applications / ed. by J. Tetreault, J. Burstein, C. Leacock, H. Yannakoudakis. San Diego, CA : Association for Computational Linguistics, 06/2016. P. 256-266. DOI: 10.18653/v1/W16-0530. URL: https://aclanthology.org/W16-0530/

Yuan Z., Bryant C. Document-level grammatical error correction // Proceedings of the 16th Workshop on Innovative Use of NLP for Building Educational Applications / ed. by J. Burstein, A. Horbach, E. Kochmar, R. Laarmann-Quante, C. Leacock, N. Madnani, I. Pilan, H. Yannakoudakis, T. Zesch. Online : Association for Computational Linguistics, 04/2021. P. 75-84. URL: https://aclanthology.org/2021 .bea-1.8/

ОБЩАЯ ИНФОРМАЦИЯ ОБ ИСХОДНЫХ НАБОРАХ ДАННЫХ, ИСПОЛЬЗУЕМЫХ ДЛЯ СБОРА КОНЦЕНТРИРОВАННОГО НАБОРА ДАННЫХ

Набор данных Размер, количество токенов Количество аннотаторов на один пример Типы ошибок Уровень владения языком

FCE, тестовая часть 41 900 1 71 Б1-Б2

СоКЬЬ-2014 30 100 2-18 28 С1

ББЛ-2019, тестовая часть 85 700 5 55 Л1, носитель языка

ЯБЛЬБС 1 550 600 1 48 Б1-Б2

ТЕГИ ОШИБОК, ИСПОЛЬЗУЕМЫЕ В НАБОРЕ ДАННЫХ, И СООТНОШЕНИЕ

КОНТЕКСТНО-ЗАВИСИМЫХ ОШИБОК

Оригин альный тег a Новый тег Процент ошибок, зависящих от контекста c Описание Пример d

Linking _device LINK 59.05% Коннектор либо неверно использован, либо отсутствует, что является ошибкой Secondly, the majority of the population will use other kinds of public transport, for example, trains, cars, or ships. So^However, we cannot say that these types of transport harm our environment less than planes do.

Ref_ device REF 50.83% Используется неправильное анафорическое средство (не являющееся местоимением) We should not create barriers for ambitious people and accept persons^those who don't have interest in education just because of sex equality.

VERB: TENSE VERB: TENSE 45.35% Выбрано неправильное время глагола When I was small, we lived in the country. I remembered^remember, we used to have oil lamps which used a cotton string dipping in the oil in the small bottle and made it burn the tip of the cotton string to give us light during the night.

PUNCT PUNCT 37.61% Использован неправильный знак препинания In Sweden the level fell from 84% to 15%, a similar situation was in France. The^: the level changed from 90% to 50%.

PRON PRON 36.72% Личное местоимение либо употреблено неверно, либо отсутствует, что является ошибкой Also, he is very funny and I laugh a lot with him. Both^We both like to travel around the world and to do some sports, for example, tennis, running or trekking.

Inappro priate_ register REF, 15.50% Ошибки, связанные со стилем и уместностью использованных When a child begins learning, for example, English in primary school, he^they get the necessary basis for further studying. (Tagged as PRON)

Оригин альный тег a Новый тег Процент ошибок, зависящих от контекста c Описание Пример d

PRON26 языковых средств Unfortunately, watching sports doesn't teach us^viewers anything and people don't get any information about the surrounding world from it. (Tagged as REF)

DET DET 9.45% Артикль либо неправильно использован, либо отсутствует, что является ошибкой This situation creates a lot of pollution for 0^the environment, so we have to be more concerned about the planet's health.

Замечания. а Исходный тег — это тег, используемый в исходном наборе данных. ь Новый тег — это тег, используемый в концентрированном наборе данных. с Соотношение ошибок, зависящих от удаленного контекста, обозначает процент таких ошибок среди всех аннотированных ошибок, отмеченных исходным тегом. Л Для ясности все остальные ошибки, присутствующие в примерах предложений, были исправлены в соответствии с правками, предложенными аннотаторами исходных наборов данных.

26При аннотации было обнаружено, что чувствительные к контексту ошибки, отнесенные к тэгу Inappropriate_ register в наборе данных REALEC, могут быть распределены между тегами PRON и REF разметки ERRANT.

ДРУГИЕ ТЕГИ, ИСПОЛЬЗУЕМЫЕ В КОНЦЕНТРИРОВАННОМ НАБОРЕ

ДАННЫХ

Тег Описание Пример

LEX Ошибка лексического выбора Also, it is a good way to get some positive emotions. All of this^Watching sports can even promote future productivity at work.

NOUN: NUM Существительное употреблено в неправильном числе By the way, there is an opposite tendency with young people, their number^numbers are the largest at the science courses and the smallest in the sports and health courses. Additionally, students of the health and sports course^courses are mostly middle-aged.

SPELL Орфографическая ошибка To sum up, both characteristics are important in our life. We need to know how to operate with once^ones we were born with and know how to develop knowledge gained from our experience to have a successful life and reach goals we set for ourselves.

SYN Неправильный выбор или ошибочное изменение синтаксической структуры Although the grandparents are in most cases ready to help, they can not transfer the values of the new world to the kids, and their^this results in the wrong choice of paths of life for the grown-up adults in future.

VERB: MODAL Модальный глагол ошибочно отсутствует, присутствует без необходимости или использован неправильно In addition, to decrease the risk of negative comments or posts, Facebook and Twitter would^should improve their futures by solving the personal privacy problem.

VERB: SVA Ошибки, связанные с согласованием подлежащего и сказуемого Today, public transport still play^plays an important role in the transport system and it will keep on doing so in the future.

WO Ошибки в порядке слов, например, отсутствует инверсия подлежащего и сказуемого в требующем этого контексте For example, an artist has a very original idea and he or she wishes to make his or her idea "alive", but he or she doesn't think what does^0 it means for other people.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Старченко Владимир Миронович

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Автоматический синтез правил коррекции текстовых документов формата LATEX2013 год, кандидат наук Чувилин, Кирилл Владимирович

Методы и программные средства для выявления заимствований в текстах на армянском языке2021 год, кандидат наук Гукасян Цолак Гукасович

Лингвометодические основы обучения русскому правописанию в 5-6 классах азербайджанской школы2000 год, кандидат педагогических наук Гамзатова, Лиана Бедретдиновна

Поиск ошибок переполнения буфера в исходном коде программ с помощью символьного выполнения2019 год, кандидат наук Дудина Ирина Александровна

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Лингвометодические основы обучения русскому правописанию в 3-4 классах лакской школы2004 год, кандидат педагогических наук Гусейнаева, Ламара Абуталибовна

Список литературы диссертационного исследования кандидат наук Старченко Владимир Миронович, 2025 год