Связь квантитативных параметров письменной речи студентов РКИ и эритажников с различными уровнями владения языком: корпусное исследование тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Вахранев Антон Юрьевич

  • Вахранев Антон Юрьевич
  • кандидат науккандидат наук
  • 2025, «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 106
Вахранев Антон Юрьевич. Связь квантитативных параметров письменной речи студентов РКИ и эритажников с различными уровнями владения языком: корпусное исследование: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Национальный исследовательский университет «Высшая школа экономики». 2025. 106 с.

Оглавление диссертации кандидат наук Вахранев Антон Юрьевич

Содержание

Введение

Актуальность исследования

Цели и задачи

Научная новизна

Методы и материалы

Структура диссертации

Положения, выносимые на защиту

1. Обзор литературы

1.1 Подходы к оценке языковой компетенции (лексическое разнообразие, коллокации и др.)

1.2 Методы автоматической обработки текста в лингвистических исследованиях

1.3 Применение коллокационных метрик и частотных списков для оценки владения языком

1.4 Критика существующих подходов и обоснование выбора методов

2. Материалы и методология

2.1 Описание корпусов (студенческие тексты эритажников и носителей)

2.2 Методы лексического анализа

2.3 Автоматизированная обработка данных и используемые алгоритмы

2.4 Критерии оценки полученных результатов

3. Анализ и результаты

3.1 Оценка надёжности лексических списков для определения уровня владения языком

3.2 Анализ лексической компетенции

3.3 Сравнительный анализ метрик в студенческих текстах и текстах школьных сочинений

3.4 Влияние коллокационных особенностей на языковую компетенцию

4. Обсуждение

4.1 Интерпретация результатов

4.2 Сильные и слабые стороны подхода

4.3 Ограничения исследования и возможные улучшения 74 Заключение

Итоги исследования

Практическая значимость

Перспективы дальнейших исследований

Литература

Приложение

Приложение

Приложение

Приложение

Введение

Изучение языковой компетенции занимает важное место в лингвистических исследованиях, особенно в контексте изучающих язык как иностранный, а также носителей с различным культурным и языковым фоном. Эта проблема актуальна и для изучения русского языка как второго. В последние десятилетия наблюдается устойчивый рост интереса к анализу лексической сложности и разнообразия письменных текстов, что не только способствует более точному определению уровня владения языком, но и открывает возможности для создания объективных и воспроизводимых методов его оценки.

Сравнение письменных работ студентов с разным уровнем владения языком позволяет выявить значимые различия в параметрах текста. В этом контексте особое внимание уделяется количественным метрикам, присутствующим в каждом тексте, но варьирующимся в зависимости от языковой компетентности автора. Можно предположить, что в текстах более опытных студентов встречаются более длинные слова и устойчивые выражения, а также выше доля уникальной лексики по сравнению с работами начинающих. Эти метрики помогают анализировать лексическое разнообразие и сложность текстов, а также позволяют точнее оценивать уровень языковой компетенции.

Диссертация направлена на применение количественных метрик для анализа текстов студентов, изучающих русский язык как иностранный (РКИ), и билингвов, владеющих русским как языком наследия (эритажных говорящих). Это позволяет не только выявлять различия в уровне языковой компетенции, но и глубже понимать факторы, влияющие на эти различия. Для контрастного сравнения в исследовании также анализируются тексты носителей языка.

Актуальность исследования обусловлена потребностью в более точных и объективных методах анализа лексических характеристик, которые могут применяться для диагностики уровня владения языком и разработки учебных

материалов. Автоматизация этого процесса не только повышает точность результатов, но и снижает затраты человеческих и временных ресурсов.

Цель данной работы — анализ лексических метрик для определения уровня владения русским языком у разных групп студентов. В исследовании рассматриваются лингвистические параметры текстов, которые могут значительно изменяться по мере повышения языковой компетенции.

Анализ проводится с использованием комплекса количественных методов, включая статистический анализ, изучение коллокаций и визуализацию данных. Это позволяет глубже исследовать лексическую сложность и разнообразие на различных уровнях владения языком. Полученные результаты могут способствовать пересмотру существующих подходов к оценке письменных текстов с точки зрения языковой компетенции.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Связь квантитативных параметров письменной речи студентов РКИ и эритажников с различными уровнями владения языком: корпусное исследование»

Актуальность исследования

Автоматизированная оценка уровня владения языком на основе письменных текстов является актуальной задачей в лингвистике и обработке естественного языка. Изучение иностранных языков развивается не только в контексте обучения, но и в сфере оценки прогресса студентов.

Несмотря на существование различных количественных лингвистических параметров, до сих пор нет общепринятых рекомендаций относительно их информативности для определения уровня владения русским языком, точности и соответствия конкретным уровням. Существующие системы оценки часто ориентируются на умение учащегося чётко и подробно излагать мысли, но не учитывают объективные количественные показатели, которые можно измерить и проанализировать. Это затрудняет анализ текстов как носителей языка, так и изучающих русский как иностранный.

Кроме того, экспертная проверка текстов требует значительных временных затрат и подвержена субъективности. Автоматизация этого процесса может повысить

точность и объективность оценки, а также сделать её более воспроизводимой. Многосторонний количественный анализ позволяет формировать выводы на основе целого набора критериев.

Для эффективной автоматизации параметры следует не только разделять по числовым показателям, наиболее соответствующим каждому уровню владения языком, но и оценивать их влияние на принятие решения о принадлежности текста к тому или иному уровню языковой компетенции. В отличие от экспертной оценки, использование количественных показателей позволяет систематически анализировать тексты и выявлять закономерности, характерные для разных уровней владения языком.

Это также поможет определить, какие методы подготовки наиболее эффективны для перехода на следующий уровень языковой компетенции.

Результаты исследования могут быть применены в различных сферах, где требуется оценка уровня владения русским языком: в образовательных учреждениях для диагностики языковой подготовки студентов, в сертификационных и экзаменационных системах, а также при разработке автоматизированных систем проверки письменных работ.

Автоматизация оценки не только изменит подход к изучению русского языка, но и создаст предпосылки для разработки аналогичных методов для других языков и языковых групп после проведения соответствующих исследований. Кроме того, выявленные количественные параметры могут быть полезны в научных исследованиях письменной речи и в области обработки естественного языка (NLP) для совершенствования методов анализа текстов.

Автоматизированный анализ письменной речи также позволит искусственному интеллекту учитывать уровень языковой компетенции при взаимодействии с пользователем.

Цели и задачи

Цель исследования — разработать и верифицировать систему количественных лингвистических метрик, позволяющих автоматически дифференцировать письменные тексты учащихся по уровням владения русским языком. В рамках этой цели анализируются параметры лексической сложности, разнообразия, беглости и коллокационной насыщенности, а также оценивается их диагностическая пригодность для определения языковой компетенции обучающихся, изучающих русский язык как иностранный или как наследный. Для достижения этой цели решаются следующие задачи.

Анализируются существующие количественные лингвистические параметры и их информативность в контексте оценки языковой компетенции. Формулируются гипотезы о закономерностях изменения этих параметров в зависимости от уровня владения языком, основанные на знании о языке и его функционировании. Исследуется распределение параметров и их значимость в письменных текстах изучающих русский как иностранный и студентов-эритажников с использованием методов автоматического анализа и статистических тестов.

Сопоставляются тексты носителей языка с текстами изучающих русский как иностранный и студентов-эритажников для выявления закономерностей и различий. Оценивается значимость выявленных параметров и их способность отражать уровень языковой компетенции.

Дополнительно рассматривается применимость количественных параметров при анализе текстов разных корпусов. Учитываются жанровые, языковые и металингвистические особенности, которые могут влиять на результаты.

Научная новизна

Научная новизна исследования заключается в комплексном подходе к анализу уровня владения русским языком на основе количественных лингвистических параметров, который ранее не применялся в таком виде. В ряде исследований для

различных языков рассматривались отдельные параметры, однако они не сформировали целостную систему, основу которой закладывает данная диссертация.

В рамках работы предложены новые методики, включающие разнообразные количественные метрики, позволяющие объективно и точно оценивать языковую компетенцию с учетом лексической сложности, синтаксической структуры и коллокационных особенностей текста. Это также дает возможность определить, какие сферы лингвистики наиболее значимы для оценки языковой компетенции.

В отличие от существующих исследований, сосредоточенных преимущественно на одном аспекте (например, лексическом разнообразии или частотных списках), данное исследование предлагает многогранный анализ, охватывающий различные параметры в текстах разных корпусов.

Научные работы, легшие в основу данной диссертации, а также запланированные дальнейшие исследования могут способствовать созданию инновационного подхода к лингвистической экспертизе.

Кроме того, особое внимание уделяется сравнению результатов оценки уровня владения русским языком среди различных групп: носителей языка, студентов-эритажников и изучающих русский как иностранный. Такой подход позволяет получить всесторонний взгляд на материалы исследования и используемые методы их анализа.

Сравнительный анализ даёт более полное представление о различиях в языковой компетенции между этими группами и закладывает основу для дальнейших исследований в этой области. Это также позволяет проверить устойчивость выявленных закономерностей, подтверждая или уточняя их применимость к разным группам учащихся.

Разработанная в рамках исследования методика не только расширяет существующие подходы к оценке языковой компетенции, но и делает их более

применимыми в образовательных и лингвистических контекстах. Это подчёркивает актуальность и новизну работы, а также её потенциальную практическую значимость.

Методы и материалы

Данное исследование направлено на анализ лексических характеристик текстов студентов, изучающих русский язык как иностранный, и билингвов-эритажников с целью разработки методов автоматической оценки уровня владения русским языком. Сопоставление этих двух групп обеспечивает объективность анализа и закладывает основу для дальнейших сравнительных исследований. В рамках работы использованы два корпуса текстов, которые отражают различные уровни владения языком и позволяют провести детальный сравнительный анализ. Хотя в данной диссертации эти корпуса не сопоставляются напрямую, их сравнение планируется в будущих исследованиях.

Для изучения лексической сложности и разнообразия в текстах применялись методы лексического анализа, включая вычисление коллокационной метрики ^ score, различных вариаций коэффициента лексического разнообразия, количества уникальных токенов, а также длины токенов в символах, слогах и морфемах. Текущий список исследованных параметров не является окончательным и может быть расширен в дальнейших исследованиях. Использование этих метрик позволяет объективно оценить различия в лексическом составе текстов на разных уровнях владения языком и выявить паттерны, характерные для студентов и билингвов-эритажников. Параметры, чья значимость для оценки языковой компетенции не была подтверждена, исключаются из дальнейшего анализа, но могут быть исследованы в работах, посвященных другим группам изучающих русский язык или другим языкам.

Для автоматической обработки текста использовались алгоритмы токенизации и лемматизации, обеспечивающие точность и сопоставимость метрик во всех

текстах. Эти алгоритмы также позволяют отдельно анализировать статистику по токенам и леммам, что может быть значимым в ряде случаев.

Кроме того, применялись методы анализа коллокаций, включая ^шге, для выявления устойчивых сочетаний слов и изучения взаимосвязей между элементами лексики. В соответствии с нашей гипотезой, студенты с более высоким уровнем владения языком должны использовать больше устойчивых выражений, поэтому подсчёт данной ассоциативной меры может способствовать дифференциации языковой компетенции.

Исследование опирается на два корпуса текстов, отражающих разные уровни владения русским языком, а используемые методы анализа сочетают традиционные подходы лексического анализа с современными статистическими и автоматизированными методами обработки текста. Такой комплексный подход обеспечивает высокую точность и репрезентативность результатов. Более детальное описание методов и материалов представлено в третьей главе диссертации.

Структура диссертации

Диссертация включает введение, четыре главы, заключение и список использованных источников. В приложениях приведены примеры текстов из корпусов, использованных в исследовании. Введение содержит постановку проблемы, цели и задачи исследования, а также обоснование его актуальности. В нем кратко описаны применяемые методы и материалы, определены основные теоретические и практические задачи, а также рассмотрены ключевые вопросы, затрагиваемые в работе. Таким образом, введение формирует общее представление о содержании диссертации.

Глава «Обзор литературы» посвящена анализу существующих исследований в

области оценки языковой компетенции, с акцентом на лексический анализ и

метрики, такие как TTR и коллокационные метрики. Отдельное внимание уделено

применению методов автоматической обработки текста в лингвистических

10

исследованиях. В главе рассматриваются теоретические подходы к изучению лексической сложности, а также методы анализа текстов билингвов-эритажников и студентов РКИ. Завершается глава критическим обзором существующих подходов и обоснованием выбора методов исследования.

Глава «Материалы и методология» подробно описывает материалы, используемые в анализе, включая корпуса студенческих текстов и тексты билингвов-эритажников. Отдельное внимание уделено текстам и наборам биграмм из контрастных корпусов исследования. Рассматриваются методы предобработки данных, а также инструменты и программные средства, применяемые для анализа. Кратко описаны статистические методы, используемые для оценки количественных параметров. В главе детально представлены методы расчета лексических метрик и их применение для оценки уровня языковой компетенции. Также рассматриваются способы визуализации результатов экспериментов.

Глава «Анализ и результаты» представляет результаты проведённого анализа, включая вычисление метрик ^шге, TTR, средних и медианных значений различных количественных параметров текстов для групп студентов и билингвов. Данные визуализированы с помощью таблиц, графиков и диаграмм. В главе приводится статистический анализ лексической сложности и разнообразия текстов, а также выводы о различиях в уровне владения языком в зависимости от различных факторов. Все данные сопровождаются соответствующими статистическими расчётами.

Глава «Обсуждение» содержит интерпретации полученных результатов, опирающиеся на выводы работ, положенных в основу данной диссертации. В ней анализируются значимость различий между группами, сильные и слабые стороны использованных подходов, а также возможные объяснения выявленных различий и их влияние на оценку языковой компетенции. Завершается глава обсуждением ограничений исследования и возможных направлений его усовершенствования.

Заключение подводит итоги исследования, обобщая основные выводы и формулируя рекомендации для дальнейших исследований и практического применения полученных данных в оценке уровня владения языком. Оценивается практическая значимость работы, а также рассматриваются возможные направления для совершенствования методов оценки и анализа. Завершается заключение формулированием перспективных тем для будущих исследований.

В разделе "Литература" представлен перечень всех источников, использованных при подготовке диссертации, включая научные статьи, книги, отчеты и другие материалы, значимые для исследования. Завершают работу приложения, содержащие примеры текстов и биграмм из корпусов, используемых в анализе, что способствует наглядности представленных данных.

Положения, выносимые на защиту

Комплексный количественный подход к оценке уровня владения русским языком на основе лингвистических метрик позволяет дифференцировать письменные тексты обучающихся по уровням языковой компетенции.

Средняя длина слова в слогах и буквах, среднее количество морфем на слово, количество словоформ и лемм, коэффициенты TTR и TLR являются надежными предикторами уровня владения русским языком в письменных текстах.

Метрики, связанные с коллокационной сложностью (например, средний 1-score), соотношение служебных и значимых частей речи, а также сопоставление с лингвистическими списками не демонстрируют устойчивой зависимости от уровня владения языком и не могут использоваться как самостоятельные диагностические показатели.

Разработанная методика сочетания нескольких лингвистических параметров представляет собой новый способ количественной оценки письменной языковой продукции, применимый в образовательной и тестовой практике.

Выявлены различия в частотности повторов коллокаций между уровнями,

что свидетельствует о потенциале использования этой характеристики при

дальнейшем совершенствовании моделей оценки.

Предложенный подход может быть положен в основу автоматизированного инструмента диагностики уровня владения русским языком, с перспективой адаптации под потребности преподавателей, разработчиков тестов и создателей учебных материалов.

1. Обзор литературы

Обзор литературы представляет собой анализ существующих исследований, посвящённых оценке языковой компетенции и методам автоматической обработки текста. Особое внимание уделяется работам, рассматривающим применение мер ассоциативности и частотных лексических списков в анализе владения языком. В последние десятилетия изучение языковой компетенции опирается как на традиционные подходы, связанные с экспертными оценками и анализом речевого поведения, так и на количественные методы, основанные на обработке больших корпусов текстов. В данной работе акцент сделан на количественные методы, поэтому обзор включает анализ существующих исследований, позволяющий оценить степень их изученности и интеграции в научную и образовательную сферу.

Отдельное внимание уделено исследованиям, посвященным лексическому разнообразию, частотным характеристикам словаря и устойчивым сочетаниям слов. Эти аспекты помогают выявлять закономерности, отражающие уровень языковой подготовки, и формируют научную основу для проведенного исследования. Современные методы анализа текста активно используют автоматизированные технологии, позволяющие не только оценивать отдельные параметры речи, но и сопоставлять их с данными носителей языка и изучающих русский как иностранный.

На данный момент для русского языка не существует инструмента, объединяющего все количественные параметры в единую систему, однако ряд работ посвящен исследованию отдельных из них. Обзор литературы охватывает ключевые направления исследований в данной области, включая развитие коллокационных моделей, использование частотных списков, а также преимущества и ограничения количественных и качественных методов анализа текста. Глава завершается критикой существующих подходов и обоснованием выбора методов, использованных в диссертации.

1.1 Подходы к оценке языковой компетенции (лексическое разнообразие,

коллокации и др.)

Оценка языковой компетенции — многогранная задача, включающая как традиционные, так и современные методы анализа, включая автоматизированные подходы. Оценивание владения языком, в частности лексической компетенции, требует объективных и надежных измерений. Традиционные методы, такие как стандартизированные тесты (TOEFL, IELTS) и шкалы оценки (CEFR, ACTFL), основаны на субъективных оценках экспертов и широко применяются в исследованиях (Barkaoui & Hadidi, 2020; Higginbotham & Reid, 2019; Treffers-Daller, Parslow, & Williams, 2018). Несмотря на то что эти тесты имеют ограничения, они позволяют проводить сравнение результатов между различными исследованиями и языками, что делает их удобным инструментом оценки общей языковой компетентности (Kisselev et al., 2022).

В последние десятилетия наблюдается тенденция к переходу к количественным методам, позволяющим объективно измерять различные аспекты владения языком. В частности, исследования показывают, что лексическая сложность, измеряемая через среднюю длину слова, положительно коррелирует с оценками эссе учащихся (Jarvis et al., 2003), временем, проведённым в языковой программе (Barkaoui & Hadidi, 2020), и уровнем общего владения языком (Kisselev et al., 2022). Наряду с этим существуют более старые исследования, подтверждающие, что такие параметры, как средняя длина T-единиц (Hunt, 1965) и общее количество T-единиц, написанных без ошибок в сочинении, являются адекватными показателями индекса развития усвоения второго языка (Larsen-Freeman & Strom, 1977).

Одним из ключевых направлений анализа языковой компетенции является исследование лексического разнообразия, которое отражает богатство словарного запаса говорящего или пишущего. Для его оценки используются различные метрики, включая коэффициент лексического разнообразия (TTR) и его модификации. Однако базовый показатель TTR, вычисляемый как отношение числа уникальных слов (типов) к общему количеству слов в тексте (токенов),

чувствителен к длине текста: в более длинных текстах неизбежно встречается больше повторов.

Чтобы устранить этот эффект, разработаны усовершенствованные метрики, такие как мера текстового лексического разнообразия (MTLD), гипергеометрическое распределение (HD-D), показатель VOCD-D и мера скользящего среднего TTR (MATTR). Эти метрики позволяют более точно количественно оценивать разнообразие словаря, что делает их важными инструментами в исследованиях языковой компетенции (Malvern & Richards, 2002). Их эффективность подтверждена при анализе текстов разной сложности и длины (ср. Covington & McFall, 2010; McCarthy & Jarvis, 2010; deBoer, 2014; Fergadiotis et al., 2015).

Анализ коллокаций, то есть устойчивых сочетаний слов, играет значительную роль в оценке языковой компетенции. Сам термин «коллокация» был введён британским лингвистом Джоном Ричардом Фирсом для обозначения тесных семантических связей между словами, часто встречающихся вместе в текстах. Фирс подчеркивал, что значение таких комбинаций слов не всегда может быть полностью выведено из значений составляющих их элементов (Firth, 1957). Словосочетания выступают в качестве «важных строительных блоков в дискурсе» (Biber, 2009, стр. 284) и имеют ключевое значение для языкового развития обучающихся. Коллокационная компетенция отражает способность носителя языка использовать естественные сочетания слов, характерные для данного языка, что делает ее важным индикатором владения языком.

Предыдущие исследования рассматривали различные аспекты коллокационных

знаний у изучающих второй язык (L2), включая влияние родного языка (L1) на

освоение устойчивых выражений L2 (Appel & Murray, 2020; Nesselhauf, 2003;

Paquot, 2013), роль обучения и языковой среды в развитии коллокационной

компетенции (Erman & Lewis, 2022; Paquot, 2019; Szudarski, 2012; Treffers-Daller et

al., 2016), а также связь между знанием коллокаций и качеством письменных

текстов (Jarvis et al., 2003; Lee et al., 2021). Исследования также выявляют

корреляции между уровнем владения языком и способностью использовать

16

устойчивые словосочетания (Erman et al., 2016; Granger & Bestgen, 2014; Paquot, 2019; Vandeweerd et al., 2021).

Однако эти связи не всегда однозначны. Например, Siyanova-Chanturia и Spina

(2020) исследовали развитие фразового словарного запаса у учащихся L2 и обнаружили, что более высокий уровень владения языком и интенсивный языковой опыт не всегда способствуют более идиоматичному и целевому употреблению коллокаций. Их выводы показывают, что учащиеся могут всё чаще использовать низкочастотные сочетания, менее взаимосвязанные, что усложняет прямую зависимость между владением языком и знанием устойчивых выражений.

Современные исследования стремятся интегрировать количественные и качественные методы для получения более полной картины языковой компетенции. Так, А. Н. Лапошина (2018) исследовала возможности автоматизированного определения сложности текста на русском языке для студентов, изучающих его как второй язык. В её эксперименте результаты математической модели сравнивались с оценками экспертов, мнениями студентов, результатами тестов и официальными требованиями к владению русским языком.

Ещё одним важным вкладом в область автоматизированной оценки языковой сложности текстов по РКИ является разработка онлайн-инструмента «Текстометр», представленного в работе А. Н. Лапошиной и М. В. Лебедевой

(2021). Этот ресурс предлагает автоматизированный способ определения уровня сложности текста на русском языке с учётом предполагаемого уровня владения русским как иностранным, соотнесённого с шкалами CEFR и ACTFL.

В основе инструмента лежит совокупность количественных лингвистических показателей, включая:

• лексическое разнообразие (например, количество уникальных слов и его отношение к общему числу слов);

• морфологическую и лексическую сложность (в том числе оценку по частотным и уровневым спискам — A1, A2, B1, B2, C1);

• длину слов и предложений;

• долю служебных слов;

• многословные конструкции;

• потенциальные грамматические темы (например, причастия).

Инструмент предоставляет не только числовые данные, но и уровень текста по нескольким шкалам (CEFR: C2; ACTFL: Distinguished), а также анализ покрытия текста лексическими списками (в том числе словарями РКИ-дети на 1000, 2000 и 5000 слов). Всё это делает «Текстометр» удобным и практически значимым инструментом как для исследователей, так и для преподавателей, позволяя адаптировать тексты под потребности изучающих язык и подбирать материалы в соответствии с предполагаемым уровнем сложности. Работа Лапошиной и Лебедевой является примером успешной интеграции лингвистических данных в образовательную практику.

Karpov, Baranova & Vitiugin (2014) предложили метод предсказания читаемости (readability) отдельных предложений на русском языке, основанный на машинном обучении и использовании разнообразных лингвистических признаков. В статье рассматриваются такие показатели, как длина предложения, частотность лексики, синтаксическая структура, количество частей речи и т.д., а также их влияние на субъективную оценку сложности текста.

Авторы обучали модели на корпусе, аннотированном по уровню читаемости, и показали, что даже для отдельного предложения можно построить предсказательную модель с удовлетворительной точностью. Их подход имеет большое значение для автоматического анализа письменной речи, поскольку предлагает интерпретируемый и масштабируемый способ оценки языковой сложности.

Количественные методы обеспечивают объективность и воспроизводимость результатов, тогда как качественные позволяют учитывать контекстуальные и культурные аспекты использования языка. Интеграция этих подходов способствует

более точной и всесторонней оценке языковых навыков, охватывая как структурные, так и функциональные характеристики языка.

В этом контексте в настоящем исследовании ставится задача проанализировать данные учащихся, уровень владения языком которых был оценен с помощью стандартизированного теста. В данном случае используется письменный тест на определение уровня владения языком (WPT), основанный на рекомендациях ACTFL.

1.2 Методы автоматической обработки текста в лингвистических исследованиях

Автоматическая обработка текста (Natural Language Processing, NLP) — это направление вычислительной лингвистики, ориентированное на разработку алгоритмов и моделей для анализа и генерации естественного языка. NLP широко применяется в науке, коммерческой разработке и образовании.

Исторически методы автоматической обработки текста прошли несколько этапов развития: от простых статистических моделей и ручного кодирования правил до современных нейросетевых подходов, основанных на глубоком обучении. В ранних исследованиях использовались словари и грамматические правила, что позволяло анализировать синтаксическую структуру предложений, но ограничивало обработку больших объемов текста.

С развитием компьютерных технологий стали применяться статистические методы, такие как скрытые марковские модели (HMM) для автоматической разметки частей речи (Kupiec, 1992) и машинное обучение для классификации текстов (Joachims, 1998). В настоящее время автоматический анализ текста всё чаще основан на нейросетевых моделях, позволяющих достигать высокой точности в решении широкого круга задач.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Вахранев Антон Юрьевич, 2025 год

Литература:

Вахранев А. (2021). Исследование возможностей поиска с использованием коллокационных метрик. Выпускная квалификационная работа магистра, Национальный исследовательский университет «Высшая школа экономики».

Голубева, А. (2015). Лексический минимум по русскому языку как иностранному. Златоуст.

Захарова Е. Ю., Савина О. Ю. Лексическое разнообразие текста и способы его измерения. Вестник Тюменского государственного университета. Гуманитарные исследования. Humanitates. 2020. Том 6. № 1 (21). С. 20-34. DOI: 10.21684/2411-197X-2020-6-1-20-34

Лапошина А. Опыт экспериментального исследования сложности текстов по РКИ // Конференция «Динамика языковых и культурных процессов в современной России» [Электронный ресурс]. Вып. 6. Материалы VIКонгрессаРОПРЯЛ (г. Уфа, 11-14 октября 2018 года) В: СПб.

Лапошина А. Н., Лебедева М. Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. 2021. Т. 19. №3. C. 331-345

Ляшевская О. Н. & Шарофф С. А. (2009). Частотный словарь современного русского языка (на основе материалов Национального корпуса русского языка).

Abdi, H., & Williams, L. J. (2010). Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics, 2(4), 433-459. https://doi.org/10.1002/wics.101

Appel, Randy, & Murray, Lewis. (2020). L1 differences in L2 English academic writing: A lexical bundles analysis. Journal of English for Academic Purposes, 46: 100873. https://doi.org/10.1016/iieap.2020.100873

Apresjan J., Boguslavsky I., Iomdin B., Iomdin L., Sannikov A., Sizov V. (2006). A Syntactically and Semantically Tagged Corpus of Russian: State of the Art and Prospects. In: Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC'06), 1378-1381.

Barkaoui, K., & Hadidi, A. (2020). Assessing change in English second language writing performance. In Routledge eBooks. https://doi.org/10.4324/9781003092346

Biber, Douglas. (2009). A corpus-driven approach to formulaic language in English: Multi-word patterns in speech and writing. International Journal of Corpus Linguistics, 14(3), 275-311. https://doi.org/10.1075/iicl.14.3.08bib

Benko, Vladimir. (2014). Aranea: Yet Another Family of (Comparable) Web Corpora. In: P. Sojka, A. Horak, I. Kopecek, K. Pala (Eds.), Text, Speech and Dialogue, 247-256. https://doi.org/10.1007/978-3-319-10816-2 31

Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022.

Brezina, Vaclav, McEnery, Tony, & Wattam, Stephen. (2015). Collocations in context: A new perspective on collocation networks. International Journal of Corpus Linguistics, 20(2), 139-173. https://doi.org/10.1075/iicl.20.2.01bre

Batura T., & Bruches E. (2017). A combined approach to part-of-speech homonymy resolution. Bulletin of the Novosibirsk Computing Center, Computer Science, 41, 13-25. https://doi.org/10.31144/bncc.cs.2542-1972.2017.n41.p13-25.

Church, K. W., & Hanks, P. (1990). Word Association Norms, Mutual Information, and Lexicography. Computational Linguistics, 16(1), 22-29.

Clancy, S. J., & Lee, P. (2022). Visualizing Russian: Illuminating Corpora, Conjugations, and Classrooms. Russian Language Journal, 72(1). https://scholarsarchive.byu.edu/rlj/vol72/iss1/2

Covington, M. A., & McFall, J. D. (2010). Cutting the Gordian knot: The moving-average type-token ratio (MATTR). Journal of Quantitative Linguistics, 17(2), 94-100.

Crowston, K., Allen, E., & Heckman, R. (2012). Using natural language processing technology for qualitative data analysis. International Journal of Social Research Methodology, 15, 523 - 543. https://doi.org/10.1080/13645579.2011.625764.

deBoer, F. (2014). Evaluating the comparability of two measures of lexical diversity. System, 47, 139-145. https://doi.org/10.1016/j.system.2014.10.008

Ding, C., Reynolds, B., Szabo, C., & Boone, G. (2024). Assessing English language learners' collocation knowledge: a systematic review of receptive and productive measurements. International Review of Applied Linguistics in Language Teaching, 0. https://doi.org/10.1515/iral-2022-0163.

Dunning, T. (1993). Accurate Methods for the Statistics of Surprise and Coincidence. Computational Linguistics, 19(1), 61-74.

Erman, Britt, Fanny Forsberg Lundell, and Margareta Lewis. Formulaic language in advanced second language acquisition and use. Advanced proficiency and exceptional ability in second languages. 51 (2016): 111-148. https://doi.org/10.1515/9781614515173-007

Erman, Britt and Margareta Lewis. (2022). Formulaic language in L1 and advanced L2 English speech: Multiword structures in the speech of two Swedish groups compared to a group of L1 English speakers. Text & Talk, 44(2), 175-196. https://doi.org/10.1515/text-2021 -0090

Evert, S. (2005). The Statistics of Word Cooccurrences: Word Pairs and Collocations. Ph.D. thesis.

Fergadiotis, G., Wright, H. H., & Green, S. B. (2015). Psychometric Evaluation of Lexical Diversity indices: Assessing length effects. Journal of Speech Language and Hearing Research, 58(3), 1-13. https://doi.org/10.1044/2015 islhr-l-14-0280

Firth, J. R. (1957). Modes of meaning. In F. R. Palmer (Ed.), Papers in linguistics 1934-1951 (pp. 190-215). Oxford University Press.

Gablasova, D., Brezina, V., & McEnery, T. (2017). Exploring Learner Language Through Corpora: Comparing and Interpreting Corpus Frequency Information. Language Learning, 67, 130-154. https://doi.org/10.1111/LANG.12226.

Goodfellow, R., Lamy, M. N., & Jones, G. (2002). Assessing learners' writing using lexical frequency. ReCALL, 14(1), 133-145. https://doi.org/10.1017/S0958344002001118

Goodman, J. (2001). A Bit of Progress in Language Modeling. arXiv preprint arXiv:cs/0108005.

Granger, Sylviane, and Yves Bestgen. (2014). The use of collocations by intermediate vs. advanced non-native writers: A bigram-based study. International Review of

Applied Linguistics in Language Teaching. 52.3. pp. 229-252. https://doi.org/10.1515/iral-2014-0011

Guetterman, T., Chang, T., DeJonckheere, M., Basu, T., Scruggs, E., & Vydiswaran, V. (2018). Augmenting Qualitative Text Analysis with Natural Language Processing: Methodological Study. Journal of Medical Internet Research, 20. https://doi.org/10.2196/jmir.9702.

Higginbotham, G., & Reid, J. (2019). The lexical sophistication of second language learners' academic essays. Journal of English for Academic Purposes, 37, 127-140. https://doi.org/10.1016/Meap.2018.12.001

Hunt, K. W. (1965). Grammatical structures written at three grade levels (No. 8). National Council of Teachers of English.

Jarvis, Scott, Leslie Grant, Dawn Bikowski, and Dana Ferris. (2003). Exploring multiple profiles of highly rated learner compositions. Journal of Second Language Writing, 12, 377-403. https://doi.org/10.1016/i.islw.2003.09.001

Jarvis, S., & McCarthy, M. (2003). Frequency of phrasal verbs in spoken discourse.

English Studies, 84(3), 305-320.

Joachims, T. (1998). Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In Proceedings of the 10th European Conference on Machine Learning (pp. 137-142). Springer.

Kapantzoglou, M., Fergadiotis, G., & Buenavides, A. (2019). Psychometric Evaluation of Lexical Diversity Indices in Spanish Narrative Samples From Children With and Without Developmental Language Disorder. Journal of speech, language, and hearing research, 62 1, 70-83 . https://doi.org/10.1044/2018 JSLHR-L-18-0110

Karpov, N., Baranova, J., & Vitiugin, F. (2014). Single-sentence readability prediction in Russian. Communications in Computer and Information Science, 436, 91-100. https://doi.org/10.1007/978-3-319-12580-0 9

Kettunen, K. (2014). Can Type-Token Ratio be Used to Show Morphological Complexity of Languages?. Journal of Quantitative Linguistics, 21, 223 - 245. https://doi.org/10.1080/09296174.2014.911506

Kilgarriff, A., Charalabopoulou, F., Gavrilidou, M., Johannessen, J. B., Khalil, S., Kokkinakis, S. J., Lew, R., Sharoff, S., Vadlapudi, R., & Volodina, E. (2014). Corpus-based vocabulary lists for language learners for nine languages. Language Resources and Evaluation, 48, 121-163. https://doi.org/10.1007/s10579-013-9251-2

Kisselev, O., Klimov, A., & Kopotev, M. (2022). Syntactic complexity measures as linguistic correlates of proficiency level in learner Russian. In A. Lenko-Szymanska & S. Götz (Eds.), Complexity, accuracy andfluency in learner corpus research (pp. 5180). John Benjamins. https://doi.org/10.1075/scl.104.03kis

Kisselev, O., Soyan, R., Pastushenkov D., & Merrill, J. (2022). Measuring writing development and proficiency gains using indices of lexical and syntactic complexity: Evidence from longitudinal Russian learner corpus data. Modern Language Journal. 106(4), 798-817. https://doi.org/10.1111/modl.12808

Kopotev, M., Kisselev, O., & Polinsky, M. (2024). Collocations and near-native competence: Lexical strategies of heritage speakers of Russian. International Journal of Bilingualism, 28(6), 1135-1162. https://doi.org/10.1177/1367006920921594

Kopotev, M., Klimov, A., & Kisselev, O. (2023). Exploring collocational complexity in L2 Russian: A corpus-driven contrastive analysis. International Journal of Bilingualism, 29(2), 439-455. https://doi.org/10.1177/13670069231168247

Kupiec, J. (1992). Robust Part-of-Speech Tagging Using a Hidden Markov Model.

Computer Speech & Language, 6(3), 225-242.

Kyle, K., & Crossley, S. A. (2015). Automatically assessing lexical sophistication: Indices, tools, findings, and application. Tesol Quarterly, 49(4), 757-786. https://doi.org/10.1002/tesq.194

Kyle, K., Sung, H., Eguchi, M., & Zenker, F. (2023). Evaluating evidence for the reliability and validity of lexical diversity indices in L2 oral task responses. Studies in Second Language Acquisition, 46, 278 - 299. https://doi.org/10.1017/S0272263123000402.

Larsen-Freeman, D., & Strom, V. (1977). The construction of a second language acquisition index of development. Language Learning, 27, 123-134. https://doi.org/10.1111/J.1467-1770.1977.TB00296.X

Laufer, B., & Nation, P. (1995). Vocabulary Size and Use: Lexical Richness in L2 Written Production. Applied Linguistics, 16, 307-322. http://dx.doi.org/10.1093/applin/16.3.307

Lee, Cynthia, Haoyan Ge, and Edsoulla Chung. (2021). What linguistic features distinguish and predict L2 writing quality? A study of examination scripts written by adolescent Chinese learners of English in Hong Kong. System, 97 (102461) Available at: https://doi.org/10.1016/isystem.2021.102461

Li, H., & Dunn, J. (2022). Corpus Similarity Measures Remain Robust Across Diverse Languages. ArXiv, abs/2206.04332. https://doi.org/10.1016/j .lingua.2022.103377

Looman, J., & Campbell, J.B. (1960). Adaptation of Sorensen's K (1948) for estimating unit affinities in prairie vegetation. Ecology, 41(3), 409-416. https://doi.org/10.2307/1933315

Manning, C. D., & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press.

Malvern, D., & Richards, B. (2002). Investigating accommodation in language proficiency interviews using a new measure of lexical diversity. Language Testing, 19, 104 - 85. https://doi.org/10.1191/0265532202lt221oa

McCarthy, M., & Jarvis, S. (2010). MTLD, vocd-D, and HD-D: A validation study of sophisticated approaches to lexical diversity assessment. Behavior Research Methods, 42(2), 381-392.

Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed Representations of Words and Phrases and Their Compositionality. In Advances in Neural Information Processing Systems (pp. 3111-3119).

Nesselhauf, Nadja. (2003). The use of collocations by advanced learners of English and some implications for teaching. Applied Linguistics, 24, 223-242. https://doi.org/10.1093/APPLIN/24.2.223

Ondov, B. D., Treangen, T. J., Melsted, P., Mallonee, A. B., Bergman, N. H., Koren, S., Phillippy, A. M. (2016). Mash: Fast genome and metagenome distance estimation using MinHash. Genome Biology (17)132. https://doi.org/10.1186/s13059-016-0997-x

Paquot, Magali. (2013). Lexical bundles and L1 transfer effects. International Journal of Corpus Linguistics, 18(3), 391-417. https://doi.org/10.1075/iicl.18.3.06paq

Paquot, Magali. (2019). The phraseological dimension in interlanguage complexity research. Second Language Research, 35(1), 121-145. https://doi.org/10.1177/0267658317694221

Parker, R., Mancini, K., & Abram, M. (2023). Natural Language Processing Enhanced Qualitative Methods: An Opportunity to Improve Health Outcomes. International Journal of Qualitative Methods, 22. https://doi.org/10.1177/16094069231214144.

Pecina, Pavel (2009). Lexical Association Measures: Collocation Extraction. Studies in Computational and Theoretical Linguistics, 4. UFAL, Praha, Czech Republic.

Proietti, L., Perrella, S., Tedeschi, S., Vulpis, G., Lavalle, L., Sanchietti, A., Ferrari, A., & Navigli, R. (2024). Analyzing Homonymy Disambiguation Capabilities of Pretrained Language Models. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 924-938.

Roland, D., Dick, F., & Elman, J. (2007). Frequency of Basic English Grammatical Structures: A Corpus Analysis. Journal of memory and language, 57(3), 348-379 . https://doi.org/10.1016/J.JML.2007.03.002.

Porter, M. F. (1980). An Algorithm for Suffix Stripping. Program, 14(3), 130-137. Sharoff, S. (2008, June). Russian frequency lists. http://corpus.leeds.ac.uk/serge/frqlist/

Siyanova -Chanturia, Anna., Stefania Spina. (2019). Multi-Word Expressions in Second Language Writing: A Large-Scale Longitudinal Learner Corpus Study. Language Learning, 70(2), 420-463. https://doi. org/10.1111/lang.12383.

Szudarski, Pawel. (2012). Effects of meaning- and form-focused instruction on the acquisition of verb-noun collocations in L2 English. Journal of Language Teaching and Research, 1, 3-37.

Tidball, F., & Treffers-Daller, J. (2008). Analysing lexical richness in French learner language: What frequency lists and teacher judgements can tell us about basic and advanced words. Journal of French Language Studies, 18(3), 299-313. http://dx.doi.org/10.1017/S0959269508003463

Treffers-Daller, Jeanine, Michael Daller, Reyhan Furman, Jason Rothman. (2016). Ultimate attainment in the use of collocations among heritage speakers of Turkish in Germany and Turkish-German returnees. Bilingualism: Language and Cognition, 19, 504-519. https://doi.org/10.1017/s1366728915000139

Treffers-Daller, J., Parslow, P., & Williams, S. (2018). Back to basics: How measures of lexical variation can help discriminate between CEFR levels. Applied Linguistics, 39(3), 302-327. https://doi.org/10.1093/applin/amw009

Vandeweerd, Nathan, Alex Housen, and Magali Paquot. (2021). Applying phraseological complexity measures to L2 French. A partial replication study. International Journal of Learner Corpus Research, 7(2), 197-229. https://doi.org/10.1075/iilcr.20015.van

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems (pp. 5998-6008).

Приложение 1

Два образца эссе с разным уровнем владения языком: Intermediate Mid (низкий уровень) и Advanced High (высокий уровень). Грамматические и орфографические ошибки подчеркнуты; нестандартные биграммы заключены в квадратные скобки. Обратите внимание, что анализ коллокации проводился на стандартизированных текстах со всеми исправленными орфографическими ошибками.

Intermediate Mid

В нашой жизни мы встречаем разных людей. Каждой домает по разному, [из других стациях], с других характерах. Но почему наших друзей выбрали с всех и которих мы зовом друзя.

Обычно наши друзя подходят к нашому характеру. Мы часто не соримся но если и посоримся тогда прощаем друг друга. Я думаю друг должен помагать когда в плохои положеней, и когда трудно. На пример, я [замыкнула ключе] в машине и

позвоню ей и позвоню ей что бы она приехала по меня и она приедет. Когда в моей жизне будут трудности она будет слушать моей проблемии не [перенесёть бругим] о чём я говорила.

Я знаю когда мне нужна с кем то, разгаваривать она ласково будет слушать. Эсли моя подруга часто обо мне говоритиие другим тогда я с ней не буду дружить.

Нам должно наравиться в мести проводит время.

В мое жизни часто бывали люди которий я звала друзями. Но когда много лудей были против меня тогда всех толко одна осталас подругой. Та которая была с мной в токой время в моей жизнии это подруга. Она не чево никому не говорить о чём мы расуждаем. Когда в её жизни бывают трудности или проблеми тогда я помогаю ей как мого. С моей главное ето быт радом в ето время. Мы надемся друг на друга, любим в месте быт, и миримся когда посоримся. Это [токое друг].

Advanced High

Вопрос «что такое дружба» сам по себе довольно тяжелый от части потому что он настолько открытый и от части потому что он в себя включает физические, психические, и эмоциональные принципы. Качествами дружбы являются такие идеи как: честность, надежность, откровение, самоотверженность, и так далее в том же духе. Но ведь есть и другие виды дружбы, на пример семейная, международная, дружба в бизнесе, и так далее... Но впрочем, об этом позже... Небольшой вопрос к публике — не занимались ли вы когда-нибудь дружбой? С первого взгляда вопрос кажется простым, но если вдуматца, как человек действительно знает если у него/её есть «настоящие» друзья или если эти друзья собрались по принципу [адресованном у Гайдаем] в его картине «Джентльмены Удачи» в тот момент, когда один не-запланированный член группы «збежавших» огласил что он там потому что «все побежали и я побежал». Если бы человек [акумулировал друзей] по этому принципу то таких песен как писал Висотцкий скорее всего-бы не было.

Мне кажется, что вопрос дружбы большой частью зависит от культуры, в которой человек себя находит. Культури в сердце которых во сновном находитьца индивидуальность [психалогически укланены] к большим собраниям «друзей» на большинство которых нельзя положитса.

С другой стороны, общественным культурам свойственны малые группы очень близко связанных людей которые практически в любое время готовы с друг другом веселится

и также друг другу помогать. Дружбы такова типа редка находятся в природе но довольно часто появляются в классике как «Три Мушкетера», в стихах Дениса Давидава, в военных фильмах и тому подобное. Но какже нащёт этих «других» видов дружбы, о которых Я упомянул в начале?

Дружбы между семьями могут принимать очень разные виды в зависимости от культуры в которой эти семьи находятся.

Международная дружба восновном принемает вид дипломатии и как такова является темой для другого разговора. Дружба в бизнесе в основном себя проявляет в капитале и валюте, комбинация которых работает довольно хорошо для компаний но тоже комбинацыя в персональной дружбе не оказала-бы ни какой помощи. И опять же, даже в дружбе между бизнессами, сильно проявляютса культурные направления особенно если дружба между бизнессами интернациональная.

Так что же такое «дружба»? Дружба — это всё о том, что я написал плюс много чего другово что в общем взять не вместилось бы в много книг. Я считаю что более еффективный вопрос это «что такое истинная дружба» — вопрос над которым думали и до сих пор думают философы (восточные и западные), психологи, и вобщем все люди индивидуально (хотя бы в какой-то период жизни) и на каторой полностью исчерпывающего ответа может даже и не быть. Главное это продолжать думать и не боятса смотреть в глубину этого вопроса, а также в глубену самого себя.

Приложение 2

Два образца эссе с разным уровнем владения языком: Intermediate Mid (низкий уровень) и Advanced High (высокий уровень).

Intermediate Mid

Друзья!

Как много у вас знают уже, в Атланте есть очень серьёзная проблема. Слишком много машин на улице, и есть ужасная пробка! Сегодня, например, для меня приводить домой после работы - 2 часа! Конечно, у меня подкасты и музыка, а я хочу видеть мою жену и детей! Хватит! Почему все этой пробки на улице? Атланту построили в 1950-60, или много у больших улиц, там. Так, у нас надо новые улицы - новая система. Каждые день вижу моих друзей - вас! - пишите о этой проблеме, а мы никогда не делаем ничего. У нас жизни и семьи, и конечно не много времени кажется. Но - у вас времени жить как это каждый день? Сказал уже с губернатором Георгии - он дурак и ничего он не сказал помочь нам. Майор Атланты занята, а буду рассказать это с ней завтра. Я читал две книги и смотрел по интернету о как мы может быть помочь своими и всем в Атланте. Надо инвестировать в нашем транспорте. «Марта», наш метро в Атланте, маленький чем много метро в США, и у нас есть город деньги. Надо сказать с бизнесами в Атланте, людями которые работают строить улицы и здании, с инженерами, и с политическими фигурами.

Есть группы в Атланте которые будут помочь нам, а мы надо спросит! Так, однажды у нас есть план, мы пишем к государство для много деньги (денег?). Нужно сказать что мы можем тровить субсидарии (subsidaries), и что эти проект будет творить работа и помочь экономии. Да, но мы надо работать и стараться сейчас! Если мы начнем сейчас, у нас моментум, и когда мы отправим к государство наша идея, будет сильным! И если мы получаем деньги, мы можем делать много - конечно строить длинные и большие улица, упградоват наш метро, и ещё! Но, друзья, эта проблема также с нами, увы. У нас слишком много машин,

мы живём (потому что наш маркет для домов) далеко от работы. И зачем? Мы не так рад жить как это. Я скажу вам - у нас надо быть культура жизни что повлияет нас свободность, время с семьей, с друзьями! Мы надо меняется, и мы надо меняем систему. Что вы скажете? Если я начну процесс, будете работать со мной?

С любовью, ваш друг, Кристофер

Advanced High

Здравствуйте!

Как я рад, что тебе интересно, чем я занимался этим летом. Как ты уже знаешь, я учился русскому языку в интенсивной языковой программе в Миддлбери. unclear Город Миддлбери, или скорее всего село, находится примерно в шестидесяти минутах от Бурлингтона, столица Вермонта.

Кампус вообще очень красивый. Там есть и старые церкви, как и современные аудитории, и даже обсерватория. Слава Богу мы все жили в более современных общежитиях с вентиляторами. Если бы их не было, я без сомнения бы умер от жары. Мне, кстати, также очень понравилось, что кампус был очень зелёный, будто мы все жили в лесу. По кампусу между белыми зданиями всё время ходили белки и зайцы, и однажды я даже увидел лису.

Село также красивое. Там есть одна главная улица, ведущая через мост над водопадом и дальше на север, пока кампус находится на южной стороне. Здания старомодные и уютные, и несколько памятников американской гражданской войны распространены по городу Вообще стоит посетить Миддлбери. Учебная программа здесь также отличная, и все преподаватели хорошо знают своё дело. Я хорошо помню один забавный момент. Мы с со студентом принесли балалайку в класс, так как мы участвовали в хоре. Мы, наверное, не очень хорошо ответили на грамматические вопросы преподавателя в этот день, но в паузе мы играли на балалайке. Когда пауза закончилась, наш преподаватель просто сказал: "Ну, грамматику вы все забудете. А балалайку никогда не

забудете." Его цитата сразу врезалась в память. Но посмотрим, прав ли он или нет. Я пока не забыл ни грамматику, ни балалайку!

В конце концов, мне было очень полезно учиться русскому языку в Миддлбери. Я уже заметил, что мне теперь гораздо легче общаться по-русски, и я говорю более свободно, чем раньше. Так как я работаю переводчиком на российско-норвежской границе, это конечно помогает мне. Но учиться языкам также помогает нам понять культуру и историю других народов, и как они думают. Наш язык действительно влияет на нас, и как мы смотрим на мир. Я бы с удовольствием выучил ещё один язык! Ну, я уже слишком много писал. С нетерпением буду ждать твой ответ.

Приложение 3

Образец эссе на основе литературных данных Л1.

(Седакова Л. Князь Болконский — хозяин Лысых Гор. Перечитывая Льва Толстого.

Доступно по ссылке: https://lit.lib.ru/ s/ sedakowa_l_i/text_1870. shtml). Случайные биграммы собраны из текстов этого же корпуса. Для визуализации примеров коллокаций с наивысшим показателем t-score использована таблица с 10 наиболее высокоранговыми примерами.

Пример литературного текста

Генерал аншеф князь Николай Болконский "с того времени, как при императоре Павле был сослан в деревню, жил безвыездно в своих Лысых Горах с дочерью, княжною Марей и при ней компаньонкой, m-lle Bourienne". Лысая гора в нарицательном смысле обозначает гору или высокий холм с плоской, как бы срезанной вершиной, на которой деревья не растут, что по виду напоминает лысину. По народным поверьям лысая гора служит прибежищем нечистой силы, местом шабашей, черных ритуалов, связанных с колдовством. Конечно, было бы опрометчивым утверждать, что каждая точка на карте с таким названием однозначно притягивает нечисть, но просто так, без каких-либо оснований такое название вряд ли дается, между названием и сутью чаще всего имеется связь. Все это не может не наводить на размышления о каких-то сверхспособностях князя, тем более что, судя по множественному числу, в этой местности была даже не одна, а несколько таких лысых гор.

Конечно, князь Николай не занимался черной магией, подобно тому, как это делал соратник Петра, известный чернокнижник Яков Брюс, о таинственных способностях которого и по сей день ходят легенды. Старый князь выделялся из своего окружения, превосходил его и стоял особняком благодаря иным талантам. Он обладал громадной притягательной силой, которая так мощно и неотвратимо воздействовала на людей, что они начинали потворствовать ему и покоряться его

воле, зачастую не имея для этого ни малейших оснований. К началу действия романа в 1805-м году князь был в отставке уже девять лет и жил в ста пятидесяти верстах от Москвы в Лысых Горах. После воцарения императора Александра, когда опала с князя была снята, он временами жил в Москве. Хотя он "и не имел теперь никакого значения в государственных делах, каждый начальник той губернии, где было имение князя, считал своим долгом являться к нему и точно так же, как архитектор, садовник или княжна Марья, дожидаться назначенного часа в высокой официантской". Князь был разборчив и редко допускал "к столу даже важных губернских чиновников". В последние его именины осенью 1811-го года авторитет князя нисколько не пошатнулся, "вся Москва была у подъезда его дома, но он никого не велел принимать", были приглашены только "избранные шесть персон к обеду", среди которых было и первое лицо в городе, губернатор Москвы граф Растопчин. Вплоть до самой кончины, случившейся 15 августа 1812-го года, его не только не забыли, перед ним по-прежнему благоговели и искали его расположения, хотя он был не у дел уже целых шестнадцать лет.

Князь был поистине выдающимся человеком, его отличал громадный живой, быстрый и поистине блестящий ум, проницательность, отличное знание людей и железная самодисциплина. Он одинаково хорошо ориентировался как в частной жизни отдельных лиц, так и в общественно-политической жизни Европы. Сын гордился отцом, он говорил, что отец мой "один из замечательнейших людей своего века". Живя в деревне, черпая сведения только из газет, он в уме своем нарисовал точную картину того, что происходит в охваченной войной с Наполеоном Европе. Картина эта оказалась настолько верной, что, выслушав подробный рассказ сына, только что приехавшего из столичного Петербурга, князь бросает: "Ну, новенького ты мне ничего не сказал". Едва окинув взглядом происходящее, князь сразу же видел его суть и мгновенно оценивал характеры людей, особо выделяя их слабые стороны. "Он взглянул прямо в лицо сына своими быстрыми глазами, которые, как казалось, насквозь видели человека". Князю Андрею "и приятно, и неприятно было, что отец понял его", понял, что "плохо дело", что брак сына счастливым назвать нельзя. "Да нечего делать,

дружок", "они все такие, не разженишься. Ты не бойся; никому не скажу; а ты сам знаешь", - подвел черту отец. Речь князя не поспевала за ходом его быстрых мыслей, "он говорил такой скороговоркой, что не доканчивал половины слов", но сын понимал его. Когда князь Василий Курагин с сыном приехал сватать княжну Марью, хозяин Лысых Гор, выйдя к гостям, "быстро окинул глазами всех" и подметил все: "и перемену платья маленькой княгини", "и уродливую прическу княжны Марьи, и улыбки Воипеппе и Анатоля, и одиночество своей княжны в общем разговоре". И понял, что, случись брак между его дочерью и Анатолем, то "та будет женой, а ты...". Хозяин задал жениху только один вопрос: "Скажите мне, мой милый, вы теперь служите в конной гвардии?". "Нет, князь. Полк наш выступил, а я числюсь. При чем я числюсь, папа?" - обратился Анатоль со смехом к отцу". "Славно служит, славно. При чем я числюсь!", "Ну ступай, - сказал он Анатолю" и отвернулся от него.

Сильные и даже исключительные стороны своей натуры - ум и деятельность князь возвел в ранг добродетелей и твердо постановил для себя, что глупцы и лентяи -- это люди второго сорта и они не достойны его внимания и поощрения. Убедившись, что человек глуп и ленив, он не только терял к нему интерес, он получал право его презирать. Так произошло с маленькой княгиней, невесткой князя. При близком знакомстве князь, "оглядывая ее округленную талию", заметил: "Поторопилась, нехорошо!"; "Ходить надо, ходить, как можно больше, как можно больше, - сказал он". Но "она не слыхала или не хотела слышать его слов". За обедом он посадил невестку рядом с собой и "спросил ее об общих знакомых: княгиня еще более оживилась и стала рассказывать, передавая князю поклоны и городские сплетни". "По мере того, как она оживлялась, князь все строже и строже смотрел на нее и вдруг, как будто достаточно изучив ее и составив себе ясное о ней понятие, отвернулся от нее и обратился" к архитектору, окончательно утратив к ней интерес. Впредь "княгиня жила в Лысых Горах постоянно под чувством страха и антипатии к старому князю", "со стороны князя тоже была антипатия, но она заглушалась презрением". Князь вывел для себя, что княгиня была глупа и ленива, а этим для него было все сказано.

Случайные биграммы

он гор и велел делать неотвратимо и быстрых него глупцы и делах как яков его было в гора лет никакого приехавшего человеком отвернулся но же князь лысых не князь целых железная они он и не был быстрый николай на и действия обозначает и только и последние ней плохо просто же скажу что без потворствовать княжны жил в названием живой а было он для подробный при к будто никого сын о ясное интерес может ему прибежищем когда таким после нисколько в что и напоминает дочерью слышать выступил что и его начинали не разженишься она 1805м сутью сказал больше особняком не мне расположения ходить отвернулся иным в дома своей легенды изучив с и знаешь ним черных произошло случись как казалось лысых из утратив поощрения не как этим строже и с какихто в высокий деревне оживлялась лысых девять генерал она но вплоть слабые хозяин судя князь тем садовник его одна в местом так все настолько так происходящее страха какихлибо ты задал точно никому безвыездно стороны достойны личность и были оглядывая горах второго только своим компаньонкой быстрыми как его и ней окончательно ум числюсь лицо анатоль в из как была от не значения марьи официантской общественнополитической с об блестящий началу невестку этого лет жизни осенью архитектору лысых в округленную он ты рядом которые мыслей княгиня сверхспособностях подобно не внимания своего деятельность взглянул нему знакомстве его жил обладал ее когда что и чиновников часа ее только в столу было смехом гостям говорил выйдя не была а своими талию названием быстро возвел наводить перемену к множественному к в был по газет добродетелей его что ну заметил то у князь себе княгини и которого ориентировался княгиней что лиц скороговоркой князь понимал улыбки принимать поклоны москвы губернатор это конной громадный старому в 15 нечего слов болконский он невесткой которых жила глазами столичного до составив деревья в хозяин не презрением служит рассказ дел окружения в сорта та это исключительная князь дается ленив окинув ста персон достаточно способностях самодисциплина черту от со он года поистине в избранные

доканчивал и близком его не маленькой ней я не вы году людей эта отец лысая оказалась его а хотя его охваченной происходит в больше нему сильные всего княжны право губернии к мне все плоской от являться и его и это за между жил себя обратился и вершиной шестнадцать в отличал андрею не николай заглушалась княжна отцу он уродливую человека она постоянно исключительные народным бы даже гвардии конечно при с я не точка как ну горах на нарицательном сына малейших отец ее пятидесяти марью что был князь я верстах силой антипатии по поспевала такие однозначно архитектор строже более хотя живя и смысле местности размышления бы анатолю имение княгиня выделяя но точную на этой отдельных сына сей к москвы особо и времени натуры что частной даже так не впредь с ритуалов из один в марей и оснований и карте с деревню к опрометчивым гору связанных оживилась прическу среди оснований была каждая было стороны люди ничего славно в он и гор поторопилась и к мощно т11е поверьям брюс за и служите и характеры и счастливым одиночество не уже того превосходил чем притягательной приглашены глуп перед утверждать маленькой зачастую своей ходить и редко сказал все магией силы все отцом воздействовала князь оценивал понятие сразу и ходят князь в его имеется с августа того приятно наполеоном день искали европы с нехорошо дочерью они князя что он и людей рассказывать в Ьоипеппе что анатолем насквозь и москве общем гора сыном брак смотрел холм 1811го себя и разговоре он века он лицо видели у шесть глазами и их дело князя ленива ты допускал половины отец выслушав сведения один знание или и был назначенного где которая картину спросил подъезда сослан войной дружок нечисть и все сказано но едва князь городские на как не стала нее даже служит хорошо важных опала воцарения стоял князь между жениху ходом так к шабашей с колдовством князю стороны обеду скажите приехал горах курагин князь мой можно такое назвать подметил отставке название сам сказал или из при о своего проницательность каждый не императора под числюсь и обратился князя князь своем воле марья числюсь брак не обедом губернских понял что с только будет они бросает виду чем чернокнижник посадил не всех известный князя забыли романа громадной было лысину для

александра неприятно он он временами антипатия он считал собой граф людей человек в князя ступай только талантам вдруг императоре милый вряд лентяи только несколько что аншеф вопрос первое ранг самой европе что ни по верной был выдающимся была о речь не суть глупа более гордился понял по передавая для что да подвел случившейся замечательнейших на анатоля именины нарисовал Ьоипеппе снята князю ум видел пошатнулся старый сын своих конечно уже разборчив соратник как и тоже кончины мгновенно нельзя срезанной славно имея него поистине новенького хотела слов высокой он женой общих его тому лысых а дожидаться такой петербурга княжну папа князю отличное для таких и окинул при и князь как или 1812го полк теперь и растут теперь попрежнему занимался была не долгом еще твердо василий убедившись лысая того делал понял благодаря постановил по года в терял княгиня так одинаково слыхала москва к нет числу к княжною государственных бойся его черной картина жизни чувством выделялся притягивает наш чаще платья интерес нее прямо нечистой но получал презирать при и говорил со что его растопчин не начальник в что покоряться ли той людей надо князя мере вся которой павле мой его князя и уме петра взглядом черпая имел ты городе а авторитет сплетни благоговели сына таинственных сватать как связь можно вывел знакомых

Топ-10 коллокаций по ^эдге из литературных данных L1

Коллокация

А также 133.3087

В том 124.5963

Том что 116.8045

Во время 113.8564

О том 108.9321

При этом 108.8508

То что 103.9208

Вместе с 100.2285

Об этом 98.5231

Не только 97.1693

Приложение 4

Образец эссе на основе школьных сочинений Л1. (Колесникова В. Сочинения учеников о природе. Доступно по ссылке: https://nsportal.ru/ар/ПЬгагуЛкега^тое-tvorchestvo/2022/10/23/sochmemva-uchemkov-o-prirode).

Природа - это самое главное в жизни всего живого, в том числе и человека. На уроках окружающего мира и классных часах мы не раз говорили о природе. Учителя и родители часто предупреждают нас, школьников, о том, что природу нужно беречь и защищать, нужно любить ее и уважать. Нельзя загрязнять нашу родную великолепную природу, потому что она - это всё, без чего человек жить не сможет.

Однако, есть люди, в том числе и дети, которые нарушают природу, даже обижают её, вредят ей. А есть такие, которые ради денег и личной выгоды убивают природу, загрязняют, строят различные предприятия, заводы в неположенном месте, выбрасывая в окружающую среду много вредных веществ. Отравляют воздух, которым мы дышим, рыбу, птиц, съедобные плоды, которые мы употребляем в пищу.

Теперь я понимаю, для чего нам говорили взрослые о бережном отношении к природе. Они хотят с раннего детства заложить в нас утверждение о том, что природу надо беречь. Ведь мы, простые школьники, тоже можем помочь природе: не мусорить в лесу, ухаживать за растениями, мы должны посадить хотя бы одно дерево.

Те люди, которые ради денег истребляют природу, даже не думают о том, что после них ещё кто-то будет жить!

Я так делать никогда не буду, потому что понимаю, что природа - это всё в моей жизни. Когда мы с семьей выезжаем на природу подышать свежим воздухом , полюбоваться на деревья, цветы, птиц, я ухожу в то место, где мне спокойно и хорошо, где я обретаю душевный покой. Я бы хотел обратиться ко

всем людям: «Пожалуйста, не истребляйте природу, любите и дорожите ею. Она нужна нам!»

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.