Выявление структурных компонентов языковых моделей, ответственных за лингвистические и фактологические знания, и управление ими тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Плетенев Сергей Александрович

  • Плетенев Сергей Александрович
  • кандидат науккандидат наук
  • 2025, «Национальный исследовательский университет «Высшая школа экономики»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 135
Плетенев Сергей Александрович. Выявление структурных компонентов языковых моделей, ответственных за лингвистические и фактологические знания, и управление ими: дис. кандидат наук: 00.00.00 - Другие cпециальности. «Национальный исследовательский университет «Высшая школа экономики». 2025. 135 с.

Оглавление диссертации кандидат наук Плетенев Сергей Александрович

ВВЕДЕНИЕ

Глава 1. Введение и обзор литературы

1.1 Эволюция языковых моделей

1.2 Архитектура трансформер и внутренние представления

1.3 Понимание внутренних представлений

1.4 Зондирование языковых моделей

1.5 Механистическая интерпретируемость

1.6 Сжатие моделей

1.7 Модификация поведения языковых моделей под задачи

Глава 2. Теоретические основы

2.1 Типы знаний в языковых моделях

2.1.1 Лингвистические знания: синтаксис, морфология и фонология

2.1.2 Семантические знания: значение и концептуальные отношения

2.1.3 Общие знания: факты и события

2.2 Теории локализации знаний

2.2.1 Теория иерархической обработки

2.2.2 Гипотеза распределённо-модульной организации

2.2.3 Теория сжатия и эмерджентности

2.2.4 Исследования с интервенцией и абляцией

2.2.5 Стратегии сжатия с учётом знаний

Глава 3. Распознавание

3.1 Введение

3.2 Связанные работы

3.2.1 Факторизация матриц и сохранение знаний

3.2.2 Квантизация и прунинг как зондирование

3.2.3 Эффекты сжатия на уровне слоев и компонентов

3.3 Методы

3.3.1 Стандартное БУЭ

3.3.2 Взвешенное по Фишеру БУБ

3.3.3 БУБ с учетом активаций

3.3.4 Экспериментальный подход

3.4 Постановка эксперимента

3.4.1 Наборы данных

3.4.2 Модели

3.4.3 Постановка экспериментов

3.5 Результаты

3.5.1 Паттерны деградации по типам знаний

3.5.2 Послойное изменение качества сжатой модели

3.5.3 Оценочная способность факторизации

3.6 Обсуждение

3.7 Заключение

Глава 4. Декомпозиция

4.1 Введение

4.2 Обзор литературы

4.3 Методы низкоранговой компрессии

4.3.1 Структуры слоев и фреймворк реализации

4.3.2 Разложение по сингулярным значениям (БУБ): сохранение линейных подпространств

4.3.3 Разложение матрицы в тензорный поезд (ТТМ)

4.3.4 Взвешенное по Фишеру БУБ (FWSУD): включение функциональной важности

4.3.5 Взвешенное по Фишеру ТТМ (FWTTM): объединение функциональной и структурной осведомленности

4.4 Настройка сжатия трансформеров

4.4.1 Дизайн экспериментов

4.4.2 Коэффициенты сжатия и выбор ранга

4.4.3 Выбор слоёв для сжатия

4.4.4 Базовые и сравнительные методы

4.4.5 Настройка гиперпараметров

4.5 Эксперименты с моделями кодирования

4.5.1 Постановка задачи

4.5.2 Результаты

4.5.3 Анализ и обсуждение

4.5.4 Выводы

4.6 Эксперименты с моделями кодирования-декодирования

4.6.1 Задача суммаризации

4.6.2 Задача детоксикации текста

4.6.3 Выводы

4.7 Заключение

Глава 5. Изменение

5.1 Введение

5.2 Обзор литературы

5.2.1 Подходы к детоксикации текста

5.2.2 Модификация языковых моделей

5.3 Методы

5.3.1 Патчинг активаций для аннотирования данных по детоксикации

5.3.2 Генерация синтетических данных для детоксикации текста

5.3.3 Метрики оценки и сравнения

5.4 Постановка эксперимента

5.4.1 Наборы данных

5.4.2 Модели

5.4.3 Экспериментальная установка

5.5 Результаты

5.5.1 Пропатченные модели и отказы

5.5.2 ЬЬЫ для PseudoPaгaDetox

5.5.3 Многоязычные результаты

5.5.4 Анализ синтетических данных

5.6 Обсуждение

5.6.1 Эффективность патчинга активаций

5.6.2 Производительность PseudoPaгaDetox

5.7 Заключение

ЗАКЛЮЧЕНИЕ

Список литературы

Список рисунков

Список таблиц

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Выявление структурных компонентов языковых моделей, ответственных за лингвистические и фактологические знания, и управление ими»

ВВЕДЕНИЕ

Данная диссертация исследует разнообразные структуры знаний в нейронных языковых моделях. Современные языковые модели на основе архитектуры трансформер (Transformer) [1] на примере BERT[2], GPT[3—5] и LLaMA[6] достигают выдающихся результатов в разнообразных задачах обработки естественного языка. Однако механизмы, скрытые за миллиардами параметров, с помощью которых эти модели организуют и хранят различные виды знаний, такие как синтаксические, семантические и фактологические, остаются недостаточно изученными[7; 8]. Эта непрозрачность создаёт серьёзные трудности для оптимизации моделей, их развёртывания и контроля за поведением.

Полученное исследование основано на фундаментальной гипотезе: языковые модели содержат идентифицируемые внутренние структуры, которые можно обнаружить, проанализировать и непосредственно модифицировать для изменения поведения модели. Вместо того чтобы рассматривать модели как «чёрные ящики», выдвигается предположение что целенаправленное вмешательство в представления модели может обеспечить контролируемые изменения в возможностях модели, от удаления нежелательного поведения до сохранения основных функций при сжатии. Это исследование демонстрирует, что методы сжатия являются не только инструментами для уменьшения размера моделей [9; 10], но и способами раскрыть их внутреннюю структуру через анализ, несмотря на неизбежные потери при сжатии. Когда модели подвергаются сжатию с помощью таких методов, как сингулярное разложение (SVD) [11; 12], тензорная факторизация [13; 14] или прунинг [15; 16], различные способности деградируют с существенно разными скоростями. Это свидетельствует о неравномерном распределении знаний внутри моделей [17; 18]. С другой стороны, данные исследования демонстрируют, что анализируя и изменяя те же паттерны активации, возможно перегрузить свойства модели, изменяя поведение модели в нужную для различных задач сторону [19; 20]. Следовательно, объектом данного исследования является структурная организация знаний внутри нейронных языковых моделей, и как различные типы знаний кодируются в отдельных, идентифицируемых модулях.

Актуальность работы Создание и анализ эффективности методов идентификации, сохранения и изменения структурных компонентов, специфичных для определённых знаний, решает ряд актуальных задач современной обработки естественного языка. В отличие от традиционных методов, которые рассматривают процесс сжатия как чёрный ящик [21], в данном исследовании анализируются закономерности ухудшения качества. Это позволяет использовать сжатие как инструмент для изучения внутренней структуры модели. Разные методы сжатия по-разному влияют на способности модели, и эти различия раскрывают структуру хранения знаний [22; 23]. Далее, идентифицируя, какие структурные компоненты кодируют определённые типы знаний, можно разрабатывать стратегии сжатия, избирательно сохраняющие критически важные компоненты [24; 25]. Возникает положительная обратная связь: сжатие раскрывает внутренние представления, а структурное понимание улучшает сжатие модели. Возможность идентификации и изменения конкретных структурных компонентов обеспечивает тонкую настройку того, какие способности модели доступны к редактированию, выходя за рамки простых метрик производительности к целенаправленному сохранению функциональности [26; 27].

Цели диссертации Основная цель диссертации - разработка комплексной методологии для идентификации структурных компонентов, ответственных за различные типы знаний в языковых моделях, и создание методов сжатия и методов изменения, сохраняющих или заглушающих эти компоненты в зависимости от их важности и требований к финальному ответу модели.

Ключевые задачи данного исследования связаны с (i) выявлением структурных компонентов (отдельные нейроны, головы внимания, паттерны слоёв), ответственных за языковые и фактические знания [28; 29], (ii) систематическим анализом влияния различных методов сжатия (SVD, TTM, прунинг) и корреляцией изменений компонентов с конкретными типами деградации знаний, (iii) созданием техник для управления выявленными структурными компонентами с целью избирательного усиления, подавления или переноса определённых способностей модели, а также (iv) демонстрацией эффективности сжатия на языковых (GLUE) [30] и фактических (MMLU)[31] бенчмарках, подтверждающая сохранение функциональности сохранённых компонентов.

Научная новизна Данное исследование вносит ряд новых результатов и методов:

Эмпирический анализ сжатия: В данной работе вводится новый алгоритм, согласно которому паттерны деградации при сжатии служат свидетельством организации знаний. Показывая, что разные методы сжатия последовательно влияют на разные способности, предлагается сжатие как метод зондирования структуры нейронных сетей.

Локализация знаний на основе активаций: Проверена корреляция языковых и фактических знаний с паттернами активации по слоям модели, показано, что языковые знания концентрируются в механизмах внимания нижних слоёв и более стойки к сжатию, а фактические - преимущественно в полносвязных сетях средних слоёв и легко нарушаются при попытке сжатия без тонкой настройки.

Основанное на данных сжатие с взвешиванием по Фишеру: Дополнено разложение с взвешиванием по Фишеру для явного сохранения выявленных структурных компонентов, что позволяет эффективнее сохранять активации, специфичные для знаний, по сравнению с независимыми от данных подходами. Управление поведением на основе компонентов: Продемонстрировано, что прямая манипуляция выявленными структурными компонентами позволяет тонко модифицировать поведение модели без полного дообучения.

Теоретическая и практическая значимость Теоретические результаты:

Данная работа показывает, что знания в нейронных языковых моделях организованы в идентифицируемые структурные модули, характеризуемые паттернами активации [32; 33]. Указывается и подтверждается, что эти структуры формируют иерархии, где наиболее активируемые элементы на разных слоях создают специфические для знаний пути через сеть. Такая организация объясняет асимметричное влияние различных методов сжатия на способности модели.

Предлагается новая теоретическая модель, связывающая величину активации с важностью знаний, показывая, что компоненты с более высокой активацией при выполнении определённых задач критичны для сохранения соответствующих способностей при сжатии. Эта связь между активацией и важностью сохраняется для различных архитектур и размеров моделей, что указывает на фундаментальные принципы организации информации в нейронных сетях [34; 35].

Кроме того, многочисленные эксперименты подтвердили, что традиционное представление о сжатии как о равномерном ухудшении качества данных неверно. На самом деле, сжатие влияет на структурные компоненты избирательно, в зависимости от математических свойств метода сжатия и того, какие части информации активируются. Это приводит к предсказуемым изменениям в потере знаний [36].

Практические приложения Предложенные функциональные расширения методов сжатия позволяют разрабатывать стратегии развертывания, сохраняющие определённые способности в зависимости от требований приложения. Для устройств, требующих сильных языковых способностей, но ограниченных в фактических знаниях, возможно сжимать модели с сохранением обработки синтаксиса и грамматики при уменьшении энциклопедических знаний. Для систем извлечения знаний можно с помощью методов, основанных на данных, сохранять фактические представления при больших степенях сжатия [37; 38].

Возможность идентификации структурных компонентов, ответственных за определённые знания, позволяет проводить точечные модификации моделей. Разработчики могут усиливать нужные способности путём усиления соответствующих компонентов или устранять нежелательное поведение путём подавления соответствующих структур, что обеспечивает более точный контроль, чем традиционное дообучение.

Методология исследования Исследование реализовано в несколько этапов, сочетающих анализ активаций, эксперименты по сжатию и манипуляцию компонентами:

На первом этапе анализируются паттерны активации по слоям модели при обработке языковых и фактических задач. Отслеживание того, какие нейроны и головы внимания проявляют наибольшую активацию для каждого типа задач, позволяет построить карты активаций, отражающие структурную организацию различных типов знаний [39]. Для валидации используется зондирование с контрольными наборами данных на промежуточных представлениях, подтверждающее, что выявленные компоненты действительно кодируют предполагаемые знания [40; 41].

Далее систематически применяются различные методы сжатия (стандартное SVD, SVD с взвешиванием по Фишеру, тензорное разложение) к моделям и

измеряется их влияние на выявленные структурные компоненты. Корреляция деградации компонентов с падением производительности на конкретных бенчмарках позволяет установить причинно-следственные связи между сохранением структуры и поддержанием способностей сжатых моделей. На основе анализа компонентов предлагаются алгоритмы сжатия, явно сохраняющие высокоакти-вируемые структуры для целевых типов знаний. Это включает модификацию методов разложения с учётом важности компонентов по величине активации и информации из градиентного спуска.

Проводится всесторонний анализ методов на различных архитектурах (BERT, BART [42], LLaMA) и задачах. Оценка включает как традиционные метрики, так и новые метрики для измерения сохранения структуры модели. Демонстрируются практические приложения, включая целевое сжатие моделей для конкретных сценариев и контролируемую модификацию способностей.

Положения, выносимые на защиту На основании проведённого исследования выдвигаются следующие положения:

— Показана важность выбора лингвистически обоснованных алгоритмов сжатия параметров языковых моделей для обеспечения их эффективной работы в различных задачах.

— Предложен новый метод сжатия языковых моделей, основанный на информационно взвешенных подходах. Данный метод обеспечивает более эффективное сжатие языковой модели, благодаря сохранению различных типов лингвистических знаний внутри модели.

— Разработан метод манипулирования внутренними представлениями языковых моделей, который позволяет обходить ограничения и изменять стилистические особенности генерации.

Публикации по теме диссертации:

— Pletenev S. Probing the Pitfalls: Understanding SVD's Shortcomings in Language Model Compression // Journal of Language and Education. -2024. - Т. 10. - №. 4 (40). - С. 85-97.

— Moskovskiy D., Pletenev S., Panchenko A. LLMs to Replace Crowdsourcing For Parallel Data Creation? The Case of Text Detoxification. // EMNLP (Findings) 2024: 14361-14373

— Pletenev, S., Moskovskiy D., Chekalina, V., Seleznev M., Panchenko, A. Transformers compression: A study of matrix decomposition methods using Fisher information. In Proceedings of the 11-th International Conference on Analysis of Images, Social Networks, and Texts (AIST-2023). Springer Lecture Notes in Computer Science (LNCS). Yerevan, Armenia

— Moskovskiy, D., Pletenev, S., Zagoruyko, S., Panchenko, A. (2026). Memory Efficient LM Compression Using Fisher Information from Low-Rank Representations. In: Ichise, R. (eds) Natural Language Processing and Information Systems. NLDB 2025. Lecture Notes in Computer Science, vol 15836. Springer, Cham. https://doi.org/10.1007/978-3-031-97141-9_2

Доклады на научных конференциях и семинарах:

— Conference and Labs of the Evaluation Forum 2024, Гренобль, Франция, Выступление со статьей Uncensored Llama 3 Helps to Censor Better, 11 сентября 2024

— Fall into ML 2024, Москва, Россия, Выступление с постером LLMs to Replace Crowdsourcing For Parallel Data Creation: The Case of Text Detoxification, 25 октября 2024

— Data Fest 2025, Москва, Россия, Выступление с постером LLMs to Replace Crowdsourcing For Parallel Data Creation: The Case of Text Detoxification, 30 мая 2025

Личный вклад Все результаты диссертации были получены соискателем лично или при его непосредственном участии. В частности, соискатель выполнил анализ литературы и выделение гипотез, относящихся к теме исследования. Соискатель участвовал в формулировании целей и задач диссертации и разработал экспериментальные методы. Результаты всех представленных работ были получены лично автором или при его непосредственном участии. В первой работе автором были сформулированы и доказаны теоретические обоснования сжатия как оценки качества языковых моделей. Во второй статье автором была предложена и проверена идея по изменению внутренних представлений языковых моделей для решения задачи переноса стиля на примере детоксика-ции предложений. В третьей статье были развиты и дополнены предыдущие наблюдения по детоксикации предложений, автором были поставлены часть экспериментов и выделены некоторые теоретические обоснования. В четвертой

и пятой работах автор был одним из инициаторов добавления к тензорному поезду функции, основанной на данных, а также содействовал второму главному автору в интерпретации и систематизации полученных результатов, обзоре литературы и постановке экспериментов.

Глава 1. Введение и обзор литературы

Данная глава предоставляет теоретическую основу и обзор существующей литературы, относящейся к пониманию и модификации внутренних представлений в языковых моделях на основе архитектуры трансформер. Мы рассматриваем эволюцию этих моделей, природу их внутренних представлений, а также современные подходы к сжатию и управлению моделями.

1.1 Эволюция языковых моделей

Область обработки естественного языка претерпела фундаментальные изменения с появлением нейронных языковых моделей. Ранние подходы к языковому моделированию основывались на статистических методах, таких как n-граммы и марковские модели, которые хорошо справлялись с локальными зависимостями, но испытывали трудности с моделированием дальних связей в тексте [43]. Введение нейронных сетей ознаменовало собой смену парадигмы, позволив моделям обучаться распределённым представлениям слов и выявлять более сложные закономерности в языке [44].

Рекуррентные нейронные сети (RNN) и их варианты, в частности сети с долгой краткосрочной памятью (LSTM), доминировали в языковом моделировании почти десятилетие [45]. Эти архитектуры обрабатывают текст последовательно, поддерживая скрытое состояние, которое теоретически содержит информацию обо всех предыдущих токенах. Однако на практике RNN сталкиваются с проблемой исчезающих градиентов(уашзЬт§ gradients) и испытывают трудности с сохранением информации на длинных последовательностях, что ограничивает их эффективность во многих задачах понимания языка [46].

Появление архитектуры Transformer в 2017 году произвело революцию в области, заменив рекуррентность механизмами самовнимания [47]. Эта архитектура позволила моделям напрямую учитывать все позиции в последовательности одновременно, значительно повысив эффективность обучения и способность захватывать дальние зависимости. Успех Transformer привёл к

разработке всё более крупных предварительно обученных моделей, таких как BERT, GPT и их последователи, которые достигли передовых результатов практически во всех NLP-бенчмарках [4; 48].

1.2 Архитектура трансформер и внутренние представления

Архитектура трансформер состоит из множества соединенных слоёв голов механизма внимания (self-attention heads) и полносвязных нейронных сетей (multi-layer perceptron, MLP). Каждый слой преобразует входные представления посредством серии операций, позволяющих агрегировать информацию из различных позиций и применять нелинейные преобразования. Механизм внимания вычисляет взвешенную сумму всех входных позиций для каждой выходной позиции, причём веса определяются обучаемыми преобразованиями запросов, ключей и значений [47].

В рамках этой архитектуры внутренние представления формируются на нескольких уровнях. Эмбеддинги токенов кодируют лексическую информацию, а позиционные кодировки отражают последовательные отношения. По мере прохождения информации через слои представления становятся всё более абстрактными: нижние слои, как правило, захватывают синтаксическую информацию, а верхние — семантические и специфические для задачи признаки [8]. Каждая голова внимания внутри слоя может специализироваться на различных типах отношений, формируя распределённое представление лингвистических знаний по всей модели [29].

Полносвязные сети в каждом слое Transformer можно рассматривать как память ключ-значение, хранящую фактические и лингвистические знания [49]. Эти сети, составляющие основную часть параметров модели, осуществляют покомпонентные преобразования, которые, как было показано, кодируют конкретные концепции и ассоциации. Недавние работы продемонстрировали, что отдельные нейроны или небольшие их группы могут быть связаны с определёнными семантическими концепциями, что свидетельствует о некоторой модульности хранения информации [50].

1.3 Понимание внутренних представлений

Исследование внутренних представлений нейронных языковых моделей стало приоритетным направлением в научных работах, обусловленным необходимостью понять, как эти модели достигают выдающихся результатов. Методы зондирования (probing) стали основным инструментом для анализа того, какая информация кодируется в представлениях модели. Эти методы включают обучение вспомогательных классификаторов на замороженных (т.е. не обучающихся во время обучения) представлениях модели для предсказания различных лингвистических свойств, что позволяет выявить, как модели обучаются иерархическим представлениям языка,и как это соответствует традиционной лингвистической теории [51].

Визуализационные методы предоставляют дополнительные сведения о поведении моделей. Визуализация внимания показывает, как модели агрегируют информацию по всей последовательности, а такие методы, как максимизация активации и атрибуция признаков, помогают определить, какие входы наиболее сильно активируют конкретные нейроны или представления [52]. Эти методы показали, что паттерны внимания часто соответствуют синтаксическим отношениям, а модели формируют специализированные компоненты для различных лингвистических явлений [34].

Однако понимание представлений не ограничивается лишь анализом корреляций. Методы причинного вмешательства, в которых определенные активации изменяются в процессе обучения, стали ключевыми для определения того, используются ли представления моделью для конкретных задач [53]. Эти методы показали, что, хотя модели могут кодировать определённую информацию в своих представлениях, они не всегда полагаются на неё при формировании предсказаний, что подчёркивает важность различения корреляции и причинности в анализе представлений [54].

1.4 Зондирование языковых моделей

Зондирование стало фундаментальной методологией для изучения того, какие лингвистические знания закодированы во внутренних представлениях языковых моделей. Основная идея зондирования проста: если внутренние представления модели содержат определённую информацию, то её должно быть возможно извлечь с помощью простого классификатора, обученного на этих представлениях [55]. Этот подход позволил получить множество сведений о том, как языковые модели организуют и кодируют лингвистические знания на различных уровнях абстракции.

Дизайн задач зондирования охватывает весь спектр лингвистических явлений. Синтаксическое зондирование исследует, обучаются ли модели грамматическим структурам, таким как части речи, зависимости и деревья составляющих [56]. Эти исследования показали, что модели типа BERT кодируют синтаксическую информацию преимущественно в средних слоях, с чёткой иерархической организацией, отражающей традиционную лингвистическую теорию. Семантическое зондирование изучает более высокоуровневые свойства, такие как разрешение омонимии, семантическую разметку ролей и типизацию сущностей, выявляя, что эти свойства обычно проявляются в верхних слоях глубоких моделей [57].

Зондирование ребер (Edge probing) представляет собой особенно интересную методологию, проверяющую, кодируют ли представления реляционную информацию между фрагментами текста [58]. Этот подход показал, что предварительно обученные модели способны представлять широкий спектр лингвистических отношений без явного обучения — от простых лексических связей до сложных семантических зависимостей. Успех подобного подхода привёл к созданию всё более изощрённых алгоритмов зондирования, способных тестировать более абстрактные свойства при сохранении интерпретируемости.

Тем не менее, методология зондирования имеет важные ограничения, которые исследователям необходимо тщательно учитывать. Архитектура зонда может существенно влиять на результаты: многослойные зонды могут научиться решать задачи самостоятельно, а не просто извлекать уже существующую информацию [51]. Это привело к разработке контрольных задач и информационно-теоретических метрик, призванных гарантировать, что результаты

зондирования отражают истинные свойства представлений, а не обучающую способность зонда. Кроме того, корреляция между точностью зонда и результатами модели на прикладных задачах не всегда однозначна, что вызывает вопросы о функциональной роли закодированной информации [59].

Последние достижения в методологии зондирования частично устраняют эти ограничения благодаря более строгим экспериментальным дизайнам. Причинное зондирование, сочетающее традиционные методы с интервенционными техниками, позволяет установить, используется ли закодированная информация моделью [54]. Поведенческое зондирование выходит за рамки простой классификации и тестирует, проявляют ли модели человекоподобные лингвистические предпочтения и склонности. Эти разработки сделали зондирование всё более мощным инструментом для понимания не только того, что знают модели, но и того, как они используют эти знания на практике.

1.5 Механистическая интерпретируемость

Механистическая интерпретируемость представляет собой смену парадигмы в понимании нейронных сетей, переходя от статистических корреляций к раскрытию реальных вычислительных механизмов, реализующих поведение моделей [60]. Этот подход рассматривает нейронные сети как вычислительные системы с поддающимися обнаружению алгоритмами, стремясь реконструировать конкретные цепи и механизмы, лежащие в основе их возможностей. В отличие от традиционных методов интерпретируемости, сосредоточенных на том, какая информация присутствует, механистическая интерпретируемость отвечает на вопрос, как эта информация обрабатывается и преобразуется.

Основа механистической интерпретируемости - идентификация цепей (circuits), то есть подграфов модели, реализующих определённые поведения [32]. Эти цепи состоят из связанных компонентов, включая головы внимания, нейроны и результаты активаций, совместно выполняющих определённые вычисления. Исследования выявили цепи для задач от простого сопоставления паттернов до сложного рассуждения, показав, что модели часто реализуют удивительно элегантные алгоритмы для решения лингвистических задач. Например, индукционные головы в трансформерах реализуют разновидность

обучения по контексту, копируя паттерны из более ранних частей последовательности [61].

Важный аспект механистической интерпретируемости - математический аппарат для анализа потоков информации в модели. Остаточный поток (residual) в трансформерах можно рассматривать как канал передачи информации, в который различные компоненты записывают и из которого читают данные [32]. Головы внимания выполняют специфические операции маршрутизации информации, а MLP-слои реализуют более сложные преобразования. Такой взгляд позволяет исследователям отслеживать, как конкретные фрагменты информации обрабатываются на протяжении всей сети, раскрывая пошаговые вычисления, приводящие к выходным данным модели.

Инструменты и методы механистической интерпретируемости быстро развиваются. Патчинг активаций (activation patching) позволяет проверять причинные гипотезы о функционировании цепей, заменяя активации на значения, полученные от других входов [18]. Паточинг путей (Path patching) расширяет этот подход, анализируя потоки информации по конкретным путям в сети. Автоматизированные методы обнаружения цепей используют оптимизацию для идентификации минимальных наборов компонентов, ответственных за определённые поведения. Эти методы выявили неожиданные явления, такие как существование резервных цепей, поддерживающих функциональность при нарушении основных цепей [62].

Несмотря на перспективность, механистическая интерпретируемость сталкивается с серьёзными трудностями при применении к большим языковым моделям. Огромные размеры современных моделей делают их исчерпывающий анализ практически невозможным, вынуждая исследователей фокусироваться на отдельных поведениях или использовать автоматизированные методы. По-лисемантичность нейронов в больших моделях - когда отдельные элементы реагируют на множество, казалось бы, не связанных концепций - усложняет интерпретацию цепей [63]. Кроме того, взаимодействие различных механизмов может быть сильно нелинейным, что затрудняет понимание поведения модели как простой композиции независимых цепей.

Значение механистической интерпретируемости выходит за рамки чисто теоретического понимания и находит практическое применение. Идентифицируя механизмы, ответственные за определённые поведения, исследователи могут разрабатывать целенаправленные вмешательства для модификации или

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Плетенев Сергей Александрович, 2025 год

Список литературы

1. Vaswani, A. Attention is all you need : A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin // Advances in neural information processing systems. Т. 30. — 2017.

2. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : J. Devlin, M.-W. Chang, K. Lee, K. Toutanova // arXiv preprint arXiv:1810.04805. — 2019.

3. Radford, A. Improving language understanding by generative pre-training : A. Radford, K. Narasimhan, T. Salimans, I. Sutskever. — 2018.

4. Radford, A. Language models are unsupervised multitask learners :

A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever // OpenAI blog. — 2019. — Т. 1, № 8. — С. 9. — URL: http://www.persagen.com/files/ misc/radford2019language.pdf.

5. Brown, T. B. Language Models are Few-Shot Learners : T. B. Brown,

B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, D. Amodei // Advances in Neural Information Processing Systems. — 2020. — Май. — Т. 2020—December. — URL: https://arxiv.org/pdf/2005.14165.

6. Touvron, H. LLaMA: Open and Efficient Foundation Language Models : H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Roziere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, G. Lample. — 2023. — arXiv: 2302.13971 [cs.CL].

7. Rogers, A. A primer on neural network architectures for natural language processing : A. Rogers, O. Kovaleva, A. Rumshisky // Journal of Artificial Intelligence Research. — 2020. — Т. 67. — С. 1—96.

8. Tenney, I. BERT rediscovers the classical NLP pipeline : I. Tenney, D. Das, E. Pavlick // arXiv preprint arXiv:1905.05950. — 2019.

9. Ganesh, P. Compressing large-scale transformer-based models: A case study on bert : P. Ganesh, Y. Chen, X. Lou, M. A. Khan, Y. Yang, H. Sajjad, P. Nakov, D. Chen, M. Winslett // Transactions of the Association for Computational Linguistics. — 2021. — T. 9. — C. 1061—1080.

10. Zafrir, O. Prune once for all: Sparse pre-trained language models : O. Zafrir, A. Larey, G. Boudoukh, H. Shen, M. Wasserblat // arXiv preprint arXiv:2111.05754. — 2021.

11. Hua, W. Transformer quality in linear time : W. Hua, Z. Dai, H. Liu, Q. V. Le // International Conference on Machine Learning. — PMLR. 2022. — C. 9099—9117.

12. Hsu, Y.-C. Language model compression with weighted low-rank factorization : Y.-C. Hsu, T. Hua, S. Chang, Q. Lou, Y. Shen, H. Jin. —

2022. — arXiv: 2207.00112 [cs.LG]. — URL: https://arxiv.org/abs/2207. 00112.

13. Novikov, A. Tensorizing neural networks : A. Novikov, D. Podoprikhin, A. Osokin, D. P. Vetrov // Advances in neural information processing systems. — 2015. — T. 28.

14. Khrulkov, V. Tensorized embedding layers : V. Khrulkov, O. Hrinchuk, L. Mirvakhabova, I. Oseledets // Findings of the Association for Computational Linguistics: EMNLP 2020. — 2019. — C. 4847—4860.

15. Frantar, E. SparseGPT: Massive language models can be accurately pruned in one-shot : E. Frantar, D. Alistarh // arXiv preprint arXiv:2301.00774. —

2023.

16. Sun, M. A simple and effective pruning approach for large language models : M. Sun, Z. Liu, A. Bair, J. Z. Kolter // arXiv preprint arXiv:2306.11695. — 2023.

17. Dai, D. Knowledge neurons in pretrained transformers : D. Dai, L. Dong, Y. Hao, Z. Sui, B. Chang, F. Wei // arXiv preprint arXiv:2104.08696. — 2022.

18. Meng, K. Locating and editing factual associations in GPT : K. Meng, D. Bau, A. Andonian, Y. Belinkov // Proceedings of the 36th International Conference on Neural Information Processing Systems. — New Orleans, LA, USA : Curran Associates Inc., 2022. — (NIPS '22).

19. Li, K. Inference-time intervention: Eliciting truthful answers from a language model: K. Li, O. Patel, F. Viegas, H. Pfister, M. Wattenberg // arXiv preprint arXiv:2306.03341. — 2023.

20. Zou, A. Representation engineering: A top-down approach to ai transparency : A. Zou, L. Phan, S. Chen, J. Campbell, P. Guo, R. Ren, A. Pan, X. Yin, M. Mazeika, A.-K. Dombrowski [h gp.] // arXiv preprint arXiv:2310.01405. — 2023.

21. Gale, T. The state of sparsity in deep neural networks : T. Gale, E. Elsen, S. Hooker // arXiv preprint arXiv:1902.09574. — 2019.

22. Liebenwein, L. Lost in pruning: The effects of pruning neural networks beyond test accuracy : L. Liebenwein, C. Baykal, B. Carter, D. Gifford, D. Rus // Proceedings of Machine Learning and Systems. — 2021. — T. 3. — C. 93—138.

23. Sharma, P. The truth is in there: Improving reasoning in language models with layer-selective rank reduction : P. Sharma, J. T. Ash, D. Misra // arXiv preprint arXiv:2312.13558. — 2023.

24. Wang, Z. Structured pruning of large language models : Z. Wang, J. Wohlwend, T. Lei // arXiv preprint arXiv:1910.04732. — 2020.

25. Yu, T.-Y. Language model compression with weighted low-rank factorization : T.-Y. Yu, Y.-C. Hsu // International Conference on Learning Representations. — 2024.

26. Mitchell, E. Fast model editing at scale : E. Mitchell, C. Lin, A. Bosselut, C. Finn, C. D. Manning // arXiv preprint arXiv:2110.11309. — 2022.

27. Hernandez, E. Inspecting and editing knowledge representations in language models : E. Hernandez, S. Schwettmann, D. Bau, T. Bagashvili, A. Torralba, J. Andreas // arXiv preprint arXiv:2304.00740. — 2023.

28. Vig, J. Analyzing the structure of attention in a transformer language model: J. Vig, Y. Belinkov // Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. — 2019. — C. 63—76.

29. Clark, K. What does bert look at? an analysis of bert's attention : K. Clark, U. Khandelwal, O. Levy, C. D. Manning // arXiv preprint arXiv:1906.04341. — 2019.

30. Wang, A. GLUE: A multi-task benchmark and analysis platform for natural language understanding : A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, S. R. Bowman // Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. — 2018. — C. 353—355.

31. Hendrycks, D. Measuring massive multitask language understanding : D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, J. Steinhardt // arXiv preprint arXiv:2009.03300. — 2021.

32. Elhage, N. A Mathematical Framework for Transformer Circuits : N. Elhage, N. Nanda, C. Olsson, T. Henighan, N. Joseph, B. Mann, A. Askell, Y. Bai, A. Chen, T. Conerly, N. DasSarma, D. Drain, D. Ganguli, Z. Hatfield-Dodds, D. Hernandez, A. Jones, J. Kernion, L. Lovitt, K. Ndousse, D. Amodei, T. Brown, J. Clark, J. Kaplan, S. McCandlish, C. Olah // Transformer Circuits. — 2021. — Available at: https://transformer-circuits.pub/2021/ framework/index.html.

33. Olsson, C. In-context learning and induction heads : C. Olsson, N. Elhage, N. Nanda, N. Joseph, N. DasSarma, T. Henighan, B. Mann, A. Askell, Y. Bai, A. Chen [h flp.j // arXiv preprint arXiv:2209.11895. — 2022.

34. Voita, E. Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned : E. Voita, D. Talbot, F. Moiseev, R. Sennrich, I. Titov. — 2019. — arXiv: 1905.09418 [cs.CL]. — URL: https: //arxiv.org/abs/1905.09418.

35. Michel, P. Are Sixteen Heads Really Better than One? : P. Michel, O. Levy, G. Neubig. — 2019. — arXiv: 1905.10650 [cs.CL]. — URL: https://arxiv. org/abs/1905.10650.

36. Gordon, M. A. Compressing BERT: Studying the effects of weight pruning on transfer learning : M. A. Gordon, K. Duh, N. Andrews // arXiv preprint arXiv:2002.08307. — 2020.

37. Xu, D. Rethinking network pruning—under the pre-train and fine-tune paradigm : D. Xu, I. E. Rundle, Y. Ding, S. Lu, G. Huang // arXiv preprint arXiv:2104.08682. — 2021.

38. Kwon, W. A fast post-training pruning framework for transformers : W. Kwon, S. Kim, M. W. Mahoney, J. Hassoun, K. Keutzer, A. Gholami // Advances in Neural Information Processing Systems. — 2022. — T. 35. — C. 24101—24116.

39. Durrani, N. Analyzing individual neurons in pre-trained language models : N. Durrani, H. Sajjad, F. Dalvi, Y. Belinkov // arXiv preprint arXiv:2010.02695. — 2020.

40. Belinkov, Y. What do Neural Machine Translation Models Learn about Morphology? : Y. Belinkov, N. Durrani, F. Dalvi, H. Sajjad, J. Glass // Association for Computational Linguistics (ACL). — 2017. — С. 861—872.

41. Conneau, A. What you can cram into a single vector: Probing sentence embeddings for linguistic properties : A. Conneau, G. Kruszewski, G. Lample, L. Barrault, M. Baroni // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. — 2018. — С. 2126—2136.

42. Lewis, M. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension : M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, L. Zettlemoyer // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. — 2020. — С. 7871—7880.

43. Jurafsky, D. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition : D. Jurafsky, J. Martin. — Prentice Hall, 0020. — (Prentice Hall series in artificial intelligence). — URL: http : / / books . google . de / books ? id = y0xQAAAAMAAJ.

44. Bengio, Y. A neural probabilistic language model : Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin // Journal of machine learning research. — 2003. — Т. 3, Feb. — С. 1137—1155.

45. Hochreiter, S. Long short-term memory : S. Hochreiter, J. Schmidhuber // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.

46. Pascanu, R. On the difficulty of training recurrent neural networks : R. Pascanu, T. Mikolov, Y. Bengio // International Conference on Machine Learning. — 2013. — С. 1310—1318. — URL: http://www.jmlr.org/ proceedings/papers/v28/pascanu13.pdf.

47. Vaswani, A. Attention Is All You Need : A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin // Advances in Neural Information Processing Systems. — 2017. — Июнь. —

Т. 2017—December. — С. 5999—6009. — URL: https://arxiv.org/abs/1706. 03762v7.

48. Devlin, J. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding : J. Devlin, M. W. Chang, K. Lee, K. Toutanova // NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies -Proceedings of the Conference. — 2018. — Окт. — Т. 1. — С. 4171—4186. — URL: https://arxiv.org/pdf/1810.04805.

49. Geva, M. Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space : M. Geva, A. Caciularu, K. R. Wang, Y. Goldberg. — 2022. — arXiv: 2203.14680 [cs.CL]. — URL: https://arxiv. org/abs/2203.14680.

50. Dai, D. Knowledge Neurons in Pretrained Transformers : D. Dai, L. Dong, Y. Hao, Z. Sui, B. Chang, F. Wei. — 2022. — arXiv: 2104.08696 [cs.CL]. — URL: https://arxiv.org/abs/2104.08696.

51. Hewitt, J. Designing and Interpreting Probes with Control Tasks : J. Hewitt, P. Liang // EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the Conference. — 2019. — Сент. — С. 2733—2743. — URL: https://arxiv.org/abs/1909.03368v1.

52. Vig, J. Analyzing the Structure of Attention in a Transformer Language Model : J. Vig, Y. Belinkov // Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP / под ред. T. Linzen, G. Chrupala, Y. Belinkov, D. Hupkes. — Florence, Italy : Association for Computational Linguistics, 08.2019. — С. 63—76. — URL: https://aclanthology.org/W19-4808/.

53. Vig, J. Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias : J. Vig, S. Gehrmann, Y. Belinkov, S. Qian, D. Nevo, S. Sakenis, J. Huang, Y. Singer, S. Shieber. — 2020. — arXiv: 2004.12265 [cs.CL]. — URL: https://arxiv.org/abs/2004.12265.

54. Elazar, Y. Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals : Y. Elazar, S. Ravfogel, A. Jacovi, Y. Goldberg // Transactions of the Association for Computational Linguistics / под ред.

B. Roark, A. Nenkova. — Cambridge, MA, 2021. — Т. 9. — С. 160—175. — URL: https://aclanthology.org/2021.tacl-1.10/.

55. Belinkov, Y. Probing Classifiers: Promises, Shortcomings, and Advances : Y. Belinkov // Computational Linguistics. — Cambridge, MA, 2022. — Март. — Т. 48, № 1. — С. 207—219. — URL: https://aclanthology.org/2022.cl-

I.7/.

56. Liu, N. F. Linguistic Knowledge and Transferability of Contextual Representations : N. F. Liu, M. Gardner, Y. Belinkov, M. E. Peters, N. A. Smith // CoRR. — 2019. — Т. abs/1903.08855. — arXiv: 1903.08855. — URL: http://arxiv.org/abs/1903.08855.

57. Tenney, I. BERT Rediscovers the Classical NLP Pipeline : I. Tenney, D. Das, E. Pavlick // CoRR. — 2019. — Т. abs/1905.05950. — arXiv: 1905.05950. — URL: http://arxiv.org/abs/1905.05950.

58. Tenney, I. What do you learn from context? Probing for sentence structure in contextualized word representations : I. Tenney, P. Xia, B. Chen, A. Wang, A. Poliak, R. T. McCoy, N. Kim, B. Van Durme, S. R. Bowman, D. Das, E. Pavlick // ICLR 2019: The seventh International Conference on Learning Representations. — 2019. — URL: https : / / openreview . net / forum ? id = SJzSgnRcKX.

59. Voita, E. Information-Theoretic Probing with Minimum Description Length : E. Voita, I. Titov // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) / под ред. B. Webber, T. Cohn, Y. He, Y. Liu. — Online : Association for Computational Linguistics,

II.2020. — С. 183—196. — URL: https://aclanthology.org/2020.emnlp-main.14/.

60. Olah, C. Zoom In: An Introduction to Circuits : C. Olah, N. Cammarata, L. Schubert, G. Goh, M. Petrov, S. Carter // Distill. — 2020. — Available at: https://distill.pub/2020/circuits/zoom-in/.

61. Olsson, C. In-context Learning and Induction Heads : C. Olsson, N. Elhage, N. Nanda, N. Joseph, N. DasSarma, T. Henighan, B. Mann, A. Askell, Y. Bai, A. Chen, T. Conerly, D. Drain, D. Ganguli, Z. Hatfield-Dodds, D. Hernandez, S. Johnston, A. Jones, J. Kernion, L. Lovitt, K. Ndousse,

D. Amodei, T. Brown, J. Clark, J. Kaplan, S. McCandlish, C. Olah. — 2022. — arXiv: 2209.11895 [cs.LG]. — URL: https://arxiv.org/abs/2209.11895.

62. Wang, T. A graph-based interpretability method for deep neural networks : T. Wang, X. Zheng, L. Zhang, Z. Cui, C. Xu // Neurocomputing. — 2023. — T. 555. — C. 126651. —URL: https://www.sciencedirect.com/science/article/ pii/S0925231223007749.

63. Elhage, N. Toy Models of Superposition : N. Elhage, T. Hume, C. Olsson, N. Schiefer, T. Henighan, S. Kravec, Z. Hatfield-Dodds, R. Lasenby, D. Drain, C. Chen, R. Grosse, S. McCandlish, J. Kaplan, D. Amodei, M. Wattenberg, C. Olah. — 2022. — arXiv: 2209.10652 [cs.LG]. — URL: https://arxiv.org/ abs/2209.10652.

64. Ganesh, P. Compressing Large-Scale Transformer-Based Models: A Case Study on BERT : P. Ganesh, Y. Chen, X. Lou, M. A. Khan, Y. Yang, H. Sajjad, P. Nakov, D. Chen, M. Winslett // Transactions of the Association for Computational Linguistics. — 2021. — T. 9. — C. 1061—1080. — URL: http://dx.doi.org/10.1162/tacl_a_00413.

65. Jacob, B. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference : B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam, D. Kalenichenko. — 2017. — arXiv: 1712 . 05877 [cs.LG]. — URL: https://arxiv.org/abs/1712.05877.

66. Bondarenko, Y. Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing : Y. Bondarenko, M. Nagel, T. Blankevoort. — 2023. — arXiv: 2306.12929 [cs.LG]. — URL: https://arxiv.org/abs/2306. 12929.

67. Louizos, C. Learning Sparse Neural Networks through L0 Regularization : C. Louizos, M. Welling, D. P. Kingma. — 2018. — arXiv: 1712 . 01312 [stat.ML]. — URL: https://arxiv.org/abs/1712.01312.

68. Winata, G. I. On the Effectiveness of Low-Rank Matrix Factorization for LSTM Model Compression : G. I. Winata, A. Madotto, J. Shin, E. J. Barezi, P. Fung. — 2019. — arXiv: 1908.09982 [cs.CL]. — URL: https://arxiv.org/ abs/1908.09982.

69. Kirkpatrick, J. Overcoming catastrophic forgetting in neural networks : J. Kirkpatrick, R. Pascanu, N. Rabinowitz, J. Veness, G. Desjardins, A. A. Rusu, K. Milan, J. Quan, T. Ramalho, A. Grabska-Barwinska, D. Hassabis, C. Clopath, D. Kumaran, R. Hadsell // Proceedings of the National Academy of Sciences. — 2017. — Март. — Т. 114, № 13. — С. 3521—3526. — URL: http://dx.doi.org/10.1073/pnas.1611835114.

70. Houlsby, N. Parameter-Efficient Transfer Learning for NLP : N. Houlsby,

A. Giurgiu, S. Jastrzebski, B. Morrone, Q. de Laroussilhe, A. Gesmundo, M. Attariyan, S. Gelly. — 2019. — arXiv: 1902.00751 [cs.LG]. — URL: https://arxiv.org/abs/1902.00751.

71. Lester, B. The Power of Scale for Parameter-Efficient Prompt Tuning :

B. Lester, R. Al-Rfou, N. Constant. — 2021. — arXiv: 2104.08691 [cs.CL]. — URL: https://arxiv.org/abs/2104.08691.

72. Zhang, N. A Comprehensive Study of Knowledge Editing for Large Language Models : N. Zhang, Y. Yao, B. Tian, P. Wang, S. Deng, M. Wang, Z. Xi, S. Mao, J. Zhang, Y. Ni [и др.] // arXiv preprint arXiv:2401.01286. — 2024.

73. Wang, P. Easyedit: An easy-to-use knowledge editing framework for large language models : P. Wang, N. Zhang, X. Xie, Y. Yao, B. Tian, M. Wang, Z. Xi, S. Cheng, K. Liu, G. Zheng [и др.] // arXiv preprint arXiv:2308.07269. — 2023.

74. Turner, A. M. Steering Language Models With Activation Engineering :

A. M. Turner, L. Thiergart, G. Leech, D. Udell, J. J. Vazquez, U. Mini, M. MacDiarmid. — 2024. — arXiv: 2308.10248 [cs.CL]. — URL: https : //arxiv.org/abs/2308.10248.

75. Chomsky, N. Aspects of the Theory of Syntax : N. Chomsky. — Cambridge : The MIT Press, 1965. — URL: http://www.amazon.com/Aspects-Theory-Syntax-Noam-Chomsky/dp/0262530074.

76. Pimentel, T. Phonotactic Complexity and Its Trade-offs : T. Pimentel,

B. Roark, R. Cotterell // Transactions of the Association for Computational Linguistics / под ред. M. Johnson, B. Roark, A. Nenkova. — Cambridge, MA, 2020. — Т. 8. — С. 1—18. — URL: https://aclanthology.org/2020.tacl-1.!/.

77. Ethayarajh, K. How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings : K. Ethayarajh // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) / под ред. K. Inui, J. Jiang, V. Ng, X. Wan. — Hong Kong, China : Association for Computational Linguistics, 11.2019. — С. 55—65. — URL: https://aclanthology.org/D19-1006/.

78. Bouraoui, Z. Inducing relational knowledge from BERT : Z. Bouraoui, J. Camacho-Collados, S. Schockaert // Proceedings of the AAAI Conference on Artificial Intelligence. Т. 34. — 2020. — С. 7456—7463.

79. Hupkes, D. Compositionality decomposed: how do neural networks generalise? : D. Hupkes, V. Dankers, M. Mul, E. Bruni. — 2020. — arXiv: 1908.08351 [cs.CL]. — URL: https://arxiv.org/abs/1908.08351.

80. Roberts, A. How Much Knowledge Can You Pack Into the Parameters of a Language Model? : A. Roberts, C. Raffel, N. Shazeer // Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) / под ред. B. Webber, T. Cohn, Y. He, Y. Liu. — Online : Association for Computational Linguistics, 11.2020. — С. 5418—5426. — URL: https://aclanthology.org/2020.emnlp-main.437/.

81. Bosselut, A. COMET: Commonsense Transformers for Automatic Knowledge Graph Construction : A. Bosselut, H. Rashkin, M. Sap, C. Malaviya, A. Celikyilmaz, Y. Choi // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics / под ред. A. Korhonen, D. Traum, L. Marquez. — Florence, Italy : Association for Computational Linguistics, 07.2019. — С. 4762—4779. — URL: https://aclanthology.org/P19-1470/.

82. Chambers, N. Unsupervised Learning of Narrative Event Chains : N. Chambers, D. Jurafsky // Proceedings of ACL-08: HLT / под ред. J. D. Moore, S. Teufel, J. Allan, S. Furui. — Columbus, Ohio : Association for Computational Linguistics, 06.2008. — С. 789—797. — URL: https : //aclanthology.org/P08-1090/.

83. Liu, N. F. Linguistic Knowledge and Transferability of Contextual Representations : N. F. Liu, M. Gardner, Y. Belinkov, M. E. Peters,

N. A. Smith // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) / под ред. J. Burstein, C. Doran, T. Solorio. — Minneapolis, Minnesota : Association for Computational Linguistics, 06.2019. — С. 1073—1094. — URL: https : //aclanthology.org/N19-1112/.

84. Allen-Zhu, Z. Physics of Language Models: Part 3.1, Knowledge Storage and Extraction : Z. Allen-Zhu, Y. Li. — 2024. — arXiv: 2309.14316 [cs.CL]. — URL: https://arxiv.org/abs/2309.14316.

85. Vig, J. Causal Mediation Analysis for Interpreting Neural NLP: The Case of Gender Bias : J. Vig, S. Gehrmann, Y. Belinkov, S. Qian, D. Nevo, S. Sakenis, J. Huang, Y. Singer, S. Shieber. — 2020. — arXiv: 2004.12265 [cs.CL]. — URL: https://arxiv.org/abs/2004.12265.

86. Geva, M. Dissecting Recall of Factual Associations in Auto-Regressive Language Models : M. Geva, J. Bastings, K. Filippova, A. Globerson. — 2023. — arXiv: 2304.14767 [cs.CL]. — URL: https://arxiv.org/abs/2304. 14767.

87. Touvron, H. LLaMA: Open and Efficient Foundation Language Models : H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Roziere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, G. Lample. — 2023. — Февр. — URL: https://arxiv.org/pdf/2302.13971.

88. Wei, J. Emergent Abilities of Large Language Models : J. Wei, Y. Tay, R. Bommasani, C. Raffel, B. Zoph, S. Borgeaud, D. Yogatama, M. Bosma, D. Zhou, D. Metzler, E. H. Chi, T. Hashimoto, O. Vinyals, P. Liang, J. Dean, W. Fedus. — 2022. — Июнь. — URL: https://arxiv.org/pdf/2206.07682.

89. Narayanan, D. Memory-Efficient Pipeline-Parallel DNN Training : D. Narayanan, A. Phanishayee, K. Shi, X. Chen, M. Zaharia // Proceedings of Machine Learning Research. — 2020. — Июнь. — Т. 139. — С. 7937—7947. — URL: https://arxiv.org/abs/2006.09503v3.

90. Kaplan, J. Scaling Laws for Neural Language Models : J. Kaplan, S. McCandlish, T. H. OpenAI, T. B. B. OpenAI, B. C. OpenAI, R. C. OpenAI, S. G. OpenAI, A. R. OpenAI, J. W. OpenAI, D. A. OpenAI. — 2020. — Янв. — URL: https://arxiv.org/pdf/2001.08361.

91. Ganesh, P. Compressing Large-Scale Transformer-Based Models: A Case Study on BERT : P. Ganesh, Y. Chen, X. Lou, M. A. Khan, Y. Yang, H. Sajjad, P. Nakov, D. Chen, M. Winslett // Transactions of the Association for Computational Linguistics. — 2021. — Сент. — Т. 9. — С. 1061—1080. — URL: https://aclanthology.org/2021.tacl-1.63.

92. Tai, C. Convolutional neural networks with low-rank regularization : C. Tai, T. Xiao, Y. Zhang, X. Wang, E. Weinan // 4th International Conference on Learning Representations, ICLR 2016 - Conference Track Proceedings. — 2015. — Нояб. — URL: https://arxiv.org/abs/1511.06067v3.

93. Michel, P. Are Sixteen Heads Really Better than One? : P. Michel, O. Levy, G. Neubig // Advances in Neural Information Processing Systems. — 2019. — Май. — Т. 32. — URL: https://arxiv.org/abs/1905.10650v3.

94. Wang, Z. Structured Pruning of Large Language Models : Z. Wang, J. Wohlwend, T. Lei // EMNLP 2020 - 2020 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference. — 2019. — Окт. — С. 6151—6162. — URL: http://arxiv.org/abs/1910.04732%20http: //dx.doi.org/10.18653/v1/2020.emnlp-main.496.

95. Kurtic, E. The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language Models : E. Kurtic, D. Campos, T. Nguyen, E. Frantar, M. Kurtz, B. Fineran, M. Goin, D. Alistarh // Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, EMNLP 2022. — 2022. — Март. — С. 4163—4181. — URL: https://arxiv. org/abs/2203.07259v3.

96. Zafrir, O. Prune Once for All: Sparse Pre-Trained Language Models : O. Zafrir, A. Larey, G. Boudoukh, H. Shen, M. Wasserblat. — 2021. — Нояб. — URL: https://arxiv.org/abs/2111.05754v1.

97. Kim, Y. D. Compression of Deep Convolutional Neural Networks for Fast and Low Power Mobile Applications : Y. D. Kim, E. Park, S. Yoo, T. Choi, L. Yang, D. Shin // 4th International Conference on Learning Representations, ICLR 2016 - Conference Track Proceedings. — 2015. — Нояб. — URL: https://arxiv.org/pdf/1511.06530.

98. Hsu, Y. C. Language model compression with weighted low-rank factorization : Y. C. Hsu, T. Hua, S. E. Chang, Q. Lou, Y. Shen, H. Jin // ICLR 2022 - 10th International Conference on Learning Representations. — 2022. — Июнь. — URL: https://arxiv.org/abs/2207.00112v1.

99. Yuan, Z. ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models : Z. Yuan, Y. Shang, Y. Song, Q. Wu, Y. Yan, G. Sun. — 2023. — Дек. — URL: https://arxiv.org/abs/2312.05821v4.

100. Yin, L. Pruning Small Pre-Trained Weights Irreversibly and Monotonically Impairs "Difficult"Downstream Tasks in LLMs : L. Yin, A. Jaiswal, S. Liu, S. Kundu, Z. Wang. — 2023. — Сент. — URL: https://arxiv.org/abs/2310. 02277v2.

101. Chen, T. The Lottery Ticket Hypothesis for Pre-trained BERT Networks : T. Chen, J. Frankle, S. Chang, S. Liu, Y. Zhang, Z. Wang, M. Carbin // Advances in Neural Information Processing Systems. — 2020. — Июль. — Т. 2020—December. — URL: https://arxiv.org/abs/2007.12223v2.

102. Yu, H. Compressing Transformers: Features Are Low-Rank, but Weights Are Not! : H. Yu, J. Wu // AAAI Conference on Artificial Intelligence. — 2023. — Июнь. — Т. 37. — С. 11007—11015.

103. Warstadt, A. Neural Network Acceptability Judgments : A. Warstadt, A. Singh, S. R. Bowman // Transactions of the Association for Computational Linguistics. — 2019. — Т. 7. — С. 625—641. — URL: https://aclanthology. org/Q19-1040.

104. Socher, R. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank : R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, A. Y. Ng, C. Potts. — 2013. — URL: https://aclanthology. org/D13-1170.

105. Lin, S. TruthfulQA: Measuring How Models Mimic Human Falsehoods : S. Lin, J. Hilton, O. Evans // Proceedings of the Annual Meeting of the Association for Computational Linguistics. — 2022. — Т. 1. — С. 3214—3252. — URL: https://aclanthology.org/2022.acl-long.229.

106. Li, K. Inference-Time Intervention: Eliciting Truthful Answers from a Language Model : K. Li, O. Patel, F. Viegas, H. Pfister, M. Wattenberg // Advances in Neural Information Processing Systems. — 2023. — Июнь. — Т. 36. — URL: https://arxiv.org/abs/2306.03341v6.

107. Hendrycks, D. Measuring Massive Multitask Language Understanding : D. Hendrycks, C. Burns, S. Basart, A. Zou, M. Mazeika, D. Song, J. Steinhardt // ICLR 2021 - 9th International Conference on Learning Representations. — 2020. — Сент. — URL: https:/ /arxiv.org/abs/2009. 03300v3.

108. Oseledets, I. V. Tensor-Train Decomposition : I. V. Oseledets // SIAM Journal on Scientific Computing. — 2011. — Т. 33, № 5. — С. 2295—2317. — eprint: https://doi.org/10.1137/090752286. — URL: https://doi.org/10. 1137/090752286.

109. Hinton, G. E. Distilling the Knowledge in a Neural Network : G. E. Hinton, O. Vinyals, J. Dean // CoRR. — 2015. — Т. abs/1503.02531. — arXiv: 1503. 02531. — URL: http://arxiv.org/abs/1503.02531.

110. Sanh, V. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter : V. Sanh, L. Debut, J. Chaumond, T. Wolf // CoRR. — 2019. — Т. abs/1910.01108. — arXiv: 1910.01108. — URL: http://arxiv.org/abs/1910. 01108.

111. Li, H. Pruning Filters for Efficient ConvNets : H. Li, A. Kadav, I. Durdanovic, H. Samet, H. P. Graf // 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. — OpenReview.net, 2017. — URL: https://openreview. net/forum?id=rJqFGTslg.

112. Lan, Z. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations : Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, R. Soricut // 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. — OpenReview.net, 2020. — URL: https://openreview.net/forum?id=H1eA7AEtvS.

113. Hrinchuk, O. Tensorized Embedding Layers : O. Hrinchuk, V. Khrulkov, L. Mirvakhabova, E. Orlova, I. V. Oseledets // Findings of the Association for Computational Linguistics: EMNLP 2020, Online Event, 16-20 November

2020. EMNLP 2020 / под ред. T. Cohn, Y. He, Y. Liu. — Association for Computational Linguistics, 2020. — С. 4847—4860. — (Findings of ACL). — URL: https://doi.org/10.18653/v1/2020.findings-emnlp.436.

114. Liu, M. An Efficient Real-Time Object Detection Framework on Resource-Constricted Hardware Devices via Software and Hardware Co-design : M. Liu, S. Luo, K. Han, B. Yuan, R. F. DeMara, Y. Bai. — 2024. — arXiv: 2408.01534 [cs.LG]. — URL: https://arxiv.org/abs/2408.01534.

115. Pham Minh, H. TT-ViT: Vision Transformer Compression Using TensorTrain Decomposition : H. Pham Minh, N. Nguyen Xuan, S. Tran Thai // Computational Collective Intelligence: 14th International Conference, ICCCI 2022, Hammamet, Tunisia, September 28-30, 2022, Proceedings. — Hammamet, Tunisia : Springer-Verlag, 2022. — С. 755—767. — URL: https: //doi.org/10.1007/978-3-031-16014-1_59.

116. Sharma, P. The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction : P. Sharma, J. T. Ash, D. Misra // 12th International Conference on Learning Representations, ICLR 2024. — 2023. — Дек. — URL: https://arxiv.org/abs/2312.13558v1.

117. Wang, A. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding : A. Wang, A. Singh, J. Michael, F. Hill, O. Levy, S. R. Bowman. — 2019. — arXiv: 1804.07461 [cs.CL]. —URL: https://arxiv. org/abs/1804.07461.

118. Logacheva, V. ParaDetox: Detoxification with Parallel Data : V. Logacheva, D. Dementieva, S. Ustyantsev, D. Moskovskiy, D. Dale, I. Krotova, N. Semenov, A. Panchenko // Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) / под ред. S. Muresan, P. Nakov, A. Villavicencio. — Dublin, Ireland : Association for Computational Linguistics, 05.2022. — С. 6804—6818. — URL: https://aclanthology.org/2022.acl-long.469.

119. Narayan, S. Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization : S. Narayan, S. B. Cohen, M. Lapata // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. — Brussels, Belgium, 2018.

120. Hua, T. Numerical Optimizations for Weighted Low-rank Estimation on Language Model : T. Hua, Y.-C. Hsu, F. Wang, Q. Lou, Y. Shen, H. Jin. — 2022. — arXiv: 2211.09718 [cs.CL]. — URL: https://arxiv.org/abs/2211. 09718.

121. Sanh, V. Movement Pruning: Adaptive Sparsity by Fine-Tuning : V. Sanh, T. Wolf, A. M. Rush. — 2020. — arXiv: 2005.07683 [cs.CL].

122. Lewis, M. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension : M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, L. Zettlemoyer // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics / под ред. D. Jurafsky, J. Chai, N. Schluter, J. Tetreault. — Online : Association for Computational Linguistics, 07.2020. —

C. 7871—7880. — URL: https://aclanthology.org/2020.acl-main.703.

123. Touvron, H. LLaMA: Open and Efficient Foundation Language Models : H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. Lachaux, T. Lacroix,

B. Roziere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, G. Lample // CoRR. — 2023. — Т. abs/2302.13971. — arXiv: 2302.13971. — URL: https://doi.org/10.48550/arXiv.2302.13971.

124. Jiang, A. Q. Mistral 7B : A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford,

D. S. Chaplot, D. de las Casas, F. Bressand, G. Lengyel, G. Lample, L. Saulnier, L. R. Lavaud, M.-A. Lachaux, P. Stock, T. L. Scao, T. Lavril, T. Wang, T. Lacroix, W. E. Sayed. — 2023. — arXiv: 2310.06825 [cs.CL].

125. Arditi, A. Refusal in Language Models Is Mediated by a Single Direction : A. Arditi, O. Obeso, A. Syed, D. Paleka, N. Panickssery, W. Gurnee, N. Nanda // Advances in Neural Information Processing Systems. Т. 37 / под ред. A. Globerson, L. Mackey, D. Belgrave, A. Fan, U. Paquet, J. Tomczak, C. Zhang. — Curran Associates, Inc., 2024. —

C. 136037—136083. — URL: https://proceedings.neurips.cc/paper_files/ paper/2024/file/f545448535dfde4f9786555403ab7c49-Paper-Conference.pdf.

126. Lee, K. Neural Data Augmentation via Example Extrapolation : K. Lee, K. Guu, L. He, T. Dozat, H. W. Chung // CoRR. — 2021. — Т. abs/2102.01335. — arXiv: 2102.01335. — URL: https://arxiv.org/ abs/2102.01335.

127. Ding, B. Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges : B. Ding, C. Qin, R. Zhao, T. Luo, X. Li, G. Chen, W. Xia, J. Hu, A. T. Luu, S. Joty // CoRR. — 2024. — Т. abs/2403.02990. — arXiv: 2403.02990. — URL: https://doi.org/10.48550/arXiv.2403.02990.

128. Meng, Y. Generating Training Data with Language Models: Towards Zero-Shot Language Understanding : Y. Meng, J. Huang, Y. Zhang, J. Han // Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022 / под ред. S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, A. Oh. — 2022. — URL: http://papers.nips. cc/paper%5C_files/paper/2022/hash/0346c148ba1c21c6b4780a961ea141dc-Abstract-Conference.html.

129. Schick, T. Generating Datasets with Pretrained Language Models : T. Schick, H. Schütze // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, EMNLP 2021, Virtual Event / Punta Cana, Dominican Republic, 7-11 November, 2021 / под ред. M. Moens, X. Huang, L. Specia, S. W. Yih. — Association for Computational Linguistics, 2021. — С. 6943—6951. — URL: https://doi.org/10.18653/v1/2021.emnlp-main.555.

130. Ye, J. ZeroGen: Efficient Zero-shot Learning via Dataset Generation : J. Ye, J. Gao, Q. Li, H. Xu, J. Feng, Z. Wu, T. Yu, L. Kong // Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, EMNLP 2022, Abu Dhabi, United Arab Emirates, December 7-11, 2022 / под ред. Y. Goldberg, Z. Kozareva, Y. Zhang. — Association for Computational Linguistics, 2022. — С. 11653—11669. — URL: https://doi.org/10.18653/v1/2022.emnlp-main.801.

131. Rubin, O. Learning To Retrieve Prompts for In-Context Learning : O. Rubin, J. Herzig, J. Berant // Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL 2022, Seattle, WA, United States, July 10-15, 2022 / под ред. M. Carpuat, M. de Marneffe, I. V. M. Ruiz. — Association for Computational Linguistics, 2022. — С. 2655—2671. — URL: https://doi. org/10.18653/v1/2022.naacl-main.191.

132. Sun, X. Text Classification via Large Language Models : X. Sun, X. Li, J. Li, F. Wu, S. Guo, T. Zhang, G. Wang // Findings of the Association for

Computational Linguistics: EMNLP 2023, Singapore, December 6-10, 2023 / под ред. H. Bouamor, J. Pino, K. Bali. — Association for Computational Linguistics, 2023. — С. 8990—9005. — URL: https://doi.org/10.18653/v1/ 2023.findings-emnlp.603.

133. Zhang, R. LLMaAA: Making Large Language Models as Active Annotators : R. Zhang, Y. Li, Y. Ma, M. Zhou, L. Zou // Findings of the Association for Computational Linguistics: EMNLP 2023, Singapore, December 6-10, 2023 / под ред. H. Bouamor, J. Pino, K. Bali. — Association for Computational Linguistics, 2023. — С. 13088—13103. — URL: https://doi.org/10.18653/v1/ 2023.findings-emnlp.872.

134. Su, H. Selective Annotation Makes Language Models Better Few-Shot Learners : H. Su, J. Kasai, C. H. Wu, W. Shi, T. Wang, J. Xin, R. Zhang, M. Ostendorf, L. Zettlemoyer, N. A. Smith, T. Yu // The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023. — OpenReview.net, 2023. — URL: https : / / openreview.net/pdf?id=qY1hlv7gwg.

135. Li, Y. A Practical Survey on Zero-Shot Prompt Design for In-Context Learning : Y. Li // Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, RANLP 2023, Varna, Bulgaria, 4-6 September 2023 / под ред. R. Mitkov, G. Angelova. — INCOMA Ltd., Shoumen, Bulgaria, 2023. — С. 641—647. — URL: https://aclanthology. org/2023.ranlp-1.69.

136. Cegin, J. ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness : J. Cegin, J. Simko, P. Brusilovsky // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, Singapore, December 6-10, 2023 / под ред. H. Bouamor, J. Pino, K. Bali. — Association for Computational Linguistics, 2023. — С. 1889—1905. — URL: https://doi.org/10.18653/v1/2023.emnlp-main.117.

137. Li, J. Delete, Retrieve, Generate: a Simple Approach to Sentiment and Style Transfer : J. Li, R. Jia, H. He, P. Liang // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2018, New Orleans, Louisiana, USA, June 1-6, 2018, Volume 1 (Long Papers) /

под ред. M. A. Walker, H. Ji, A. Stent. — Association for Computational Linguistics, 2018. — С. 1865—1874. — URL: https://doi.org/10.18653/v1/ n18-1169.

138. Shen, T. Style Transfer from Non-Parallel Text by Cross-Alignment : T. Shen, T. Lei, R. Barzilay, T. S. Jaakkola // Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA / под ред. I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, R. Garnett. — 2017. — С. 6830—6841. — URL: https://proceedings.neurips.cc/paper/2017/hash/ 2d2c8394e31101a261abf1784302bf75-Abstract.html.

139. John, V. Disentangled Representation Learning for Non-Parallel Text Style Transfer : V. John, L. Mou, H. Bahuleyan, O. Vechtomova // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. — Florence, Italy : Association for Computational Linguistics, 07.2019. —

C. 424—434. — URL: https://aclanthology.org/P19-1041.

140. Dale, D. Text Detoxification using Large Pre-trained Neural Models :

D. Dale, A. Voronov, D. Dementieva, V. Logacheva, O. Kozlova, N. Semenov, A. Panchenko // CoRR. — 2021. — Т. abs/2109.08914. — arXiv: 2109. 08914. — URL: https://arxiv.org/abs/2109.08914.

141. Huang, F. NAST: A Non-Autoregressive Generator with Word Alignment for Unsupervised Text Style Transfer : F. Huang, Z. Chen, C. H. Wu, Q. Guo, X. Zhu, M. Huang // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics: Findings. — 2021.

142. Luo, F. A Dual Reinforcement Learning Framework for Unsupervised Text Style Transfer : F. Luo, P. Li, J. Zhou, P. Yang, B. Chang, Z. Sui, X. Sun // Proceedings of the 28th International Joint Conference on Artificial Intelligence, IJCAI 2019. — 2019.

143. Moskovskiy, D. LLMs to Replace Crowdsourcing For Parallel Data Creation? The Case of Text Detoxification : D. Moskovskiy, S. Pletenev, A. Panchenko // Findings of the Association for Computational Linguistics: EMNLP 2024 / под ред. Y. Al-Onaizan, M. Bansal, Y.-N. Chen. — Miami,

Florida, USA : Association for Computational Linguistics, 11.2024. —

C. 14361—14373. — URL: https://aclanthology.org/2024.findings-emnlp.839.

144. Ko, C.-Y. Large Language Models can be Strong Self-Detoxifiers : C.-Y. Ko, P.-Y. Chen, P. Das, Y. Mroueh, S. Dan, G. Kollias, S. Chaudhury, T. Pedapati, L. Daniel. — 2024. — arXiv: 2410.03818 [cs.LG]. — URL: https://arxiv.org/abs/2410.03818.

145. Liao, Z. AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs : Z. Liao, H. Sun. — 2024. — arXiv: 2404.07921 [cs.CL].

146. Zou, A. Universal and Transferable Adversarial Attacks on Aligned Language Models : A. Zou, Z. Wang, J. Z. Kolter, M. Fredrikson // CoRR. — 2023. — Т. abs/2307.15043. — arXiv: 2307.15043. — URL: https://doi.org/10.48550/ arXiv.2307.15043.

147. Gurnee, W. Finding Neurons in a Haystack: Case Studies with Sparse Probing : W. Gurnee, N. Nanda, M. Pauly, K. Harvey, D. Troitskii,

D. Bertsimas. — 2023. — arXiv: 2305.01610 [cs.LG].

148. Sajjad, H. Neuron-level Interpretation of Deep NLP Models: A Survey : H. Sajjad, N. Durrani, F. Dalvi. — 2022. — arXiv: 2108.13138 [cs.CL].

149. Wei, B. Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications : B. Wei, K. Huang, Y. Huang, T. Xie, X. Qi, M. Xia, P. Mittal, M. Wang, P. Henderson // ICLR 2024 Workshop on Reliable and Responsible Foundation Models. — 2024. — URL: https://openreview.net/ forum?id=XMLQ2e0Axb.

150. Siegelmann, R. MICo: Preventative Detoxification of Large Language Models through Inhibition Control : R. Siegelmann, N. Mehrabi, P. Goyal, P. Goyal, L. Bauer, J. Dhamala, A. Galstyan, R. Gupta, R. Ghanadan // Findings of the Association for Computational Linguistics: NAACL 2024 / под ред. K. Duh, H. Gomez, S. Bethard. — Mexico City, Mexico : Association for Computational Linguistics, 06.2024. — С. 1696—1703. — URL: https : / / aclanthology.org/2024.findings-naacl.110/.

151. Wang, M. Detoxifying Large Language Models via Knowledge Editing : M. Wang, N. Zhang, Z. Xu, Z. Xi, S. Deng, Y. Yao, Q. Zhang, L. Yang, J. Wang, H. Chen. — 2024. — arXiv: 2403.14472 [cs.CL]. — URL: https: //arxiv.org/abs/2403.14472.

152. AI@Meta. Llama 3 Model Card : AI@Meta. — 2024. — URL: https://github. com/meta-llama/llama3/blob/main/MODEL_CARD.md.

153. Socher, R. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank : R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, A. Y. Ng, C. Potts // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, EMNLP 2013, 18-21 October 2013, Grand Hyatt Seattle, Seattle, Washington, USA, A meeting of SIGDAT, a Special Interest Group of the ACL. — ACL, 2013. —

C. 1631—1642. — URL: https://aclanthology.org/D13-1170/.

154. Lewis, M. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension : M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, L. Zettlemoyer // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, Online, July 5-10, 2020 / под ред.

D. Jurafsky, J. Chai, N. Schluter, J. R. Tetreault. — Association for Computational Linguistics, 2020. — С. 7871—7880. — URL: https://doi.org/ 10.18653/v1/2020.acl-main.703.

155. Dubey, A. The Llama 3 Herd of Models : A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, A. Goyal, A. Hartshorn, A. Yang, A. Mitra, A. Sravankumar, A. Korenev, A. Hinsvark, A. Rao, A. Zhang, A. Rodriguez, A. Gregerson, A. Spataru, B. Roziere, B. Biron, B. Tang, B. Chern, C. Caucheteux, C. Nayak, C. Bi, C. Marra, C. McConnell, C. Keller, C. Touret, C. Wu,

C. Wong, C. C. Ferrer, C. Nikolaidis, D. Allonsius, D. Song, D. Pintz,

D. Livshits, D. Esiobu, D. Choudhary, D. Mahajan, D. Garcia-Olano,

D. Perino, D. Hupkes, E. Lakomkin, E. AlBadawy, E. Lobanova, E. Dinan,

E. M. Smith, F. Radenovic, F. Zhang, G. Synnaeve, G. Lee, G. L. Anderson,

G. Nail, G. Mialon, G. Pang, G. Cucurell, H. Nguyen, H. Korevaar, H. Xu,

H. Touvron, I. Zarov, I. A. Ibarra, I. M. Kloumann, I. Misra, I. Evtimov, J. Copet, J. Lee, J. Geffert, J. Vranes, J. Park, J. Mahadeokar, J. Shah,

J. van der Linde, J. Billock, J. Hong, J. Lee, J. Fu, J. Chi, J. Huang, J. Liu, J. Wang, J. Yu, J. Bitton, J. Spisak, J. Park, J. Rocca, J. Johnstun, J. Saxe, J. Jia, K. V. Alwala, K. Upasani, K. Plawiak, K. Li, K. Heafield, K. Stone, et al. // CoRR. — 2024. — T. abs/2407.21783. — arXiv: 2407.21783. — URL: https://doi.org/10.48550/arXiv.2407.21783.

156. Khondaker, M. T. I. GreenLLaMA: A Framework for Detoxification with Explanations : M. T. I. Khondaker, M. Abdul-Mageed, L. V. S. Lakshmanan // CoRR. — 2024. — T. abs/2402.15951. — arXiv: 2402.15951. — URL: https: //doi.org/10.48550/arXiv.2402.15951.

Список рисунков

3.1 Паттерны деградации для лингвистических (CoLA) против фактических знаний (MMLU) при различных методах сжатия .... 42

3.2 Линейные графики для каждого из слоев Llama 2 7b. В качестве метода сжатия используется SVD..................... 45

3.3 Линейные графики для каждого из слоев Llama 2 7b. В качестве метода сжатия используется FWSVD................... 45

3.4 Линейные графики для каждого из слоев Llama 2 7b. В качестве метода сжатия используется ASVD.................... 46

3.5 Линейные графики для каждого из слоев Llama 3.1 8b. В качестве метода сжатия используется SVD..................... 46

3.6 Линейные графики для каждого из слоев Llama 3.1 8b. В качестве метода сжатия используется FWSVD................... 46

3.7 Линейные графики для каждого из слоев Llama 3.1 8b. В качестве метода сжатия используется ASVD.................... 47

5.1 Попарная оценка BART, обученной на ParaDetox против PseudoParaDetox (сгенерированного пропатченными через активации LLM) на отложенном тестовом наборе. Победы для

PseudoParaDetox, ничьи и ParaDetox выделены бирюзовым,

бежевым и серым соответственно..................... 95

5.2 Попарная оценка BART, обученной на ParaDetox против

результатов, сгенерированных LLM, на отложенном тестовом

наборе. Победы LLM-сгенерированных, ничьи и ParaDetox

выделены бирюзовым, бежевым и серым соответственно........ 96

Список таблиц

1 Примеры из валидационных наборов данных, используемых для зондирования различных типов знаний................. 38

2 Сохранение типов знаний при сжатии. Обратите внимание на неравномерные паттерны деградации, которые предоставляют доказательства модульной организации.................. 42

3 Различие в финальном качестве в зависимости от слоя. В качестве примера взяты последние 5 слоев модели BERT............ 43

4 Изменение качества моделей-декодировщиков. Указаны только 4 верхних слоя................................. 44

5 Количество параметров для различных модулей в различных архитектурах трансформеров. Цифры указаны в миллионах параметров.................................. 55

6 Связь между рангом и степенью сжатия. Количество параметров указано в миллионах параметров..................... 64

7 Результаты различных типов выбора модулей BERT для сжатия в схеме "Дообучение ^ Сжатие". Все сжатые модели имеют

примерно 91 млн параметров....................... 66

8 Результаты различных типов выбора модулей BERT для сжатия в схеме "Дообучение ^ Сжатие ^ Дообучение". Все сжатые модели имеют примерно 91 млн параметров................... 67

9 Результаты различных типов уменьшения размерности BERT с дообучением для задачи в схеме "Дообучение ^ Сжатие". Лучшие результаты для каждого типа выделены жирным, лучшее

качество среди всех методов выделены нижним подчеркиванием. . . 67

10 Результаты различных типов уменьшения размерности BERT с дообучением для задачи в схеме "Дообучение ^ Сжатие ^ Дообучение"................................. 68

11 Результаты различных типов сжатия BART для экспериментов по суммированию (XSUM(. Наилучшие результаты для каждого размера модели выделены жирным шрифтом, наилучшие общие результаты — подчеркнуты........................ 72

12 Результаты различных типов сжатия BART для экспериментов по детоксикации. Наилучшие результаты для каждого размера модели выделены жирным шрифтом, наилучшие общие результаты — подчеркнуты. Результаты, выделенные курсивом, представляют

собой галлюцинации модели........................ 73

13 Примеры синтетических данных, сгенерированных с помощью Llama 3 70B. Непристойные слова зацензурированы. Каждая «синтетическая» пара сгенерирована на основе «реального» контрпримера................................ 81

14 Примеры того, как модель отказывается генерировать текст из-за внутренних систем защиты от токсичного и неэтичного поведения. . 85

15 Примеры предсказаний BART, дообученного на различных типах данных, на тестовой выборке ParaDetox. Непристойные слова зацензурированы. Столбцы Токс. и Нейтр. указывают на природу данных: реальные (написанные человеком) или синтетические (сгенерированные LLM).......................... 88

16 Результаты автоматической оценки детоксикации для BART,

дообученного на различных датасетах. Лучшие значения выделены жирным. BART, дообученный на оригинальных данных ParaDetox, выделен серым. Столбцы Токс. (Токсичная часть) и Нейтр. (Нейтральная часть) указывают на природу данных: реальные (написанные человеком) или синтетические

(сгенерированные LLM).......................... 89

17 Уровни отказов для Llama 3 70B в задачах детоксификации текста. . 93

18 Автоматическая оценка BART, обученной на ParaDetox и PseudoParaDetox (0-shot и 10-shot конфигурации) на тестовом

наборе ParaDetox.............................. 94

19 Ручная оценка BART, обученной на ParaDetox и PseudoParaDetox (0-shot и 10-shot конфигурации) на тестовом наборе ParaDetox. ... 94

20 Автоматическая оценка показателей Joint для предложенных методов и базовых методов на множественных языках. (A.) обозначает модель с патчингом активаций; (F.) обозначает финальную версию. Лучшие показатели для каждого языка выделены жирным............................. 97

21 Ручная оценка показателей Joint для предложенных методов и базовых методов на множественных языках. Лучшие показатели

для каждого языка выделены жирным................. 97

22 Количество токсичных слов в обучающих и тестовых данных из оригинальных и синтетических наборов данных. Столбцы указывают, являются ли токсичные и нейтральные части реальными (написанными человеком) или синтетическими (сгенерированными LLM)......................... 98

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.