Типовые финансовые модели в оценке несостоятельности организаций тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Молдобаев Темирлан Шайырбекович

  • Молдобаев Темирлан Шайырбекович
  • кандидат науккандидат наук
  • 2025, ФГБОУ ВО «Санкт-Петербургский государственный университет»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 190
Молдобаев Темирлан Шайырбекович. Типовые финансовые модели в оценке несостоятельности организаций: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГБОУ ВО «Санкт-Петербургский государственный университет». 2025. 190 с.

Оглавление диссертации кандидат наук Молдобаев Темирлан Шайырбекович

ВВЕДЕНИЕ

ГЛАВА 1. ПРЕДПОСЫЛКИ ИСПОЛЬЗОВАНИЯ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ ОЦЕНКИ ФИНАНСОВОЙ НЕСОСТОЯТЕЛЬНОСТИ

1.1 Модели прогнозирования банкротства как инструменты в оценке финансовой несостоятельности организаций в исторической ретроспективе

1.2 Особенности современных подходов к оценке финансовой несостоятельности организаций

1.3 Тестирование зарубежных и отечественных моделей прогнозирования банкротства

Выводы по главе

ГЛАВА 2. МЕТОДОЛОГИЧЕСКИЕ ОСНОВЫ ИСПОЛЬЗОВАНИЯ АЛГОРИТМОВ КЛАСТЕРИЗАЦИИ ПРИ ФОРМИРОВАНИИ ТИПОВЫХ ФИНАНСОВЫХ МОДЕЛЕЙ В РАЗРЕЗЕ ЭКОНОМИЧЕСКИХ ОТРАСЛЕЙ

2.1 Формирование консолидированной базы данных для построения типовых финансовых моделей

2.2 Отраслевая специфика в оценке финансовой несостоятельности организаций

2.3 Обоснование выбора метода кластеризации, как элемента машинного обучения, для разработки типовых финансовых моделей

ГЛАВА 3. РАЗРАБОТКА ТИПОВЫХ ФИНАНСОВЫХ МОДЕЛЕЙ И ИХ ПРИМЕНЕНИЕ В ЦЕЛЯХ ОЦЕНКИ ФИНАНСОВОЙ НЕСОСТОЯТЕЛЬНОСТИ И ЗА ЕЕ ПРЕДЕЛАМИ

3.1 Формирование типовых финансовых моделей на основе использования алгоритмов кластеризации

3.2 Применение типовых финансовых моделей в целях оценки финансовой несостоятельности организаций

3.3. Прочие направления использования типовых финансовых моделей за пределами оценки финансовой несостоятельности

Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Типовые финансовые модели в оценке несостоятельности организаций»

ВВЕДЕНИЕ

Актуальность темы исследования. Проблематика финансовой несостоятельности является предметом интереса для научного сообщества, что подтверждается стремительным ростом количества отечественных и зарубежных исследований, посвященных данной теме. В частности, число русскоязычных статей в специализированных журналах по вопросам финансовой несостоятельности возросло на 131,2% за 2010-2014 гг. в сравнении с 2005-2009 гг. (рост с 1525 до 3526). В свою очередь, количество публикаций за 2015-2019 гг. превышает 2010-2014 гг. на 129,8% (8101 против 3526 соответственно), а также на 16,1% в 2020-2024 гг. в сравнении с предыдущим пятилетним интервалом (9405 против 8101 соответственно). При этом начиная с 2015 г. наблюдается стремительный рост отечественных научных статей, посвященных разработке новых и обзору существующих инструментов оценки финансовой несостоятельности. Так, за 2005-2024 гг., общее количество таких публикаций составило 1288, из них более 75% приходятся на период 2015-2024 гг.1 В зарубежной научной практике наблюдается иной тренд: за 2005-2024 гг. опубликовано в общей сложности 537400 работ с равномерным распределением по годам, включая 75400 исследований, посвященных инструментам оценки финансовой несостоятельности2. Приведенная выше статистика свидетельствует о стабильно высоком уровне интереса зарубежного научного сообщества к проблематике финансовой несостоятельности на протяжении всех рассматриваемых временных интервалов, для отечественного научного сообщества характерен стремительный рост актуальности темы начиная с 2015 г.

Оценка финансовой несостоятельности также находится в фокусе внимания профессионального сообщества, включая руководство организаций,

1 Рассчитано автором по данным научной электронной библиотеки eLibrary.ru. URL: https://www.elibrary.ru/

2 Рассчитано автором по данным поисковой системы по научным публикациям Google Scholar. URL: https://scholar. google. ru/

сталкивающееся с риском взаимодействия с партнерами, которые испытывают финансовые трудности. Сотрудничество с последними может привести к следующим негативным последствиям: приостановке производственных процессов в результате срыва сроков поставки сырья и материалов; увеличению затрат на логистику и хранение; росту издержек на поиск альтернативных поставщиков; невозврату авансов. Для преодоления перечисленных сложностей организациям важно придерживаться превентивной стратегии во взаимодействии как с текущими, так и с потенциальными контрагентами путем мониторинга их деятельности на предмет выявления признаков финансовой несостоятельности. В случае несвоевременного реагирования на ухудшение финансового состояния контрагента потери организации могут существенно возрасти, так как они включают, помимо основной суммы возмещения по обязательствам до момента возбуждения дела о банкротстве, дополнительные издержки, связанные с привлечением профильных специалистов для представления интересов организации в арбитражном процессе, и альтернативные доходы, которые организация упускает в результате «замораживания» ликвидных активов.

Одними из наиболее популярных инструментов оценки финансовой несостоятельности, представленных в современных отечественных и классических зарубежных научных работах, являются модели прогнозирования банкротства (далее - МПБ). МПБ представляют собой класс моделей, разработанных с применением алгоритмов классификации, в основе которых лежит использование заранее размеченных данных по заданному признаку для обучения модели (в случае с финансовой несостоятельностью этим признаком является возбуждение дела о банкротстве). Благодаря стремительному развитию технологий машинного обучения и доступности больших объемов финансовых данных об организациях, в настоящее время в отечественной экономической науке наблюдается тренд, связанный с разработкой авторских МПБ.

Несмотря на наличие множества МПБ, представленных в отечественных и зарубежных научных публикациях, не все из них сохранили высокую прогнозную точность в текущих реалиях. Для выявления моделей, сохранивших высокую предиктивную способность, применяются метрики качества, позволяющие оценить точность прогноза с использованием специально подготовленных размеченных данных, которые ранее не использовались авторами этих моделей. В настоящем исследовании рассмотрены отдельные отечественные и зарубежные МПБ, для которых рассчитана метрика качества, оценивающая способность моделей корректно выявлять финансово несостоятельные организации. Полученные результаты тестирования качества МПБ с использованием показателей бухгалтерской отчетности финансово несостоятельных организаций подтвердили ряд изложенных в существующих научных трудах положений о краткосрочном характере применения данных моделей, а также о низком уровне предиктивной способности отдельных отечественных МПБ.

Особенности коэффициентного анализа (как метода анализа бухгалтерской отчетности), допускающие вариативность расчета предикторов тестируемых МПБ; использование ограниченных наборов ключевых предикторов, не охватывающих все показатели финансовой отчетности; обучение моделей на ограниченной несбалансированной выборке; высокий уровень колебания значений финансовых показателей организаций в разрезе видов экономической деятельности (далее - ВЭД) за разные периоды - это приоритетные проблемы исследования, оказывающие негативное влияние на предиктивную способность существующих моделей оценки финансовой несостоятельности.

Несмотря на высокую значимость и широкое применение коэффициентного анализа, основанного на использовании показателей бухгалтерской отчетности в качестве информационного базиса, данный метод имеет ряд недостатков, связанных с вариативностью расчета финансовых коэффициентов, что затрудняет сопоставление значений одного и того же

показателя для разных организаций, а также приводит к тому, что на практике разные финансовые аналитики, используя ранее разработанные МПБ, могут рассчитать один и тот же предиктор модели по-разному и, как следствие, получить отличные друг от друга итоговые прогнозы.

Проанализировав зарубежные и отечественные МПБ, можно заметить, что авторы моделей используют ограниченный набор финансовых показателей, отбор которых осуществляется одним из следующих методов или их комбинацией: формирование полного перечня финансовых коэффициентов и проведение статистических тестов для отбора наиболее значимых факторов; использование экспертного метода, основанного на профессиональном суждении исследователей, для определения существенных показателей. Оба подхода приводят к тому, что МПБ включают ограниченный набор предикторов, не учитывающий все показатели финансовой отчетности, которые, в свою очередь, потенциально могут сигнализировать о риске наступления финансовой несостоятельности организации. Также важно отметить различие в составе факторов между рассматриваемыми в настоящем исследовании МПБ, что свидетельствует о разногласии в понимании того, какие аспекты (критерии) финансового состояния можно использовать в качестве ключевых индикаторов, оценивающих финансовую несостоятельность: ликвидность и платежеспособность; финансовая устойчивость; деловая активность; рентабельность.

Кроме того, одной из особенностей отечественных МПБ является их обучение на ограниченной выборке организаций, сформированной с использованием справочно-аналитических систем (далее - САС), в которых консолидируются данные из различных открытых источников. При этом количество экспортируемых записей из САС, определяемое условиями пользовательского соглашения, в большинстве случаев существенно ниже совокупного количества записей в первоисточниках, интегрированных с САС.

Использование ограниченной выборки приводит к тому, что модель не учитывает все основные закономерности и связи в данных, что снижает её

способность эффективно применять свои выводы и предсказания к новым, ранее не наблюдавшимся данным. Для преодоления этого ограничения в настоящем исследовании предлагается использовать генеральную совокупность, сформированную из первоисточников - открытых государственных данных, обрабатываемых с применением специальных программных инструментов.

Средние значения финансовых коэффициентов, используемых в качестве предикторов МПБ, значительно варьируются между ВЭД из-за различий в бизнес-моделях, капиталоемкости и операционных циклах. Это приводит к тому, что модель, разработанная для одного ВЭД, может быть неприменима или менее точна для другого ВЭД. Кроме того, временные ряды финансовых показателей обладают разным уровнем стационарности в зависимости от ВЭД. Для отдельных ВЭД с высокоцикличными или сезонными бизнес-моделями свойственны значительные колебания финансовых коэффициентов, что затрудняет построение надежных МПБ. Учитывая перечисленные особенности использования финансовых коэффициентов в качестве предикторов отраслевых МПБ, стоит отметить, что, с одной стороны, для повышения точности прогнозирования финансовой несостоятельности модели должны быть адаптированы к конкретным ВЭД, с другой стороны, не для всех ВЭД возможно создание устойчивых и точных моделей, так как статистические свойства показателей, входящих в состав независимых переменных МПБ, могут изменяться со временем.

Для преодоления описанных выше проблем в настоящем исследовании предлагается в разрезе ВЭД выделить кластеры с использованием массива данных финансовой отчетности более 2 миллионов российских организаций, включая финансово несостоятельные организации. Каждый кластер представляет собой группу фирм, схожих по структуре активов и пассивов, а также характеризуется прототипом - центроидом, для которого определены координаты в виде средних удельных значений разделов отчета о финансовом положении (бухгалтерского баланса).

Далее отдельно взятый центроид кластера будем называть типовой (усредненной) финансовой моделью. Использование данного термина обусловлено следующими причинами: центроид характеризует средние или типичные значения для кластера, что облегчает понимание и описание основных признаков группы; при этом координаты центроида представлены в виде усредненных удельных значений разделов отчета о финансовом положении. В свою очередь, последний отчет является совершенной финансовой моделью организации, поскольку он предоставляет структурированное и систематизированное представление о ее финансовом состоянии, связан с другими формами бухгалтерской отчетности через отдельные показатели и служит основой для финансового анализа.

Для каждого ВЭД можно выделить несколько типовых финансовых моделей, поскольку в результате кластеризации организаций формируются группы объектов со схожими финансовыми признаками, для которых устанавливаются соответствующие центроиды.

Распределение финансово несостоятельных организаций по кластерам позволит выявить типовую финансовую модель, характерную для финансово несостоятельных организаций, или подтвердить ее отсутствие в рамках конкретного ВЭД.

Выявленные в настоящем исследовании типовые финансовый модели несостоятельных организаций предлагается использовать в качестве моделей оценки финансовой несостоятельности.

Таким образом, работа с усредненным бухгалтерским балансом как с типовой финансовой моделью позволяет выйти за рамки возможностей коэффициентного анализа, который предполагает работу с отдельными элементами финансовой отчетности, тем самым лишая возможности комплексного взгляда на финансовое положение организации. В частности, задача оценки финансовой несостоятельности конкретной организации сводится к определению степени соответствия ее бухгалтерского баланса типовой финансовой модели финансово несостоятельных организаций с

учетом ВЭД, без предварительного выделения ограниченного набора критериев в виде финансовых коэффициентов.

Степень разработанности темы исследования. В отечественных и зарубежных исследованиях рассматриваются основные теоретические и практические аспекты оценки финансовой несостоятельности организации с применением экономико-математических методов.

В научных трудах зарубежных исследователей У. Бивера, Э. Альтмана, Р. Таффлера, Г. Тишоу, Р. Лиса, Г. Спрингейт, Дж. Олсон, М. Одома, Р.Шадра, Л. Салхенбергера, Э. Чинара, Н. Лэша подробно рассматриваются математические методы, используемые для разработки МПБ, представленных в виде: системы финансовых коэффициентов с заданными интервальными значениями; моделей, основанных на множественном дискриминантном анализе (MDA-модели); логистических регрессий, позволяющих решить задачу бинарной классификации (Logit-модели); нейронных сетей. Особенности отечественных МПБ представлены в работах И.П. Бойко, А.В. Казакова, А.В. Колышкина, Е.А. Федоровой, Л.Е. Хрустовой, Д.В. Чекризова, Ф.Ю. Федорова. Российские исследователи адаптируют зарубежные MDA-модели и Logit-модели, учитывая отраслевую специфику и используя открытые государственные данные в виде массива финансовой отчетности российских организаций. В работах Б.Б. Демешева, А.С. Тихоновой, О.В. Колоколовой, П.Е. Разумова, А.Д. Батрасовой, Т.В. Коноваловой, П.И. Комарова рассматривается применение более продвинутых методов машинного обучения, включая алгоритмы, основанные на построении деревьев решений, и жесткие и нечеткие алгоритмы кластерного анализа, для прогнозирования банкротства.

В работах Н.В. Генераловой и Н.А. Соколовой рассматривается вариативность интерпретации бухгалтерской информации на всех этапах учетного процесса, начиная с момента регистрации фактов хозяйственно-экономической деятельности организации и заканчивая анализом ее финансовой отчетности. Описанная концепция объясняет влияние искажений

в расчетах финансовых коэффициентов на качество МПБ. Также важно отметить работы А.М. Патрова, Н.Г. Акуловой, Д.И. Ряховского и О.А. Львовой, в которых описаны ограничения и недостатки коэффициентного анализа, заложенного в основу моделей оценки финансовой несостоятельности. Вал. В. Ковалев, Вит. В. Ковалев, М.Л. Пятов позиционируют отчет о финансовом положении, формируемый в системе двойной бухгалтерии, как одну из наиболее информативных моделей, позволяющую оценить производительные и финансовые мощности, а также целесообразность использования экономического потенциала организации. Именно эта идея легла в основу разработки модели оценки финансовой несостоятельности организаций, применение которой предполагает использование в качестве исходных данных показателей отчета о финансовом положении, а не производных от них коэффициентов.

Успешные случаи применения алгоритмов машинного обучения для решения прикладных задач в области финансов также рассматривали О. Сезер, А. Озбайоглу, С. Селвин, Р. Винаякумар, Э. Гопалакришнан, В. Менон, К. Соман, А. М. Карминский, Р. Н. Бурехин, В. Лю, Х. Фанъ, М. Ся, В. Чен, Х. Чжан, М. Мехлават, Л. Цзя, И. Фишер, М. Гарнси, М. Хъюз, П. Куломб, М. Леру, Д. Стеванович, С. Сюрпренан. Исследователи в своих работах предлагают новые модели для прогнозирования финансовых временных рядов, кредитного скоринга, оптимизации инвестиционного портфеля, анализа текстовых данных в области финансового анализа и аудита, а также прогнозирования макроэкономических показателей.

Цель и задачи исследования. Целью диссертационного исследования является создание моделей оценки финансовой несостоятельности коммерческих организаций с применением алгоритмов кластеризации.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Исследовать научные публикации в области оценки финансовой несостоятельности, опираясь на эволюцию математического инструментария.

2. Идентифицировать и классифицировать отличительные признаки современных методов оценки финансовой несостоятельности российских организаций.

3. Оценить предиктивную способность отдельных отечественных и зарубежных моделей прогнозирования банкротства на новых данных.

4. Систематизировать источники данных и разработать алгоритмы их сопряжения для создания единой информационной базы, содержащей сведения о финансово-хозяйственной деятельности российских организаций.

5. Аргументировать необходимость создания моделей оценки финансовой несостоятельности в разрезе видов экономической деятельности.

6. Разработать типовые финансовые модели для разных видов экономической деятельности и выявить среди них те, которые в наибольшей степени соответствуют финансово несостоятельным организациям.

7. Исследовать перспективность использования методов кластеризации за пределами оценки финансовой несостоятельности.

Объектом исследования являются российские коммерческие организации, предоставляющие годовую статистическую бухгалтерскую отчетность Федеральной налоговой службе Российской Федерации (далее -ФНС).

Предметом исследования являются методы оценки финансовой несостоятельности организаций.

Информационной базой диссертационного исследования выступают открытые источники данных, представленные в виде реестра финансовой отчетности и прочих реестров, описывающих отдельные аспекты финансово-хозяйственной деятельности российских организаций, и опубликованные на официальных сайтах органов государственной власти в разных форматах, обработка которых реализована с применением языка программирования Python. Для классификации и сопряжения данных из разных источников использовались общероссийские классификаторы и ключи сопряжения,

утвержденные государственными ведомствами и представленные на их официальных сайтах.

Научные методы диссертационного исследования. Настоящее исследование основано на применении широкого спектра методологических инструментов. В частности, применены общенаучные методы, такие как абстрагирование, формализация, дедукция, индукция, анализ, синтез, сравнение, доказательство, математическое моделирование, включая регрессионный и кластерный анализы. Дополнительно к вышеупомянутым методам, в рамках исследования также использовались методы качественного анализа, включающие анализ содержания, тематический анализ. Особое внимание уделено методам графического представления информации.

Соответствие паспорту научной специальности. Область исследования соответствует пунктам: 15. «Корпоративные финансы. Финансовая стратегия корпораций. Финансовый менеджмент»; 17 «Система финансового контроля в корпорациях: содержание, формы, методы и инструменты реализации» паспорта специальности 5.2.4. Финансы.

Научная новизна диссертационного исследования заключается в разработке и обосновании метода использования алгоритмов кластеризации при обработке больших массивов данных в целях оценки финансовой несостоятельности коммерческих организаций.

Основные научные результаты, содержащие компоненты научной новизны, полученные в ходе исследования и выносимые на защиту, заключаются в следующем:

1. Охарактеризованы ограничения известных моделей прогнозирования банкротства как инструмента в оценке финансовой несостоятельности [Ковалев, Молдобаев, 2021; Бакунова, Кольцова, Молдобаев, 2019; Илышева, Савостина, Молдобаев, 2018].

2. Предложена критика коэффициентного анализа отчетности с позиций его использования в оценке финансовой несостоятельности организаций

[Ковалев, Молдобаев, 2021; Бакунова, Присяжный и др., 2019; Медведев и др., 2019].

3. Охарактеризованы преимущества многокритериальных оценок при диагностике финансовой несостоятельности организаций с применением кластерного анализа и обоснованы требования к массивам данных, необходимых для формирования таких оценок [Ковалев и др., 2022].

4. Доказана возможность формирования типовых финансовых моделей организаций с учетом отраслевой специфики на основе использования алгоритмов кластеризации больших массивов данных [Ковалев, Молдобаев, 2021].

5. Обоснованы возможности оценки финансовой несостоятельности коммерческой организации на основе соотношения данных ее финансовой отчетности с усредненной моделью финансово несостоятельных организаций с поправкой на отраслевую специфику ее деятельности [Ковалев, Молдобаев, 2021].

6. Определены направления использования типовых финансовых моделей за пределами задач оценки финансовой несостоятельности организаций [Молдобаев, 2022].

Положения, выносимые на защиту:

1. Популярные зарубежные и отечественные модели прогнозирования банкротства, как инструменты в оценке финансовой несостоятельности коммерческих организаций, имеют ограниченную применимость в современных реалиях вследствие ряда факторов, которые условно можно разделить на экономические и информационно-статистические. Необходимость разработки новых методов оценки финансовой несостоятельности организаций обусловлена потребностью повышения точности диагностики данного состояния с учетом отраслевой специфики.

2. Коэффициентный анализ отчетности имеет существенные ограничения при его применении в оценке финансовой несостоятельности коммерческих организаций. Данный подход отражает лишь

фрагментированную картину финансового положения организации, что не позволяет получить полное представление о ее текущей и потенциальной финансовой состоятельности. Кроме того, вариативность расчета одних и тех же финансовых коэффициентов, используемых в качестве предикторов моделей прогнозирования банкротства, приводит к получению статистически несопоставимых и потенциально недостоверных результатов.

3. Кластерный анализ, как основа многокритериальной оценки финансовой несостоятельности организаций, обладает рядом преимуществ в сравнении с традиционными линейными и нелинейными моделями, построенными на основе алгоритмов машинного обучения для решения задачи классификации. Главными преимуществами кластерного анализа являются его масштабируемость в части расширения перечня анализируемых показателей, а также простота в поддержке актуализации формируемых кластеров и связанных с ними прототипов - центроидов.

4. Благодаря применению кластерного анализа к большим массивам финансовой отчетности, стало возможным установить сходство структуры имущественного комплекса и источников финансирования коммерческих организаций, относящихся к различным секторам экономики. Кроме того, данная технология является основой для создания типовых финансовых моделей, способных служить надежным инструментом оценки финансовой несостоятельности организаций, а также открывает новые возможности для аналитических исследований за пределами финансовой несостоятельности.

5. Финансовую несостоятельность коммерческой организации можно оценить путем сопоставления ее отчетности с типовой (усредненной) финансовой моделью, свойственной большинству несостоятельных компаний в конкретной отрасли. Основываясь на результатах кластерного анализа, введенном индексе частотности встречаемости несостоятельных организаций в кластерах, а также анализе уровня смещения центоидов кластеров за разные периоды, создана система типовых финансовых моделей в разрезе экономических отраслей, среди которых выделены устойчивые во времени и

свойственные большинству финансово несостоятельных компаний типовые финансовые модели.

6. Установлены направления практического применения типовых финансовых моделей за пределами оценки финансовой несостоятельности коммерческих организаций. Данные модели рассматриваются в качестве инструментов в обосновании управленческих решений, направленных на финансовой оздоровление организаций путем реализации стратегий слияния и поглощения либо внедрения инновационных технологий с учетом отраслевой специфики.

Теоретическая значимость диссертационного исследования заключается в разработке принципов построения типовых (усредненных) финансовых моделей в разрезе ВЭД, формирование которых ранее было невозможно по причине технологических ограничений и отсутствия больших данных, представленных в виде реестра финансовой отчетности российских организаций, с целью их дальнейшего использования для оценки финансовой несостоятельности. Разработанный комплекс моделей позволяет преодолеть ограничения коэффициентного анализа, включить показатели финансовой отчетности, а не производные от них коэффициенты, учесть все зарегистрированные в Российской Федерации коммерческие организации, а также определить те ВЭД, для которых применима предлагаемая в настоящем исследовании методика оценки финансовой несостоятельности. Одним из ключевых преимуществ авторской методики является ее масштабируемость, которая подразумевает включение не только разделов отчета о финансовом положении, но и прочих показателей финансовой отчетности, а также использование типовых финансовых моделей для оценки прочих аспектов финансового состояния организации, что расширяет научно-методический аппарат в области корпоративных финансов.

Практическая значимость диссертационного исследования состоит в прикладном применении разработанных типовых финансовых моделей для: раннего выявления признаков финансовой несостоятельности с целью

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Молдобаев Темирлан Шайырбекович, 2025 год

Источники данных

Объект: ЮЛ и ИП

Объект: ТМЦ и услуги

Финансовые данные

Нефинансовые данные

Бухгалтерская отчетность (Росстат и ФНС)

Сведения об уплаченных налогах (ФНС)

Сведения о суммах

недоимки и задолженности по пеням и штрафам (ФНС)

ЕГРЮЛ/ЕГРИП (ФНС)

Реестр субъектов МСП (ФНС)

Внутренний рынок

Объем производства в натуральном выражении (ЕМИСС)

Экспорт и импорт

Объем отгрузки в натуральном выражении (ЕМИСС)

Цены на ТМЦ и услуги (ЕМИСС)

( >

Объем экспорта в

натуральном и

денежном выражении

(ФТС)

J

/

Объем импорта в

натуральном и

денежном выражении

(ФТС)

У

Среднесписочная численность работников организации (ФНС)

Картотека арбитражных

дел

с N

Реестр объектов

интеллектуальной

собственности

(Роспатент)

ч У

Рисунок 3 - Источники данных, описывающие деятельность ЮЛ и ИП и движение товарно-материальных ценностей и услуг [Составлено автором]

Финансовые данные, относящиеся к ЮЛ и ИП, представлены в виде следующих реестров:

1. Бухгалтерская отчетность ЮЛ, включающая бухгалтерский баланс, отчет о прибылях и убытках, отчет об изменении капитала, отчет о движении денежных средств, приложение к бухгалтерскому балансу и отчет о целевом

использовании полученных средств. Реестры данных бухгалтерской отчетности за 2012-2018 годы представлены на официальном сайте Росстата, начиная с 2019 года - на сайте ФНС. Формат данных на сайте Росстата - CSV (значения, разделённые запятыми; Comma-Separated Values)28, ФНС - XML (расширяемый язык разметки; extensible Markup Language)29.

2. Сведения об уплаченных организацией в календарном году, предшествующем году размещения указанных сведений в информационно-телекоммуникационной сети "Интернет", суммах налогов и сборов (по каждому налогу и сбору) без учета сумм налогов (сборов), уплаченных в связи с ввозом товаров на таможенную территорию Евразийского экономического союза, сумм налогов, уплаченных налоговым агентом, о суммах страховых взносов. Данный реестр начали публиковать с 01.10.2019 года на сайте ФНС. Формат данных - XML30.

3. Сведения о суммах недоимки и задолженности по пеням и штрафам. Набор содержит сведения о суммах недоимки, суммах задолженности по пеням, суммах задолженности по штрафам (по каждому налогу и сбору, страховым взносам, по которым у организации имеется недоимка и (или) задолженность по пеням и штрафам); общая сумма недоимки и задолженности по пеням и штрафам. Дата первой публикации набора данных - 01.12.2019. Формат данных - XML31.

Среди реестров, относящихся к ЮЛ и ИП и описывающих нефинансовые данные, можно выделить:

28 Бухгалтерская (финансовая) отчетность предприятий и организаций за 2018 год. URL: https://rosstat.gov.ru/opendata/7708234640-7708234640bdboo2018

29 Ежемесячно обновляемая полная база бухгалтерской (финансовой) отчетности организаций по всей России/ URL: https://bo.nalog.ru/

30 Сведения об уплаченных организацией в календарном году, предшествующем году размещения указанных сведений в Интернете в соответствии с п. 1.1 ст. 102 НК РФ, суммах налогов и сборов (по каждому налогу и сбору) без учета сумм налогов (сборов), уплаченных в связи с ввозом товаров на таможенную территорию ЕАЭС, сумм налогов, уплаченных налоговым агентом, о суммах страховых взносов. URL: https://file.nalog.ru/opendata/7707329152-paytax/structure-20180110.xsd

31 Сведения о суммах задолженности по уплате налогов, сборов и страховым взносам, пеням и штрафам в бюджеты бюджетной системы Российской Федерации. URL: https://data.nalog.ru/opendata/7707329152-debtam/structure -20181201.xsd

1. Единый государственный реестр ЮЛ и ИП. Реестр содержит регистрационные данные, включая идентификационные и классификационные коды государственной статистики, а также дополнительную полезную для исследования информацию, включая дату регистрации ЮЛ, дату ликвидации ЮЛ, сведения о руководителе и учредителях, размер уставного капитала и др. Доступ к данным предоставляет ФНС через интерфейс программирования приложения (далее - API). Формат получаемых по API данных - XML32.

2. Реестр субъектов малого и среднего предпринимательства (далее -МСП). Набор содержит регистрационные данные ЮЛ и ИП, которые получили статус субъекта МСП и имеют возможность претендовать на дополнительную государственную поддержку. Владелец набора данных - ФНС, дата первой публикации данных - 01.08.2016, формат представления данных - XML33.

3. Государственный реестр аккредитованных филиалов, представительств иностранных юридических лиц (РАФП). Данные представлены на сайте ФНС, формат данных - XML, дата первой публикации набора - 29.03.201834.

4. Сведения о среднесписочной численности работников организации. Владелец набора данных - ФНС, формат представления данных - XML, дата первой публикации - 01.08.201935.

5. Картотека арбитражных дел, представляющая собой базу решений всех инстанций с участием ЮЛ, ИП, федеральных и местных органов власти36.

6. Реестр объектов интеллектуальной собственности. Представляет собой отдельные наборы данных, включая базы данных, изобретения, полезные модели, программы для ЭВМ, промышленные образцы, секреты

32 Интеграция сведений из ЕГРЮЛ и ЕГРИП в информационные системы заинтересованных лиц. URL: https://www.nalog.gov.ru/rn77/service/egrip2/egrip_vzayim/

33 Единый реестр субъектов малого и среднего предпринимательства. URL: https://file.nalog.ru/opendata/7707329152-rsmp/structure-10062023.xsd

34 Государственный реестр аккредитованных филиалов, представительств иностранных юридических лиц (РАФП). URL: https://data.nalog.ru/opendata/7707329152-rafp/structure-16032022.xsd

35 Сведения о среднесписочной численности работников организации. URL: https://file.nalog.ru/opendata/7707329152-sshr2019/structure-20200408.xsd

36 Электронное правосудие. URL: https://kad.arbitr.ru/

производства (ноу-хау), селекционные достижения, топологии интегральных микросхем. Владелец набора данных - Федеральная служба по интеллектуальной собственности (далее - Роспатент), формат данных - CSV, дата первой публикации - 19.10.201737.

В части описания движения товарно-материальных ценностей и услуг на территории России (внутреннем рынке) использовались следующие реестры данных, которые представлены в формате XLSX, на одном из сервисов Росстата - в Единой межведомственной информационно-статистической системе (далее - ЕМИСС), с детализацией по регионам России:

1. Отгружено (передано) продукции в натуральном выражении с 2017 г. (оперативные данные в соответствии с ОКПД)38.

2. Производство основных видов продукции в натуральном выражении с 2017 г. (оперативные данные в соответствии с ОКПД)39.

3. Еженедельные средние потребительские цены (тарифы) на отдельные товары и услуги40.

Сведения об импорте и экспорте товарно-материальных ценностей представлены на официальном сайте Федеральной таможенной службы Российской Федерации (ФТС) в виде CSV-файлов. Данные об экспорте и импорте продукции отражаются с использованием кодов ТН ВЭД и детализацией по месяцам, странам-контрагентам и административно-территориальным единицам РФ41.

Сопряжение данных из разных источников

При проведении различного рода исследований часто возникает потребность в сопряжении данных из разных источников. Данная задача усложняется тем, что для установления связей между разрозненными данными

37 Открытые данные Федеральной службы по интеллектуальной собственности. URL: https ://ro spatent. gov. ru/opendata

38 Отгружено (передано) продукции в натуральном выражении с 2017 г. (оперативные данные в соответствии с ОКПД2). URL: https://www.fedstat.ru/indicator/57786

39 Производство основных видов продукции в натуральном выражении с 2017 г. (оперативные данные в соответствии с ОКПД2). URL: https://www.fedstat.ru/indicator/57783

40 Еженедельные средние потребительские цены (тарифы) на отдельные товары и услуги. URL: https://fedstat. ru/indicator/37426

41 Экспорт и импорт Российской Федерации по товарам. URL: https://customs.gov.ru/statistic

необходимо предварительно проанализировать, какие коды государственной статистики необходимо использовать в качестве ключей, по которым далее осуществляется слияние данных.

Используя коды государственной статистики, представленные на рисунке 2, и источники данных, описанные на рисунке 3, можно сформировать типовые сценарии слияния данных из разных групп и подгрупп:

1. Слияние данных по идентификационному коду. Так, для всех источников из группы ЮЛ и ИП, включая финансовые и нефинансовые реестры, сопряжение осуществляется с использованием ИНН.

2. Слияние данных по ключам сопряжения. При расчете объема регионального отраслевого рынка, определяемого как разность между суммой производства и импорта и суммой отгрузки в другие регионы России и экспорта, учет параметров, влияющих на итоговый результат, ведется в разных классификационных системах: производство и отгрузка - в кодах ОКПД, экспорт и импорт - в кодах ТН ВЭД. При расчете объема рынка необходимо значения параметров привести к одной из систем. Для этого используются переходные ключи ОКПД2-ТН ВЭД, разработанные Министерством экономического развития Российской Федерации42.

3. Поразрядное сопоставление классификаторов. Для анализа структуры регионального отраслевого рынка и определения того, какие ЮЛ и ИП его наполняют, необходимо установить связь между двумя группами источников данных - наборы данных по ИП и ЮЛ и наборы данных по товарно-материальным ценностям и услугам. Для решения этой проблемы необходимо сопоставить первые 6 разрядов кодов ОКВЭД2 и ОКПД2. Данные коды имеют аналогичную структуру.

42 Переходные ключи между Товарной номенклатурой внешнеэкономической деятельности Евразийского экономического союза ТН ВЭД ЕАЭС и Общероссийским классификатором продукции по видам экономической деятельности ОК 034-2014 ОКПД 2. URL:

https://economy.gov.ru/material/file/8fe3bac6d1fec0a3b943272e28212592/%D0%A2%D0%9D%D0%92%D0%AD %D0%94 %D0%9E%D0%9A%D0%9F%D0%942 20 07 2023.xlsx

На рисунке 4 представлена схема сопряжения описанных выше ситуаций 2 и 3.

Рисунок 4 - Схема консолидации баз данных с разными статистическими классификаторами [Составлено автором]

Разнообразие кодов государственной статистики, источников данных, форматов их представления и возможных способов сопряжения данных приводит к тому, что ручной подход к решению задачи по сбору данных для относительно небольшой выборки является достаточно трудоемким процессом, а для большого массива - практически невозможным. Для преодоления выявленной проблемы предлагается воспользоваться языком программирования Python и встроенными в него библиотеками для сбора, обработки и хранения данных, среди которых:

- csv - библиотека предоставляет функции чтения и записи CSV-файлов;

- xmltodict - библиотека позволяет преобразовать данные XML-формата в словарь, с которым достаточно легко работать;

- pymongo - библиотека позволяет подключаться к нереляционной базе данных MongoDB, записывать и выгружать из нее данные;

- numpy - в библиотеке содержатся одномерные структуры данных, для которых реализованы статистические функции;

- pandas - в библиотеке содержатся как одномерные, так и двумерные структуры данных, для которых определено множество статистических функций.

Для построения моделей машинного обучения и визуализации данных использовались следующие библиотеки:

- БЫеагп - библиотека содержит множество классов для создания различных моделей машинного обучения;

- та1р1оШЬ - библиотека поддерживает инструменты визуализации данных.

Сформировав информационный базис, включающий множество открытых разрозненных финансовых и нефинансовых данных, а также установив ключи сопряжения разных реестров, на следующем этапе предлагается использование отдельных срезов разработанной консолидированной базы данных для отраслевого анализа финансовых коэффициентов, построения типовых финансовых моделей в разрезе ВЭД и их дальнейшего прикладного применения в оценке финансовой несостоятельности, обосновании решений о совершении сделок слияния и поглощения в горизонтально-интегрированных организационных структурах, оценке влияния инновационных технологий на эффективность деятельности предприятий.

2.2 Отраслевая специфика в оценке финансовой несостоятельности

организаций

Проанализировав современные отечественные МПБ, можно заметить, что ученые акцентируют внимание на отраслевой специфике моделей, но необходимость такого подхода нигде не обосновывается [Казаков, Колышкин, 2018]. Отраслевая спецификация МПБ представлена либо виде комплекса моделей с разными наборами объясняющих переменных, либо в виде одной модели, для которой уточняются нормативные значения сводного коэффициента банкротства в зависимости от экономической отрасли.

Целью данного этапа исследования является тестирование гипотезы о необходимости стратификации организаций по ВЭД при разработке моделей. В качестве анализируемых параметров рассматривались финансовые и нефинансовые показатели деятельности российский организаций. Все финансовые показатели рассчитаны по данным бухгалтерской отчетности и сгруппированы по блокам: ликвидность, финансовая устойчивость, деловая активность, рентабельность [Ковалев В.В., Ковалев Вит. В., 2019]. В качестве нефинансового показателя рассматривался возраст организации, который рассчитывался как разность между следующими датами - 31.12.2020 г. и датой регистрации.

Для получения информации о дате регистрации и ОВД исследуемых организаций использовался ЕГРЮЛ43, финансовых показателей - реестр бухгалтерской отчетности российских организаций44 (см. рис. 3). Перечисленные базы данных размещены на официальных сайтах Росстата и ФНС. Для сопряжения данных из двух источников применялся ИНН организаций (см. рис. 2).

43 Интеграция сведений из ЕГРЮЛ и ЕГРИП в информационные системы заинтересованных лиц. URL: https://www.nalog.gov.ru/rn77/service/egrip2/egrip_vzayim/

44 Ежемесячно обновляемая полная база бухгалтерской (финансовой) отчетности организаций по всей России/ URL: https://bo.nalog.ru/

Из исходных реестров бухгалтерской отчетности и регистрационных данных организаций отобраны только те объекты, для которых выполнялись следующие условия:

1. Совокупные активы равны совокупным пассивам.

2. Выручка за 2020 год и совокупные активы по состоянию на 31.12.2020 г. больше нуля.

Первое условие необходимо для первичного выявления искажений в бухгалтерском балансе [Пятов, 2014]. В бухгалтерском учете соблюдение баланса (равенства) активов и пассивов является важным принципом. Второе условие позволяет отобрать только активные организации, которые генерируют доходы и имеют ресурсный потенциал для поддержания своей деятельности.

Размер выборки после применения вышеописанных правил составил 1 580 510 организаций, которые на следующем этапе были сгруппированы по ВЭД. Для обработки большого массива данных использовался язык программирования Python.

В целях демонстрации различий в деятельности организаций из разных секторов экономики из всех обработанных ВЭД (всего 89 классов в ОКВЭД) отобраны случайным образом 6 ВЭД, по которым систематизированы выделяемые другими учеными отраслевые особенности, а также проведен анализ описанных выше финансовых и нефинансовых показателей. Ниже представлен список с кодами и наименованиями ОКВЭД:

1. Добыча нефти и природного газа (ОКВЭД 06).

2. Добыча металлических руд (ОКВЭД 07).

3. Производство табачных изделий (ОКВЭД 12).

4. Обеспечение электрической энергией, газом и паром; кондиционирование воздуха (ОКВЭД 35).

5. Предоставление услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов (ОКВЭД 39).

6. Торговля розничная, кроме торговли автотранспортными средствами и мотоциклами (ОКВЭД 47).

Среди множества особенностей в секторе добычи нефти и природного газа можно выделить:

1. Сильная зависимость от динамики цен на энергоресурсы. В условиях снижения стоимости энергоресурсов предприятия рассматриваемого сектора могут столкнуться с серьезными финансовыми вызовами, что требует от них стратегического подхода к управлению рисками [Соколов, 2019].

2. Высокая степень капиталоемкости, что предполагает наличие у предприятий значительных финансовых ресурсов для осуществления обширных вложений в разнообразные области, такие как инфраструктура, техническое оборудование, исследования и разработки. [Вякина, Гараникова, 2015].

3. Диверсифицированный географический характер добычи нефти и газа, сопровождающийся геополитическими рисками и определяющий необходимость активного взаимодействия и сотрудничества с различными национальными и международными акторами, связанными с данным сектором. [Гнилитская, 2002].

4. Повышенный уровень социальной и экологической ответственности, связанный с негативными последствиями для окружающей среды и общества в целом при добыче нефтегазовых ресурсов [Горбунова, Каницкая, 2017; Шварц и др., 2015; Яо и др., 2011].

5. Глобальный характер деятельности, который предполагает работу одной организации в нескольких странах, что, в первую очередь, оказывает влияние на управление логистикой [Леонов, Воронов, 2017; Сыровецкий, 2020; Ерохин, 2021].

6. Цифровая трансформации и технологический прогресс являются важными структурными элементами стратегии нефтегазовых организаций. Предприятиям, функционирующим в данном секторе, необходимо постоянно инвестировать в современные технологии с целью улучшения

производственных процессов, снижения негативного воздействия на окружающую среду и обеспечения долгосрочной конкурентоспособности [Жукинский, 2022].

7. Регулярная цикличность в сфере добычи нефти и газа, обусловленная систематическими колебаниями экономической активности, что сказывается на динамике спроса и формировании цен на энергетические ресурсы [Gil-Alana, Gupta, 2014].

Особенности ВЭД «Добыча металлических руд» во многом схожи с добычей нефти и природного газа. Для данного ВЭД, помимо прочего, можно также выделить:

1. Высокий уровень энергоемкости. Процесс добычи металлов требует значительных энергетических затрат, что оказывает существенное влияние на финансовую устойчивость организаций данного сектора [Каплунов, Юков, 2016].

2. Техническая сложность процессов добычи, предполагающая применение сложных технологических комплексов и высокотехнологичного оборудования, включая буровые механизмы, обогатительные установки и другие специализированные средства [Martins, 2019].

Производство табачных изделий также имеет свои особенности, к котором можно отнести:

1. Высокий уровень государственного регулирования в части разработки и применения норм по качеству продукции, упаковке, предупреждению о вреде курения [Бударин, Перепечкина, 2018].

2. Табачные продукты подвергаются значительным акцизным обязательствам, что нередко влечет за собой существенное воздействие на установление цен на готовую продукцию и финансовые результаты предприятий в данной отрасли [Саломатин и др., 2021].

3. Зависимость от динамики потребительских предпочтений, подверженных влиянию индивидуальных привычек и социокультурных факторов. Предприятия данного сектора реагирует на изменение

потребительских предпочтений, адаптируя стратегии производства и маркетинга [Пидяшова и др., 2019; Мигунова Ю.В., 2020].

Для ВЭД «Обеспечение электрической энергией, газом и паром; кондиционирование воздуха» характерны следующие особенности:

1. Высокая инфраструктурная зависимость, предполагающая наличие развитой инфраструктуры для производства и распределения электроэнергии, газа и пара [Бутакова и др., 2022].

2. Регулирование и лицензирование. Данный вид деятельности часто подвергается строгому государственному регулированию и лицензированию и включает в себя стандарты безопасности, нормы качества и требования к защите окружающей среды [Кологерманская, 2020].

3. Сезонность спроса. Спрос на электроэнергию, газ и пар может меняться в зависимости от сезона и климатических условий. Например, потребление электроэнергии может возрасти зимой из-за отопления и летом из-за кондиционирования воздуха [Муниров, 2023].

4. Требование к надежности и непрерывности. Электроэнергия и газ -это критически важные ресурсы, и их поставки должны быть надежными, чтобы обеспечить непрерывное функционирование общества и предприятий [Фадеев, Фадеева, 2020].

5. Техническая сложность. Производство, распределение и поддержание инфраструктуры для обеспечения электроэнергией, газом и паром - это технически сложные задачи, которые требуют специализированных знаний и оборудования. Именно поэтому данная деятельность связана с высоким уровнем инвестиций в исследования и разработки [Бутакова и др., 2022].

Предоставление услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов, является специфической отраслью, для которой характерны следующие особенности:

1. Высокий уровень государственного регулирования. Управление отходами и ликвидация экологических последствий часто подвергаются

строгому государственному и местному регулированию, включая нормы обработки, вывоза и утилизации опасных отходов [Саркисов и др., 2022].

2. Техническая сложность процессов ликвидации загрязнений и удаления опасных отходов, которые предполагают использование сложного оборудования и специализированных технологий и наличия высококвалифицированных специалистов [Сараев, 2018].

3. Постоянное обучение и сертификация. Специалисты в этой отрасли должны постоянно обучаться и обновлять свои навыки, так как требования и технологии постоянно меняются [Святохо, Тимаев, 2020].

4. Высокий уровень инвестиций в исследования и разработки. Все большую актуальность приобретает разработка новых методов и технологий для более эффективной и экологически устойчивой ликвидации отходов и загрязнений [Заборцева и др., 2017].

5. Значительное количество разнообразных ресурсов, необходимых для выполнения больших проектов по ликвидации загрязнений и управлению отходами, включая оборудование, персонал и финансы [Чернов, 2020].

Для ВЭД «Торговля розничная, кроме торговли автотранспортными средствами и мотоциклами» характерны следующие особенности:

1. Вариативность товарного ассортимента. Розничная торговля включает в себя продажу разнообразных товаров, начиная от продуктов питания и одежды, заканчивая электроникой и товарами для дома. Эффективное управление товарным ассортиментом требует знание как внешних факторов, включая спрос на конкретный товар, ценовую категорию, жизненный цикл товара, так и внутренних, включая тип предприятия, месторасположение, стратегию [Петрова, 2021].

2. Высокий уровень конкуренции. Розничная торговля часто характеризуется высокой степенью конкуренции, особенно в больших городах [Мунши и др., 2022].

3. Сезонность продаж. Отдельные категории товаров могут иметь сезонный спрос, поэтому розничные предприятия вынуждены учитывать

данный фактор при планировании и управлении запасами [Butters, Sacks, Seo, 2023].

4. Торговые организации могут работать в низкомаржинальных сегментах, поэтому эффективное управление расходами и оборачиваемостью товаров имеет большое значение для сохранения или улучшения финансового состояния организаций данного сектора [Коваленкова, 2023].

5. Высокий уровень расходов на маркетинг и продвижение. Реклама и маркетинг, как ключевые составляющие операционной деятельности, направлены на активное привлечение потребителей, формирование и укрепление брендов, а также на стимулирование увеличения объемов продаж. Современные подходы к маркетингу, такие как использование цифровых технологий, аналитических инструментов и стратегий персонализации, становятся неотъемлемым компонентом конкурентного преимущества в розничной торговле. [Гришина, 2022].

6. Управление запасами. Контроль запасов необходим для минимизации дополнительных затрат, связанных с хранением товаров, и уменьшения риска потерь от устаревших товаров [Новикова, Щепина, 2023; Шарохина, 2023].

7. Развитие электронной коммерции. На сегодняшний день онлайн-торговля и электронная коммерция являются важными каналами продаж торговых организаций, так как последние за счет развития онлайн-присутствия значительно увеличивают объем продаж [Попенкова, Стукалова, 2022].

Описанные выше особенности отдельных ВЭД тем или иным образом оказывают влияние на значения финансовых и нефинансовых показателей. Следовательно, доказав различие в средних отраслевых оценках финансовых и нефинансовых показателей, включая часто используемые в МПБ финансовые коэффициенты, появится подтвержденное основание для разработки типовых финансовых моделей в разрезе ВЭД.

Рассмотрим медианный возраст организаций с ненулевыми выручкой и совокупными активами (рис. 5). Виды деятельности, связанные с добычей

нефти и природного газа, обеспечением электрической энергией, газом и паром и добычей металлических руд имеют одни из самых высоких возрастных значений - 10, 8, 6 лет соответственно, при этом общее количество организаций по первому виду деятельности составило 708, по второму -13222, третьему - 1712. Высокие значения медианного возраста организаций связаны с тем, что данные ВЭД характеризуются высокими входными барьерами для новых игроков, включая значительные инфраструктурные инвестиции. Третье место по возрасту занимает розничная торговля (7 лет). Этот сектор сталкивается с постоянными изменениями в потребительском спросе и конкуренцией. Кроме того, данный сектор является неоднородным: организации розничной торговли реализуют широкий спектр товарных номенклатур из разных несопоставимых друг с другом товарных рынков, поэтому требуется более детальный анализ деятельности отдельных организаций для выделения однородных возрастных групп среди организаций данного сектора. Последние места по медианному значение возраста занимают ВЭД «Предоставление услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов» и «Производство табачных изделий» - 4 и 2 года соответственно. На российском рынке по первому виду деятельности представлено 133 организации, по второму - 235 организаций. Низкие возрастные значения могут свидетельствовать о высокой конкуренции и динамике этих секторов.

Добыча нефти и природного газа

Обеспечение электрической энергией, газом и паром;

кондиционирование воздуха

Торговля розничная, кроме торговли автотранспортными

средствами и мотоциклами

Добыча металлических руд

Предоставление услуг в области ликвидации последствий

загрязнений и прочих услуг, связанных с удалением отходов

Производство табачных изделий 2

0 3 6 9 Медианнный возраст организаций, лет 12

Рисунок 5 - Медианный возраст организаций в разрезе ВЭД по состоянию на

31.12.2020 г. [Составлено автором]

На рисунке 6 представлен график распределения организаций по возрасту в разрезе рассматриваемых ВЭД.

ОКВЭД 06 ОКВЭД 07 ОКВЭД 12 ОКВЭД 35--ОКВЭД 39 ОКВЭД 47

28% 26% 24% 22% 20% а 18% | 16% I 14% ° 12% 4 10% 8% 6% 4% 2% 0%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Возраст, лет

Рисунок 6 - Распределение организаций по возрасту в разрезе ВЭД по состоянию на 31.12.2020 г. [Составлено автором]

В секторе добычи нефти и газа (ОКВЭД 06) 15-летние организации представляют самую большую долю среди всех организаций данного сектора, составляя 7,7%. Организации моложе 6 лет (с возрастом от 1 до 5 лет)

занимают долю около 27,6%, что свидетельствует об активном появлении новых игроков в связи с ростом интереса к добыче нефти и газа. Организации старше 10 лет (с возрастом от 11 до 17 лет) занимают долю около 43,8%, что указывает на наличие значительного количества устоявшихся игроков с долгосрочным опытом в этой отрасли. В целом, возрастное представление организаций в данной отрасли достаточно разнообразно, что свидетельствует о динамичной и неоднородной природе бизнеса в области добычи нефти и природного газа.

Рассмотрим возрастное распределение организаций в секторе добычи металлических руд (ОКВЭД 07). Преобладающая доля организаций (10,5%) имеет возраст 4 года. Доля организаций с возрастом менее 6 лет (в интервале 1-5 лет) составляет 42,8%, в то время как на предприятия, превышающие 10-летний возраст (в интервале от 11 до 17 лет), приходится доля, равная 28,7%. Данный аспект указывает как на наличие молодых организаций, для которых рассматриваемый сектор является финансово привлекательным, так и на наличие стабильных участников с обширным опытом.

В секторе производства табачных изделий (ОКВЭД 12) на 2-летние организации приходится наибольшая доля, равная 27%. Кроме того, организации моложе 6 лет занимают долю, равную 83,4%, что может указывать на доминирование относительно молодых организаций и динамичное появление новых игроков в отрасли. Организации старше 10 лет занимают незначительную долю (5,5%), что свидетельствует об ограниченном количестве долгосрочных участников. В целом, распределение организаций по возрасту в данной отрасли сконцентрировано на молодых предприятиях, что может быть обусловлено высокой долей стартапов и новых участников.

Преобладающая доля приходится на 6-летние организации с ВЭД «Обеспечение электрической энергией, газом и паром; кондиционирование воздуха» (ОКВЭД 35) (8,3%.) Также стоит отметить, организации моложе 6 лет (в интервале от 1 года до 5 лет) занимают долю около 32%, что свидетельствует о появлении новых игроков на рынке. Организации,

преодолевшие 10-летний рубеж (в интервале 11-17 лет), составляют 35,3%, что говорит о значительном количестве участников, находящихся в данной отрасли на протяжении продолжительного периода времени. Распределение организаций по возрасту в данной отрасли относительно равномерное, что может указывать на отсутствие доминирующих игроков и умеренную конкуренцию.

Рассмотрим распределение организаций, предоставляющих услуги в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов (ОКВЭД 39). Самая большая доля организаций в данной отрасли имеет возраст 4 года, составляя 19,1%. Организации моложе 6 лет занимают долю около 63,4%, что указывает на активное появление новых участников на рынке, возможно, связанное с ростом спроса на услуги по ликвидации последствий загрязнений и удалению отходов. Также можно заметить существенную долю возрастных организаций (от 11 лет и старше), равную 22,7%. Выявленная тенденция может указывать на наличие устоявшихся участников с долгосрочным опытом. Распределение возрастов организаций в данной отрасли сосредоточено вокруг молодых и средних организаций. Это может свидетельствовать о динамичной природе бизнеса, но также о наличии небольшого числа устойчивых игроков.

В розничной торговле (ОКВЭД 47) можно выделить 2 многочисленные группы организаций: молодые (в интервале 1 -5 лет) и возрастные (в интервале от 11 лет и старше). Самая большая доля организаций в данной отрасли приходится на возраст 15 лет, составляя 10,3%, что указывает на наличие устойчивых и успешных организаций, действующих в данной сфере на протяжении длительного времени. Организации моложе 6 лет (в интервале 15 лет) занимают долю, равную 38,3%. Организации старше 10 лет (в интервале 11-17 лет) занимают существенную долю, которая составляет 30,6%. В целом, распределение возрастов организаций в данной отрасли разнообразно, и оно отражает как стабильность и опыт, так и динамичность сферы розничной торговли.

На следующем этапе проведен анализ медианных значений финансовых коэффициентов российских организаций, рассчитанных по данным финансовой отчетности за 2020 год, в разрезе рассматриваемых ВЭД с целью выявления различий между отраслями (табл. 5).

Оценка ликвидности организаций из разных отраслей проводилась на основе анализа следующих коэффициентов: текущей ликвидности, быстрой ликвидности и абсолютной ликвидности.

Коэффициент текущей ликвидности принимает максимальное значение для организаций в области розничной торговли и равен 1,93, минимальное значение характерно для добычи нефти и природного газа (0,97). При этом полученный ряд медианных оценок по всем анализируемым ВЭД является однородным, так как коэффициент вариации не превышает 33%.

Организации, предоставляющие услуги в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов, обладают максимальным уровнем быстрой ликвидности (значение составляет 1,23), минимальный уровень данного коэффициента равен 0,53 и характерен для организаций в области производства табачных изделий. Анализируемый ряд значений коэффициента быстрой ликвидности также является однородным.

Таблица 5 - Медианные значения финансовых коэффициентов в разрезе ВЭД [Составлено автором]

Вид экономической деятельности

Название коэффициента Добыча нефти и природного газа Добыча металличес ких руд Производс тво табачных изделий Обеспечение электрической энергией, газом и паром; кондициониро вание воздуха Предоставление услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов Торговля розничная, кроме торговли автотранспортны ми средствами и мотоциклами Коэффициент вариации

Коэффициенты ликвидности

Коэффициент текущей ликвидности

0,97 1,45 1,05 1,06 1,88 1,93 31%

Коэффициент быстрой ликвидности

0,75 0,97 0,53 0,95 1,23 0,75 28%

Коэффициент абсолютной ликвидности

0,04 0,13 0,02 0,08 0,30 0,15 84%

Коэффициенты финансовой устойчивости

Коэффициент задолженности 0,56 0,47 0,22 0,22 0,01 0,00 93%

Коэффициент покрытия процентов

7,07 8,89 14,88 5,23 3,73 1,22 69%

Коэффициенты деловой активности

Коэффициент оборачиваемости дебиторской задолженности

3,56 6,76 3,66 4,08 3,44 17,58 85%

Коэффициент оборачиваемости 16,35 5,95 2,67 26,03 10,15 5,96 77%

товарно-материальных запасов

Коэффициент оборачиваемости активов

0,42 1,25 0,97 1,38 1,63 2,81 57%

Коэффициент оборачиваемости кредиторской задолженности

2,64 3,91 2,67 3,34 2,56 8,82 61%

Коэффициенты рентабельности

Коэффициент чистой рентабельности продаж

17% 13% 11% 7% 5% 6% 49%

Коэффициент рентабельности собственного капитала

18% 53% 88% 26% 44% 36% 56%

Коэффициент рентабельности активов

7% 15% 14% 9% 13% 14% 28%

оо 9

Коэффициент абсолютной ликвидности, в отличие от других показателей, входящих в одну и ту же группу, существенно разнится для рассматриваемых ВЭД, что подтверждается высоким значением коэффициента вариации, который составляет 84%. При этом максимальное значение свойственно организациям, оказывающим услуги в области ликвидации последствий загрязнений и прочие услуг, связанные с удалением отходов (0,3), минимальное значение - производителям табачных изделий (0,02).

Анализ финансовая устойчивость организаций из разных секторов экономики проводился с применением двух коэффициентов: задолженности и покрытия процентов. Оба показателя неоднородны, что подтверждается высокими значениями коэффициента вариации - 93% и 69% соответственно. Кроме того, минимальные значения финансовых коэффициентов свойственны организациям в розничной торговле, для которых медиана коэффициента задолженности равна 0, коэффициента покрытия процентов - 1,22. При этом максимальным медианным значением коэффициента задолженности обладают организации, добывающие нефть и природный газ. Медианное значение последнего показателя для добывающих нефть и природных газ организаций равно 0,56. Максимальное значение коэффициента покрытия процентов встречается у предприятий, производящих табачные изделия (14,88). В целом, можно сказать, что структура финансирования организаций из разных отраслей кардинально отличается, что подтверждается неоднородностью полученных рядов медианных значений коэффициентов финансовой устойчивости по видам деятельности.

Уровень деловой активности по видам деятельности оценивался с применением 4 коэффициентов оборачиваемости: дебиторской задолженности, товарно-материальных запасов, совокупных активов, кредиторской задолженности.

По всем четырем показателям коэффициент вариации превышает 33%, что свидетельствует о значительных различиях в уровнях деловой активности среди организаций, осуществляющих различные ВЭД. При этом стоит отметить, что максимальный уровень значений коэффициентов оборачиваемости дебиторской задолженности, активов и кредиторской задолженности характерен для организаций в розничной торговле. Значения по перечисленным трем показателям составили 17,58, 2,81 и 8,82 соответственно.

У организаций, предоставляющих услуги в области ликвидации последствий загрязнений и прочие услуги, связанные с удалением отходов, минимальные значения коэффициентов оборачиваемости дебиторской задолженности и кредиторской задолженности, которые равны 3,44 и 2,56 соответственно. Минимальное значение коэффициента оборачиваемости товарно-материальных запасов встречается среди организаций в области производства табачных изделий (2,67), для коэффициента оборачиваемости активов - предприятия, добывающие нефть и природный газ (0,42).

Рентабельность деятельности российских организаций, предварительно распределенных по ВЭД, оценивалась с применением трех коэффициентов: чистой рентабельности продаж, рентабельности собственного капитала и рентабельности активов.

Максимальный уровень чистой рентабельности продаж наблюдался у организаций в области добычи нефти и природного газа (17%), минимальный - у организаций, предоставляющих услуги в области ликвидации последствий загрязнений и прочие услуги, связанные с удалением отходов (5%). В то же время у производителей табачных изделий максимальное значение рентабельности собственного капитала, которое составило 88%, минимальное значение по тому же показателю у добывающих нефть и природный газ организаций, составляющее 18%. Для последнего ВЭД также характерно минимальное значение коэффициента рентабельности активов, которое

составило 7%, максимальное значение - у добывающих металлические руды предприятий (15%). В целом, медианные значения коэффициентов чистой рентабельности продаж и рентабельности собственного капитала существенно разнятся в зависимости от ВЭД, что подтверждается высокими значениями коэффициента вариации - 49% и 56% соответственно. И только числовой ряд с медианными оценками коэффициента рентабельности активов однороден для всех исследуемых ВЭД.

На следующем этапе исследования рассмотрены изменения по одному финансовому показателю из разных групп в динамике за 2012-2020 годы.

На рисунке 7 представлен график, отражающий изменение медианного значения коэффициента текущей ликвидности в разрезе ВЭД.

Так, в секторе добычи нефти и природного газа (ОКВЭД 06) максимальный медианный уровень наблюдался в 2012 году и составил 1,18, минимальный - 2019 году (0,96). На протяжении всего рассматриваемого периода коэффициент текущей ликвидности незначительно снижался, уровень снижения с 2012 года по 2020 год составил примерно 19%, при этом среднее значение временного ряда равно 1,06.

Для сектора добычи металлических руд (ОКВЭД 07) минимальный уровень показателя ликвидности составил 1,05 в 2016 году, максимальный -1,45 в 2020 году, среднее значение за все периоды - 1,23. Стоит отметить, что, начиная с 2016 года, показатель в отрасли стремительно растет.

Незначительные изменения коэффициента текущей ликвидности также характерны для производителей табачных изделий (ОКВЭД 12). Средний уровень составляет 1,09, минимальный - 1,01 в 2019 году, максимальный -1,22 в 2012 году. Похожая динамика изменения рассматриваемого показателя наблюдается и в обеспечении электрической энергией, газом и паром; кондиционировании воздуха (ОКВЭД 35), где минимальный уровень составил 1,06 в 2020 году, максимальный - 1,17 в 2017 году, среднее значение за рассматриваемые периоды - 1,12.

ВЭД «Предоставление услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов» (ОКВЭД 39) характеризуется максимальным уровнем неоднородности временного ряда, содержащего сведения о медианных значениях коэффициента ликвидности: с 2012 по 2014 годы показатель вырос с 1,17 до 1,48; в 2015 году снова снизился до уровня 1,12; начиная с 2015, стремительно рос и в 2020 году составил 1,88. Среднее значение показателя за все периоды составило 1,44.

Самый устойчивый временной ряд среди всех рассматриваемых ВЭД получился для розничной торговли (ОКВЭД 47): коэффициент вариации составил 2%, при этом показатель изменялся в диапазоне от 1,91 до 2,05.

Рисунок 7 - Динамика изменения медианного значения коэффициента текущей ликвидности в разрезе ВЭД за 2012-2020 гг. [Составлено автором]

На рисунке 8 представлен график с динамикой медианных значений коэффициента соотношения заемных и собственных средств в разрезе ВЭД.

Можно заметить, что временные ряды данных однородные только по двум ВЭД: добыче нефти и природного газа (ОКВЭД 06) и добыче металлических руд (ОКВЭД 07). По первому ВЭД минимальное значение составило 1,19 в 2020 году, максимальное - 1,69 в 2014 и 2016 годах, среднее

за все периоды - 1,49. По второму ВЭД минимальное значение - 0,88 в 2020 году, максимальное - 2,14 в 2016 году, среднее за все периоды - 1,59.

Для производителей табачных изделий (ОКВЭД 12) характерно существенное изменение показателя в динамике, которое можно разделить на 2 интервала: ежегодный рост с 2013 по 2016 годы - с 1,07 до 4,8; стремительное снижение с 2016 по 2020 годы - с 4,8 до 0,28.

Также в отдельную группу со схожей динамикой исследуемого показателя можно выделить ВЭД «Обеспечение электрической энергией, газом и паром; кондиционирование воздуха» (ОКВЭД 35) и «Торговля розничная, кроме торговли автотранспортными средствами и мотоциклами» (ОКВЭД 47). Для данных ВЭД с 2012 по 2018 годы наблюдается несущественное колебание коэффициента: диапазон изменений для первого ВЭД - с 1,45 до 1,66; для второго ВЭД - с 0,66 до 0,86. В 2019 году медианное значение резко уменьшилось по двум видам деятельности: для первого ВЭД минимум наблюдался в 2020 году и составил 0,28; для второго ВЭД - в 2019 году со значением показателя, равным 0.

Изменение медианы коэффициента соотношения заемных и собственных средств по годам в секторе предоставления услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов (ОКВЭД 39), можно разделить на 4 периода: резкий рост показателя с 0,27 до 1,85 в 2012-2013 годы; снижение показателя с 1,85 до 1,16 в период с 2013 года по 2016 год; резкий рост до 2,67 в 2017 году; существенный спад с 2,67 до 0,06 в 2017-2020 годы.

Рисунок 8 - Динамика изменения медианного значения коэффициента соотношения заемных и собственных средств в разрезе ВЭД за 2012-2020 гг.

[Составлено автором]

Динамика медианных значений коэффициента оборачиваемости дебиторской задолженности за 2012-2020 годы по ВЭД представлена на рисунке 9.

Для видов деятельности «Добыча нефти и природного газа» (ОКВЭД 06), «Обеспечение электрической энергией, газом и паром; кондиционирование воздуха» (ОКВЭД 35) и «Предоставление услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов» (ОКВЭД 39) временные данные несущественно изменяются на протяжении всех рассматриваемых периодов и варьируются в интервале от 2,73 до 6,84 при средних оценках для первого ВЭД - 4,11, второго - 4,56, третьего - 4,33.

В секторе добычи металлических руд (ОКВЭД 07) временные данные неоднородны, что подтверждается высоким коэффициентом вариации, равным 42%. Для данного ВЭД характерно стабильное значение

коэффициента с 2012 по 2015 годы в диапазоне 5,24-6,06. В 2016 году произошло снижение до 3,32 с 5,95, в 2017 году показатель составил 0. В 20182020 годы значения коэффициента были максимальными и изменялись в интервале от 6,34 до 6,76.

В производстве табачных изделий (ОКВЭД 12) с 2012 по 2018 годы наблюдался устойчивый уровень коэффициента оборачиваемости дебиторской задолженности, который изменялся в диапазоне от 1,51 до 2,11, за исключением 2017 года, когда показатель резко снизился до 1,18 с 1,51. В 2019 году показатель вырос до 3,19 с 1,64, и в 2020 году продолжился рост до максимального уровня 3,66.

Самый высокий уровень коэффициента оборачиваемости дебиторской задолженности на протяжении всех анализируемых периодов наблюдался в розничной торговле (ОКВЭД 47): среднее значение составило 19,05. Несмотря на снижение показателя с 26,81 до 14,29 в период с 2012 года по 2018 год, в 2019 году произошло резкое повышение до 20,86, а в 2020 году - снова снижение до 17,58.

Рисунок 9 - Динамика изменения медианного значения коэффициента оборачиваемости дебиторской задолженности в разрезе ВЭД за 2012-2020 гг.

[Составлено автором]

Медианные значения коэффициента чистой рентабельности продаж за 2012-2020 годы для рассматриваемых ВЭД изменялись по-разному (рис. 10). Так, в секторе добычи нефти и природного газа (ОКВЭД 06) за все рассматриваемые периоды значения коэффициента всегда оставались максимальными в сравнении с другими ВЭД и варьировались в интервале от 15% до 21%.

В области добычи металлических руд (ОКВЭД 07) при среднем значении коэффициента в 10%, коэффициент вариации составил 37%, что говорит о высоком уровне изменчивости статистических оценок. В 2012-2015 годы показатель находился в диапазоне 6-8%, в 2016 году вырос до максимальной отметки, равной 16%, и в 2017-2020 годы изменялся в пределах 9-14%.

В производстве табачных изделий (ОКВЭД 12) медианное значение за все периоды, кроме 2014 года, составляло 8-14%. В 2014 году наблюдалось резкое повышение коэффициента до 18%. Среднее значение за все периоды -12%.

Виды деятельности «Обеспечение электрической энергией, газом и паром; кондиционирование воздуха» (ОКВЭД 35) и «Торговля розничная, кроме торговли автотранспортными средствами и мотоциклами» (ОКВЭД 47) имеют схожую динамику изменения коэффициента чистой рентабельности продаж: значения находятся в диапазоне 4-7% за все рассматриваемые периоды. При этом для первого ВЭД среднее значение составило - 6%, второго - 5%.

Высокая изменчивость значений наблюдается в секторе предоставления услуг в области ликвидации последствий загрязнений и прочих услуг, связанных с удалением отходов (ОКВЭД 39). В 2013 году медианное значение снизилось до 4% с 10% в сравнении с 2012 годом, в 2014 году сохранилось на уровне 2013 года, в 2015-2017 годы варьировалось от 8% до 12%, в 2018-2020 годы держалось на уровне 5-6%.

ОКВЭД 06

ОКВЭД 07

ОКВЭД12

ОКВЭД 35

ОКВЭД 39

ОКВЭД 47

24%

9 22% | 20% | 18%

й 16%

Ч 14%

12%

| 10%

о

§ 8% | 6% Л 4% 8 2% 0%

2012

2013

2014

2015

2016

Год

2017

2018

2019

2020

Рисунок 10 - Динамика изменения медианного значения коэффициента чистой рентабельности продаж в разрезе ВЭД за 2012-2020 гг. [Составлено

автором]

Проведенный анализ позволил подтвердить различия в деятельности организаций, осуществляющих разные виды деятельности, путем сопоставления финансовых и нефинансовых показателей. Во-первых, удалось выявить различия в распределении организаций по возрасту, что указывает на разнообразие в уровнях зрелости отдельных рынков, конкуренции, наличие лидеров и аутсайдеров на рынке и уровень спроса. Во-вторых, с помощью медианных значений финансовых коэффициентов удалось подтвердить различия в уровнях ликвидности, финансовой устойчивости, деловой активности и рентабельности между различными ВЭД. Кроме того, удалось установить, что динамика медианных значений финансовых коэффициентов за 2012-2020 годы существенно отличается между ВЭД, что может быть связано с уровнем устойчивости отраслей в результате воздействия различных экзогенных и эндогенных факторов.

Таким образом, учитывая полученные в ходе исследования различия между ВЭД, разработку типовых финансовых моделей необходимо

осуществлять в разрезе ВЭД. Также для обеспечения генерализации моделей предварительно требуется провести анализ временной устойчивости отдельных финансовых показателей отрасли, после чего выбрать только те отрасли, для которых модели сохранят высокую предиктивную способность спустя продолжительное время с момента их разработки.

2.3 Обоснование выбора метода кластеризации, как элемента машинного обучения, для разработки типовых финансовых моделей

Термин «машинное обучение» впервые появился в научной литературе в середине 20 века. Однако его конкретное происхождение и первое использование не совсем четко установлены, так как он развивался постепенно и использовался разными исследователями в разных контекстах.

Развитие данного термина можно проследить в следующих временных периодах.

1950-е годы. В 1959 году американский ученый Артур Самуэль один из первых ввел термин «машинное обучение» как процесс, в результате которого компьютер обучается и ведет себя так, как изначально не был запрограммирован. Исследователь работал над созданием программы для игры в шашки, способной улучшать свою игровую стратегию на основе опыта [Samuel, 1959].

1960-е - 1970-е годы. В этот период машинное обучение стало активно развиваться как самостоятельное научное направление. Исследователи начали создавать алгоритмы машинного обучения, включая алгоритмы ближайших соседей (k-nearest neighbors) и опорных векторов [Cover, Hart,1967; Вапник, Червоненкис, 1971].

1980-е - 1990-е годы. В этот период машинное обучение применяли для решения прикладных задач, таких как распознавание образов, обработка естественного языка и медицинская диагностика. К ключевым разработкам данного периода можно отнести следующие алгоритмы: метод обратного распространения ошибки (Backpropagation), который стал одним из ключевых моментов в развитии нейронных сетей [Rumelhart, et al., 1986]; метод адаптивного бустинга (AdaBoost), ставший важным методом ансамблевого обучения [Freund, Schapire, 1997]; скрытые марковские модели (Hidden Markov Models, HMM), используемые для обработки последовательных данных в распознавании речи и обработке естественного языка [Rabiner, 1989].

2000-е годы и далее. Машинное обучение стало все более распространенным и важным в современном мире, благодаря увеличению вычислительных мощностей и доступности больших объемов данных. Также появились новые методы и подходы, такие как глубокое обучение (deep learning), которые привнесли значительные изменения в область машинного обучения. В области глубокого обучения можно выделить следующие открытия и разработки: использование сверточных нейронных сетей (Convolutional Neural Networks, CNN) для классификации изображений [Krizhevsky, Sutskever, Hinto, 2012]; способность моделей обучаться играть в видеоигры с использованием методов обучения с подкреплением [Mnih, et al., 2013]; разработка архитектуры нейронных сетей для задач машинного перевода и обработки естественного языка, которая стала важным методом в области обработки последовательных данных [Sutskever, Vinyals, Le, 2014]; разработка архитектуры глубокой нейронной сети ResNet, ставшей ключевым элементом в компьютерном зрении [He, Zhang, Ren, Sun, 2016]; разработка архитектуры трансформера (Transformer), которая представила механизм внимания и стала стандартом для обработки последовательных данных, включая машинный перевод и обработку естественного языка [Vaswani, et al., 2017].

Для решения научно-прикладных задач в экономике и финансах также активно применяются достижения в области машинного обучения. Внедрение алгоритмов машинного обучения позволило эффективно моделировать сложные финансовые явления, прогнозировать рыночные изменения и оптимизировать инвестиционные стратегии. К основным направлениям и результатам использования алгоритмов машинного обучения в экономике и финансах можно отнести:

1. Прогнозирование финансовых временных рядов.

Одним из ключевых направлений применения методов машинного обучения в финансах является прогнозирование временных рядов, включая

цены акций, валютные курсы и процентные ставки. Алгоритмы машинного обучения, такие как рекуррентные нейронные сети (RNN) и сверточные нейронные сети (CNN), позволяют анализировать множество факторов, в том числе исторические данные, новостные события и социальные медиа, для более точных прогнозов [Sezer, Ozbayoglu, 2018]. Например, модели RNN могут улавливать зависимости в последовательных данных и использовать их для прогнозирования будущих цен акций [Selvin S. et al., 2017].

2. Кредитный скоринг.

Банки и финансовые институты успешно применяют алгоритмы машинного обучения для оценки кредитоспособности клиентов и управления рисками. Модели машинного обучения, такие как градиентный бустинг и случайный лес, могут анализировать большие объемы данных и идентифицировать клиентов с высоким риском банкротства [Карминский, Бурехин, 2019; Liu, Fan, Xia, 2022].

3. Оптимизация портфеля.

Оптимизация портфеля является одной из ключевых задач для инвесторов. Алгоритмы машинного обучения позволяют определять оптимальное сочетание активов, учитывая разные факторы, включая ожидаемую доходность и риск, с учетом установленных ограничений. Эти методы позволяют создавать более эффективные инвестиционные стратегии [Chen, et al., 2021].

4. Анализ текстовых данных.

Анализ текстовых данных с использованием алгоритмов обработки естественного языка (NLP) стал важным инструментом в бухгалтерском учете, аудите и финансовом анализе. Модели данного класса позволяют анализировать новостные статьи, финансовые отчеты и социальные медиа для выявления трендов и настроений на рынке [Fisher, et al., 2016].

5. Прогнозирование макроэкономических показателей

Машинное обучение также нашло применение в прогнозировании экономических показателей, таких как ВВП, инфляция и безработица. Моделирование и прогнозирование экономических явлений на основе анализа больших объемов макроэкономических данных используется при решении прикладных задач для государственных органов и различных финансовых институтов [Coulombe, et al., 2021].

В общем виде машинное обучение предполагает поступление в систему данных, применение запрограммированных алгоритмов для их обработки, в результате чего происходит обучение модели, которая затем используется для прогнозирования значений в пределах допустимых диапазонов. При поступлении новых данных модель обучается и учитывает новые зависимости, тем самым повышая точность прогноза и улучшая универсальность применения.

В настоящем исследовании рассматривались отдельные алгоритмы машинного обучения, которые можно разделить на две группы: обучение с учителем (supervised learning), обучение без учителя (unsupervised learning).

Обучение с учителем

Обучение с учителем предполагает использование размеченных тренировочных данных для построения модели и ее применение для предсказания на неизвестных новых данных. Основным свойством размеченных данных является заранее известные их входные и выходные значения. При этом оператор знает правильное решение для входных параметров, в то время как алгоритм выявляет внутренние природные зависимости в данных, учится на размеченных данных и делает прогнозы. После чего если результаты полученных прогнозов не удовлетворяют требованиям оператора, то последний вносит корректировки в особенности работы алгоритма и заново обучает модель. Такой итерационный процесс продолжается до тех пор, пока в результате тестирования модели оператор не получит высокие оценки метрик качества.

В зависимости от разновидности задач все алгоритмы обучения с учителем можно разделить на две группы: алгоритмы для решения задачи регрессии и алгоритмы для решения задачи классификации. Первая группа алгоритмов применяется для предсказания вещественной переменной, вторая - для предсказания дискретного ответа, в соответствии с которым определяется, к какому классу или категории принадлежит объект. Следовательно, описанные в первой главе МПБ относятся к группе алгоритмов машинного обучения с учителем для решения задачи классификации, так как в зависимости от значения сводного коэффициента банкротства для конкретной организации назначается один из двух классов (для большинства моделей) - область финансовой несостоятельности или область финансовой устойчивости.

Существует несколько видов классификации:

1. Бинарная классификация. В этом виде классификации модель разделяет данные на два класса.

2. Многоклассовая классификация. Модель разделяет данные на более чем два класса. Каждое наблюдение может быть отнесено к одному из нескольких классов.

Рассмотрим одну из популярных моделей бинарной классификации -логистическую регрессию.

Логистическая регрессия - это алгоритм, который используется для бинарной классификации и предсказывает вероятность принадлежности наблюдения к одному из двух классов. В своей основе модель содержит сигмоидную функцию, в которую передается линейный классификатор. Этот метод позволяет не только делать предсказания классов, но и оценивать уверенность модели (вероятность) в этих предсказаниях. Общий вид модели может быть представлен в виде следующей формулы:

1

у = sigmoid (z) = , (15)

z = W0 + W-L * Xfc +-----+ Wfc * Xfc, (16)

где у - вероятность принадлежности наблюдения к целевом классу, ъ -линейный классификатор, х1,...,хл - независимые переменные (признаки), w0, - коэффициенты модели, которые настраиваются в процессе

обучения.

Для определения лучшей модели логистической регрессии необходимо решить задачу поиска минимума функции потерь - кросс-энтропии:

1 N

logloss = —1 * * log(yt) + (1 - уд * log(l - уд), (17)

¿=1

где N - количество наблюдений, yt - фактическое значение целевой переменной для i-го наблюдения, у; - предсказанное значение целевой переменной для i-го наблюдения.

Рассмотрим иные подходы в решении задачи классификации, отличные от линейных моделей.

Ансамблиевые модели (ансамбли) - это методы машинного обучения с учителем, которые объединяют несколько базовых моделей вместе для улучшения обобщающей способности и повышения качества прогнозов. Ансамбли используют множество моделей, чтобы улучшить качество прогнозов, стабильность и обобщающую способность. Ансамбли применяются как в задачах классификации, так и в задачах регрессии.

Рассмотрим подробнее ансамблиевые модели на примере алгоритма «случайный лес» (Random Forest), который основан на создании композиции из большого количества решающих деревьев.

К основным особенностям рассматриваемого метода можно отнести:

1. «Случайный лес» объединяет слабые базовые алгоритмы, которые сами по себе могут быть не очень точными, так как они склонны к переобучению и сильно зависят от выборки. При этом при построении случайного леса каждое дерево строится независимо, что создает разброс в предсказаниях и, как следствие, усиливает качество предсказания и

обобщающую способность при усреднении прогнозов всех деревьев в композиции.

2. «Случайный лес» работает как черный ящик, не предоставляя интерпретируемых объяснений о том, как именно устроены данные и какие зависимости он обнаружил. Исследователи при использовании данного алгоритма оперируют в основном точностью прогнозирования данных моделей.

3. «Случайный лес» решает как задачу регрессии, при решении которой строятся регрессионные деревья решений для предсказания непрерывной целевой переменной, так и задачу классификации, предполагающую построение классификационных деревьев решений для предсказания дискретной целевой переменной.

При построении моделей обучения с учителем существует высокий риск столкнуться с проблемой переобучения - на тренировочной выборке модель показывает высокие оценки показателей качества, при этом на тестовой -низкие. Причиной переобучения модели является стремление оператора наладить модель таким образом, чтобы при обучении алгоритм учитывал все зависимости, среди которых могут оказаться шумовые, поэтому при использовании модели на тестовой выборке обученная модель может не увидеть реальные (природные) зависимости в данных.

Проблема переобучения также актуальна и для моделей в области экономики и финансов, так как может привести к значительным социально-экономическим последствиям при их применении на практике.

Рассмотрим связанные с переобучением сложности, с которыми сталкиваются исследователи-экономисты при разработке и использовании моделей машинного обучения:

1. Неустойчивость данных. В экономике и финансах модели часто используются для анализа и прогнозирования временных рядов, которые могут быть шумными и содержать множество аномалий вследствие

непредвиденных событий, связанных с экономическими кризисами и рецессиями, политическими решениями, естественными бедствиями, технологическими изменениями, а также изменениями в потребительском поведении, что делает их особенно подверженными переобучению.

2. Недостаточный размер обучающей выборки. Экономические и финансовые данные могут быть ограничены или недоступны. Это означает, что модели могут быть построены на ограниченной выборке, что увеличивает риск переобучения, особенно при использовании сложных алгоритмов.

3. Сложность моделей. Преследуя цель увеличить качество модели, исследователи используют чрезмерно много признаков, оказывающих влияние на зависимую переменную, чтобы получить оценки максимально приближенные к значениям из тестовой выборки, что в последующем приводит к ошибочным прогнозам при использовании новых неизвестных модели данных.

Обучение без учителя

Алгоритмы машинного обучения без учителя выявляют закономерности в данных без участия оператора. Алгоритмы самостоятельно обрабатывают большие массивы данных и делают выводы на их основе. Модель машинного обучения без учителя пытается различными способами систематизировать неструктурированные данные, упорядочивая их по какому-либо критерию или разбивая по классам. При поступлении новых данных модель заново обучается и учитывает новые закономерности, тем самым увеличивая точность решений.

Все алгоритмы обучения без учителя можно разделить на три группы, в зависимости от специфики решаемых задач: кластеризация, понижения размерности и рекомендательные системы.

В рамках настоящего исследования применялись исключительно алгоритмы кластеризации.

Алгоритмы кластеризации решают следующие задачи:

- автоматический поиск похожих объектов;

- выделение аномалий - изолированных объектов;

- более детальный анализ кластеров, который предполагает построение моделей для каждого кластера, а не общую модель для всех объектов.

К группам методов кластеризации относят:

1. Кластеризация на основе прототипов (Prototype-based methods). Методы кластеризации на основе прототипов позволяют получить строгое разбиение объектов на кластеры. При этом каждый кластер характеризуется базовым элементом, например, метод k-средних каждому кластеру ставит в соответствие центр масс (центорид) объектов из этого кластера.

2. Иерархическая кластеризация (Hierarchical methods). Методы иерархической кластеризации позволяют получить иерархию кластеров двумя способами: с помощью агломеративных и дивизивных алгоритмов. Агломеративный алгоритм на первом шаге считает каждый объект отдельным кластером, затем на каждом шаге объединяет два наиболее близких кластера и останавливается, когда остается единственный кластер. Дивизивный алгоритм на первом шаге считает, что все объекты принадлежат одному кластеру, затем на каждом шаге разделяет один из кластеров на две части и останавливается, когда все кластеры состоят из одного объекта.

3. Плотностная кластеризация (Density-based methods). Плотностные методы кластеризации позволяют выделить кластеры произвольной формы. Кластер представляет собой область с большой плотностью объектов. Такие алгоритмы используются для выявления изолированных объектов, которые являются выбросами при проведении статистического анализа.

4. Вероятностная кластеризация (Probabilistic model-based methods). Метод кластеризации данных, основанный на применении вероятностных моделей и предположении, что данные сгенерированы с использованием вероятностных процессов. Модели данного класса стремятся найти скрытые кластеры, максимизируя правдоподобие данных.

5. Сеточная кластеризация (Grid-based methods). Метод кластеризации данных, который разбивает пространство данных на сетку ячеек и затем агрегирует исследуемые объекты, находящиеся внутри одной ячейки, в кластеры.

6. Спектральная кластеризация (Spectral-based methods). Метод кластеризации данных, основанный на анализе спектра (собственных значений и собственных векторов) матрицы сходства между точками данных. Этот метод позволяет выявлять структуры кластеров в данных, основываясь на свойствах собственных векторов матрицы сходства.

В рамках данной работы для выделения типовых финансовых моделей использовался метод k-средних.

Рассмотрим особенности работы алгоритма кластеризации k-средних.

Постановка задачи

пусть дано множество объектов X = (х1; х2, ... Xj.., хп}, каждый объект Xj имеет свой набор характеристик (в случае с балансовыми МПБ - значения финансовых показателей бухгалтерской отчетности): X; = (x£i, Х;2, ... Xij,..., Xjm },;

- для определения меры схожести объектов х^ и х' использовалось

расстояние Евклида, рассчитываемое по формуле:

L(xi,x') =

т

V"1

каждый кластер характеризуется базовым элементом: ^ центроид ^. Формула расчета центроида:

^ = (19)

где С/с - к-й кластер; X; - 1-й объект, принадлежащий к-му кластеру; ^ -центроид к-го кластера;

- объект Xj принадлежит кластеру Cfc тогда и только тогда, когда расстояние от центроида этого кластера до рассматриваемого объекта Xj) наименьшее среди всех расстояний между объектом х^ и центроидами всех кластеров;

- проводить кластеризацию объектов будем таким образом, чтобы минимизировать функцию L(C):

к

L(°= Z Z Н*'-^ (20)

;=ixi6c7-

Последовательность работы алгоритма

Пусть на вход системы подаются объекты X и количество кластеров k. После чего последовательно выполняются действия:

1. Инициализация центроидов: д1, д2, ..., .

2. Обновление кластеров: объекты присваиваются к ближайшему центроиду.

3. Обновление центроидов: пересчет положения центроидов по формуле:

Хх/бС,-

^-¡ТТ" (21)

гл

Действия 2 и 3 продолжаются до тех пор, пока не сработает правило остановы или центроиды не останутся на одном и том же месте.

Для определения количества кластеров использовался метод «локтя» (elbow method), применение которого предполагает вычисление значения критерия для разных k:

к

L(k)(0= ZZlh-*H2 (22)

;=ixi6c7-

Перед запуском алгоритма k-средних необходимо осуществить процедуру стандартизации данных: центрирование и нормирование.

Далее рассмотрим частные случаи применения описанных выше алгоритмов машинного обучения для решения задач в области оценки финансовой несостоятельности, включая прогнозирование банкротства.

Так, в зарубежных и отечественных исследованиях, посвященных разработке балансовых МПБ, для решения данного класса задач применяются алгоритмы классификации, включая линейные и ансамблиевые модели (см. главу 1). Особенностью данных моделей является использование заранее размеченных данных - ученым изначально известна принадлежность каждой организации из выборки к одной из двух групп - финансовой несостоятельности или финансовой стабильности.

Стоит отметить, тестирование прогностической способности современных отечественных линейных моделей показало низкие оценки авторской метрики качества (см. параграф 1.3). Полученные результаты свидетельствует об актуальности проблемы переобучения для данных моделей, поскольку на тренировочной и тестовой выборке точность классификации оказалась высокой, но при использовании новых данных, сформированных в рамках настоящего исследования, выявлена низкая предиктивная способность МПБ. Отмеченные в настоящем параграфе общие причины переобучения модели также применимы и для отечественных линейных МПБ:

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.