Защита от утечки информации на основе разделения зашифрованных и сжатых данных тема диссертации и автореферата по ВАК РФ 05.13.19, кандидат наук Спирин Андрей Андреевич

  • Спирин Андрей Андреевич
  • кандидат науккандидат наук
  • 2022, ФГАОУ ВО «Санкт-Петербургский политехнический университет Петра Великого»
  • Специальность ВАК РФ05.13.19
  • Количество страниц 131
Спирин Андрей Андреевич. Защита от утечки информации на основе разделения зашифрованных и сжатых данных: дис. кандидат наук: 05.13.19 - Методы и системы защиты информации, информационная безопасность. ФГАОУ ВО «Санкт-Петербургский политехнический университет Петра Великого». 2022. 131 с.

Оглавление диссертации кандидат наук Спирин Андрей Андреевич

Введение

Глава 1. Анализ состояния предметной области исследований.

Постановка задачи исследования

1.1 Анализ угроз утечек информации из корпоративных сетей и методы противодействия ей и модель нарушителя для угрозы утечек конфиденциальных данных

1.2 Таксономия методов классификации зашифрованных и сжатых данных средствами обнаружения и предотвращения утечек информации

1.3 Формальная постановка научной задачи исследования

1.4 Выводы по первой главе

Глава 2. Модель псевдослучайных последовательностей,

сформированных алгоритмами шифрования и сжатия данных, отличающаяся учетом их статистических характеристик

2.1 Функциональная модель классификации псевдослучайных последовательностей

2.2 Выбор математического аппарата для формирования классификатора ПСП

2.3 Модель псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, отличающаяся от аналогов учетом частот встречаемости бинарных подпоследовательностей ограниченной длины

2.4 Выводы по второй главе

Стр.

Глава 3. Метод классификации псевдослучайных

последовательностей, сформированных алгоритмами шифрования и сжатия данных, учитывающий дискриминирующую способность их статистических признаков

3.1 Метод классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных

3.2 Способ классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных

для защиты от утечки информации в зашифрованном виде

3.3 Выводы по третьей главе

Заключение

Список сокращений и условных обозначений

Словарь терминов

Список литературы

Список рисунков

Список таблиц

Приложение А. Результаты анализа исследований в

предметной области

Приложение Б. Алгоритм классификации ПСП

Приложение В. Акт внедрения результатов диссертационного

исследования

Рекомендованный список диссертаций по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК

Введение диссертации (часть автореферата) на тему «Защита от утечки информации на основе разделения зашифрованных и сжатых данных»

Введение

Современные информационные технологии развиваются очень стремительно, растет доступность образования в сфере высоких технологий и компьютерных наук. В настоящее время получить доступ к сведениям, позволяющим преодолеть механизмы защиты информации не представляет труда. Человек в современном обществе сталкивается с информационными системами повсеместно: на работе, дома, получая государственные услуги и записываясь на прием к врачу. Также велика доля персонала, имеющего доступ к базам данных клиентов, конфиденциальной информации компании и другим защищаемым информационным ресурсам.

Несмотря на развитие средств защиты информации, совершенствование механизмов защиты от кибер угроз, растет количество утечек конфиденциальных данных.

Одной из наиболее частых причин возрастающего количества утечек является наличие внутреннего нарушителя, способного соблюдать установленные меры и правила работы с конфиденциальными данными, но осуществлять передачу чувствительной информации за контролируемый информационный периметр организации.

Обеспечение информационной безопасности и пресечение действий внутреннего нарушителя осуществляется в основном посредством организационных мер. Выполняется тестирование, отбор кандидатов, проверка фактов их биографии и пр. Однако на протяжении времени могут измениться многие факторы, в том числе лояльность сотрудника.

Анализ инцидентов информационной безопасности, проводящийся аналитическими центрами компаний Info Watch и Positive Research свидетельствует о том, что в более 50 % случаях утечки конфиденциальной информации виновниками являлись внутренние нарушители.

В настоящее время защита от утечек реализуется средствами обнаружения и предотвращения утечек информации. Основными механизмами защиты являются методы, основанные на поиске сигнатур, цифровых слепков, регулярных выражений, применения алгоритмов машинного обучения и обнаружения аномалий.

Анализ исследований в предметной области позволил выявить практическую проблему существующих механизмов защиты: использование служебной информации присущей процессу хранения или передачи данных, низкая точность обнаружения зашифрованных данных по причине их схожести с высокоэнтропийными типами последовательностей. По этой причине задача классификации зашифрованных и сжатых данных является актуальной.

Степень разработанности темы. Проблеме защиты от утечек информации посвятили свои исследования отечественные и зарубежные ученые: Д.П. Зегжда, П.Д. Зегжда, В.П. Лось, A.A. Грушо, A.A. Шелупанов, Е.Ю. Павленко, Е.Б. Александрова и Р. Альшамари, П. Дорфингер, Г. Панхольцер, Ю. Ванг, 3. Жанг, К. Пападопулус, Д. Массей, А. Р. Хакпур, А. X. .luv. Наибольший вклад в область изучения, разработки и совершенствования методов классификации зашифрованных и сжатых данных внесли следующие ученые: B.C. Матвеева, А.П. Гетьман, М.К. Иконникова, Ф. Казино, К. Р. Чо, К. Патсакис, 3. Танг, X. Зенг, Ю. Шенг, Д. Хахн, Н. Апторп, Н. Фимстер и др. В ходе проведения исследований авторами разработаны методы классификации зашифрованных и сжатых данных, определены их достоинства и недостатки, практически реализованы и апробированы результаты проведенных исследований, установлены проблемные аспекты исследуемой области.

Объектом исследования являются псевдослучайные последовательности, сформированные алгоритмами шифрования и сжатия данных.

Предмет исследования: модели, методы и алгоритмы классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных.

Целью работы является повышение точности классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных.

Научная задача заключается в разработке метода классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных для защиты от утечки информации в зашифрованном виде и способа, его реализующего.

Для достижения поставленной цели необходимо решить следующие частные научные задачи:

1. Произвести анализ особенностей функционирования современных средств обнаружения и предотвращения утечек информации, выявить

существующие ограничения, связанные с обнаружением зашифрованных и сжатых данных и обосновать выбор признакового пространства для моделирования псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных.

2. Разработать модель псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, отличающуюся учетом их статистических характеристик.

3. Разработать метод классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, учитывающий дискриминирующую способность их статистических признаков.

4. Разработать способ классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных для защиты от утечки информации в зашифрованном виде.

5. Реализовать на практике способ классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных и оценить область его эффективного применения, проанализировать возникающие ошибки классификации.

Научная новизна:

1. Разработана модель псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, отличающаяся учетом их статистических характеристик.

2. Разработан метод классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, учитывающий дискриминирующую способность их статистических признаков.

3. Реализован способ классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных для защиты от утечки информации в зашифрованном виде.

Теоретическая значимость заключается в разработке модели псевдослучайных последовательностей, учитывающей статистические характеристики распределения байт и битовых последовательностей, и метода классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, имеющего точность выше, чем у аналогов, с учетом отсутствия служебных полей в анализируемых данных.

Практическая ценность заключается в повышении точности классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных для защиты от утечки информации в зашифрованном виде и отказе от контекстных признаков.

Методология и методы исследования. В ходе проведения диссертационного исследования использованы методы математического моделирования, математической статистики, теории распознавания образов.

Основные положения, выносимые на защиту:

1. Модель псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, отличающаяся учетом их статистических характеристик.

2. Метод классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, учитывающий дискриминирующую способность их статистических признаков.

3. Способ классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных для защиты от утечки информации в зашифрованном виде.

Достоверность полученных в настоящей диссертационной работе результатов подтверждается корректным использованием математического аппарата, применением апробированных математических моделей, результатами экспериментальных исследований, актом о внедрении результатов, положительными результатами обсуждений основных положений работы на научно-технических конференциях.

Апробация работы. Основные результаты работы докладывались на следующих конференциях:

— XXVIII, XXIX Научно-техническая конференция Методы и технические средства обеспечения безопасности информации (Санкт-Петербург, 2019, 2020);

— VIII Международная научно-техническая и научно-методическая конференция Актуальные проблемы инфотелекоммуникаций в науке и образовании (Санкт-Петербург, 2019);

— X. XI Международная научно-техническая конференция Безопасные информационные технологии (Москва, 2019, 2021);

— XXII Международная научно-практическая конференция РусКрипто 2020 (Москва, 2020);

— Всероссийский конкурс-конференция студентов и аспирантов по информационной безопасности 81ВШРО-2020 (Томск, 2020);

— Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов имени Е.В. Армейского (Москва, 2020, 2021);

— Международная конференция Иванниковские чтения 2020 (Орёл, 2020);

— XIII Всероссийская межведомственная научная конференция Актуальные направления развития систем охраны, специальной связи и информации для нужд органов государственной власти Российской Федерации (Орёл, 2021);

Личный вклад. Все выносимые на защиту научные результаты получены соискателем лично либо при его непосредственном участии. В работах по теме диссертации, опубликованных в соавторстве, соискателем выполнено следующее:

— проведен сравнительный анализ особенностей функционирования современных средств обнаружения и предотвращения утечек информации, выявлены существующие ограничения, связанные с обнаружением зашифрованных и сжатых данных;

— обоснован выбор признакового пространства для моделирования псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных;

— проведен сравнительный анализ алгоритмов машинного обучения в предметной области исследований;

— разработана модель псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, отличающаяся учетом их статистических характеристик;

— разработан метод классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, учитывающий дискриминирующую способность их статистических признаков;

— разработан способ классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных для защиты от утечки информации в зашифрованном виде;

— выполнена экспериментальная и аналитическая оценка основных параметров разработанного метода защиты от утечки информации.

Публикации. Основные результаты по теме диссертации изложены в 18 печатных изданиях, 4 из которых изданы в журналах, рекомендованных ВАК , 4 — в периодических научных журналах, индексируемых Web of Science и Scopus, 2 и других научных журналах, 8 и тезисах докладов, получено 2 свидетельства о государственной регистрации программ для ЭВМ, 1 патент на изобретение.

Объем и структура работы. Диссертация состоит из введения, трёх глав, заключения и одного приложения. Полный объём диссертации составляет 132 страницы, включая 38 рисунков и 12 таблиц. Список литературы содержит 166 наименований.

Глава 1. Анализ состояния предметной области исследований.

Постановка задачи исследования

Развитие информационных технологий и доступность образования в сфере высоких технологий определяют широкое применение систем передачи, хранения, обработки информации и, как следствие, угрозы безопасности информации. Бизнес процессы в современной организации невозможны без применения информационных систем и корпоративных сетей передачи данных. С каждым годом увеличиваются объемы обрабатываемых данных, внедряются новые информационные системы, в том числе обрабатывающие и хранящие конфиденциальную информацию различного уровня доступа. В то время как механизмы защиты от внешних угроз достигли гарантированных уровней защиты, то методы и способы противодействия внутреннему нарушителю (инсайдеру) развиты слабо, кроме того в большинстве документов, регламентирующих политику информационной безопасности компании, содержатся постулаты об отсутствии внутреннего нарушителя, что влечет за собой рост вероятности нарушения конфиденциальности защищаемой информации.

Согласно отчету экспертно-аналитического центра группы компаний ¡пйжа^Ь [1] доля внутренних нарушителей, как источников зарегистрированных случаев утечки конфиденциальных данных, за период с января по сентябрь 2020 г. составила более 79 %. В 77 % зарегистрированных случаях утечки были организованы умышленно.

В работе [2] отмечается, что типичными внутренними нарушителями являются рядовые сотрудники, занимающие техническую позицию, но не являющиеся привилегированными техническими пользователями. Объектом атаки выступает конфиденциальная информация, такая как исходники ПО, особенности производственных процессов, бизнес-планы, базы данных различных уровней, бухгалтерские отчеты, физическое оборудование и другая информация, которая может иметь какую-либо ценность для инсайдера лично, либо для получения им деловых преимуществ в будущем. Что касается длительности преступления, то активная деятельность внутреннего нарушителя, зачастую, продолжается от одного до трех месяцев [3]. Если же планируется увольнение, то в этот период входят такие события, как принятие решения об увольнении, период преступ-

и

ной активности и, чтобы минимизировать риск обнаружения, заметание следов

ИВ работе [4] рассматривается модель обработки данных в распределенной системе обнаружения вторжений и метод применения скрытых агентов для защиты от внутреннего нарушителя. Рассмотрено распределение функций по обработке информации между локальным агентом распределенной системы обнаружения вторжений и центральным узлом обработки данных. Описан метод сокрытия присутствия агента от пользователя системы при сохранении управления им со стороны оператора.

В работе [5] рассмотрена задача построения формализованной модели внутреннего нарушителя, которая может применяться как в государственных, так и в коммерческих организациях. Показано, что угрозы характеризуются интегральным набором векторных показателей, как количественных, так и качественных, для формализации которых требуется применение дискретной математики и теории нечетких множеств. Построена формализованная модель внутреннего нарушителя, основанная на многокритериальном ранжировании с применением рейтингового метода. Формализация нечеткой информации проведена на основе лингвистического подхода с переходом к единой количественной шкале. Рассмотрен пример определения уровня инсайдерской угрозы для группы сотрудников с построением семантических моделей. Показана невозможность применения традиционных методов экспертных оценок для определения большинства показателей. Проведен анализ байесовского подхода, доказана необходимость анализа большого числа статистических данных. Предложено использовать модель Шортлифа и Бьюкенена, которая позволяет делать выводы на основе неполных сведений об анализируемом объекте.

В исследовании [6] рассматриваются внутренние нарушители - физические лица, имеющие право доступа внутрь контролируемого периметра организации, включая пользователей, реализующих угрозы непосредственно на различных уровнях доступа к данным. Определение потенциала внутреннего нарушителя основывается на оценке возможностей реализации угроз безопасности информации предполагаемым злоумышленником. Актуальность внутреннего нарушителя определяется его положением в рейтинге или рейтинговой оценкой. Многокритериальное ранжирование предполагает также групповое ранжирование (кластеризацию или классификацию), т.е. отнесение сотрудников в упорядоченные группы (на основе линейного ранжирования). Главное достоин-

ство рейтингового метода - комплексный характер оценки уровня инсайдерской угрозы. Однако данный метод также имеет и ряд существенных недостатков:

— в связи с тем, что модель нарушителя содержит большое число показателей, зачастую имеющих корреляционные связи между собой, влияющих на уровень инсайдерской угрозы, возникают трудности в комплексной оценке уровня инсайдерских угроз по каждому сотруднику;

— невозможность применения одних и тех же арифметических операций для значений показателей модели нарушителя, измеряемых как в количественных, так и качественных шкалах;

— использованный в неформализованной модели естественный язык хорошо передает семантику предметной области и понятен аналитику, но практически не позволяет точно и однозначно описать сущности и их взаимосвязи, представленные в модели нарушителя;

— отсутствует формализованная процедура определения значений показателей.

В зарубежных исследованиях также отмечается необходимость принятия мер по противодействию внутренним нарушителям. Так в работе [7] отмечается, что согласно статистике Национального центра промышленной безопасности Южнокорейской республики около 80% утечек конфиденциальных данных произошли по вине бывших или текущих сотрудников организаций. Большинство утечек произошли из-за недостатотных мер по пресечению утечек и несовершенству средств по их обнаружению. Авторы отмечают важность защиты от внутренних нарушителей, однако отмечают, что большинство работ по обеспечению информационной безопасности связаны с защитой от внешних атак, что подтверждает актуальность проведенных исследований.

Основными источниками угроз для корпоративных сетей являются субъективные, вызванные действиями сотрудников и технические, относящиеся к особенностям создания, функционирования и обслуживания программных, аппаратных и программно-аппаратных средств [8]. В данных группах присутствует подкласс источников, относящийся к внутренним нарушителям. Кроме того, отмечается наличие угроз промышленного шпионажа, реализующегося также внутренним нарушителем или вредоносным программным обеспечением, в том числе различных botnet сетей.

Основным средством заражения и распространения вредоносного ПО являются botnet сети [9].

В работе [10] отмечается возможность передачи внутренними злоумышленниками защищаемой информации посредством сервисов электронной почты из контролируемого периметра организации. Для минимизации риска утечки конфиденциальных данных авторы предлагают формировать группы пользователей и рассчитывать риск утечки для каждой из них. Предложенный подход предполагает использование SIEM (security information and event managment) и DLP (data leakage prévention) систем.

Способы защиты от внутренних нарушителей посредством DLP-систем также описываются в работе [11].

В исследовании [12] приводится таксономия внутренних угроз конфиденциальных данных. В первую очередь авторы выделяют умышленные и неумышленные угрозы. Неумышленные угрозы могут быть реализованы из-за халатности сотрудников организации, незнания норм и правил работы с конфиденциальными данными, пренебрежения средствами и процедурами работы с защищаемыми данными и посредством методов социальной инженерии. Причиной утечки данных могут являться финансовые, личные, политические мотивы сотрудников.

Анализ сетевой активности корпоративной сети является ключевым компонентом раннего обнаружения и предотвращения угрозы безопасности информации, исходящих от внутренних нарушителей [13]. Записи событий безопасности и логи функционирования системы могут использоваться в реальным времени для анализа, однако их следует отфильтровывать, поскольку не все из них позволяют обнаружить угрозу информации. Авторы предлагают использовать глубокие нейронные сети без учителя, что позволит в реальном времени обнаруживать угрозы. Разработанная модель декомпозирует суммарное значение вероятности наступления угрозы информации посредством оценки аномального поведения каждого пользователя системы и процесса. Для оценки точности предложенного подхода использовалась метрика Recall, наиболее полно оценивающая обнаруживаемость какого-либо класса данных целиком, значение точности составило 95,53%.

Под безопасностью информации (данных) понимают состояние защищенности информации (данных), при котором обеспечены ее (их) конфиденциальность, доступность и целостность [14]. Под утечкой информации в широком смысле будем понимать неконтролируемое распространение защищаемой информации в результате ее разглашения, несанкционированного доступа к ин-

формации и получения защищаемой информации иностранными разведками [14]. В работе под утечкой данных понимается несанкционированный доступ к информации третьими лицами, организованный умышленно или непреднамеренно сотрудниками организации.

Таким образом, утечка информации является нарушением безопасности защищаемой информации, а именно нарушением свойства конфиденциальности. Кроме того, стоит отметить, что в современном обществе возросла ценность не только защищаемых государством данных, но также и корпоративной информации, не говоря про персональные данные, иски за разглашение которых составляют миллионы долларов США.

Для предотвращения реализации угрозы утечки конфиденциальных данных в корпоративных сетях применяют средства обнаружения и предотвращения утечек информации или БЬР-системы [15], являющиеся элементом системы информационной безопасности корпоративных сетей.

БЬР-системы представляют собой стремительно развивающийся продукт на рынке информационной безопасности, позволяющий снизить риск реализации угрозы утечки информации. Однако многие модели нарушителей, применяемые в организациях, в том числе государственных, не содержат в себе требований и, как следствие, мер защиты от внутренних нарушителей. Данный факт может являться одной из причин увеличения доли внутренних нарушителей в случаях утечки конфиденциальных данных.

Отсутствие в корпоративной моделях угроз информации внутреннего нарушителя обуславливается проведением различного рода организационных мер, например:

— контроль выполнения требований нормативных документов, регламентирующих обеспечение защиты информации;

— определение должностных лиц, ответственных за обеспечение информационной безопасности;

— установление порядка резервного копирования, восстановления и архивирования баз данных, находящихся на различных уровнях сетевой иерархии организации и порядка обновления антивирусных баз;

— установление порядка допуска лиц для проведения ремонтно-восстано-вительных работ программно-технических средств;

— установление порядка допуска лиц для проведения регламентных работ по обслуживанию помещений, технических средств в них и пр.

Описанных мер недостаточно, в случае наличия в организации внутреннего нарушителя. Выявление подобных сотрудников организационными мерами весьма затруднительно, а технические меры могут лишь способствовать расследованию инцидента информационной безопасности, но только в случае его обнаружения и задержания нарушителя.

Одним из возможных способов передачи информации за периметр организации, при соблюдении установленных правил безопасности, является её передача в зашифрованном или сжатом виде. В настоящее время существуют способы классификации зашифрованных и сжатых данных, однако они имеют ряд недостатков.

В последние годы кибератаки, особенно те, которые нацелены на системы хранения или обработки конфиденциальной информации, становятся все более профессиональными и подготовленными. Критические национальные инфраструктуры являются основными объектами кибератак, поскольку в них хранится и обрабатывается важнейшая информация, следовательно их защита становится проблемой, которая касается как организаций, так и целых государств [16]. Атаки на такие критические системы включают проникновение в их сеть и установку вредоносных инструментов или программ, которые могут раскрыть конфиденциальные данные или изменить поведение конкретного физического оборудования. Данная проблема обострилась в последнее время, учитывая деятельность внутренних нарушителей. Чтобы справиться с этой растущей тенденцией, ученые и технические специалисты объединяют усилия в попытке разработать новые системы и механизмы, которые могут защитить системы обработки информации. Наряду с другими превентивными механизмами безопасности, такими как контроль доступа и аутентификация, системы обнаружения вторжений (IDS) и системы противодействия утечкам информации (DLP) развертываются в качестве второй линии обороны.

Следует отметить, что системы обнаружения вторжений не могут противодействовать внутренним нарушителям, поскольку нацелены на другие механизмы и методы, используемые нарушителями.

Средства обнаружения и предотвращения утечек информации должны обеспечивать низкую частоту ложных тревог и высокую скорость обнаружения, не требуя значительных вычислительных мощностей для выполнения процедуры классификации данных. Последняя характеристика очень важна при развертывании данных средств в критически важных инфраструктурах, где

решающее значение имеет правильное и быстрое уведомление о происходящем инциденте информационной безопасности [17].

Анализ работ в области информационной безопасности относительно внутренних нарушителей позволяет сформировать модель угроз информации посредством организации ее утечки внутренним нарушителем.

1.1 Анализ угроз утечек информации из корпоративных сетей и методы противодействия ей и модель нарушителя для угрозы утечек конфиденциальных данных

Похожие диссертационные работы по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК

Список литературы диссертационного исследования кандидат наук Спирин Андрей Андреевич, 2022 год

Список литературы

1. InfoWatch. Утечки конфиденциальных данных / Info Watch. — 2020. — URL: https : / / www . infowatch . ru / analytics / reports / 30708 (дата обр. 01.03.2021).

2. Чемарев, Д. В. Модель анализа и оценки системы защиты информации от внутреннего нарушителя / Д. В. Чемарев // Информационная безопасность: вчера, сегодня, завтра. — 2019. — с. 71—77.

3. Кабанов, А. С. Методы социальной инженерии в сфере информационной безопасности и противодействие им / А. С. Кабанов, А. Б. Лось, А. В. Су-роев // Российский следователь. — 2015. — 18. — с. 32 37.

4. Штеренберг, С. И. Распределенная система обнаружения вторжений с защитой от внутреннего нарушителя / С. И. Штеренберг, М. А. Полтав-цева // Проблемы информационной безопасности. Компьютерные системы. _ 2018. - 2. - с. 59^68.

5. Сычев, В. М. Формализация модели внутреннего нарушителя информационной безопасности / В. М. Сычев // Вестник Московского государственного технического университета им. НЭ Баумана. Серия «Приборостроение». — 2015. — 2 (101).

6. Чернов, Д. В. Формализация модели нарушителя информационной безопасности АСУ ТП / Д. В. Чернов, А. А. Сычугов // Известия Тульского государственного университета. Технические науки. — 2018. — 10.

7. Park, Н.-С. A Study on Development of Internal Information Leak Symptom Detection Model by Using Internal Information Leak Scenario & Data Analytics / H.-C. Park, J.-S. Park, J. Kim // Journal of the Korea Institute of Information Security & Cryptology. — 2020. — т. 30, № 5. — с. 957^966.

8. Веденеев, А. В. Уязвимые элементы корпоративных сетей в условиях информационного конфликта / А. В. Веденеев // Радиолокация, навигация, связь. - 2019. - с. Ю2—107.

9. Self-adaptive system for the corporate area network resilience in the presence of botnet cyberattacks / S. Lysenko [и др.] // International Conference on Computer Networks. — Springer. 2018. — c. 385—401.

10. Shin, H.-J. A detection method of data leakage by cooperation of insiders / H.-J. Shin, M.-H. Kim // Int. J. Appl. Eng. Res. - 2017. - т. 12. -с. 13321—13327.

11. Mohd, N. Mitigating Insider Threats: A Case Study of Data Leak Prevention / N. Mohd, Z. Yunos // European Conference on Cyber Warfare and Security. — Academic Conferences International Limited. 2020. — c. 599^605.

12. Insight into insiders and it: A survey of insider threat taxonomies, analysis, modeling, and countermeasures / I. Homoliak [и др.] // ACM Computing Surveys (CSUR). - 2019. - т. 52, № 2. - с. 1 40.

13. Deep learning for unsupervised insider threat detection in structured cybersecurity data streams / A. Tuor [и др.] / / arXiv preprint arXiv:1710.00811. - 2017.

14. ГОСТ P 53114-2008 Защита информации. Обеспечение информационной безопасности в организации. Основные термины и определения. — М. : Стандартинформ, 2008. — 16 с.

15. Morozov, V. DLP systems as a modern information security control / V. Morozov, N. Miloslavskaya // First International Early Research Career Enhancement School on Biologically Inspired Cognitive Architectures. — Springer. 2017. - c. 296-301.

16. Cyber security of critical infrastructures / L. A. Maglaras [и др.] // let Express. — 2018. — т. 4, № 1. — с. 42^45.

17. A cybersecurity detection framework for supervisory control and data acquisition systems / T. Cruz [и др.] // IEEE Transactions on Industrial Informatics. - 2016. - т. 12, № 6. - с. 2236 2246.

18. ФСТЭК. Базовая модель угроз безопасности персональных данных при их обработке в информационных системах персональных данных (выписка) / ФСТЭК. - 2018.

19. ФСТЭК. Методика моделирования угроз безопасности информации / ФСТЭК. - 2020.

20. Le, D. С. Analyzing data granularity levels for insider threat detection using machine learning / D. C. Le, N. Zincir-Heywood, M. I. Heywood // IEEE Transactions on Network and Service Management. — 2020. — т. 17, № 1. — с. 30 44.

21. Detecting and preventing cyber insider threats: A survey / L. Liu [h pp.] // IEEE Communications Surveys & Tutorials. — 2018. — t. 20, № 2. — c. 1397—1417.

22. Optimizing feature selection for efficient encrypted traffic classification: A systematic approach / M. Shen |n ;ip.| // IEEE Network. — 2020. — t. 34, ..V" 4. - c. 20-27.

23. A statistical test suite for random and pseudorandom number generators for cryptographic applications : Tex. oth. / A. Rukhin [h ,np.] ; Booz-allen ; hamilton inc mclean va. — 2001.

24. Nelms, T. Execscent: Mining for new c&c domains in live networks with adaptive control protocol templates / T. Nelms, R. Perdisci, M. Ahamad // 22nd {USENIX} Security Symposium ({USENIX} Security 13). - 2013. -c. 589-604.

25. Perdisci, R. Scalable fine-grained behavioral clustering of http-based malware / R. Perdisci, D. Ariu, G. Giacinto // Computer Networks. — 2013. - t. 57, № 2. - c. 487-500.

26. Perdisci, R. Behavioral clustering of http-based malware and signature generation using malicious network traces / R. Perdisci, W. Lee, N. Feamster // NSDI. r. 10. - 2010. - c. 14.

27. Rafique, M. Z. Firma: Malware clustering and network signature generation with mixed network behaviors / M. Z. Rafique, J. Caballero // International Workshop on Recent Advances in Intrusion Detection. — Springer. 2013. — c. 144-163.

28. Disclosure: detecting botnet command and control servers through large-scale netflow analysis / L. Bilge [h ,np.] // Proceedings of the 28th Annual Computer Security Applications Conference. — 2012. — c. 129—138.

29. Botminer: Clustering analysis of network traffic for protocol-and structure-independent botnet detection / G. Gu [h ,np.]. — 2008.

30. Gu, G. BotSniffer: Detecting botnet command and control channels in network traffic / G. Gu, J. Zhang, W. Lee. - 2008.

31. Amirani, M. C. A new approach to content-based file type detection / M. C. Amirani, M. Toorani, A. Beheshti // 2008 IEEE Symposium on Computers and Communications. — IEEE. 2008. — c. 1103—1108.

32. Cheng, L. Enterprise data breach: causes, challenges, prevention, and future directions / L. Cheng, F. Liu, D. Yao // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. — 2017. — t. 7, № 5. — el211.

33. Wright, C. V. On inferring application protocol behaviors in encrypted network traffic / C. V. Wright, F. Monrose, G. M. Masson // Journal of Machine Learning Research. — 2006. — t. 7, Dec. — c. 2745 2769.

34. Automated mapping of large binary objects using primitive fragment type classification / G. Conti [h ,np.] // digital investigation. — 2010. — t. 7. — S3-S12.

35. Hjelmvik, E. Breaking and improving protocol obfuscation / E. Hjelmvik, W. John // Chalmers University of Technology, Tech. Rep. — 2010. — t. 123751.

36. Alshammari, R. Can encrypted traffic be identified without port numbers, IP addresses and payload inspection? / R. Alshammari, A. N. Zincir-Heywood // Computer networks. — 2011. — t. 55, № 6. — c. 1326—1350.

37. Dorfinger, P. Entropy estimation for real-time encrypted traffic identification (short paper) / P. Dorfinger, G. Panholzer, W. John // International workshop on traffic monitoring and analysis. — Springer. 2011. — c. 164 171.

38. Using entropy to classify traffic more deeply / Y. Wang [h ^p.] // 2011 IEEE Sixth International Conference on Networking, Architecture, and Storage. — IEEE. 2011. - c. 45-52.

39. Zhang, H. Detecting encrypted botnet traffic / H. Zhang, C. Papadopoulos, D. Massey // 2013 Proceedings IEEE INFOCOM. - IEEE. 2013. -c. 3453-1358.

40. Khakpour, A. R. An information-theoretical approach to high-speed flow nature identification / A. R. Khakpour, A. X. Liu // IEEE/ACM transactions on networking. - 2012. - t. 21, № 4. - c. 1076-1089.

41. Robust smartphone app identification via encrypted network traffic analysis / V. F. Taylor [h /i,p.] // IEEE Transactions on Information Forensics and Security. - 2017. - r. 13, № 1. - c. 63-78.

42. Hahn, D. Detecting compressed cleartext traffic from consumer internet of things devices / D. Hahn, N. Apthorpe, N. Feamster // arXiv preprint arXiv:1805.02722. - 2018.

43. Casino, F. Hedge: Efficient traffic classification of encrypted and compressed packets / F. Casino, K.-K. R. Choo, C. Patsakis // IEEE Transactions on Information Forensics and Security. — 2019. — т. 14. Л'° 11. с. 2916—2926.

44. Замарищ А. И. Современные методы устранения избыточности представления данных в цифровых системах передачи информации / А. И. Зи.марин. В. Л. Семенов // СПб.: ВИКУ имени АФ Можайского. — 1999.

45. Шишкин, Н. В. Обобщенная модель совместного представления структур префиксных кодов и сообщений избыточных форматов данных / Н. В. Шишкин, В. Л. Яковлев // Телекоммуникации. — 2007. — 10. — с. 2-6.

46. EnCoD: Distinguishing Compressed and Encrypted File Fragments / F. De Gaspari [и др.] // International Conference on Network and System Security. — Springer. 2020. — c. 42—62.

47. Commitee, O. 17th International ISC Conference on Information Security and Cryptology (ISCISC'2020) / O. Commitee. -.

48. Mam,un, M. S. I. An entropy based encrypted traffic classifier / M. S. I. Mamun, A. A. Ghorbani, N. Stakhanova // International Conference on Information and Communications Security. — Springer. 2015. — c. 282-294.

49. Classification of encrypted traffic with second-order markov chains and application attribute bigrams / M. Shen [и др.] // IEEE Transactions on Information Forensics and Security. — 2017. — т. 12, № 8. — с. 1830—1843.

50. Metric learning with statistical features for network traffic classification / Z. Zhang [и др.] // 2017 IEEE 36th International Performance Computing and Communications Conference (IPCCC). — IEEE. 2017. — c. 1—7.

51. TLS/SSL encrypted traffic classification with autoencoder and convolutional neural network / Y. Yang [и др.] // 2018 IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS). — IEEE. 2018. - c. 362-369.

52. Rethinking encrypted traffic classification: a multi-attribute associated fingerprint approach / Y. Chen [и др.] // 2019 IEEE 27th International Conference on Network Protocols (ICNP). - IEEE. 2019. - c. 1-11.

53. Obasi, Т. C. Encrypted Network Traffic Classification using Ensemble Learning Techniques : дис. ... канд. / Obasi ThankGod Chinedu. — Carleton University, 2020.

54. An empirical approach towards characterization of encrypted and unencrypted VoIP traffic / P. Choudhury [и др.] // Multimedia Tools and Applications. - 2020. - т. 79, № 1. - с. 603-631.

55. Encrypted traffic classification based on Gaussian mixture models and Hidden Markov Models / Z. Yao [и др.] // Journal of Network and Computer Applications. - 2020. - т. 166. - с. 102711.

56. Mitigation of Privacy Threats due to Encrypted Traffic Analysis through a Policy-Based Framework and MUD Profiles / G. Baldini [и др.] // Symmetry. - 2020. - т. 12, № 9. - с. 1576.

57. Sparse coding for n-gram feature extraction and training for file fragment classification / F. Wang [и др.] // IEEE Transactions on Information Forensics and Security. - 2018. - т. 13, № 10. - с. 2553-2562.

58. Karampidis, К. File type identification-computational intelligence for digital forensics / K. Karampidis, G. Papadourakis // Journal of Digital Forensics, Security and Law. - 2017. - т. 12, № 2. - с. 6.

59. Karampidis, К. Comparison of classification algorithms for file type detection a digital forensics perspective / K. Karampidis, E. Kavallieratou, G. Papadourakis // Polibits. — 2017. — т. 56. — с. 15—20.

60. Ануфриев, И. MATLAB 7 / И. Ануфриев, А. Смирнов, Е. Смирнова. — 2010.

61. The WEKA data mining software: an update / M. Hall [и др.] // ACM SIGKDD explorations newsletter. - 2009. - т. 11, № 1. - с. 10-18.

62. Srinivas, M. Forged File Detection and Steganographic content Identification (FFDASCI) using Deep Learning Techniques. / M. Srinivas, A. Nayak, A. Bhatt // CLEF (Working Notes). - 2019.

63. Overview of the ImageCLEFsecurity 2019: File Forgery Detection Tasks. / K. Karampidis [и др.] // CLEF (Working Notes). — 2019.

64. Detecting File Types Using Machine Learning Algorithms / S. K. Konaray [и др.] // 2019 Innovations in Intelligent Systems and Applications Conference (ASYU). - IEEE. - c. 1-4.

65. Using tf-idf to determine word relevance in document queries / J. Ramos [и др.] // Proceedings of the first instructional conference on machine learning, т. 242. - Citeseer. 2003. - c. 29-48.

66. Спирин, А. А. Исследование статистических свойств псевдослучайных последовательностей / А. А. Спирин, А. В. Козачок // Методы и технические средства обеспечения безопасности информации. XXVIII Научно-техническая конференция, т. 28. — Санкт-Петербургский политехнический университет Петра Великого. 2019. — с. 67—68. — URL: https: / / www.elibrary.ru / item.asp?id=38251162.

67. Spirin, A. A. Classification of sequences generated by compression and encryption algorithms / A. A. Spirin, A. V. Kozachok // Journal of Science and Technology on Information Security. — 2019. — Vol. 10, no. 2. — P. 3—8.

68. Спирин, А. А. О статистических свойствах алгоритмов сжатия и шифрования / А. А. Спирин, А. В. Козачок // Актуальные проблемы инфотеле-коммуникаций в науке и образовании. VIII Международная научно-техническая и научно-методическая конференция, т. 2. — СПбГУТ. 2019. — с. 350-353. - URL: http://www.sut.ru/doci/nauka/lAEA/APINO/8-APINO%202019.%20%D0%A2.2.pdf.

69. Yadav, S. Analysis of k-fold cross-validation over hold-out validation on colossal datasets for quality classification / S. Yadav, S. Shukla // 2016 IEEE 6th International conference on advanced computing (IACC). — IEEE. 2016. - c. 78-83.

70. A novel hierarchical intrusion detection system based on decision tree and rules-based models / A. Ahmim [и др.] // 2019 15th International Conference on Distributed Computing in Sensor Systems (DCOSS). — IEEE. 2019. — c. 228-233.

71. Powers, D. M. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation / D. M. Powers // arXiv preprint arXiv:2010.16061. - 2020.

72. Chicco, D. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation / D. Chicco, G. Jurman // BMC genomics. - 2020. - r. 21, № 1. - c. 1-13.

73. Carvalho, D. V. Machine learning interpretability: A survey on methods and metrics / D. V. Carvalho, E. M. Pereira, J. S. Cardoso // Electronics. — 2019. - t. 8, № 8. - c. 832.

74. Peering into the black box of artificial intelligence: evaluation metrics of machine learning methods / G. S. Handelman [h ,np.] // American Journal of Roentgenology. - 2019. - t. 212, № 1. - c. 38-43.

75. Flach, P. A. Precision-Recall-Gain Curves: PR Analysis Done Right. / P. A. Flach, M. Kull // NIPS. r. 15. - 2015.

76. Leventhal, L. Type 1 and type 2 errors in the statistical analysis of listening tests / L. Leventhal // Journal of the Audio Engineering Society. — 1986. — t. 34, № 6. - c. 437-453.

77. Optimizing F-measure: A tale of two approaches / Y. Nan [h ^p.] // arXiv preprint arXiv:1206.4625. - 2012.

78. Logistic discrimination based on G-mean and F-measure for imbalanced problem / H. Guo [h ^p.] // Journal of Intelligent & Fuzzy Systems. — 2016. — t. 31, № 3. - c. 1155-1166.

79. Spirin, A. A. Pseudo random sequences classification algorithm / A. A. Spirin, A. V. Kozachok // Journal of Science and Technology on Information Security. _ 2020. - Vol. 7, no. 1. — P. 1—13.

80. Bonett, D. Sample Size Planning for Behavioral Science Research / D. Bonett // University of California, Santa Cruz. 2016Retrieved from http://people. ucsc. edu dgbonett/sample. html. — 2019.

81. Guenther, W. C. A sample size formula for a non-central t test / W. C. Guenther // The American Statistician. - 1975. - r. 29, № 3. -c. 120-121.

82. Classification of pseudo-random sequences based on the random forest algorithm / A. A. Spirin [et al.] // Ivannikov Memorial Workshop Proceedings. — 2020. - P. 55-58.

83. Deep packet: A novel approach for encrypted traffic classification using deep learning / M. Lotfollahi [и др.] // Soft Computing. — 2020. — т. 24, № 3. — с. 1999-2012.

84. Tang, Z. Entropy-based feature extraction algorithm for encrypted and non-encrypted compressed traffic classification / Z. Tang, X. Zeng, Y. Sheng. — 2019.

85. Packer identification method based on byte sequences / B. Jung [и др.] // Concurrency and Computation: Practice and Experience. — 2020. — т. 32, № 8. - e5082.

86. A heuristic statistical testing based approach for encrypted network traffic identification / W. Niu [и др.] // IEEE Transactions on Vehicular Technology. - 2019. - т. 68, № 4. - с. 3843-3853.

87. Cutler, A. Random forests / A. Cutler, D. R. Cutler, J. R. Stevens // Ensemble machine learning. — Springer, 2012. — c. 157—175.

88. Рябко, Б. Я. Теоретико-информационный метод классификации текстов / Б. Я. Рябко, А. Е. Гуськов, И. В. Селиванова // Проблемы передачи информации. — 2017. — т. 53, № 3. — с. 100 111.

89. Furusho, Y. Roles of pre-training in deep neural networks from information theoretical perspective / Y. Furusho, T. Kubo, K. Ikeda // Neurocomputing. — 2017. — т. 248. — с. 76—79.

90. Laber, E. Minimization of Gini Impurity: NP-completeness and Approximation Algorithm via Connections with the k-means Problem / E. Laber, L. Murtinho // Electronic Notes in Theoretical Computer Science. - 2019. - т. 346. - с. 567-576.

91. Shannon, С. E. Prediction and entropy of printed English / С. E. Shannon // Bell system technical journal. — 1951. — т. 30, № 1. — с. 50—64.

92. Comparative analysis of decision tree classification algorithms / A. Priyam [и др.] // International Journal of current engineering and technology. — 2013. - т. 3, № 2. - c. 334-337.

93. Quinlan, J. R. Induction of decision trees / J. R. Quinlan // Machine learning. - 1986. - t. 1, № 1. - c. 81-106.

94. Quinlan, J. R. 04. 5: programs for machine learning / J. R. Quinlan. — Elsevier, 2014.

95. Classification and regression trees / L. Breiman [h ^p.]. — CRC press, 1984.

96. CART algorithm for spatial data: Application to environmental and ecological data / L. Bel [h ^p.] // Computational Statistics & Data Analysis. — 2009. — t. 53, № 8. - c. 3082-3093.

97. Breiman, L. Random forests / L. Breiman // Machine learning. — 2001. — t. 45, № 1. - c. 5-32.

98. Am,it, Y. Shape quantization and recognition with randomized trees / Y. Amit, D. Geman // Neural computation. — 1997. — t. 9, № 7. — c. 1545-1588.

99. Ho, T. K. The random subspace method for constructing decision forests / T. K. Ho // IEEE transactions on pattern analysis and machine intelligence. — 1998. _ p. 20, № 8. - c. 832-844.

100. Dietterich, T. G. Ensemble methods in machine learning / T. G. Dietterich // International workshop on multiple classifier systems. — Springer. 2000. — c. 1-15.

101. Biau,, G. A random forest guided tour / G. Biau, E. Scornet // Test. — 2016. - t. 25, № 2. - c. 197-227.

102. Analyzing bagging / P. Buhlmann, B. Yu [h ^p.] // The Annals of Statistics. — 2002. - t. 30, № 4. - c. 927-961.

103. A scalable bootstrap for massive data / A. Kleiner [h ^p.] // Journal of the Royal Statistical Society: Series B: Statistical Methodology. — 2014. — c. 795-816.

104. Wager, S. Confidence intervals for random forests: The jackknife and the infinitesimal jackknife / S. Wager, T. Hastie, B. Efron // The Journal of Machine Learning Research. — 2014. — t. 15, № 1. — c. 1625—1651.

105. Decision forests: A unified framework for classification, regression, density estimation, manifold learning and semi-supervised learning / A. Criminisi, J. Shotton, E. Konukoglu [h ^p.]. — 2012.

106. Zhang, H. Recursive partitioning and applications / H. Zhang, В. H. Singer. — Springer Science & Business Media, 2010.

107. Hastie, T. The elements of statistical learning: data mining, inference, and prediction / T. Hastie, R. Tibshirani, J. Friedman. — Springer Science & Business Media, 2009.

108. Izenman, A. J. Modern multivariate statistical techniques / A. J. Izenman // Regression, classification and manifold learning. — 2008. — т. 10. — с. 978—.

109. Спирин, А. А. Алгоритм классификации псевдослучайных последовательностей / А. А. Спирин, А. В. Козачок // Вестник воронежского государственного университета. Серия: системный анализ и информационные технологии. — 2020. — 1. — с. 87—98.

110. kNN algorithm with data-driven k value / D. Cheng [и др.] // International Conference on Advanced Data Mining and Applications. — Springer. 2014. — c. 499-512.

111. Efficient kNN classification with different numbers of nearest neighbors / S. Zhang [и др.] // IEEE transactions on neural networks and learning systems. - 2017. - т. 29, № 5. - с. 1774-1785.

112. Fuzzy KNN Method With Adaptive Nearest Neighbors / Z. Bian [и др.] // IEEE transactions on cybernetics. — 2020.

113. Pujari, M. Efficient Classification with an Improved Nearest Neighbor Algorithm / M. Pujari, C. Awati, S. Kharade // 2018 Fourth International Conference on Computing Communication Control and Automation (ICCUBEA). - IEEE. 2018. - c. 1-5.

114. Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / П. Флах. — Litres, 2019.

115. Eitrich, Т. Parallel tuning of support vector machine learning parameters for large and unbalanced data sets / T. Eitrich, B. Lang // International Symposium on Computational Life Science. — Springer. 2005. — c. 253—264.

116. Prediction of fatigue life of packaging EMC material based on RBF-SVM / H. Guo [и др.] // International Journal of Materials and Product Technology. - 2014. - т. 49, № 1. - с. 5-17.

117. Bishop, C. M. Pattern recognition and machine learning / C. M. Bishop. — springer, 2006.

118. Dixit, P. Deep Learning Algorithms for Cybersecurity Applications: A Technological and Status Review / P. Dixit, S. Silakari // Computer Science Review. - 2021. - r. 39. - c. 100317.

119. Li, T. A self-attention-based approach for named entity recognition in cybersecurity / T. Li, Y. Guo, A. Ju // 2019 15th International Conference on Computational Intelligence and Security (CIS). — IEEE. 2019. — c. 147 150.

120. Machine learning and deep learning methods for cybersecurity / Y. Xin |n ;ip.| // Ieee access. — 2018. — t. 6. — c. 35365—35381.

121. Sarker, I. H. Deep cybersecurity: a comprehensive overview from neural network and deep learning perspective / I. H. Sarker // SN Computer Science. - 2021. - r. 2, № 3. - c. 1-16.

122. A novel CNN based security guaranteed image watermarking generation scenario for smart city applications / D. Li [h ^p.] // Information Sciences. — 2019. - t. 479. - c. 432-447.

123. Li, Y. A hybrid malicious code detection method based on deep learning / Y. Li, R. Ma, R. Jiao // International Journal of Security and Its Applications. - 2015. - r. 9, № 5. - c. 205-216.

124. Bakli, P. Autoencoders, unsupervised learning, and deep architectures / P. Baldi // Proceedings of ICML workshop on unsupervised and transfer learning. — JMLR Workshop, Conference Proceedings. 2012. — c. 37—49.

125. Mohamed, A.-r. Acoustic modeling using deep belief networks / A.-r. Mohamed, G. E. Dahl, G. Hinton // IEEE transactions on audio, speech, and language processing. — 2011. — t. 20, № 1. — c. 14—22.

126. A feature-hybrid malware variants detection using CNN based opcode embedding and BPNN based API embedding / J. Zhang [h ^p.] // Computers k Security. - 2019. - r. 84. - c. 376-392.

127. Crafting adversarial input sequences for recurrent neural networks / N. Papernot [h ^p.] // MILCOM 2016-2016 IEEE Military Communications Conference. - IEEE. 2016. - c. 49-54.

128. Malware classification with recurrent networks / R. Pascanu [h pp.] // 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE. 2015. - c. 1916-1920.

129. Yu, D. Recent progresses in deep learning based acoustic models / D. Yu, J. Li // IEEE/CAA Journal of automatica sinica. — 2017. — r. 4, № 3. — c. 396-409.

130. Spatial image steganography based on generative adversarial network / J. Yang [h /i,p.] // arXiv preprint arXiv: 1804.07939. — 2018.

131. Asynchronous methods for deep reinforcement learning / V. Mnih [h /i,p.] // International conference on machine learning. — PMLR. 2016. — c. 1928-1937.

132. Abbas, Q. A comprehensive review of recent advances on deep vision systems / Q. Abbas, M. E. Ibrahim, M. A. Jaffar // Artificial Intelligence Review. — 2019. - t. 52, № 1. - c. 39-76.

133. Qureshi, A. S. Adaptive transfer learning in deep neural networks: Wind power prediction using knowledge transfer from region to region and between different task domains / A. S. Qureshi, A. Khan // Computational Intelligence. - 2019. - t. 35, № 4. - c. 1088-1112.

134. Stacked convolutional auto-encoders for hierarchical feature extraction / J. Masci [h /i,p.] // International conference on artificial neural networks. — Springer. 2011. — c. 52—59.

135. Hinton, G. E. A fast learning algorithm for deep belief nets / G. E. Hinton, S. Osindero, Y.-W. Teh // Neural computation. - 2006. - t. 18, № 7. -c. 1527-1554.

136. Mohamed, A.-r. Understanding how deep belief networks perform acoustic modelling / A.-r. Mohamed, G. Hinton, G. Penn // 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — IEEE. 2012. - c. 4273-4276.

137. Sutskever, I. The recurrent temporal restricted boltzmann machine / I. Sutskever, G. E. Hinton, G. W. Taylor // Advances in neural information processing systems. — 2009. — c. 1601—1608.

138. Muller, P. A generic approach to posterior integration and Gibbs sampling / P. Muller. — Purdue University, Department of Statistics, 1991.

139. Generative adversarial networks / I. J. Goodfellow [и др.] // arXiv preprint arXiv:1406.2661. - 2014.

140. Bae, S. Big-0 Notation / S. Bae // JavaScript Data Structures and Algorithms. — Springer, 2019. — c. 1—11.

141. Hassine, K. Important complexity reduction of random forest in multi-classification problem / K. Hassine, A. Erbad, R. Hamila // 2019 15th International Wireless Communications & Mobile Computing Conference (IWCMC). - IEEE. 2019. - c. 226-231.

142. Спирин, А. А. Алгоритм классификации псевдослучайных последовательностей на основе построения случайного леса / А. А. Спирин, А. В. Козачок, О. М. Голембиовская // Доклады ТУСУР. — 2020. — т. 23, Л" 3. - с. 55-60.

143. Kozachok, А. V. Model of Pseudo-Random Sequences Generated by Encryption and Compression Algorithms / A. V. Kozachok, A. A. Spirin // Programming and Computer Software. — 2021. — Vol. 47, no. 4. — P. 249—260.

144. Modeling of Pseudo-Random Sequences Generated by Data Encryption and Compression Algorithms / A. V. Kozachok [et al.] // CEUR Workshop proceedings. Vol. 3035. — Bauman Moscow State Technical University. 2021. — P. 98-106.

145. Cryptolock (and drop it): stopping ransomware attacks on user data / N. Scaife [и др.] // 2016 IEEE 36th International Conference on Distributed Computing Systems (ICDCS). - IEEE. 2016. - c. 303-312.

146. An investigation of byte n-gram features for malware classification / E. Raff [и др.] // Journal of Computer Virology and Hacking Techniques. — 2018. — т. 14, № 1. - c. 1-20.

147. Спирин, А. А. Моделирование псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных / А. А. Спирин, А. В. Козачок. — 2021. — URL: litf.ps: /www.elibrary.ru/ item.asp?id=42476608 (дата обр. 07.04.2021).

148. Козачок, А. Модель псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных / А. Козачок, А. Спирин // Программирование. — 2021. — 4. — с. 31—44.

149. Спирин, А. А. Подходы к классификации псевдослучайных последовательностей / А. А. Спирин, А. В. Козачок // Безопасные информационные технологии. X Международная научно-техническая конференция. —

2019. - с. 191—195. - URL: littps: www.elilmny.rn item.aspYid 42476608 (дата обр. 09.12.2020).

150. Спирин, А. А. Подход к классификации последовательностей, сформированных алгоритмами сжатия и шифрования / А. А. Спирин, А. В. Козачок // XXII конференция «РусКрипто 2020». — 2020. — URL: littps: //www.ruscrypto.ru/resource/arcliive/rc2020/files/05_kozacliok_spirin.pdf (дата обр. 12.09.2020).

151. Спирин, А. А. Классификация последовательностей, сформированных алгоритмами сжатия и шифрования / А. А. Спирин, А. В. Козачок // Методы и технические средства обеспечения безопасности информации. XXIX научно-техническая конференция. — 2020. — с. Ю5—107. — URL: https://www.elibrary.ru/item.asp?id=44017301 (дата обр. 09.12.2020).

152. Generalizing Fault Detection Against Domain Shifts Using Stratification-Aware Cross-Validation / Y. Tan [и др.] // arXiv preprint arXiv:2008.08713. —

2020.

153. Матвеева, В. С. Энтропия и ее использование для решения задач информационной безопасности / В. С. Матвеева // Безопасность информационных технологий. — 2014. — т. 21, № 3.

154. Lightgbm: A highly efficient gradient boosting decision tree / G. Ke [и др.] // Advances in neural information processing systems. — 2017. — т. 30. — с. 3146-3154.

155. Спирин, А. А. Подход к классификации псевдослучайных последовательностей / А. А. Спирин // Ежегодная межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов им. Е.В. Армейского. — НИУ ВШЭ. 2020. — с. 19. — URL: https://miem.hse.ru/ mirror/pubs/share/344671975.pdf (дата обр. 09.12.2020).

156. Спирин, А. А. Бинарная классификации псевдослучайных последовательностей / А. А. Спирин // Ежегодная межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов им. Е.В.

Армейского. — НИУ ВШЭ. 2021. — с. 19. — URL: littps: /miem.hse.ru/ mirror/pubs/share/344671975.pdf (дата обр. 09.12.2020).

157. Рашка, С. Python и машинное обучение / С. Рашка // М.: ДМК Пресс. — 2017.

158. A meta-analysis of overfitting in machine learning / R. Roelofs [и др.] // Advances in Neural Information Processing Systems. — 2019. — т. 32. — с. 9179-9189.

159. Программный модуль обнаружения компьютерных атак на Веб-приложения на основе применения методов машинного обучения, адаптирующийся под защищаемый ресурс : Свидетельство о государственной регистрации программы для ЭВМ № 2019618401 от 01.07.2019 / А. А. Спирин, А. В. Козачок, М. Т. Нгуен. — заявл. 01.07.2019.

160. Программный модуль статистического анализа данных на основе методов машинного обучения : Свидетельство о государственной регистрации программы для ЭВМ № 2019618572 от 02.07.2019 / А. А. Спирин, А. В. Козачок. — заявл. 2019.

161. Способ раннего обнаружения деструктивных воздействий Botnet на сеть связи : Патент на изобретение № 2731467 от 03.09.2020 / А. А. Спирин [и др.]. — заявл. 03.09.2020.

162. Спирин, А. А. Предложения по раннему обнаружению деструктивных воздействий Botnet на компьютерные сети связи / А. А. Спирин, М. М. Добрышин, А. Д. Лактионов // Телекоммуникации. — 2020. — 12. — с. 25-29.

163. Predicting likelihood of legitimate data loss in email DLP / M. F. Faiz [и др.] // Future Generation Computer Systems. — 2020. — т. 110. — с. 744-757.

164. Artificial intelligence and cybersecurity: Past, presence, and future / Т. C. Truong [и др.] // Artificial Intelligence and Evolutionary Computations in Engineering Systems. — Springer, 2020. — c. 351—363.

165. Rudd, E. M. Meade: Towards a malicious email attachment detection engine / E. M. Rudd, R. Harang, J. Saxe // 2018 IEEE International Symposium on Technologies for Homeland Security (HST). — IEEE. 2018. — c. 1—7.

166. Kozachok, A. Construction and evaluation of the new heuristic malware detection mechanism based on executable files static analysis / A. Kozachok, V. Kozachok // Journal of Computer Virology and Hacking Techniques. — 2018. - t. 14, № 3. - c. 225-231.

Список рисунков

1.1 Схема процесса утечки информации, реализованная внутренним нарушителем................................................................21

1.2 Статистика зафиксированных утечек информации по источнику за январь-сентябрь 2020 г......................................................22

1.3 Классификация методов, применяемых в DLP-системах ..............24

2.1 Функциональная модель процесса формирования классификатора . 39

2.2 Процедура стратифицированного выбора &-групп......................39

2.3 Матрица ошибок при проведении бинарной классификации ПСП . . 41

2.4 Пример классификации ПСП..............................................42

2.5 Дерево решений на основе признаков vv ................................48

2.6 Графическая интерпретация алгоритма к ближайших соседей .... 53

2.7 Графическая интерпретация метода опорных векторов................55

2.8 Архитектура сверточных нейронных сетей..............................57

2.9 Архитектура автокодировщиков..........................................58

2.10 Архитектура глубоких сетей доверия....................................59

2.11 Архитектура рекуррентных нейронных сетей............................60

2.12 Архитектура рекуррентных нейронных сетей............................61

2.13 Распределение байт для зашифрованных и сжатых последовательностей........................................................67

2.14 Диаграммы размаха значений р-value тестов NIST для различных типов ПСП..................................................................70

2.15 Зависимость точности классификации ПСП алгоритмом построения случайного леса от длины подпоследовательностей, используемой моделью ПСП и времени извлечения признаков для одной последовательности..................................................74

2.16 Распределение частот встречаемости 9-битных подпоследовательностей в ПСП ..........................................75

2.17 Алгоритм редуцирования признакового пространства модели ПСП . 77

3.1 Разработанный алгоритм классификации зашифрованных и

сжатых данных..............................................................81

3.2 Сравнение мер неоднородности............................................83

3.3 Баланс между смещением и дисперсией при классификации данных 86

3.4 Смещение и дисперсия при классификации данных....................86

3.5 Эффекты переобучения и недообученного классификатора............87

3.6 Алгоритм извлечения признаков из ПСП................................88

3.7 Алгоритм раннего обнаружения деструктивных воздействий Bot net

на сеть связи................................................................92

3.8 Техническое решение проблемы раннего обнаружения воздействия botnet........................................................................93

3.9 Блок-схема внедрения модуля статистического анализа данных в существующие DLP-системы..............................................94

3.10 Блок-схема внедрения модуля статистического анализа данных в сервер электронной почты Exim..........................................96

3.11 Оценка точности классификатора от числа используемых

признаков модели ПСП....................................................99

3.12 Оценка точности классификатора от максимальной глубины деревьев 99

3.13 Оценка точности классификатора от числа используемых деревьев

в ансамбле случайного леса........................100

3.14 Оценка точности классификатора от минимального размера ПСП . . 100

3.15 Зависимость точности классификатора от типа исходных данных . . 101

Б.1 Алгоритм классификации ПСП .....................129

В.1 Акт внедрения результатов диссертационного исследования в ООО

"Системы защиты информации"!....................131

В.2 Акт внедрения результатов диссертационного исследования в ООО

"Системы защиты информации"2....................132

Список таблиц

1 Значение уровня показателей опасности................. 20

2 Уровень опасности угрозы безопасности информации......... 20

3 Выборка файлов для проведения экспериментов по выбору математического аппарата классификатора............... 45

4 Оценка точности классификации ПСП алгоритмами машинного обучения при использовании модели на основе распределения байт

и частот подпоследовательностей длины 9 бит............. 46

5 Оценка точности классификации ПСП алгоритмами машинного обучения при использовании модели на основе распределения байт

и частот подпоследовательностей длины 9 бит............. 63

6 Проверка гипотезы о равномерности распределения байт в ПСП ... 67

7 Статистические признаки распределения значений энтропии байт в ПСП..................................... 69

8 Оценка точности классификации алгоритмами машинного обучения

при использовании модели ПСП на основе тестов МЯТ........ 71

9 Оценка точности классификации алгоритмами машинного обучения при использовании модели ПСП на основе частот 9 битных подпоследовательностей.......................... 74

10 Сравнение результатов исследований с аналогичными работами в предметной области............................ 98

11 Оценка тестовой выборки методом перекрестной проверки для 10 групп....................................101

12 Результаты анализа исследований в предметной области.......128

Приложение А Результаты анализа исследований в предметной области

Таблица 12 — Результаты анализа исследований в предметной области

Авторы Год Объект Признаки Алгоритм Рез-ты

[48] 2016 Трафик Энтропия ДР 0,981

[49] 2017 Трафик СИ Цепи Маркова 0,912

[50] 2017 Трафик СИ, распределение байт kNN 0,952

[58; 59] 2017 Искаженные файлы Распределение байт ГА, НС 100%

[57] 2018 Файлы Подпоследовательности байт MOB 0,607

[51] 2018 Трафик СИ, распределение байт СПМ, СПС 0,979

[52] 2019 Трафик СИ, трассы DNS XGBoost 0,987

[84] 2019 Файлы, трафик Энтропия MOB, С Л Файлы - 0,72 Трафик - 0,979

[62] 2019 Файлы Распределение байт СНС 0,99

[64] 2019 Файлы Распределение подпоследовательностей XGBoost 98,84 %

[43] 2019 Файлы, трафик Тесты NIST, энтропия HEDGE 0,72 %

[53] 2020 Трафик СИ СНС, СЛ, ДР 0,96

[54] 2020 Трафик СИ, распределение байт Автокорреляция 100 %

[53] 2020 Трафик СИ СНС, СЛ, ДР 0,96

[55] 2020 Трафик СИ, СХ СЦМ 0,99

[56] 2020 Трафик СИ, СХ MOB 0,8

[22] 2020 Трафик СИ, СХ СЛ 0,882

[46] 2020 Файлы Распределение байт НС 80-100 %

Приложение Б Алгоритм классификации ПСП

Data: ПСП р, классификатор К . Y Result: Класс у ПСП р

1 Fq,v

2 State ^<>;

3 Мр ^ Leп(р);

4 for v Е V do

Nv ^ Len(v);

nv ^ Count (p,v); _ n„

Jp,v

p'u Mp — Nv + 1 Fq;v _ Fq,v U fp,v;

9 for b e Б do

10 щ ^ Count(&,s);

11 bytesp ^< Ь,пъ >;

12 FQ,E ^ FQ,E U bytesp]

13 stdp _ Std(byteSp);

14 minp _ Nlm(byteSp); is maXp _ M-aji(byteSp); 16 deltap _ maXp — minp;

FqeE ^ FqeU < stdp,minp,maXp,deltap >;

18 State ^ Next(k);

19 while State[7] _ True do

20 21 22 23

if fp,state[2] > State[3] then

State ^ Nex.tBAght(State) GIsg

State ^ NextLeft (State)

24 yp ^ State[4};

25 return yp

Рисунок Б.1 — Алгоритм классификации ПСП

Приложение В

Акт внедрения результатов диссертационного исследования

УТВЕРЖДАЮ Генеральный директор ООО Системы защиты информации О.М.Голембиовская "29" марта 2021 г.

АКТ РЕАЛИЗАЦИИ практических результатов диссертационных исследований Спирина Андрея Андреевича

на соискание ученой степени кандидата технических наук по научной специальности 05.13.19.

Комиссия в составе: председателя Голембиовской Оксаны Михайловны и членов: Синюковой Юлии Александровны, Банникова Артура Игоревича рассмотрела результаты диссертационных исследований Спирина Андрея Андреевича на тему: "Алгоритм классификации псевдослучайных последовательностей, сформированных алгоритмами шифрования и сжатия данных, учитывающий дискриминирующую способность их статистических признаков", а именно:

1. Модель псевдослучайных последовательностей.

2. Алгоритм классификации псевдослучайных последовательностей, учитывающий дискриминирующую способность статистических признаков на основе оценки их значимости с использованием построения случайного леса.

3. Научно технические предложения по улучшению существующих средств обеспечения информационной безопасности за счет внедрения алгоритма классификации псевдослучайных последовательностей в корпоративные сети.

Разработанная модель псевдослучайных последовательностей учитывает частоты появления бинарных подпоследовательностей длины 9 бит, являющиеся статистическими признаками и позволяет расширить существующие модели на основе распределения байт и оценок энтропии путем ввода признаков из нового вероятностного пространства.

Алгоритм классификации псевдослучайных последовательностей, учитывающий дискриминирующую способность признаков на основе оценки их значимости с использованием алгоритма построения случайного леса, реализованный в виде программного модуля, повышает точность классификации зашифрованных и сжатых данных, что позволяет улучшить существующие механизмы защиты информации от несанкционированного распространения.

Разработан прототип программного комплекса статистического анализа данных, основными функциями которого являются:

-внедрение в существующие программные средства обнаружения и предотвращения утечек информации разработанного алгоритма классификации ПСП;

- обнаружение зашифрованных и сжатых данных на основе статистических признаков без учета заголовков и расширений файлов;

-точность классификации файлов, указанных в работе форматов, составила 0,97. Время классификации одного файла размером 600 Кб занимает 0,5±0,03 секунды.

Результаты исследования имеют теоретическую и практическую значимость и используются в ООО Системы защиты информации при проведении научно-исследовательских работ по совершенствованию средств обнаружения и предотвращения утечек информации.

Председатель комиссии

/

О.М.Голембиовская

Члены комиссии

Ю.А.Синюкова

А. И. Банников

"29" марта 2021 г.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.