Классификация IP-трафика в компьютерной сети с использованием алгоритмов машинного обучения

Ванюшина Анна Вячеславовна

Классификация IP-трафика в компьютерной сети с использованием алгоритмов машинного обучения тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат наук Ванюшина Анна Вячеславовна

Ванюшина Анна Вячеславовна
кандидат наук
2020

Специальность ВАК РФ05.13.15

Количество страниц 205

Ванюшина Анна Вячеславовна. Классификация IP-трафика в компьютерной сети с использованием алгоритмов машинного обучения: дис. кандидат наук: 05.13.15 - Вычислительные машины и системы. ФГБОУ ВО «МИРЭА - Российский технологический университет». 2020. 205 с.

Оглавление диссертации кандидат наук Ванюшина Анна Вячеславовна

1.1. Современное состояние, задачи и проблемы классификации IP-трафика

1.2. Объекты, классы и признаки классификации IP-трафика

1.3. Методы и алгоритмы классификации сетевого трафика

1.4. Постановка задачи исследования

ГЛАВА 2. КОНТРОЛИРУЕМАЯ КЛАССИФИКАЦИЯ ПРИЛОЖЕНИЙ,

ИСПОЛЬЗУЮЩИХ СТЕК TCP/IP

2.1. Формирование исходных данных и анализ программного обеспечения

2.2. Влияние структуры обучающей выборки на эффективность классификации приложений

2.3. Сравнительные оценки алгоритмов выделения информативных признаков

2.4. Влияние объема обучающей выборки на качество классификации

2.4.1. Сравнение оценок качества классификации по пакетам и потокам

2.4.2. Результаты классификации на этапе тестирования

2.4.3. Результаты классификации на этапе обучения

2.5. Эффективность алгоритма RF в задачах классификации приложений

2.5.1. Формирование данных

2.5.2. Методология решения задачи классификации с помощью алгоритма Random Forest

2.5.3. Результаты классификации

2.6. Выводы по второй главе

ГЛАВА 3. КЛАССИФИКАЦИЯ ПРИЛОЖЕНИЙ В УСЛОВИЯХ

АПРИОРНОЙ НЕОПРЕДЕЛЕННОСТИ

3.1. Влияние фонового трафика на качество классификации

3.2. Неконтролируемая кластеризация сетевого трафика

3.2.1. Технологии кластеризации

3.2.2. Метрики оценки качества кластеризации

3.3. Сравнительный анализ алгоритмов кластеризации в условиях фонового трафика

3.3.1. Алгоритм k-средних

3.3.2. Алгоритм DBSCAN

3.3.3. Сравнительный анализ алгоритмов контролируемого и неконтролируемого обучения

3.4. Классификация с дополнительным классом «Неизвестное приложение»

3.5. Потоковая классификация приложений в условиях смещения концепта

потоков данных

3.5.1. Постановка задачи

3.5.2. Анализ статистических характеристик атрибутов приложений

3.5.3. Алгоритм обнаружения смены концепта по критерию Фишера

3.5.4. Потоковая классификация при смене концепта

3.6. Выводы по третьей главе

ГЛАВА 4. РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ

РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ МЕТОДОМ МАШИННОГО

ОБУЧЕНИЯ В РЕАЛЬНОМ МАСШТАБЕ ВРЕМЕНИ

4.1. Программная реализация модулей разработанного программного обеспечения

4.1.1. Структура программного обеспечения

4.1.2. Модуль обработки пакетов, выделения потоков и признаков

4.2. Особенности использования разработанной системы классификации

4.3. Выводы по четвертой главе

ОБЩИЕ ВЫВОДЫ И ЗАКЛЮЧЕНИЕ

СПИСОК СОКРАЩЕНИЙ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ

Введение диссертации (часть автореферата) на тему «Классификация IP-трафика в компьютерной сети с использованием алгоритмов машинного обучения»

Введение

Актуальность темы исследования. Классификация IP-трафика. является важной задачей для управления трафиком, улучшения технико-экономических, эксплуатационных характеристик и защиты компьютерных сетей (КС), поскольку позволяет определить тип и структуру приложения, которое является его источником. Системы классификации сетевого трафика используются в широком спектре сетевых функций и приложений: обеспечение качества связи (QoS, QoE), выполнение политик информационной безопасности, в том числе при разработке алгоритмов и программного обеспечения, обеспечивающих контроль, диагностику состояния КС и выявление сетевых проблем, сбор статистических данных и т.д.

Традиционные методы классификация сетевого трафика (например, классификация по номерам портов протоколов транспортного уровня) обладают рядом существенных недостатков, что является причиной роста исследований в этом направлении. Существенный рост объемов и видов сетевых протоколов за последние годы повышают актуальность проблемы разработки методик и алгоритмов классификации трафика с пониженной вычислительной сложностью. Особо остро стоит задача классификации трафика с использованием проколов шифрования.

Одним из наиболее перспективных направлений классификации сетевого трафика являются статистические методы, основанные на выявлении и анализе статистических характеристик трафика. Наиболее перспективными здесь являются технологии машинного обучения (МО, aHra.ML, Machine Learning) и интеллектуального анализа данных (НАД, aHra.DM, Data Mining), получившие широкое распространение в смежных областях науки.

Степень разработанности темы. В диссертационном исследовании решается задача обучения по прецедентам - классификация объектов на основе известной совокупности их признаков (атрибутов), с целью совершенствования теоретической и технической базы компьютерных сетей, обладающих высокими качественными и эксплуатационными показателями, на примере использование стека TCP/IP. Задача заключается в отнесении объекта к одному из заранее заданных, непересекающихся классов, по правилам которые извлекаются из обучающей выборки, содержащей аналогичные, но уже классифицированные объекты.

Теоретическую базу диссертации в области методов MO и ИАД составили работы таких ученых, как Айвазян С.А., Айзерман М.А., Барсегян A.A., Загоруйко Н.Г., Вапник В.Н., Воронцов КВ., Mitchell Т., Hastie Т., Tibshirani R., Friedman J.T, Xu K., Zhang Z., Bhattacharyya S., Heckerman J.D. и др., выполненных преимущественно в области экономических исследований, которые, как оказалось, можно встроить в предмет сетевых и телекоммуникационных исследований.

Отдельные вопросы построения и исследования классификации трафика с помощью метода ML рассматривались в трудах Большева А.К., Гетьмана А.И., Зубкова Е.В., Котенко И.В., Козьмовского Д.В., Михайлова А.Ю., Маркина Ю.В., Назарова А.О., Петровского М.И., Сатарова A.C., Шелухина О.И., Щербаковой Н.Г., M.Pietrzyk, Z.Chen, B.Yang, J.Erman, K. Balachandran, J.H.Broberg, T.Bujlow, V.Carela-Español, C.C. Aggarwal, Y.Wang, J.Erman, M.Arlitt, A.Mahanti и др.

Однако в работах этих авторов не получили достаточного отражения теоретические и практические вопросы классификации приложений в КС использующих стек протоколов TCP/IP в условиях априорной неопределенности (наличии «фонового» трафика), а также оценки эффективности различных алгоритмов, реализующих методы МО при потоковом режиме поступления данных. Вышесказанное обусловливает

научную актуальность настоящего исследования в области эффективной классификации IP-трафика на основе методов машинного обучения.

Цели и задачи исследования повышение эффективности классификации приложений сетевого трафика компьютерных сетей в условиях априорной неопределенности методами машинного обучения.

Решаемые задачи:

Для достижения цели в настоящей работе решены следующие задачи:

1. Экспериментальные исследования функционирования КС с целью обоснования рациональной структуры и объема обучающей и тестирующей выборок анализируемых сетевых приложений, и оценка их влияния на эффективность классификации методами МО.

2. Повышение защищенности КС, использующих телекоммуникационные технологии; анализ полученных численных оценок эффективности алгоритмов классификации сетевых приложений в условиях априорной неопределенности структуры анализируемых данных при потоковом режиме их поступления.

3. Разработка и реализация алгоритма обнаружения смены концепта при потоковом режиме поступления данных на основе текущего анализа статистических характеристик анализируемых приложений в КС, использующих стек TCP/IP.

4. Разработка специального программного обеспечения для обеспечения контроля и диагностики функционирования КС путем автоматической классификации анализируемых приложений методом машинного обучения .

Научная новизна.

1. Впервые показано, что для сохранения высокой эффективности обработки анализируемых приложений в КС, использующих стек протоколов TCP/IP (FTP, Web, Mail, SSH, Skype) можно до 50% сократить число анализируемых признаков (атрибутов), что незначительно (не более чем на 5.. ,7%о) снижает достоверность классификации.

2. Показано, что путем применения специальной обработки приложений с

6

использованием МО можно улучшить взаимодействие и защиту КС. При этом для обеспечения высокой достоверности (не ниже 95%) при большом объеме измерений и уменьшенном числе необходимых атрибутов наилучшим образом подходят алгоритмы классификации C4.5 и Random Forest (RF) .

3. Для преодоления проблемы априорной неопределенности анализируемых приложений в КС, построенных с использованием телекоммуникационных технологий введен в рассмотрение дополнительный класс «Неизвестное приложение», показавший результаты, незначительно уступающие по качественным показателям результатам классификации «с учителем».

4. Для контроля за изменением текущих статистических характеристик анализируемых атрибутов приложений в КС, построенных с использованием телекоммуникационных технологий разработан новый алгоритм обнаружения смещения концепта наблюдаемого потока данных с помощью двух скользящих окон.

Теоретическая и практическая значимость работы. Теоретическая значимость работы состоит в:

- численных результатах классификации приложений по потокам и пакетам в КС использующих стек протоколов TCP/IP методом машинного обучения;

- научно-обоснованных рекомендациях по выбору параметров исследуемых алгоритмов в условиях априорной неопределенности, в том числе в режиме реального времени;

- предложенном методе классификации приложений в КС использующих стек протоколов TCP/IP, с дополнительным классом «Неизвестное приложение», показавшем высокую эффективность по сравнению с обычно используемыми методами, что позволит повысить защищенность КС в условиях априорной неопределенности методами МО;

- новом алгоритме обнаружения «смены концепта» наблюдаемого потока с помощью двух скользящих окон, контролирующих изменение

текущих статистических характеристик атрибутов анализируемых приложений КС;

Практическая значимость работы заключается в:

- в возможности реализации разработанных алгоритмов классификации и обнаружения смены концепта в потоковом режиме в задачах обработки приложений в КС, построенных с использованием различных телекоммуникационных технологий;

- разработке специального программного обеспечения (СПО) для обеспечения контроля и диагностики функционирования КС использующих стек протоколов TCP/IP путем автоматической классификации приложений, в том числе в реальном масштабе времени;

- использовании результатов работы в аппаратно-программных комплексах в ТБ КЦ ПАО «МТС», ООО «Эльстер Метроника» и учебном процессе МТУСИ.

Методология и методы исследования. В работе используются методы исследования теория вероятности, математическая статистика, математическое имитационное моделирование, машинного обучения и интеллектуального анализа (обработки) данных.

Положения, выносимые на защиту:

1. Экспериментальные результаты исследования функционирования компьютерных сетей, рациональную структуру и объем обучающей и тестирующей выборок анализируемых приложений, оценки их влияния на эффективность классификации с помощью алгоритмов МО, показавшие, что для достижения точности не менее 99,5% достаточно обработать не более 35 последовательных пакетов.

2. Количественный состав и структура атрибутов, необходимых для

эффективной классификации приложений в КС использующих стек

протоколов TCP/IP, позволившие сократить их число на 33%, при

незначительном (не более чем на 5...7%) снижении достоверности

правильной классификации но значительном упрощении процесс обработки

8

анализируемых данных.

3. Способ преодоления проблемы априорной неопределенности анализируемых приложений в КС, построенных с использованием телекоммуникационных технологий, путем введения в рассмотрение дополнительного класса «Неизвестное приложение», показавший что при его использовании снижение вероятности ложной классификации может достигать более 30%, при снижении достоверности правильной классификации не более 2,5% , что значительно превосходит эффективность алгоритмов кластеризации k-Means и DBSCAN.

4. Алгоритм обнаружения «смены концепта» наблюдаемого потока данных в КС, построенных с использованием телекоммуникационных технологий, указывающий на необходимость обновления текущей модели классификации и отличающийся от известных более высоким быстродействием за счет учета статистических характеристик анализируемых атрибутов приложений.

Степень достоверности и апробация результатов. Достоверность результатов исследования подтверждается: корректным использованием современного математического аппарата; достаточно широкой апробацией результатов, подтверждением адекватности моделей численными экспериментами на базе долговременной выборки реального 1Р-трафика ЦОД.

Основные результаты исследования были представлены и получили положительную оценку на Международном форуме информатизации (Москва, 2014-2017 гг.), международной научно-технической конференции «Телекоммуникационные и вычислительные системы» (Москва, 2017г., 2018г.), на отраслевой научно-технической конференции «Технологии информационного общества» (Москва, 2007-15 гг.2017-2018гг.), XXII Международной научной конференции ^ЕС0№-2019г.).

Разработанное автором программное обеспечение для решения задачи классификации методами машинного обучения в реальном масштабе

9

времени внедрено в ТБ КЦ ПАО «МТС» и ООО «Эльстер Метроника», а полученные теоретические результаты использованы в учебном процессе МТУСИ, что подтверждено соответствующими актами.

Глава 1. Задачи и проблемы классификации приложений КС использующих стек протоколов TCP/IP методами машинного обучения

1.1. Современное состояние, задачи и проблемы классификации 1Р-

трафика

Проблема контроля доступа к Интернет-ресурсам актуальна и имеет важное прикладное значение по следующим основным причинам: блокирование доступа к нелегальной (экстремистской, антисоциальной и т.п.) информации, предотвращение доступа к Интернет-ресурсам в личных целях в учебное или рабочее время, предотвращение утечки конфиденциальной информации через Интернет, не соответствующее политике или нежелательное поведение пользователей, вредоносные программы и атаки, которые обычно используют непроверяемый канал зашифрованного трафика HTTPS.

Первая задача, которая встает перед администраторами, это определить, какой тип сетевого трафика генерируется пользователями. Трафик может быть вредоносным (например, кража данных или разведка сети), неприемлемым и нарушающим политику (например, использование служб обмена файлами) или выходящим за рамки обычных бизнес-процессов (например, генерирование трафика в нерабочее время). Приложения, соответствующие вредоносному трафику, называют нежелательными.

Это могут быть потенциально опасные приложения. У разных сетевых приложений (для использования социальных сетей, служб обмена мгновенными сообщениями, служб обмена файлами, одноранговых служб и др.) разные риски безопасности. Они могут ставить под угрозу данные и системные активы, влиять на производительность труда сотрудников и использовать пропускную способность сети.

На сегодняшний день существует множество как коммерческих, так и

некоммерческих продуктов, решающих подобные задачи. К наиболее

11

распространённым коммерческим продуктам можно отнести: WebSense [1], NetNanny [2] и множество других. Среди open-source решений стоит отметить Poesia [3].

Основные количественные показатели при оценке работы систем фильтрации Интернет-трафика следующие:

- точность анализа - процент верно отфильтрованных Интернет-ресурсов;

- излишнее блокирование или ложноположительные ошибки - процент «хороших» ресурсов, ошибочно запрещенных системой фильтрации.

Исследования сетевого трафика показали, что он представляет собой сложный динамический процесс, и является суперпозицией многих потоков с множественными взаимосвязанными характеристиками, которые генерируются различными протоколами. В общем случае, целью классификации сетевого трафика является отображение потока сетевых данных в определенные типы приложений или классы трафиков. Задача классификации заключается в разбиении объектов на классы. Объекты в пределах одного класса считаются эквивалентными с точки зрения критерия разбиения.

Для решения известных проблем классификации широкое распространение получили технологии машинного обучения (МО) (ML-Machine Learning), оказавшиеся наиболее эффективными. Такие методы позволят разрабатываемой системе легко адаптироваться к постоянно изменяющейся природе Интернет ресурсов и учитывать специфику анализа сетевого трафика.

Большинство методов МО изучают отношение между заданным набором свойств (например, номер порта, размер потока, интервалы между пакетами) и конкретным приложением. Этот набор свойств используется для создания модели, которая в дальнейшем используется для идентификации сетевого трафика в режиме онлайн. Сетевые приложения используют методы скрытия протокола, которые произвольно меняют характеристики их трафика, что

влияет на точность индентификации сетевого трафика.

12

Эти методы обнаруживают в режиме «офф-лайн», некоторые образцы трафика приложений, основанные на наборе свойств. Методы МО используют наборы данных (обычно помеченные), из которых извлекаются подобные наборы свойств. Эта информация используется в качестве входных данных, и на ее основе формируются различные структуры (деревья, кластеры), зависящие от используемого метода. Полученная структура используется для классификации непомеченных образцов, при этом подразумевается, что свойства еще неизвестных образцов будут иметь схожее поведение с уже известными.

Формально задача классификации сетевого трафика определяется следующим образом [4]. Пусть дано множество потоков сетевых данных, X = {f1f2, ■■■, fn}, где каждый поток сетевых данных f характеризуется p

множеством атрибутов (xi1Xi2, , xíp} и множеством классов трафика C = (C1C2, ■■■, Ck} .Требуется определить такое отображение, f: X ^ C при котором

каждый поток h соответствовал только одному классу трафика. В качестве атрибутов сетевых данных могут использоваться средняя длина пакета, средняя продолжительность, размер потока и т.д., а в качестве классов трафика Web, Peer-toPeer, FTP, и т.д.

Исследования показывают, что для успешной классификации сетевого трафика необходимо хранить или обрабатывать весь проходящий через сеть трафик. Однако хранение или обработка такого большого объема трафика на современных высокоскоростных линиях требует дорогого и высоко производительного оборудования. Для решения этой проблемы можно применять сэмплинг (sample) пакетов - то есть использовать только каждый n-ый пакет для анализа всего трафика. Подобное решение может заметно снизить требование к производительности оборудования. Кроме того, существуют технологии, позволяющие получать сведения о потоках при прореживании пакетов (например, Sampled NetFlow). При применении сэмплирования следует учитывать, что свойства потоков будут искажаться

из-за того, что не все пакеты, принадлежащие потоку, будут доступны для анализа.

Требования использования ограниченных ресурсов и высокой пропускной способности работающих сетей, вместе с распространением приложений сэмплирования пакетов препятствуют внедрению современных технологий классификации.

В частности, анализ существующих решений классификации с помощью МО трафика показывает, что имеют место следующие проблемы:

- большинство технологий МО работают только с пакетными трассировками, которые требует внедрения дополнительного (часто дорогого) оборудования;

- влияние прореживания пакетов на классификацию трафика все еще недостаточно изучено, несмотря на то, что такая технология часто используется сетевыми операторами.

1.2. Объекты, классы и признаки классификации IP-трафика

В контексте классификации сетевого трафика, объектом классификации являются сетевые потоки, состоящие из последовательности сетевых пакетов, которыми обмениваются пара узлов с целью межпроцессного взаимодействия через компьютерные сети.

Другим основным понятием в классификации сетевого трафика является понятие класса. Существует множество определений класса в этой области, так как сетевой трафик может быть разделен на классы по разным критериям, таким как протокол уровня приложений, структура сети и т.д. Для общих целей классификации трафика существует два наиболее широко используемых определения — это конкретный протокол приложения (FTP, HTTP, SMTP) и группа похожих приложений (web — серфинг, почтовые клиенты и т.д.). В данном случае первое относится к идентификации протокола, а второе — к категории классификации. Также нужно заметить, что для определенных целей определение класса может быть проще

14

(нормальный и аномальный) или более сложным (конкретные реализации или версии протоколов). Класс обычно указывает на 1Р-трафик, сформированный приложением или группой приложений.

Перед классификацией необходимо определить признаки, которые в наибольшей степени влияют на конечную точность.

1.3. Методы и алгоритмы классификации сетевого трафика

В основе классификации сетевого трафика (Рисунок 1.1) лежит анализ номеров портов пакетов на транспортном уровне (классификация, основанная на портах), восстановление сигнатуры протокола из его полезной нагрузки (классификация, основанная на полезной нагрузке), статистических методов анализа характеристик обмена пакетами между хостами и статистических свойств сетевого трафика. Каждый из подходов обладает своими достоинствами и недостатками.

Рисунок 1.1. Классификации сетевого трафика

Традиционные методы классификации сетевого трафика, основанные как на номерах портов, так и на информационной нагрузке, полагаются на прямое изучение сетевых пакетов. Схема классификации по портам проверяет заголовки пакета. Анализируются поля заголовка, содержащие

15

номера портов источника и получателя, а затем определяется протокол приложения согласно списку зарегистрированных известных номеров портов, который поддерживается организацией IANA (Internet Assigned Numbers Authority) [5].

Классификация трафика по портам интегрирована в большинство современных сетевых устройств и ПО. Это эффективный и быстрый подход к идентификации протоколов приложений в первое время использования сети Интернет, когда большая часть приложений использовали их стандартные номера портов, зарегистрированные в IANA [5]. Тем не менее, с того момента, как получили своё развитие приложения на протоколе P2P, который зачастую выбирает произвольные номера портов для того, чтобы избежать обнаружения и фильтрации, метод классификации по портам становился всё менее и менее точным.

В [6] была расширена работа по идентификации P2P трафика путем объединения маркировки номеров портов, подтверждения сигнатур протоколов и ассоциирования хостов. Эти методики были применены для анализа тенденции P2P трафика в данных из магистральной линии связи, собранных в августе 2002, мае 2003 и январе 2004. Результаты показали, что доля P2P трафика продолжала увеличиваться, в то время как использование зарегистрированных портов наоборот, сильно уменьшилось. Таким образом, уменьшение объема P2P трафика, как это показал метод, основанный на номерах портов, оказалось ложным.

В [7] исследовался трафик пяти популярных P2P протоколов, включая BitTorrent, eDonkey, Gnutella, Kazaa, and Direct Connect, на основе разработанных сигнатур протоколов. Результаты, полученные из набора данных Интернет трафика и VPN показали, что большинство трафика BitTorrent и eDonkey использует зарегистрированные порты, в то время как большая доля трафика Gnutella (34%), Direct Connect (38%) и Kazaa (72%) пользуется нестандартными номерами портов.

В [8] исследовалась неточность классификации трафика по номерам портов путем идентификации и подсчёта различных типов ошибок. Работа основана на наборе данных с полной полезной нагрузкой пакетов, собранном в сети Gbase Ethernet в кампусе Genome, включающем несколько учреждений и сооружений, выполняющих работы в области биологии. Схема классификации трафика состояла из девяти методов, таких как анализ номеров портов, анализ заголовков пакетов, сопоставление сигнатур в нагрузке одного пакета, анализ семантики протокола в нагрузке одного пакета, сопоставление сигнатур протоколов в первых K-байтах нагрузки потока, декодирование протокола в контрольных потоках, декодирование протокола во всех потоках, анализ истории взаимодействий хостов. Результаты показали, что классификация трафика по портам не только недооценивает трафик для одних классов (около 20% трафика BULK и 6% WWW трафика), но также и переоценивает трафик других классов (около 0.5% трафика INTERACTIVE). В общем и целом, классификация по портам правильно идентифицирует примерно 70% всего трафика в наборе данных Genome.

К примеру, порт под номером 80 используется для передачи веб -трафика (HTTP), а порт 21 - для передачи файлов по протоколу FTP. Такой подход очень эффективен, поскольку включает в себя только лишь поверхностный анализ заголовка пакета и последующий поиск по сортированному списку целочисленных значений.

Тем не менее, широко распространено мнение, что классификация по портам в настоящее время становится всё более неточной и ненадежной по ряду причин.

Во-первых, некоторые приложения, как например FTP, создают несколько соединений для одной единственной сессии, причем для контрольного соединения используется порт по умолчанию, а сами данные могут передаваться через динамически выбранные незарегистрированные порты.

Во-вторых, некоторые приложения могут не иметь зарегистрированного для них номера порта, что особенно проявляется у недавно созданных приложений.

В-третьих, некоторые приложения могут целенаправленно использовать вместо стандартного иные известные порты, чтобы обойти файерволлы [4]. Кроме того, они могут «обертывать» свой трафик в другие известные протоколы (технология туннелирования).

В-четвертых, широко распространена в сети Интернет технология трансляции адресов NAT(Network Address Translation) по причине сокращающегося количества IPv4 адресов. Эта технология основана на изменении изначальных номеров портов в пакете по мере того, как они проходят через шлюзы NAT.

Ранние попытки исследований классификации, основанной на полезной нагрузке [9] были посвящены конструированию библиотеки сигнатур протоколов и проблеме масштабируемости в глубоком анализе пакетов. С этой целью в некоторых работах представлен набор сигнатур протоколов, которые были вручную выделены из доступных спецификаций протоколов и наборов данных. Однако, вычислительные затраты глубокого анализа пакетов значительно выше, нежели при анализе номеров портов. В результате, были предложены новые подходы для быстрого и эффективного поиска сигнатур протоколов в нагрузке пакетов, которые были призваны позволить использовать классификацию, основанную на нагрузке, в высокоскоростных сетях (Рисунок 1.2).

Как упоминалось выше, подходы, основанные на нагрузке, использовались, чтобы показать неточность классификации по портам. В частности, в [7] были разработаны сигнатуры протоколов для пяти P2P приложений, включая BitTorrent, eDonkey, Gnutella, Kazaa, and Direct Connec, на основе ручного анализа как спецификаций протокола, так и собранных наборов данных.

Сигнатуры были спроектированы для сравнения с первыми несколькими пакетами в соединении TCP и представляли собой фиксированные строчки на определенной или различных позициях внутри нагрузки TCP пакетов.

Классификация, основанная на полезной нагрузке

Основана на анализе взаимодействия хостов

Рисунок 1.2. Классификация, основанная на полезной нагрузке

В работе использовались два набора данных для тестирования сигнатур, которые в итоге генерировали редкие ложноположительные ошибки (идентифицируя нe-P2P трафик как P2P) и менее 10% ложноотрицательных решений (идентифицируя P2P трафик как нe-P2P). Как часть эвристики для идентификации P2P трафика, в [5-6] был выделен набор байтовых последовательностей — сигнатур, которые сопоставлялись с контрольными пакетами и пакетами с данными восьми популярных P2P протоколов. Строчки были спроектированы для сравнения с первыми 4-мя байтами пакетной нагрузки, что связано с ограничениями в использованных наборах данных (где пакеты были объемом 44 байта максимум). Как результат, набор сигнатур порождал сравнительно высокое количество ложноположительных ошибок.

Список литературы диссертационного исследования кандидат наук Ванюшина Анна Вячеславовна, 2020 год

Список литературы

1. Forcepoint (Raytheon|Websense) Internet Security Software: коммерческая система фильтрация трафика Websense. Режим доступа https://www.forcepoint.com (дата обращения: 21.03.2017).

2. NetNanny Parental Control: коммерческая система родительского контроля детского доступа в Интернет. Режим доступа https://www.netnanny.com (дата обращения: 21.03.2017).

3. Present and Future of Open-source Content-based Web Filtering: настоящее и будущее систем контентной фильтрации веб-трафика с открытыми исходными кодамиЛЬС-Режим доступа

http://www.ilc.cnr.it/poesia_prg/POESIA_FinalWorkshop_Program.htm (дата обращения: 10.04.2017).

4. Щербакова Н.Г. Анализ IP-трафика методами Data Mining. Проблема классификации // Проблемы информатики. 2012. № 4. С. 30-46.

5. Internet Assigned Numbers Authority (IANA). Режим доступа: http:// www.iana.org (дата обращения: 13.02.2017).

6. Thomas Karagiannis, Andre Broido, Nevil Brownlee, K. C. Claffy, and Michalis Faloutsos, «Is P2P Dying or Just Hiding?», in Proceedings of the 2004 IEEE Global Telecommunications Conference (GL0BEC0M'04) - Global Internet and Next Generation Networks, vol. 3, p. 1532-1538, Dallas, Texas, USA, 2004.

7. Subhabrata Sen, Oliver Spatscheck, and Dongmei Wang, «Accurate Scalable In-Network Identification of P2P Traffic Using Application Signatures», in Proceedings of the 13th international conference on World (WWW'04), p. 512521, New York, NY, USA, 2004.

8. Andrew W. Moore and Konstantina Papagiannaki, «Toward the Accurate Identification of Network Applications», in Proceedings of the 6th International Conference on Passive and Active Network Measurement (PAM'05), p. 41-54, Boston, Massachusetts, USA, 2005.

9. F. Risso, M. Baldi, O. Morandi, A. Baldini, and P. Monclus, «Lightweight Payload-Based Traffic Classification: An Experimental Evaluation», in Proceedings of IEEE International Conference on Communications (ICC' 08), p. 5869-5875, Beijing, China, 2008.

10. Wireshark.//http://http://www.wireshark.org (дата обращения: 16.05.2017).

11. Martin Roesch, «Snort - Lightweight Intrusion Detection for Networks», in Proceedings of the 13th USENIX conference on System Administration (LISA'99), p. 229-238, Seattle, Washington, 1999.

12. Vern Paxson, «Bro: a system for detecting network intruders in real-time», Computer Networks, vol. 31, no. 23-24, p. 2435-2463, 1999.

13. L7-filter - Application Layer Packet Classifier for Linux. http://l7-filter.sourceforge.net.

14. Official IPP2P homepage.// www.ipp2p.org (дата обращения: 8.06.2017).

15. Sailesh Kumar, Sarang Dharmapurikar, Fang Yu, Patrick Crowley, and Jonathan Turner, «Algorithms to Accelerate Multiple Regular Expressions Matching for Deep Packet Inspection», ACM SIGCOMM Computer Communication Review, vol. 36, no. 4, p. 339-350, ACM, New York, NY, USA, 2006.

16. Sailesh Kumar, Jonathan Turner, and John Williams, "Advanced Algorithms for Fast and Scalable Deep Packet Inspection", in Proceedings of the 2006 ACM/IEEE symposium on Architecture for networking and communications systems (ANCS'06), p. 81-92, San Jose, CA, USA, 2006.

17. Domenico Ficara, Stefano Giordano, Gregorio Procissi, Fabio Vitucci, Gianni Antichi, and Andrea Di Pietro, «An Improved DFA for Fast Regular Expression Matching», ACM SIGCOMM Computer Communication Review, vol. 38, no. 5, p. 29-40, ACM, New York, NY, USA, 2008.

18. Fang Yu, Zhifeng Chen, Yanlei Diao, T. V. Lakshman, and Randy H. Katz, «Fast and Memory-Efficient Regular Expression Matching for Deep Packet Inspection», in Proceedings of the 2006 ACM/IEEE Symposium on Architecture

for Networking and Communications Systems (ANCS'06), p. 93-102, San Jose, California, USA, 2006.

19. Niccolo' Cascarano, Pierluigi Rolando, Fulvio Risso, and Riccardo Sisto, «iNFAnt: NFA pattern matching on GPGPU devices», ACM SIGCOMM Computer Communication Review, vol. 40, no. 5, p. 20-26, ACM, New York, NY, USA, 2010.

20. Abhishek Mitra, Walid Najjar, and Laxmi Bhuyan, «Compiling PCRE to FPGA for accelerating SNORT IDS», in Proceedings of the 3rd ACM/IEEE Symposium on Architecture for networking and communications systems (ANCS'07), p. 127-136, Orlando, Florida, USA, 2007.

21. Patrick Haffner, Subhabrata Sen, Oliver Spatscheck, and Dongmei Wang, «ACAS: Automated Construction of Application Signatures», in Proceed ings of the 2005 ACM SIGCOMM Workshop on Mining Network Data (MineNet'05), p. 197-202, Philadelphia, Pennsylvania, USA, 2005.

22. Justin Ma, Kirill Levchenko, Christian Kreibich, Stefan Savage, and Geoffrey M. Voelker, «Unexpected Means of Protocol Inference», in Proceedings of the 6th ACM SIGCOMM Conference on Internet Measurement (IMC'06), p. 313-326, Rio de Janeriro, Brazil, 2006.

23. Alessandro Finamore, Marco Mellia, Michela Meo, and Dario Rossi, «KISS: Stochastic Packet Inspection Classifier for UDP Traffic», IEEE/ACM Transactions on Networking, vol. 18, no. 5, p. 1505-1515, IEEE Press, Piscataway, New Jersey, USA, 2010.

24. Byung-Chul Park, Young J. Won, Myung-Sup Kim, and James W. Hong, «Towards Automated Application Signature Generation for Traffic Identification», in Proceedings of the 2008 Network Operations and Management Symposium (NOMS'08), p. 160-167, Salvador, Bahia, 2008.

25. Mingjiang Ye, Ke Xu, Jianping Wu, and Hu Po, «AutoSig-Automatically Generating Signatures for Applications», in Proceedings of the 2009 Ninth IEEE International Conference on Computer and Information Technology (CIT'09), vol. 02, p. 104-109, Xiamen, China, 2009.

26. Hyang-Ah Kim and Brad Karp, «Autograph: toward automated, distributed worm signature detection», in Proceedings of the 13th USENIX Security Symposium (SSYM'04), vol. 13, San Diego, CA, USA, 2004.

27. James Newsome, Brad Karp, and Dawn Song, «Polygraph: Automatically Generating Signatures for Polymorphic Worms», in Proceedings of the 2005 IEEE Symposium on Security and Privacy (S&P'05), p. 226-241, Berkeley/Oakland, CA, USA, 2005.

28. Zhichun Li, Manan Sanghi, Yan Chen, Ming-Yang Kao, and Brian Chavez, «Hamsa: Fast Signature Generation for Zero-day Polymorphic Worms with Provable Attack Resilience», in Proceedings of the 2006 IEEE Symposium on Security and Privacy (S&P'06), p. 32-47, Berkeley/Oakland, CA, USA, 2006.

29. Yong Tang, Bin Xiao, and Xicheng Lu, «Using a bioinformatics approach to generate accurate exploit-based signatures for polymorphic worms», Computers & Security, vol. 28, no. 8, p. 827-842, Elsevier, 2009.

30. Mario Baldi, Fulvio Risso. «NetPDL: An Extensible XML-Based Language for Packet Header Description». In Elsevier Computer Networks Journal (COMNET), Volume 50, Issue 5, p.688-706, April 2006.

31. Cisco Systems. «Network Based Application Recognition (NBAR)».

32. Opher Reviv. «Inside network programming with SML». EE Times, August 2003.

33. A. Moore and K. Papagiannaki, «Toward the accurate identification of network applications», in Proc. Passive and Active Measurement Workshop (PAM2005), Boston, MA, USA, March/April 2005.

34. Ruoming Pang, Vern Paxson, Robin Sommer, Larry Peterson. «Binpac: a yacc

for writing application protocol parsers». In Proceedings of the 6th ACM SIGCOMM on Internet Measurement, p.289-300, Rio de Janeiro, Brazil, October 2006

35. S. Sen, O. Spatscheck, and D. Wang, «Accurate, scalable in network identification of P2P traffic using application signatures», in WWW2004, New York, NY, USA, May 2004.

36. Vern Paxson, «Empirically derived analytic models of wide-area TCP connections»,

IEEE/ACM Transactions on Networking, vol. 2, no. 4, p. 316- 336, IEEE Press, Piscataway, NJ, USA, 1994.

37. Kimberly C. Claffy, Hans-Werner Braun, and George C. Polyzos, «A parameterizable methodology for Internet traffic flow profiling», IEEE Journal on Selected Areas in Communications, vol. 13, no. 8, p. 1481-1494, IEEE Press, Piscataway, NJ, USA, 1995.

38. Christian Dewes, Arne Wichmann, and Anja Feldmann, «An analysis of Internet chat systems», in Proceedings of the 3rd ACM SIGCOMM Conference on Internet Measurement (IMC'03), p. 51-64, Miami Beach, FL, USA, 2003.

39. Tanja Lang, Philip Branch, and Grenville Armitage, «A Synthetic Traffic Model for Quake3», in Proceedings of the 2004 ACM SIGCHI International Conference on Advances in computer entertainment technology (ACE'04), p. 233238, Singapore, 2004.

40. Sebastian Zander and Grenville Armitage, «A Traffic Model for the Xbox Game Halo 2», in Proceedings of the International Workshop on Network and Operating Systems Support for Digital Audio and Video (NOSSDAV' 05), p. 1318, Stevenson, Washington, USA, 2005.

41. Dario Bonfiglio, Marco Mellia, Michela Meo, Dario Rossi, and Paolo Tofanelli, «Revealing Skype Traffic: When Randomness Plays with You», ACM SIGCOMM Computer Communication Review, vol. 37, no. 4, p. 37-48, ACM, New York, NY, USA, 2007.

42. Phillipa Gill, Martin Arlitt, Zongpeng Li, and Anirban Mahanti, «Youtube traffic characterization: a view from the edge», in Proceedings of the 7th ACM SIGCOMM conference on Internet measurement (IMC'07), p. 15-28, San Diego, California, USA, 2007.

43. Arthur Callado, Carlos Kamienski, Géza Szabo, Balazs Péter Gero, Judith Kelner, Stênio Fernandes, and Djamel Sadok, «A Survey on Internet Traffic

Identification», IEEE Communications Surveys & Tutorials, vol. 11, no.3, p. 3752, IEEE Press, Piscataway, New Jersey, USA, 2009.

44. Thuy T.T. Nguyen and Grenville Armitage, «A Survey of Techniques for Internet Traffic Classification using Machine Learning», IEEE Communications Surveys & Tutorials, vol. 10, no. 4, p. 56-76, IEEE Press, Piscataway, New Jersey, USA, 2008.

45. Ian H. Witten and Eibe Frank, «Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations (Second Edition)», Morgan Kaufmann Publishers, 2005.

46. Richard O. Duda, Peter E. Hart, and David G. Stork, «Pattern Classification (Second Edition)», Wiley, 2001.

47. Matthew Roughan, Subhabrata Sen, Oliver Spatscheck, and Nick Duffield, «Class-of-Service Mapping for QoS: a Statistical Signature-Based Approach to IP Traffic Classification», in Proceedings of the 4th ACM SIGCOMM Conference on Internet Measurement (IMC'04), p. 135-148, Taormina, Sicily, Italy, 2004.

48. Augustin Soule, Kave Salamatia, Nina Taft, Richard Emilion, and Konstantina Papagiannaki, «Flow Classification by Histograms or How to Go on Safari in the Internet», in Proceedings of the joint international conference on Measurement and modeling of computer systems (SIGMETRICS' 04/Performance'04), p. 49-60, New York, NY, USA, 2004.

49. Andrew Moore, Denis Zuev, and Michael Crogan, «Discriminators for Use in Flow-Based Classification», Technical Report RR-05-13, Department of Computer Science, Queen Mary, University of London, 2005.

50. Denis Zuev and Andrew W. Moore, «Traffic Classification using a Statistical Approach», in Proceedings of the 6th international conference on Passive and Active Network Measurement (PAM'05), p. 321-324, Boston, MA, USA, 2005.

51. Andrew W. Moore and Denis Zuev, «Internet Traffic Classification Using Bayesian Analysis Techniques», in Proceedings of the 2005 ACM International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS'05), p. 50-60, Banff, Alberta, Canada, 2005.

155

52. Tom Auld, Andrew W. Moore, and Stephen F. Gull, «Bayesian Neural Networks for Internet Traffic Classification», IEEE Transactions on Neural Networks, vol.18, no.1, p. 223-239, IEEE Press, Piscataway, New Jersey, USA, 2007.

53. Manuel Crotti, Francesco Gringoli, Paolo Pelosato, and Luca Salgarelli, «A Statistical Approach to IP-level Classification of Network Traffic», in Proceedings of IEEE International Conference on Communications (ICC'06), vol. 1, p. 170176, Istanbul, Turkey, 2006.

54. Manuel Crotti, Maurizio Dusi, Francesco Gringoli, and Luca Salgarelli, «Traffic Classification through Simple Statistical Fingerprinting», ACM SIGCOMM Computer Communication Review, vol. 37, no. 1, p. 5-16, ACM, New York, NY, USA, 2007.

55. Manuel Crotti, Maurizio Dusi, Francesco Gringoli, and Luca Salgarelli, «Detecting HTTP Tunnels with Statistical Mechanisms», in Proceedings of IEEE International Conference on Communications (ICC'07), p. 6162- 6168, Glasgow, Scotland, 2007.

56. Alice Este, Francesco Gringoli, and Luca Salgarelli, «Support Vector Machines for TCP Traffic Classification», Computer Networks, vol. 53, no. 14, p. 24762490, Elsevier North-Holland, Inc., New York, NY, USA, 2009.

57. Thuy T.T. Nguyen and Grenville Armitage, «Training on multiple subflows to optimise the use of Machine Learning classifiers in real-world IP networks», in Proceedings of the 31st IEEE Conference on Local Computer Networks (LCN'06), p. 369-376, Tampa, Florida, USA, 2006.

58. Thuy T.T. Nguyen and Grenville Armitage, «Synthetic Sub-flow Pairs for Timely and Stable IP Traffic Identification», in Proceedings of the 2006 Australian Telecommunication Networks and Applications Conference (ATNAC'06), Melbourne, Australia, 2006.

59. Thuy T.T. Nguyen and Grenville Armitage, «Clustering to Assist Supervised Machine Learning for Real-Time IP Traffic Classification», in Proceedings of

IEEE International Conference on Communications (ICC'08), p. 5857-5862, Beijing, China, 2008.

60. Thuy T. T. Nguyen, Grenville Armitage, Philip Branch, and Sebastian Zander, «Timely and Continuous Machine-Learning-Based Classification for Interactive IP Traffic», IEEE/ACM Transactions on Networking, vol. 20, no. 6, p. 1880-1894, IEEE Press Piscataway, NJ, USA, 2012.

61. Dominik Schatzmann, Wolfgang Muhlbauer, Thrasyvoulos Spyropoulos, and Xenofontas Dimitropoulos, «Digging into HTTPS Flow-Based Classification of Webmail Traffic», in Proceedings of the 10th ACM SIGCOMM Conference on Internet Measurement (IMC'10), p. 322-327, Melbourne, Australia, 2010.

62. Jason But, Philip Branch, and Tung Le, «Rapid Identification of Bit-Torrent Traffic», in Proceedings of the 35th IEEE Conference on Local Computer Networks (LCN'10), p. 536-543, Denver, Colorado, 2010.

63. Hui Liu, Wenfeng Feng, Yongfeng Huang, Xing Li, «A Peer-To-Peer Traffic Identification Method Using Machine Learning», in Proceedings of the 2007 International Conference on Networking, Architecture, and Storage (NAS'07), p. 155-160, Guilin, China, 2007.

64. Alok Madhukar and Carey Williamson, «A Longitudinal Study of P2P Traffic Classification», in Proceedings of the 14th IEEE International Symposium on Modeling, Analysis, and Simulation (MASCOTS'06), p. 179-188, Monterey, California, USA, 2006.

65. Sebastian Zander, David Kennedy, and Grenville Armitage, «Dissecting Server-Discovery Traffic Patterns Generated By Multiplayer First Person Shooter Games», in Proceedings of the 4th ACM SIGCOMM Workshop on Network and System Support for Games (NetGames'05), p. 1-12, Hawthorne, NY, USA, 2005.

66. Sebastian Zander and Grenville Armitage, «Practical Machine Learning Based Multimedia Traffic Classification for Distributed QoS Management», in Proceedings of the 2011 IEEE 36th Conference on Local Computer Networks (LCN '11), p. 399-406, Bonn, Germany, 2011.

67. Nigel Williams, Sebastian Zander, and Grenville Armitage, «A Preliminary Performance Comparison of Five Machine Learning Algorithms for Practical IP Traffic Flow Classification», ACM SIGCOMM Computer Communication Review, vol. 36, no. 5, p. 5-16, ACM, New York, NY, USA, 2006.

68. Nigel Williams, Sebastian Zander, and Grenville Armitage, «Evaluating Machine Learning Algorithms for Automated Network Application Identification», CAIA Technical Report 060410B, http://caia.swin.edu.au/reports/060410B/CAIA-TR-060410B.pdf. 2006.

69. Nigel Williams, Sebastian Zander, and Grenville Armitage, «Evaluating Machine Learning Methods for Online Game Traffic Identification», CAIA Technical Report 060410C, http://caia.swin.edu.au/reports/060410C/CAIA-TR-060410C.pdf. 2006.

70. Hyunchul Kim, K. C. Claffy, Marina Fomenkov, Dhiman Barman, Michalis Faloutsos, and KiYoung Lee, «Internet Traffic Classification Demystified: Myths, Caveats, and the Best Practices», in Proceedings of the 2008 ACM CoNEXT Conference (CoNEXT'08), p. 1-12, Madrid, Spain, 2008.

71. Yeon-sup Lim, Hyun-chul Kim, Jiwoong Jeong, Chong-kwon Kim, Ted «Taekyoung» Kwon, and Yanghee Choi, «Internet Traffic Classification Demystified: on the Sources of the Discriminative Power», in Proceedings of the 6th ACM CoNEXT Conference (CoNEXT'10), no. 9, p. 1-12, Philadelphia, USA, 2010.

73. Alice Este, Francesco Gringoli, and Luca Salgarelli, «On the Stability of the Information Carried by Traffic Flow Features at the Packet Level», ACM SIGCOMM Computer Communication Review, vol. 39, no. 3, p. 13-18, ACM, New York, NY, USA, 2009.

74. Marcin Pietrzyk, Jean-Laurent Costeux, Guillaume Urvoy-Keller, and Taoufik En-Najjary, «Challenging Statistical Classification for Operational Usage: the ADSL Case», in Proceedings of the 9th ACM SIGCOMM Conference on Internet Measurement Conference (IMC'09), p. 122-135, Chicago, Illinois, USA, 2009.

75. Marcin Pietrzyk, Guillaume Urvoy-Keller, and Jean-Laurent Costeux, «Revealing

the Unknown ADSL Traffic Using Statistical Methods», in Pro ceedings of the First International Workshop on Traffic Monitoring and Analysis (TMA'09), p. 7583, Aachen, Germany, 2009.

76. Marcin Pietrzyk, Louis Plissonneau, Guillaume Urvoy-Keller, and Taoufik En-Najjary, «On Profiling Residential Customers», in Proceedings of the Third International Conference on Traffic Monitoring and Analysis (TMA'11), p. 1-14, Vienna, Austria, 2011.

77. Marco Canini, Wei Li, Martin Zadnik, and Andrew W. Moore, «Experience with High-Speed Automated Application-Identification for NetworkManagement», in Proceedings of the 5th ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS'09), p. 209-218, Princeton, New Jersey, USA, 2009.

78. Hongbo Jiang, Andrew W. Moore, Zihui Ge, Shudong Jin, and Jia Wang, «Lightweight Application Classification for Network Management», in Proceedings of the 2007 SIGCOMM Workshop on Internet Network Management (INM'07), p. 299-304, Kyoto, Japan, 2007.

79. Wei Li, Kaysar Abdin, Robert Dann and Andrew Moore, «Approaching Realtime Network Traffic Classification», Technical Report RR-06-12, Department of Computer Science, Queen Mary, University of London, 2006.

80. Wei Li and Andrew W Moore, «Learning for Accurate Classification of Realtime Traffic», in Proceedings of the 2006 ACM CoNEXT Conference (CoNEXT'06), no. 36, p. 1-2, Lisboa, Portugal, 2006.

81. Wei Li and Andrew W. Moore, «A Machine Learning Approach for Efficient Traffic Classification», in Proceedings of the 15th International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems (MASC0TS'07), p. 310-317, Istanbul, Turkey, 2007.

82. T. T. Nguyen and G. Armitage, «A survey of techniques for internet traffic classification using machine learning». IEEE Commun. Surveys Tuts., vol. 10, no. 4, p. 56-76, Fourth Quarter 2008.

83. Wang Y. et al. Internet traffic classification using constrained clustering //IEEE transactions on parallel and distributed systems. - 2014. - T. 25. - №. 11. -C. 2932-2943

84. Sheluhin O.I., Simonyan A.G., Vanyushina A.V. Benchmark data formation and software analysis for classification of traffic applications using machine learning methods. T-Comm, vol. 11, no.1, p. 67-72.

85. Tcpdump // Web: http://www.tcpdump.org/ (дата обращения: 20.08.2017).

86. Github tracedump64 репозиторий // Web:

https://github.com/crunchiness/Tracedump64 (дата обращения: 6.09.2017).

87. Github tracedump репозиторий // Web: https:// github.com/iitis/tracedump (дата обращения: 11.09.2017).

88. Шелухин О. И., Симонян А.Г., Ванюшина А.В. Эффективность алгоритмов выделения атрибутов в задачах классификации приложений при интеллектуальном анализе трафика // Электросвязь. 2016. №11. С. 79-80.

89. Шелухин О.И., Симонян А.Г., Ванюшина А.В. Влияние структуры обучающей выборки на эффективность классификации приложений трафика методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2017. Том 11. №2. С. 25-31.

90. nDPI: Open-Source High-Speed Deep Packet Inspection // Web: http://luca.ntop.org/nDPI.pdf (дата обращения: 21.09.2017).

91. Wireshark // Web: https://www.wireshark.org (дата обращения: 26.09.2017).

92. F. Gringoli, L. Salgarelli, M. Dusi, N. Cascarano, F. Risso, and K. Clafiy, «Gt: Picking up the truth from the ground for internet traffic," ACM SIGCOMM Computer Communication Review, vol. 39, no. 5, p. 13 - 18, 2009.

93. Ванюшина А.В. Влияние фонового трафика на эффективность

классификации приложений методами машинного обучения // Труды межд.

160

науч.-техн. конф. «Телекоммуникационные и вычислительные системы». 22 ноября 2017 г., г. Москва. М.: Горячая линия-Телеком. 2017.С. 229.

94. S. Alcock, P. Lorier, R. Nelson, Libtrace: A Packet Capture and Analysis Library

95. J. Erman, A. Mahanti, and M. Arlitt, «Byte me: a case for byte accuracy in traffic classification,» in MineNet '07: Proc. 3rd annual ACM workshop on Mining network data. New York, NY, USA: ACM Press.June 2007. p. 35-38.

96. Официальный репозитарий проекта nDPI // https://github.com/ntop/nDPI (дата обращения: 21.09.2017).

97. Gilles Louppe, Louis Wehenkel, Antonio Sutera and Pierre Geurts. Understanding variable importances in forests of randomized trees. NIPS'13 Proceedings of the 26th International Conference on Neural Information Processing Systems. p. 431-439. 2013.

98. Чистяков С.П. Случайные леса: обзор. Труды Карельского научного центра РАН. № 1. 2013. С. 117-136.

98. Шелухин О.И., Ванюшина А.В., Габисова М.Е. Фильтрация нежелательных приложений Интернет-трафика с использованием алгоритма классификации Random Forest // Вопросы кибербезопасности. 2018. №2(26). С. 44-51.

99. Шелухин О.И., Ерохин С.Д., Ванюшина А.В. Классификация IP-трафика методами машинного обучения / Под ред. профессора О. И. Шелухина.М.: Горячая линия -Телеком, 2018. 282 с: ил.

100. Ванюшина А.В. Тенденции и проблемы автоматической классификации приложений IP-трафика методами машинного обучения // Сборник трудов XII Международной отраслевой научно-технической конференции «Технологии информационного общества» г. Москва, МТУСИ. 14-15 марта 2018. В 2-х томах. Том.1. М.: ИД «Медиа Паблишер», 2018. С. 371-372.

101. Laurent Bernaille, Renata Teixeira, and Kave Salamatian, «Early application

identification», in Proceedings of the 2006 ACM CoNEXT Conference

(CoNEXT'06), p. 1-12. Lisboa, Portugal, 2006.

161

102. Jeffrey Erman, Anirban Mahanti, Martin Arlitt, Ira Cohen, and Carey Williamson, «Offline-Realtime Traffic Classification Using Semi-Supervised Learning», Performance Evaluation, vol. 64, no. 9-12, p. 1194-1213, Elsevier Science Publishers B. V., Amsterdam, The Netherlands, 2007.

103. Richard O. Duda, Peter E. Hart, and David G. Stork, «Pattern Classification (Second Edition)», Wiley, 2001.

104. A. Moore and K. Papagiannaki, «Toward the accurate identification of network applications» in Proc. Passive and Active Measurement Workshop (PAM2005), Boston, MA, USA, March/April 2005.

105. Шелухин О.И., Ванюшина A.B., Калугин Ю.А. Особенности классификации нестационарного потокового трафика методами интеллектуального анализа / Сборник трудов XI Межд. отраслевой науч.-техн. конф. «Технологии информационного общества», 15-16 марта 2017 г., г. Москва. М.: «Медиа Паблишер».2017. С.268-269.

106. Marco Canini, Wei Li, Martin Zadnik, and Andrew W. Moore, «Experience with High-Speed Automated Application-Identification for NetworkManagement», in Proceedings of the 5th ACM/IEEE Symposium on Architectures for Networking and Communications Systems (ANCS'09), p. 209-218. Princeton, New Jersey. USA. 2009.

107. Jeffrey Erman, Martin Arlitt, and Anirban Mahanti, «Traffic Classification Using Clustering Algorithms», in Proceedings of the 2006 SIGCOMM Workshop on Mining Network Data (MineNet'06). p. 281-286. Pisa. Italy.

108. Yu Wang, Yang Xiang, and Shunzheng Yu, «An Automatic Application Signature Construction System for Unknown Traffic», Concurrency and Computation: Practice and Experience, Wiley, vol. 22, no. 13, p. 1927-1944, 2010.

109. HuY.,ChiuD- .,Lui J.C.S. Profiling and identification of P2P traffic//Comput. Networks. V. 53. p. 849-863. 2009.

110. AgrawalR., SrikantR. Fast algorithms for mining association rules //Proc. of the 20 thVLDB conf., Santiagode Chile (Chile). Sept. 12-15. 1994. San Francisco:

111. PaxsonV. Bro: Asystem for detecting network in truders inreal-time// Comput. Networks. V. 31, N23/24. p. 2435-2463. 1999.

112. Ерохин С.Д., Махров C.C. Нейронные механизмы искусственного интеллекта для самоорганизации беспроводной сенсорной сети// Фундаментальные проблемы радиоэлектронного приборостроения. 2014. Т.5. С.75-79.

113. MooreA.W.,ZuevD.Internet traffic classification using Bayesian analys is techniques //ACM SIGMETRICS2005, Banff, Alberta (Canada), p. 50-60. June2005. N. Y.: ACM.2005.

114. Ерохин С.Д., Ванюшина A.B. Влияние фонового трафика на эффективность классификации приложений методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2017. Т.11. №12. С. 31-36.

115. Ерохин С. Д., Ванюшина А.В. Выбор атрибутов для классификации IP-трафика методами машинного обучения // T-comm: Телекоммуникации и транспорт. 2018. Т.12. №9. С.25-29

116. Mohammed H., Soliman A. Data stream mining // Data Mining and Knowledge Discovery Handbook / под ред. M. Oded, R. Lior. New York: Springer, 2010. Вып. 1. С. 231-235.

117. Rajeev T., Santosh K. A Quick Review of Data Stream Mining Algorithms // Imperial Journal of Interdisciplinary Research. 2016. T. 2. № 7. C. 870-873.

118. Bifet, A., & Gavalda, R. (2007). Learning from time-changing data with adaptive windowing. In Proceedings SIAM international conference on data mining, Minneapolis, USA (pp. 443-448). Philadelphia: SIAM.

119. Bifet, A., Holmes, G., Kirkby, R., & Pfahringer, B. (2010a). MOA: massive online analysis. Journal of Machine Learning Research, 11, 1601-1604.

120. Bach, S. H., & Maloof, M. A. (2008). Paired learners for concept drift. In ICDM (pp. 23-32). Los Alamitos: IEEE Comput. Soc.

121. Шелухин О. И. Сетевые аномалии. Обнаружение, локализация, прогнозирование. - М.: Горячая линия -Телеком, 2019. 448 с. ISBN 978-59912-0756-0

Используемые в эксперименте алгоритмы классификации

№ Алгоритм Сокращенное название

1 Яапёош Богез!

2 ЫаТуе Вауе^ N6

3 БУМ БУМ

4 АёаВоо81 (АВ) АВ

5 С4.5 С4.5

Алг. RF NB SVM AB C4.5

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

HTTP 0.987 0.863 0.956 0.368 0.565 0.225 0.589 0.667 0.443 0.368 0.949 0.310 0.976 0.816 0.946

BitTorre nt 0.980 0.706 0.953 0.297 0.020 0.227 0.792 0.275 0.755 0.862 0.058 0.692 0.981 0.358 0.959

Skype 0.984 0.277 0.964 0.149 0.042 0.161 0.685 0.188 0.579 0.147 0.000 0.280 0.982 0.259 0.959

Steam 0.991 0.998 0.971 0.158 0.160 0.146 0.639 0.769 0.600 0.335 0.200 0.054 0.981 0.807 0.974

DNS 0.993 0.991 0.980 0.946 0.945 0.940 0.538 0.283 0.387 0.944 0.151 0.826 0.982 0.902 0.962

Среднее 0.987 0.763 0.964 0.379 0.342 0.329 0.647 0.435 0.552 0.524 0.267 0.464 0.981 0.625 0.961

Алг. RF NB SVM AB C4.5

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

HTTP 0.004 0.042 0.002 0.034 0.169 0.014 0.055 0.272 0.022 0.045 0.800 0.025 0.006 0.105 0.005

BitTorrent 0.001 0.024 0.001 0.042 0.025 0.024 0.132 0.020 0.098 0.076 0.009 0.094 0.003 0.050 0.004

Skype 0.006 0.001 0.006 0.015 0.007 0.016 0.087 0.034 0.059 0.023 0.000 0.017 0.007 0.001 0.006

Steam 0.003 0.131 0.002 0.023 0.015 0.066 0.089 0.348 0.069 0.018 0.041 0.008 0.003 0.212 0.005

DNS 0.003 0.098 0.002 0.064 0.065 0.059 0.077 0.032 0.051 0.043 0.061 0.049 0.006 0.101 0.006

Среднее 0.003 0.059 0.002 0.036 0.056 0.037 0.088 0.140 0.061 0.041 0.182 0.039 0.005 0.093 0.0052

Алг. RF NB SVM AB C4.5

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

HTTP 0.987 0.863 0.956 0.368 0.565 0.225 0.589 0.667 0.443 0.368 0.949 0.310 0.976 0.816 0.946

BitTorrent 0.980 0.706 0.953 0.297 0.020 0.227 0.792 0.275 0.755 0.862 0.058 0.692 0.981 0.358 0.959

Skype 0.984 0.277 0.964 0.149 0.042 0.161 0.685 0.188 0.579 0.147 0.000 0.280 0.982 0.259 0.959

Steam 0.991 0.998 0.971 0.158 0.160 0.146 0.639 0.769 0.600 0.335 0.200 0.054 0.981 0.807 0.974

DNS 0.993 0.991 0.980 0.946 0.945 0.940 0.538 0.283 0.387 0.944 0.151 0.826 0.982 0.902 0.962

Среднее 0.987 0.763 0.974 0.379 0.342 0.329 0.647 0.435 0,553 0.524 0.267 0.432 0.981 0.625 0.960

Алг. RF NB SVM AB C4.5

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

HTTP 0.985 0.834 0.986 0.729 0.449 0.696 0.731 0.374 0.733 0.674 0.224 0.621 0.976 0.654 0.965

BitTorrent 0.996 0.882 0.991 0.642 0.166 0.568 0.585 0.777 0.516 0.728 0.613 0.504 0.990 0.641 0.969

Skype 0.978 0.984 0.961 0.720 0.616 0.590 0.661 0.587 0.588 0.612 0.000 0.704 0.973 0.991 0.958

Steam 0.988 0.657 0.983 0.635 0.733 0.237 0.660 0.357 0.549 0.831 0.551 0.487 0.986 0.489 0.963

DNS 0.990 0.714 0.965 0.258 0.278 0.180 0.630 0.686 0.509 0.347 0.378 0.229 0.977 0.688 0.960

Среднее 0.987 0.815 0.974 0.599 0.450 0.456 0.654 0.557 0.579 0.642 0.352 0.506 0.981 0.694 0.963

Алг. RF NB SVM AB C4.5

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

HTTP 0.986 0.848 0.971 0.489 0.501 0.340 0.652 0.479 0.553 0.476 0.363 0.413 0.976 0.726 0.956

BitTorrent 0.988 0.784 0.972 0.406 0.036 0.325 0.673 0.406 0.613 0.789 0.106 0.583 0.985 0.459 0.964

Skype 0.981 0.432 0.962 0.247 0.079 0.253 0.673 0.285 0.583 0.237 0.000 0.400 0.978 0.410 0.958

Steam 0.990 0.793 0.957 0.254 0.263 0.181 0.649 0.487 0.573 0.478 0.293 0.097 0.984 0.609 0.968

DNS 0.991 0.830 0.983 0.405 0.430 0.302 0.580 0.401 0.439 0.508 0.216 0.358 0.979 0.780 0.961

Среднее 0.987 0.735 0.969 0.277 0.359 0.342 0.646 0.411 0.552 0.495 0.194 0.352 0.981 0.595 0.961

Алг. RF NB SVM AB C4.5

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

HTTP 1.000 0.935 0.989 0.734 0.764 0.677 0.822 0.738 0.774 0.728 0.678 0.815 0.988 0.839 0.983

BitTorrent 1.000 0.943 0.969 0.844 0.506 0.778 0.887 0.799 0.900 0.947 0.551 0.882 0.994 0.627 0.985

Skype 0.999 0.868 0.967 0.810 0.488 0.767 0.884 0.792 0.853 0.787 0.537 0.864 0.990 0.650 0.981

Steam 1.000 0.970 1.000 0.862 0.768 0.779 0.864 0.648 0.865 0.928 0.640 0.906 0.993 0.723 0.990

DNS 1.000 0.966 0.982 0.697 0.811 0.727 0.825 0.761 0.827 0.807 0.670 0.688 0.994 0.859 0.986

Среднее 1.000 0.948 0.984 0.790 0.666 0.747 0.856 0.748 0.843 0.840 0.614 0.803 0.992 0.738 0.985

Алг. HTTP BitTorrent Skype Steam DNS

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

RF 0.987 0.863 0.956 0.980 0.706 0.953 0.984 0.277 0.964 0.991 0.998 0.971 0.993 0.991 0.980

NB 0.368 0.565 0.225 0.297 0.020 0.227 0.149 0.042 0.161 0.158 0.160 0.146 0.946 0.945 0.940

SVM 0.589 0.667 0.443 0.792 0.275 0.755 0.685 0.188 0.579 0.639 0.769 0.600 0.538 0.283 0.387

AB 0.368 0.949 0.310 0.862 0.058 0.692 0.147 0.000 0.280 0.335 0.200 0.054 0.944 0.151 0.826

C4.5 0.976 0.816 0.946 0.981 0.358 0.959 0.982 0.259 0.959 0.981 0.807 0.974 0.982 0.902 0.962

Сред. 0.657 0.772 0.576 0.782 0.283 0.717 0.589 0.153 0.588 0.621 0.586 0.549 0.881 0.654 0.819

Алг. HTTP BitTorrent Skype Steam DNS

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

RF 0.004 0.042 0.002 0.001 0.024 0.001 0.006 0.001 0.006 0.003 0.131 0.002 0.003 0.098 0.002

NB 0.034 0.169 0.014 0.042 0.025 0.024 0.015 0.007 0.016 0.023 0.015 0.066 0.064 0.065 0.059

SVM 0.055 0.272 0.022 0.132 0.020 0.098 0.087 0.034 0.059 0.089 0.348 0.069 0.077 0.032 0.051

AB 0.045 0.800 0.025 0.076 0.009 0.094 0.023 0.000 0.017 0.018 0.041 0.008 0.043 0.061 0.049

C4.5 0.006 0.105 0.005 0.003 0.050 0.004 0.007 0.001 0.006 0.003 0.212 0.005 0.006 0.101 0.006

Сред 0.029 0.277 0.013 0.051 0.025 0.044 0.027 0.009 0.021 0.027 0.149 0.03 0.039 0.071 0.033

Алг. HTTP BitTorrent Skype Steam DNS

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

RF 0.987 0.863 0.956 0.980 0.706 0.953 0.984 0.277 0.964 0.991 0.998 0.971 0.993 0.991 0.980

NB 0.368 0.565 0.225 0.297 0.020 0.227 0.149 0.042 0.161 0.158 0.160 0.146 0.946 0.945 0.940

SVM 0.589 0.667 0.443 0.792 0.275 0.755 0.685 0.188 0.579 0.639 0.769 0.600 0.538 0.283 0.387

AB 0.368 0.949 0.310 0.862 0.058 0.692 0.147 0.000 0.280 0.335 0.200 0.054 0.944 0.151 0.826

C4.5 0.976 0.816 0.946 0.981 0.358 0.959 0.982 0.259 0.959 0.981 0.807 0.974 0.982 0.902 0.962

Сред. 0.6576 0.772 0.576 0.7824 0.2834 0.7172 0.5894 0.1532 0.5886 0.6208 0.5868 0.549 0.8806 0.6544 0.819

Алг. HTTP BitTorrent Skype Steam DNS

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

RF 0.985 0.834 0.986 0.996 0.882 0.991 0.978 0.984 0.961 0.988 0.657 0.983 0.990 0.714 0.985

NB 0.729 0.449 0.696 0.642 0.166 0.568 0.720 0.616 0.590 0.635 0.733 0.237 0.258 0.278 0.180

SVM 0.731 0.374 0.733 0.585 0.777 0.516 0.661 0.587 0.588 0.660 0.357 0.549 0.630 0.686 0.509

AB 0.674 0.224 0.621 0.728 0.613 0.504 0.612 0.000 0.704 0.831 0.551 0.487 0.347 0.378 0.229

C4.5 0.976 0.654 0.965 0.990 0.641 0.969 0.973 0.991 0.958 0.986 0.489 0.963 0.977 0.688 0.960

Сред. 0.819 0.507 0.8002 0.7882 0.6158 0.7096 0.7888 0.6356 0.7602 0.82 0.5574 0.6438 0.6404 0.5488 0.5726

Алг. HTTP BitTorrent Skype Steam DNS

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

RF 0.986 0.848 0.971 0.988 0.784 0.972 0.981 0.432 0.962 0.990 0.793 0.957 0.991 0.830 0.983

NB 0.489 0.501 0.340 0.406 0.036 0.325 0.247 0.079 0.253 0.254 0.263 0.181 0.405 0.430 0.302

SVM 0.652 0.479 0.553 0.673 0.406 0.613 0.673 0.285 0.583 0.649 0.487 0.573 0.580 0.401 0.439

AB 0.476 0.363 0.413 0.789 0.106 0.583 0.237 0.000 0.400 0.478 0.293 0.097 0.508 0.216 0.358

C4.5 0.976 0.726 0.956 0.985 0.459 0.964 0.978 0.410 0.958 0.984 0.609 0.968 0.979 0.780 0.961

Сред. 0.7158 0.583 0.646 0.768 0.358 0.691 0.623 0.241 0.631 0.671 0.489 0.555 0.692 0.531 0.608

Алг. HTTP BitTorrent Skype Steam DNS

Тип Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов Без фона Фон,5 классов Фон, 6 классов

RF 1.000 0.935 0.989 1.000 0.943 0.969 0.999 0.868 0.967 1.000 0.970 1.000 1.000 0.996 0.982

NB 0.734 0.764 0.677 0.844 0.506 0.778 0.810 0.488 0.767 0.862 0.768 0.779 0.697 0.811 0.727

SVM 0.822 0.738 0.774 0.887 0.799 0.900 0.884 0.792 0.853 0.864 0.648 0.865 0.825 0.761 0.827

AB 0.728 0.678 0.815 0.947 0.551 0.882 0.787 0.537 0.864 0.928 0.640 0.906 0.807 0.670 0.688

C4.5 0.988 0.839 0.983 0.994 0.627 0.985 0.990 0.650 0.981 0.993 0.723 0.990 0.994 0.859 0.986

Сред. 0.854 0.787 0.849 0.9344 0.6852 0.902 0.894 0.667 0.886 0.9294 0.745 0.908 0.8646 0.8194 0.842

Приложение 2.

Статистические характеристики атрибутов приложений

Приложение «Instagram».

Рисунок 1. Гистограмма для значений признака «Second IP».

Рисунок 3. Гистограмма для значений признака «First IP».

Рисунок 2. Гистограмма для значений признака «Flow Duration

Рисунок 4. Гистограмма для значений признака «Number Of Servings From Server».

Рисунок 5. Гистограмма для значений признака «Ratio Of Number Of Packets». Приложение «Instagram».

ccn.insTagrari, android

5

itddev=3410152,779 -nean=700 343,131

L

i 1 1 1 1 5ei07 ' Attribute value

Рисунок 7. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от сервера».

Рисунок 6. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от клиента».

Рисунок 8. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от клиента».

cc n.ins";agran, android

tddev= 3392 382,725 nean=G9579G.239

l ^ ^ ^^^oT" 1

Attribute value

Рисунок 9. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от сервера».

Рисунок 11. Гистограмма для значений признака «Average Size On Transport Layer From Server».

Рисунок 10. Гистограмма для значений признака «Average Size On Transport Layer From Client».

Рисунок 12. Гистограмма для значений признака «Average Size Data On Transport Layer From Client».

Рисунок 13. Гистограмма для значений признака «Average Size Data On Transport Layer From Server».

со n.ins~acirari. android

1

2000 Attribute value

Рисунок 15. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Server».

Рисунок 14. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Client».

Рисунок 16. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Client».

со m.in stag ra m. android

2ООО 4000

Attribute value

Рисунок 17. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Server».

Рисунок 19. Гистограмма для значений признака «Average Number Of Data Packets From Server».

Рисунок 18. Гистограмма для значений признака «Average Number Of Data Packets From Client».

Рисунок 20. Гистограмма для значений признака «Efficiency Of Client».

com.instagram. android

Рисунок 21. Гистограмма для значений признака «Efficiency Of Server».

Рисунок 23. Гистограмма для значений признака «Ratio Of Data».

tridev=19,S75 пед 1 t -1

^ T 1 Ш '

Attribute value

Рисунок 22. Гистограмма для значений признака «Ratio».

Рисунок 24. Гистограмма для значений признака «Number Of Servings From Client».

Приложение «Почта Mail.Ru».

ru.mail.nna и арр

АйпЫйе уа1ие

Рисунок 25. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от клиента».

ги.таи.таи арр

А1±г|Ьи1е'/а1ие

Рисунок 27. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от клиента».

ги.таи.таи арр

Рисунок 26. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от сервера».

ги.таИ.таИарр

АйпЬьгёе уа1ие

Рисунок 28. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от сервера».

ru.nail.nailapp

Рисунок 29. Гистограмма для значений признака «Average Size On Transport Layer From Client».

Рисунок 31. Гистограмма для значений признака «Average Size Data On Transport Layer From Client».

2000 4000 Attribute value

Рисунок 30. Гистограмма для значений признака «Average Size On Transport Layer From Server».

ru.imail.mailapp

PI

tddev=1353,392 iiean=BO2,0O0

Рисунок 32. Гистограмма для значений признака «Average Size Data On Transport Layer From Server».

Рисунок 33. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Client».

Рисунок 35. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Client».

Рисунок 34. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Server».

Рисунок 36. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Server».

Рисунок 37. Гистограмма для значений признака «Average Number Of Data Packets From Client».

Рисунок 39. Гистограмма для значений признака «Efficiency Of Client».

Рисунок 41. Гистограмма для значений признака «Ratio».

Рисунок 38. Гистограмма для значений признака «Average Number Of Data Packets From Server».

ru.mail.nnailapp

5000 lOOOu

Attribute value

Рисунок 40. Гистограмма для значений признака «Efficiency Of Server».

Рисунок 42. Гистограмма для значений признака «Ratio Of Data».

Рисунок 43. Гистограмма для значений признака «Ratio Of Number Of Packets».

Рисунок 45. Гистограмма для значений признака «Number Of Servings From Server».

Рисунок 47. Гистограмма для значений признака «Second IP».

Рисунок 44. Гистограмма для значений признака «Number Of Servings From Client».

Рисунок 46. Гистограмма для значений признака «First IP».

Рисунок 48. Гистограмма для значений признака «Flow Duration

Приложение «Skype».

Рисунок 49. Гистограмма для значений признака «Number Of Servings From Client».

Рисунок 50. Гистограмма для значений признака «Number Of Servings From Server».

Рисунок 51. Гистограмма для значений признака «First IP».

Рисунок 52. Гистограмма для значений признака «Second IP».

с om. s Куре, га I der

Рисунок 53. Гистограмма для значений признака «Flow Duration».

Рисунок 55. Гистограмма для значений признака «Ratio Of Data».

tddev=0,112 ■педп= 1.04-2

ï 4"

■ l

I

Attribute value

Рисунок 54. Гистограмма для значений признака «Ratio Of Number Of Packets».

Рисунок 56. Гистограмма для значений признака «Ratio».

com.skype.raider

con, sky ре. raider

>tddev=750263,672 "nean=47936,942

Attribute value

itddev=3701,351

iiean=1122.26S

1

в ■ ■ ■ 100000 1 1 200000 '

Attribute value

Рисунок 57. Гистограмма для значений признака «Efficiency Of Server».

Рисунок 59. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от клиента».

Рисунок 58. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от клиента».

com.skype.raider

¡tddev=715893,8S1

■neari =27344,599

Se4-07 4е+07

Attribute value

Рисунок 60. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от сервера».

Рисунок 61. Гистограмма для значений признака «Average Size On Transport Layer From Client».

Рисунок 63. Гистограмма для значений признака «Average Size Data On Transport Layer From Client».

Рисунок 62. Гистограмма для значений признака «Average Size On Transport Layer From Server».

Рисунок 64. Гистограмма для значений признака «Average Size Data On Transport Layer From Server».

Рисунок 65. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Client».

Рисунок 67. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Client».

Рисунок 66. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Server».

Рисунок 68. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Server».

Рисунок 69. Гистограмма для значений признака «Average Number Of Data Packets From Client».

Рисунок 71 Гистограмма для значений признака «Efficiency Of Client».

Рисунок 70. Гистограмма для значений признака «Average Number Of Data Packets From Server».

Рисунок 72. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от сервера».

Рисунок 72. Гистограмма для значений признака «Flow Duration». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 74. Гистограмма для значений признака «First IP». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 73. Гистограмма для значений признака «Second IP». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 75. Гистограмма для значений признака «Number Of Servings From Client». Приложение «Hearthstone: Heroes of the Warcraft».

com.Di izz a ra. wt eg. hearthstone

Attribute value

Рисунок 76. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от клиента». Приложение «Hearthstone: Heroes of the Warcraft».

com,Dlizzard.wt eg,hearthstone

¡tddev=1796,479 iiean=1397.85l

Attribute value

Рисунок 78. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от клиента». Приложение «Hearthstone: Heroes of the Warcraft».

с от. 01 izzarcl.wt eg. hearthstone

;tddev= 33297,0 39 nean=8457.904

Attribute value

Рисунок 77. Гистограмма для значений признака «Общий объем полезной нагрузки на сетевом уровне от сервера». Приложение «Hearthstone: Heroes of the Warcraft».

com.en izzardwtcg .hearthstone

Attribute value

Рисунок 79. Гистограмма для значений признака «Общий объем полезной нагрузки на транспортном уровне от сервера». Приложение «Hearthstone: Heroes of the Warcraft:».

Рисунок 80. Гистограмма для значений признака «Average Size On Transport Layer From Client». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 82. Гистограмма для значений признака «Average Size Data On Transport Layer From Client». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 81. Гистограмма для значений признака «Average Size On Transport Layer From Server». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 83. Гистограмма для значений признака «Average Size Data On Transport Layer From Server». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 84. Гистограмма для значений признака «Standard Deviation Of IpDatagram Size From Client». Приложение «Hearthstone: Heroes of the Warcraft».

Рисунок 86. Гистограмма для значений признака «Standard Deviation Of Data On Transport Layer From Client». Приложение «Hearthstone: Heroes of the Warcraft».

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.

Оглавление диссертации кандидат наук Ванюшина Анна Вячеславовна

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Разработка и исследование системы интеллектуально-адаптивного управления трафиком вычислительной сети2014 год, кандидат наук Басыня, Евгений Александрович

Методы и средства углубленного анализа сетевого трафика2017 год, кандидат наук Маркин, Юрий Витальевич

Введение диссертации (часть автореферата) на тему «Классификация IP-трафика в компьютерной сети с использованием алгоритмов машинного обучения»

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Методики сбора и обработки данных о качестве IP соединений для задач сетевой безопасности2022 год, кандидат наук Майхуб Самара

Информационная безопасность транспортных протоколов телекоммуникационных сетей2011 год, кандидат технических наук Карпухин, Евгений Олегович

Идентификация трафика сетей передачи данных в реальном времени2019 год, кандидат наук Джаммул Самих Мохаммед

Список литературы диссертационного исследования кандидат наук Ванюшина Анна Вячеславовна, 2020 год