Методы мониторинга шифрованного трафика в IP-сетях на основе анализа цифровых отпечатков протоколов тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Ишкуватов Сергей Маратович
- Специальность ВАК РФ00.00.00
- Количество страниц 198
Оглавление диссертации кандидат наук Ишкуватов Сергей Маратович
Реферат
Synopsis
Введение
Глава 1. Сетевой периметр и угрозы
1.1 Актуальность исследования
1.2 Ограничения пассивного анализа на произвольном участке сети
1.3 Работы, рассматривающие проблематику
1.4 Существующие решения
1.5 Методологические противоречия, обуславливающие необходимость разработки методов выявления вредоносных активностей в шифрованном трафике
1.6 Выводы по главе
Глава 2. Оценка близости цифровых отпечатков реализаций
протокола TLS
2.1 Цифровые отпечатки реализаций протоколов, доступные пассивному наблюдателю
2.2 Метод оценки близости цифровых отпечатков
2.3 Метод оценки близости/похожести цифровых отпечатков реализаций TLS-протокола
2.4 Метод автоматической классификации цифровых отпечатков клиентских реализаций TLS-протокола
2.5 Метод анализа аутентичности трафика
2.6 Алгоритм анализа аутентичности трафика
2.7 Выводы по главе
Глава 3. Выявление нарушений в шифрованных каналах связи
3.1 Демаскирующие факторы процесса сокрытия передачи
запрещённой информации с помощью организации VPN-тоннеля
3.2 Отличительные признаки протоколов, возможности по их детектированию без использования нейронных сетей
3.3 Структура пакетов и режимы OpenVPN
3.4 Структура пакетов и режимы IPsec
3.5 Метод определения типов трафика, в шифрованных каналах связи . 99 3.5.1 Алгоритм определения видов протоколов, используемых
внутри IPsec-канала
3.6 Динамическое формирование набора данных распределений длин пакетов для заданной конфигурации ШКС по не шифрованным
образцам трафика с поправкой на размеры служебных заголовков
3.7 Сложности совместного распознавания протоколов, предиктивное вычитание характеристик определенного вида трафика из общего распределения длин пакетов
3.8 Техническая реализация определения типов трафика в шифрованных каналах связи
3.9 Выводы по главе
Глава 4. Оценка продуктивности полученных результатов
4.1 Продуктивность и практическая значимость определения расстояний между ЦО
4.2 Значимость метода автоматической классификации цифровых отпечатков реализаций TLS-протокола
4.3 Значимость метода анализа аутентичности трафика, выносимого
на защиту
4.4 Значимость метода определения типов трафика в шифрованных каналах связи
4.5 Варианты технической реализации результатов
4.6 Обучение ИНС для каждой возможной конфигурации ШКС
4.7 Виды исследованного трафика
4.7.1 Трафик VoIP
4.7.2 Удаленный рабочий стол Windows
4.7.3 Трафик BitTorrent
4.7.4 Передача файлов (трафик FTP и Samba)
4.7.5 Трафик Web-браузеров (протоколы HTTP, HTTPS и QUIC)
4.8 Анализ результатов распознавания
4.9 Рекомендации по применению и перспективы внедрения
4.10 Выводы по главе
Заключение
Список сокращений и условных обозначений
Список литературы
Список рисунков
Список таблиц
Приложение А. Листинг модуля вычисления размеров ESP
Приложение Б. Акты внедрения
Приложение В. Тексты публикаций
Реферат
Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Математическое и алгоритмическое обеспечение для анализа характеристик информационных потоков в магистральных интернет-каналах2020 год, кандидат наук Божалкин Даниил Александрович
Модели и алгоритмы повышения криптостойкости и производительности защищенного канала связи в телекоммуникационных сетях TCP/IP2018 год, кандидат наук Метлинов, Александр Дмитриевич
Разработка и исследование алгоритмов анализа и повышения качества цифровой передачи мультимедийной информации2020 год, кандидат наук Ивченко Александр Владимирович
Методы и алгоритмы адаптивного управления информационными ресурсами в распределенных автоматизированных системах1999 год, кандидат технических наук Шабуневич, Елена Валерьевна
Методы и средства углубленного анализа сетевого трафика2017 год, кандидат наук Маркин, Юрий Витальевич
Введение диссертации (часть автореферата) на тему «Методы мониторинга шифрованного трафика в IP-сетях на основе анализа цифровых отпечатков протоколов»
Общая характеристика работы
Актуальность темы. Мониторинг и глубокий анализ сетевого трафика на границах сетей является важной составляющей предотвращения утечек конфиденциальной информации. Существует множество коммерческих и свободных продуктов позволяющих выявлять сетевые атаки, факты использования небезопасных протоколов и выявлять проблемы в ИБ, способствующие развитию атак. На сегодняшний день существуют системы обнаружения вторжений, позволяющие в реальном времени фильтровать трафик и выявлять сетевые сессии по заранее подготовленному списку, правил, содержащих, в том числе, косвенные признаки фильтрации. Такие правила описывают уже известные сетевые угрозы, но не позволяют выявлять не описанные существующими правилами угрозы.
Высокие скорости передачи данных и ограниченные вычислительные ресурсы как правило не позволяют пассивному наблюдателю использовать вычислительнозатратные правила. Нечёткие правила будут вызывать ложные срабатывания, в то время как излишне строгие могут не сработать на достаточно похожей вариации описанной угрозы.
Вместе с тем непрерывно появляются новые реализации протоколов и совершенно новые протоколы, а вместе с ними и необходимость обнаруживать в них новые закономерности, отличительные признаки и совершенствовать способы определения «похожести» типов трафика. Особый интерес представляет шифрованный трафик ввиду своей закрытости от пассивного наблюдателя, не имеющего ключей для дешифровки. Вместе с тем шифрованный трафик обладает рядом достаточно стабильных уникальных характеристик, позволяющих классифицировать и оценивать похожесть и возможное назначение трафика. Для отдельных сессий похожесть может определяться:
1. Наборам отличительных параметров соединений характеризующих особенности реализаций протоколов взаимодействующих сторон. Сетевого расположения сторон относительно пассивного наблюдателя.
2. Характеристики, связанные с объёмами и балансами принимаемых и передаваемых данных, схемами и технологиями обмена данными, типич-
ным расписанием активности, характерными всплесками интенсивности передачи информации. Для каналов связи, использующих шифрование:
1. Расписание активности, объёмы принимаемых и передаваемых данных во временных интервалах
2. В случаях отсутствия искусственного зашумления канала связи - распределения длин кадров по времени, характерные паттерны всплесков интенсивности передачи.
Цель диссертационной работы предоставление качественно новых возможностей анализа шифрованного трафика в 1Р-сетях на основе анализа цифровых отпечатков протоколов
Научная задача, решаемая в диссертации, заключается в совершенствовании научно-методического аппарата выявления нарушений в компьютерных сетях за счёт создания методов интеллектуального анализа трафика, позволяющих выявлять угрозы в шифрованном канале связи.
Для достижения цели работы сформулированы и решены следующие частные задачи:
Задача 1 - анализ методов и средств выявления потенциально опасных сетевых активностей.
Задача 2 - разработка метода формирования ЦО(Цифрового отпечатка) протокола:
- выявление закономерностей в распределении длин, последовательностей и интервалов следования пакетов, доступных для наблюдения в шифрованных каналах связи;
- определение информативных признаков, характеризующих функционирование шифрованного канала связи;
- определение метрик близости/похожести цифровых отпечатков реализаций TLS-протоколов.
Задача 3 - разработка методов автоматического определения реализаций протоколов.
Задача 4 - разработка метода определения используемых протоколов внутри шифрованного канала связи
Методы исследования. Для достижения цели исследования применялись методы системного анализа, теории множеств, информатики, искусственного ин-
теллекта, а также критический анализ существующей практики решения частных задач исследования с использованием общепризнанных массивов данных.
Основные положения, выносимые на защиту:
1. Метод оценки близости/похожести цифровых отпечатков реализаций TLS-протокола
базирующийся на выявленных устойчивых закономерностях наличия, содержания и порядка следования параметров этих протоколов, не модифицируемых при передаче,
отличающийся от известных использованием выявленных информативных признаков, и
позволяющий получать количественную меру близости цифровых отпечатков протоколов.
2. Метод автоматической классификации цифровых отпечатков реализаций TLS-протокола
базирующийся на авторских методе оценки близости/похожести цифровых отпечатков реализаций TLS-протокола и способе определения оптимального значения близости цифрового отпечатка неизвестной реализаций TLS-протокола,
отличающийся от известных возможностью варьирования критериями классификации, и
позволяющий определять принадлежность анализируемого цифрового отпечатка не только к известным, но и новым семействам реализаций TLS-протокола.
3. Метод анализа аутентичности трафика,
базирующийся на анализе цифровых отпечатков реализаций сетевых протоколов,
отличающийся от известных комплексным использованием информативных признаков полей протоколов TLS и TCP, и
позволяющий делать предположения об использовании абонентом средств анонимизации и(или) стороннем вмешательстве в процесс передачи данных.
4. Метод определения типов трафика, в шифрованных каналах связи,
базирующийся на использовании закономерности в распределении длин, последовательностей и интервалов следования пакетов
отличающийся от известных низкой алгоритмической сложностью и возможностью учёта параметров конкретной конфигурации шифрованного канала связи,
позволяющий делать предположения о номенклатуре используемых протоколов в шифрованном канале связи.
Научная новизна диссертации отражена в следующих пунктах:
1. Впервые предложен метод совместного контроля цифровых отпечатков реализаций протоколов разного уровня модели OSI для выявления сетевых аномалий.
2. Впервые предложен метод оценки близости цифровых отпечатков реализаций протокола TLS на основании анализа групп опциональных параметров, не имеющих регламентированной хронологии следования.
3. Впервые предложен способ определения оптимального значения близости цифрового отпечатка неизвестной реализаций протокола TLS для решения задачи кластеризации: отнесения его к группе известных или новой (неизвестной) группе ЦО.
4. Выявлены и формализованы закономерности в распределении длин, последовательностей и интервалов следования пакетов, доступных для наблюдения в шифрованных каналах связи.
5. Впервые предложен метод определения используемых протоколов внутри шифрованного канала связи на основании сопоставления (анализа соответствия) полученного цифрового отпечатка и выявленных закономерностей.
Объектом исследования является процесс обеспечения информационной безопасности телекоммуникационных систем.
Предмет исследования - методы выявления потенциально опасных сетевых активностей на основе анализа реализаций телекоммуникационных протоколов.
Теоретическая значимость результатов диссертационной работы состоит в развитии научно-методического аппарата анализа трафика внутри УР^тоннеля, обеспечивающего обнаружения использования не только известных запрещён-
ных к использованию, но и новых вариаций коммуникационных протоколов.
Практическая значимость результатов диссертационной работы состоит в доведении предлагаемых методов до технической реализации, обеспечивающей их непосредственное применение в реальных коммуникационных системах организации. Разработан стенд для моделирования и исследования трафика в шифрованном канале связи, ориентированный на формирование модели трафика для различных конфигураций функционирования шифрованного канала связи.
Определение новых терминов и понятий новые понятия и термины не вводились.
Достоверность результатов, выносимых на защиту достигается: использованием достоверных исходных данных, полученных как в ходе эксплуатации информационных систем, так и экспериментального стенда; введением системы корректных допущений и ограничений; корректным применением апробированного математического аппарата;
подтверждается: результатами внедрения полученных результатов в реальных проектах; результатами экспериментов на открытых общепринятых наборах данных; непротиворечивостью и корректной логической интерпретацией полученных результатов; публикацией основных результатов диссертационного исследования в специализированных рецензируемых изданиях; апробацией на специализированных конференциях; согласованностью полученных результатов с результатами других авторов. Основные результаты исследования опубликованы в 4 рецензируемых научных изданиях, в которых должны быть опубликованы основные научные результаты диссертаций на соискание учёной степени кандидата наук, на соискание учёной степени доктора наук (перечень ВАК) и в 1 из списка международных рецензируемых изданий, индексируемых Web of Science и Scopus.
Внедрение результатов работы подтверждается актом внедрения АО «НИИ «Вектор» №0112-04-6025 от 14.04.2023 и актом внедрения СевероЗападного филиала ФГУП НТЦ «Орион» №18/ОРН/Ф-686 от 11.10.2023
Апробация результатов работы основные результаты работы докладывались и обсуждались на следующих конференциях:
- Международная конференция Экспотехностраж-2023, секция «Актуальный SOC» доклад «Технология определения типа трафика в шифрованном канале связи»;
- Конференция БИТ Санкт-Петербург 2023, научная секция «Безопасность сложных технических систем со встроенным искусственным интеллектом» доклад «Проблема автоматической классификации TLS-сессий с использованием цифровых отпечатков»;
- XIV Международная научно-практическая конференция «Научно-инновационные исследования и разработки: новые вызовы современности», доклад «Проблемы цифровых отпечатков протокола TLS в формате JA3, которые не решатся при переходе на JA4»;
- Пятьдесят третья (LIII) научная и учебно-методическая конференция Университета ИТМО (ППС), доклад «Обзор инструментов обхода национальных интернет цензур и способов выявления фактов их использования.».
Личный вклад автора результаты, которые представлены в настоящем диссертационном исследовании, получены автором лично.
Содержание работы Во Введении приводится обоснование актуальности задачи автоматического выявления потенциально опасных сетевых активностей, определены цели и задачи исследования, а также положения, выносимые на защиту. Сформулированы научная новизна и практическая значимость предлагаемых решений.
В главе 1 рассматриваются внутренние противоречия задачи выявления потенциально опасных сетевых активностей на периметре сети. Исследуются возможности и ограничения современных систем обнаружения вторжения (СО-В/IDS), систем предотвращения утечки данных (DLP) (Data Leakage Prevention), контент-фильтрации. Обозначены научно-методические и технологические проблемы применимости рассмотренных систем в контексте: производительности правил; изменчивости сигнатур разных версий реализаций протоколов; обхода различных блокировок организацией VPN-каналов. По результатам проведённого анализа формулируются методологические противоречия и конкретизируются задачи по их разрешению, а именно — разработки методов выявления вредонос-
ных активностей в шифрованном трафике.
В главе 2 излагаются методы, связанные с задачей кластеризации цифрового отпечатка реализаций протокола в нешифрованном канале связи (задачи 1-3). Независимо от способа организации фильтрации трафика, основой функционирования современных/известных/промышленных DPI систем является поиск в трафике заранее известных сигнатур. Проблемой такого сигнатурного подхода является изменчивость данных протоколов, на основе которых формируются такие сигнатуры и необходимость их постоянной актуализации. Вместе с тем, определение границ потенциально возможных изменений в сигнатуре и количественная оценка близости, позволили бы выявлять как вариации известных, так и новые реализации протоколов, в том числе - связанных с известными угрозами. Автоматизация этого процесса обеспечит повышение оперативности реагирования на потенциальные инциденты информационной безопасности.
В качестве гипотезы исследования примем: «Любая реализация протокола, допускающего вариативность параметров, может быть описана набором отличительных признаков, каждый такой признак будет иметь свою неравную другим информативность». Информативность признака для определения конкретной реализации протокола зависит от общего количества реализаций и количества реализаций с этим признаком. Независимо от протокола все возможные признаки, описывающие ЦО можно разделить на следующие типы:
- флаги - булевские атрибуты, характеризующие наличие или отсутствие определённого признака у характеризуемой им реализации протокола;
- константное числовое значение;
- диапазон значений - применим для числовых значений, может определяться формулой, списком или границами интервалов значений;
- последовательность - обычно список мнемонических обозначений параметров с имеющей значение хронологией следования элементов друг за другом. Используется в случаях, когда необходимо описать порядок следования и состав опциональных параметров.
Количественное значение отличия каждого из i параметров Ai(a,b) может определяться:
- если значения всех типов признаков a и b совпадают Ai(a,b) = 0;
- в противном случае:
- для числовых констант - как абсолютное значение разности a и b: Ai(a,b) = \(a - b)\;
- для диапазонов - размер диапазона, образованного пересечением диапазонов a и b;
- для последовательностей - количественная оценка совпадение состава и порядка следования мнемоник, полученная как расстояние Левенштейна - сумма цен операций превращения последовательности a в последовательность b. Алгоритм определения расстояния Левенштейна lev(a,b) для последовательностей a и b с длинами \a\ и \b\ определяется по формуле (1), где tail некоторой строки x - это строка всех символов x, кроме первого, а x[n] -n-ный символ строки x, начиная с 0. Применимость расстояния Левенштейна как меры близости продемонстрировано в таблице 1 и обусловлено тем, что для подавляющего числа протоколов добавление или удаление параметра из списка, как правило, не приводит к нарушению общей хронологии следования параметров.
lev(a,b) = <
\a\ \b\
lev (tail (a),tail(b)) /
lev (tail (a),b) 1 + min{ lev(a,tail(b))
lev (tail (a),tail(b))
если \b\ =0 если \a\ =0 если a[0] = b[0]
в остальных случаях
(1)
Аналогичная близость может быть выявлена в HTTP (RFC 7230), SIP (RFC 3261), SDP (RFC2327), MGCP (RFC2705) и других протоколах, где представление ЦО описывает хронологию и способ задания параметров. В этих случаях символьной мнемоникой целесообразно обозначать каждое обозначение каждого встречаемого параметра.
Несмотря на приемлемое качество используемой метрики, она не лишена следующих недостатков, которые могут составить предмет дальнейшего исследования:
Таблица 1 — Пример расчёта расстояния Левенштейна для последова-
тельности mss, nop, ws, nop, nop, ts, sok, eol+1
Вариации цифровых отпечатков пакетов TCP SYN Комментарий Расстояние Левенштейна
mss, nop, ws, nop, nop, ts, sok, eol+1 исходный список опциональных параметров пакетов TCP SYN 0
mss, nop, ws, mptcp, nop, nop, ts, sok, eol+1 добавление в список параметра mptcp 1
mss, nop, nop, ts, sok, eol+1 отпечаток, в котором параметр ws равен 0 и этот параметр не передаётся 2
- следует учитывать длину сравниваемых параметров: одно значение расстояния для коротких и длинных списков нельзя считать равнозначным;
- добавление или удаление элемента списка в начале или конце не всегда эквивалентно такому же действию в произвольном месте последовательности;
- расстояние Левенштейна не учитывает кучность изменений.
В качестве анализируемых параметров для ЦО протокола выбираются подходящие признаки, на максимально большой выборке. Перед осуществлением сравнения ЦО следует определить, могут ли выбранные параметры быть изменены в процессе передачи до наблюдателя транзитными узлами. Если такое изменение значений параметров, возможно, то необходимо учитывать это при сравнении ЦО.
Метод оценки близости/похожести цифровых отпечатков реализаций TLS-протокола. Рассмотрена возможность оценки информативности параметров Si на примере базы данных проекта Cisco Mercury и объединением в классы разных версий распространённых реализаций. Рассмотрена возможность дополнения признаков клиентской реализации протокола TLS-признаками допустимых для этой конкретной реализации SYN-реализаций, что позволяет уменьшить вероятность коллизий признаков. В этом контексте описание каждого отпечат-
ка реализации TLS-протокола дополнится множеством допустимых параметров
В ходе работы исследованы различные способы получения общей количественной оценки близости ЦО. Так оценка близости ЦО реализаций протокола может вычисляться как сумма значений количественного отличия каждого элемента, умноженного на его информативность в декартовом пространстве
п - количество возможных параметров ЦО, по которому производится сравнение; Аг(а,Ъ) - расстояние ьго параметра отпечатков а и Ь; - информативность ¿-го параметра.
Однако Декартова метрика (2) не учитывает ковариации и дисперсии значений параметров. Разная дисперсия значений параметров при равной информативности этих параметров будет давать сильные отклонения, обусловленные этой разницей дисперсий.
Как известно, для использования функции расстояния в метрическом пространстве должны выполняться следующие аксиомы:
- А{(а, а) = 0 - аксиома тождества;
- А^а, Ь) ^ 0 - аксиома положительности;
- А,1(а, Ь) = ((Ь, а) - аксиома симметричности;
- А,1(а, г) ^ ((а, Ь) + й(Ь, г) - аксиома треугольника.
В исследуемой предметной области аксиома симметричности и аксиома треугольника выполняются для расстояния Левенштейна, если цены операций добавления и удаления равны. Применимость аксиомы симметричности обосновывается применением обратных операций к Ь в обратном порядке, приводящим к получению последовательности а. Аксиома треугольника также выполняется, давая в пределе равенство А^а, г) = А^а, Ь) + А,1(Ь, г), когда элемент Ь является промежуточным элементом на пути превращения последовательности а в последовательность г. В случае если Ь не является промежуточным элементом на пути превращения последовательности а в последовательность г всегда будет иметь место неравенство А,1(а, г) < А^а, Ь) + А^Ь, г).
ТСР SYN.
п
(2)
i=l
При определении порогового значения близости ЦО следует руководствоваться тем, что выбор высокого значения ведёт к увеличению ошибок второго
рода (ложное принятие схожим ЦО вследствие случайной похожести), что в дальнейшем приведёт к слиянию разных групп ЦО невозможности их разделения. Низкое значение порога близости хоть и ведёт к увеличению ошибок первого рода (ложное принятие вариации ЦО не схожей), однако вред таких ошибок менее значим, т.к. он ведёт к дроблению групп похожих ЦО на более мелкие группы, которые при необходимости могут быть объединены на последующих этапах. Определение количественного порогового значения следует проводить на базе ЦО с достоверно определенными группами. Пороговым значением следует принять максимальное значение удаленности между элементами группы, не приводящее к включению любых посторонних ЦО из базы ЦО.
На рисунке 1 приведена дендрограмма расстояний ЦО разных версий реализаций протокола TLS, имеющихся в базе. Максимальное расстояние между элементами (пороговое значение) принято равным 4, большие расстояния считались не связанными. Распространенным реализациям присвоен уникальный цвет в соответствии с их названием в базе, серым цветом обозначены все редко встречающиеся реализации. Выделение элементов цветом происходило в соответствии с названием в базе и не зависело от расчета расстояний. Такое представление позволяет визуально оценить корректность выбора порогового значения по размерам графов и количествам попаданий элементов разного цвета в один граф.
Рассмотрено применение количественной оценки близости ЦО TLS-реализации для автоматического выявления ошибочных привязок ЦО к сторонним процессам на примере базы проекта Cisco Mercury.
Метод автоматической классификации цифровых отпечатков клиентских реализаций TLS-протокола,
базирующийся на авторских методе оценки близости цифровых отпечатков реализаций TLS-протоколов и способе определения оптимального значения близости цифрового отпечатка TLS-протокола,
отличающийся от известных возможностью варьирования критериями классификации, и
позволяющий определять принадлежность анализируемого цифрового отпечатка не только к известным, но и новым семействам реализаций TLS-протоколов.
Все исследованные способы определения клиентской реализации TLS-протокола (LeeBrotherston, JA3, Cisco Mercury) используют в качестве информативных признаков не шифрованные данные TLS-рукопожатия со стороны клиента: версию протокола, список поддерживаемых реализацией алгоритмов шифрования, список расширений и различные значения этих полей. Базы содержат малый процент коллизий, когда разные реализации имеют полностью идентичный набор признаков. Вместе с тем доли различных ЦО в трафике не равны. Совместно около 95% занимают различные версии интернет браузеров или библиотек, популярных среди разработчиков ПО.
О долях ЦО в трафике можно сказать тоже: небольшое количество различных версий популярных реализаций встречаются несоизмеримо чаще остальных. Некоторые библиотеки, реализованы только в конкретных ОС и соответственно встречаются только с TCP-отпечатками этих ОС. Таким образом, можно сохранять список всех встречаемых TLS цифровых отпечатков совместно с соответствующими им отпечатками TCP. Рассматривать возможность отнесения нового ЦО TLS к конкретной группе с учетом ограничений на ЦО TCP этой группы, таким образом рассматривая соответствующий ЦО TCP новой реализации как дополнительный информативный признак. Для автоматической классификации среди известных реализаций следует сначала выполнить поиск ближайших соседей этого TLS отпечатка среди ранее встречавшихся с таким же TCP отпечатком. И только в случае, если такой не удалось обнаружить, следует искать ближайших соседей в общей базе известных цифровых отпечатков TLS.
В основном тексте диссертации рассмотрены:
- технология ведения базы ЦО реализаций с возможностью отнесения всех к кластерам уже известных (рисунок 2);
- выявленная закономерность миграции центров таких кластеров по мере добавления в БД новых ЦО;
- задача определения оптимального баланса ошибок первого и второго рода при отнесении неизвестного ЦО к кластеру описанных ЦО;
- возможный алгоритм автоматической классификации ЦО клиентских реализаций TLS-протокола (рисунок 3).
Метод анализа аутентичности трафика. Анализ цифровых TLS-отпечатков показывает, что их дополнение данными отпечатка TCP позволяет как убрать коллизии признаков, так и дополнительно контролировать аутентичность трафика. В отличие от цифрового отпечатка TLS, данные отпечатка TCP
Рисунок 1 — Визуализация расстояний близости ЦО разных версий реализаций
протокола TLS
\
Вектор Кластеризация, учет информативности, минимизация ошибок 2 рода Анализ смещения центров кластеров, наиболее ожидаемые элементы
признаков ->
Рисунок 2 — Организация пополнения базы признаков
могут меняться. В первую очередь это относится к значению Maximum Segment Size (MSS) который определяется минимальным MTU на пути следования пакета в соответствии с рисунком 4. Наиболее распространенными значениями MSS являются 1460 для IPv4 и 1440 для IPv6, которые получаются путем уменьшения распространенного значения MTU по умолчанию 1500 на длины заголовков IP и TCP. В случае использования пользователем VPN-канала, значение MSS уменьшается также на размеры полей служебных заголовков этих каналов, что позволяет определить его возможные конфигурации как на рисунке 5. Также меньшие значения MSS могут быть следствием прохождения пакета через сети различного оборудования, функционирующего с малым MTU такого как ADSL.
Рисунок 3 —Алгоритм автоматической классификации цифровых отпечатков клиентских реализаций TLS-протокола
Рисунок 4 — Изменение значения поля MSS при прохождении через сети с разным
MTU
В то же время остальные параметры, как правило, не меняются. Состав и значения параметров TCP не должен меняться в процессе передачи. В случае его несовпадения это может означать использование прокси-сервера или какого-либо
¡Р заголовок + другие заголовки + TCP заголовок
¿л
с О)
Е
О)
ш
со
X га
Е
Q.
О
Рисунок 5 — Уменьшение значения поля MSS при добавлении в пакет других заголовков, на размеры этих заголовков.
фильтрующего контент оборудования. Возможные несоответствия и их причины приведены в таблице 2.
Таблица 2 — Распространенные несоответствия переданных и принятых пакетов
Не соответствие Возможные причины
Уменьшение MSS использование VPN или оборудования с низким MTU на пути следования пакетов
Колебания значения IP ТТЦджиттер) следование пакетов по разным маршрутам, нормальная ситуация если TTL меньше значения по умолчанию
Изменение состава и значений полей опций TCP, изменение значения TCP Window использование прокси-сервера, инструментов анонимизации
Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК
Методы и протоколы обеспечения надежности и своевременности передач на основе репликации пакетов на транспортном уровне компьютерных сетей2021 год, кандидат наук Носков Илья Игоревич
Алгоритмы и защищенные системы биометрической аутентификации личности2018 год, кандидат наук Поляков, Андрей Владимирович
Разработка методов высокоскоростной передачи данных в телекоммуникационных сетях от одного отправителя нескольким получателям2016 год, кандидат наук Бахарев Александр Владимирович
Информационная безопасность транспортных протоколов телекоммуникационных сетей2011 год, кандидат технических наук Карпухин, Евгений Олегович
Разработка метода обработки трафика в очередях маршрутизаторов мультисервисной сети на основе нечёткой логики2016 год, кандидат наук Масленников Андрей Геннадьевич
Список литературы диссертационного исследования кандидат наук Ишкуватов Сергей Маратович, 2024 год
Список источников
1. Rasteh A., Delpech F., Aguilar-Melchor C., Zimmer R., Shouraki S.B., Masquelier T. Encrypted Internet Traffic Classification Using a Supervised Spiking Neural Network // arXiv preprint arXiv:2101.09818. 2022. URL: https://arxiv.org/pdf/2101.09818 (дата обращения 07.01.2022).
2. Gupta N., Jindal V., Bedi P. Encrypted Traffic Classification Using extreme Gradient Boosting Algorithm // Proceedings of the International Conference on Innovative Computing and Communications (ICICC 2021, Delhi, India, February 2021). Advances in Intelligent Systems and Computing (AISC). Vol. 1394. Singapore: Springer, 2022. PP. 225-232. D0I:10.1007/978-981-16-3071-2_20
3. Draper-Gil G., Lashkari A.H., Mamun M., Ghorbani A. Characterization of Encrypted and VPN Traffic Using Time-Related // Proceedings of the 2nd International Conference on Information Systems Security and Privacy (ICISSP, Rome, Italy, 19-21 February 2016). 2016. PP. 407-414. D0I:10.5220/0005740704070414
4. Islam F.U., Liu G., Liu W. Identifying VoIP traffic in VPN tunnel via Flow Spatio-Temporal Features // Mathematical Biosciences and Engineering. 2020. Vol. 17. Iss. 5. PP. 4747-4772. D0I:10.3934/mbe.2020260
5. Kent S., Seo K. Security Architecture for the Internet Protocol. No. rfc4301. 2005.
6. Atkinson R. IP Encapsulating Security Payload (ESP). No. rfc1827. 1995.
7. Xenakis C., Laoutaris N., Merakos L., Stavrakakis I. A generic characterization of the overheads imposed by IPsec and associated cryptographic algorithms // Computer Networks. 2006. Vol. 50. Iss. 17. PP. 3225-3241. D0I:10.1016/j.comnet. 2005.12.005
8. Дмитренко А. Изучаем и выявляем уязвимости протокола IPsec // Хакер. 2015 URL: https://xakep.ru/2015/ 05/13/ipsec-security-flaws (дата обращения 06.04.2022)
9. Akhter A. IPSec Packet Size Calculator // Cisco Community. URL: https://community.cisco.com/legacyfs/online/legacy/ 4/8/7/27784-IPSec_Calculator_NAT_GRE-Key.htm (дата обращения 24.01.2022)
10. encapcalc // GitHub. URL: http://github.com/dmbaturin/encapcalc (дата обращения 09.06.2022)
11. Pérez J.A., Cabrera V.Z.C., Jenecek J. Quality of Service Analysis of site to site for IPSec VPNs for realtime multimedia traffic // Advanced Int'l Conference on Telecommunications and Int'l Conference on Internet and Web Applications and Services (AICT-ICIW'06, Guadelope, French Caribbean, 19-25 February 2006). 2006. URL: https://www.its.bldrdoc.gov/ media/33388/per_j_slides1.pdf [Accessed 16th January 2022]
12. Ишкуватов С.М., Комаров И.И. Анализ аутентичности трафика на основании данных цифровых отпечатков реализаций сетевых протоколов // Научно-технический вестник информационных технологий, механики и оптики. 2020. Т. 20. № 5. С. 747-754. D0I:10.17586/2226-1494-2020-20-5-747-754
13. Lapczyk L., Skillicorn D.B. Activity Detection from Encrypted Remote Desktop Protocol Traffic // arXiv preprint arXiv:2008.02685. 2020. D0I:10.48550/arXiv.2008.02685
14. Urdaneta G., Pierre G., Steen M.V. A survey of DHT security techniques // ACM Computing Surveys. 2011. Vol. 43. Iss. 2. PP. 1-49. D0I:10.1145/1883612.1883615
15. Kiraly C., Teofili S., Bianchi G., Cigno R.L., Nardelli M., Delzeri E. Traffic Flow Confidentiality in IPsec: Protocol and Implementation // Proceedings of the 3rd IFIP WG 9.2, 9.6/11.6, 11.7/FIDIS International Summer School on the Future of Identity in the Information Society (Karlstad University, Sweden, 4-10 August 2007). The International Federation for Information Processing. Vol. 262. Boston: Springer, 2007. PP. 311-324. D0I:10.1007/978-0-387-79026-8_22
References
1. Rasteh A., Delpech F., Aguilar-Melchor C., Zimmer R., Shouraki S.B., Masquelier T. Encrypted Internet Traffic Classification Using a Supervised Spiking Neural Network. arXiv preprint arXiv:2101.09818. 2022. URL: https://arxiv.org/pdf/ 2101.09818 [Accessed 07.01.2022]
2. Gupta N., Jindal V., Bedi P. Encrypted Traffic Classification Using extreme Gradient Boosting Algorithm. Proceedings of the International Conference on Innovative Computing and Communications, ICICC 2021, February 2021, Delhi, India. Advances in Intelligent Systems and Computing (AISC). Singapore: Springer; 2022. vol.1394. p.225-232. DOI:10.1007/978-981-16-3071-2_20
3. Draper-Gil G., Lashkari A.H., Mamun M., Ghorbani A. Characterization of Encrypted and VPN Traffic Using Time-Related. Proceedings of the 2nd International Conference on Information Systems Security and Privacy, ICISSP, 19-21 February 2016, Rome, Italy. 2016. p.407-414. D01:10.5220/0005740704070414
4. Islam F.U., Liu G., Liu W. Identifying VoIP traffic in VPN tunnel via Flow Spatio-Temporal Features. Mathematical Biosciences and Engineering. 2020;17(5):4747-4772. D0I:10.3934/mbe.2020260
5. Kent S., Seo K. Security Architecture for the Internet Protocol. No. rfc4301. 2005.
6. Atkinson R. IP Encapsulating Security Payload (ESP). No. rfc1827. 1995.
7. Xenakis C., Laoutaris N., Merakos L., Stavrakakis I. A generic characterization of the overheads imposed by IPsec and associated cryptographic algorithms. Computer Networks. 2006;50(17):3225-3241. D0I:10.1016/j.comnet.2005.12.005
8. Dmitrenko A. Studying and identifying IPsec protocol vulnerabilities. Khaker. 2015. (in Russ.) URL: https://xakep.ru/ 2015/05/13/ipsec-security-flaws [Accessed 06th April 2022]
9. Akhter A. IPSec Packet Size Calculator. Cisco Community. URL: https://community.cisco.com/legacyfs/online/legacy/ 4/8/7/27784-IPSec_Calculator_NAT_GRE-Key.htm [Accessed 24th January 2022]
10. GitHub. encapcalc. URL: http://github.com/dmbaturin/encapcalc [Accessed 09th June 2022]
11. Pérez J.A., Cabrera V.Z.C., Jenecek J. Quality of Service Analysis of site to site for IPSec VPNs for realtime multimedia traffic. Advanced Int'l Conference on Telecommunications and Int'l Conference on Internet and Web Applications and Services AICT-ICIW'06, 19-25 February 2006, Guadelope, French Caribbean. 2006. URL: https://www.its.bldrdoc.gov/media/33388/ per_j_slides1.pdf [Accessed 16th January 2022]
12. Ishkuvatov S.M., Komarov I.I. Traffic Authenticity Analysis Based on Digital fingerprint Data of Network Protocol Implementations. Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2020;20(5):747-754. D0I:10.17586/2226-1494-2020-20-5-747-754
13. Lapczyk L., Skillicorn D.B. Activity Detection from Encrypted Remote Desktop Protocol Traffic. arXiv preprint arXiv:2008.02685. 2020. D0I:10.48550/arXiv.2008.02685
14. Urdaneta G., Pierre G., Steen M.V. A survey of DHT security techniques. ACM Computing Surveys. 2011;43(2):1-49. D0I:10.1145/1883612.1883615
15. Kiraly C., Teofili S., Bianchi G., Cigno R.L., Nardelli M., Delzeri E. Traffic Flow Confidentiality in IPsec: Protocol and Implementation. Proceedings of the 3rd IFIP WG 9.2, 9.6/11.6,11.7/FIDIS International Summer School on the Future of Identity in the Information Society, 4-10 August 2007, Karlstad University, Sweden. The International Federation for Information Processing. vol.262. Boston: Springer; 2007. p.311-324. DOI:10.1007/978-0-387-79026-8_22
Статья поступила в редакцию 11.09.2022; одобрена после рецензирования 25.11.2022; принята к публикации 28.11.2022.
The article was submitted 11.09.2022; approved after reviewing 25.11.2022; accepted for publication 28.11.2022.
Ишкуватов Сергей Маратович
Информация об авторе:
аспирант факультета безопасности информационных технологий Национального исследовательского университета ИТМО https://orcid.org/0000-0002-4006-3693
XIVМеждународная научно-практическая конференция УДК 004.7
Ишкуватов Сергей Маратович Ishkuvatov Sergei Maratovich
Аспирант Postgraduate Университет ИТМО ITMO University Санкт-Петербург, Россия Saint Petersburg, Russia
ПРОБЛЕМЫ ЦИФРОВЫХ ОТПЕЧАТКОВ ПРОТОКОЛА TLS В ФОРМАТЕ JA3, КОТОРЫЕ НЕ РЕШАТСЯ ПРИ ПЕРЕХОДЕ
НА JA4
THE PROBLEMS OF DIGITAL FINGERPRINTS OF THE TLS PROTOCOL IN A3 FORMAT, WHICH WILL NOT BE SOLVED WHEN SWITCHING TO JA4
Аннотация: В статье рассматриваются недостатки предлагаемого нового формата цифровых отпечатков реализаций протокола TLS JA4. Рассмотрен состав информативных признаков используемых для формирования цифровых отпечатков в форматах JA3 и JA4. Предложен альтернативный способ модификации формата JA3, позволяющий в большинстве случаев сохранить совместимость с записями в старом формате. В заключении отмечается, что формат JA4 не использует ряд существующих информативных признаков.
Abstract: The article discusses the disadvantages of the proposed new format of digital fingerprints of implementations of the TLS JA4 protocol. The composition of informative features used for the formation of digital prints in JA3 and JA4 formats is considered. An alternative method of modifying the JA3 format is proposed, which in most cases allows to maintain compatibility with records in the old format. In conclusion, it is noted that the JA4 format does not use a number of existing informative features.
Ключевые слова: TLS, цифровой отпечаток, JA3, DPI, пассивный наблюдатель.
Key words: TLS, fingerprint, JA3, DPI, passive observer.
Цифровые отпечатки реализаций протокола TLS
Сессии протокола TLS обладают целым рядом информативных признаков, которые позволяют пассивному наблюдателю установить возможную реализацию протокола клиента (framework или конечное пользовательское приложение) и возможные версии. Ответы со сервера, тоже информативны, но имеют смысл только в паре с признаками запроса, вызвавшего этот ответ поскольку сервер, всегда выбирает параметры исходя из предложенных клиентом. Запись признаков реализации протокола называется цифровым отпечатком этого протокола. Существует множество форматов записи информативных признаков, но наибольшее распространение получил формат JA3, который поддерживается множеством систем обнаружения вторжений, сервисами мониторинга вредоносной активности и анализаторами трафика. Доля сессий с определенными цифровыми отпечатками может быть очень велика, например для цифровых отпечатков браузеров. Одновременно с этим интерес может представлять появление редких и непохожих на остальные цифровых отпечатков, т.к. они как правило и могут являться сессиями вредоносного ПО.
Формат цифрового отпечатка JA3
Запись цифрового отпечатка клиентской реализации TLS-протокола в формате JA3 содержит следующие неизменяемые значения, которые передаются в первом пакете TLS-рукопожатия: номер версии, список поддерживаемых алгоритмов шифрования, список опциональных полей Extensions и некоторые значения представленные в Extension-полях, как показано на рисунке 1.
' Transport Layer Security
v TLSvl.2 Record Layer: Handshake Protocol: Client Hello Content Type: Handshake (22) Version: TLS 1.2 (0x0303) Length: 400 v Handshake Protocol: Client Hello
Handshake Type: Client Hello (1) Length: 396
Version: TLS 1.2 (0x0303)
Random: 64384478e6e8d7cbla32elf265767c66f537a921db7e708f7261a4153ee802df Session ID Length: 0 Cipher Suites Length: 42 ' Cipher Suites (21 suites)
Cipher Suite Ciphei Cipher Suite Ciphc Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Suite Cipher Si Compression
Length: 1 Compression Methods (1 method) Extensions Length: 313
(W 22)
ECDHE_EСDSA_WITH_AES_256_GCM_SHA384 (0ХС02С ) TLS_ECDHE_ECDSA_WITH_AES_128_GCM_SHA256 (0xc02b) ■S_ECDHE_RSA_WITH_AES_256_GCM_SHA384 (0XC030) S_ECDHE_RSA_WITH_AES_128_GCM_SHA256 (0xc02f) S_DHE_RSA_WITH_AES_256_GCM_SHA384 (0x009f) S_DHE_RSA_WITH_AES_128_GCH_SHA256 (0x009e) S_ECDHE_ECDSA_WITH_AES_256_CBC_SHA384 (0XC024) _WITH_AES_128_CBC_SHA256 (0XC023) "LS_ECDHE_RSA_WITH_AES_256_CBC_SHA384 ( 0XC028) ■S_ECDHE_RSA_WITH_AES_128_CBC_SHA256 (0XC027) TLS_ECDHE_ECDSA_WITH_AES_256_CBC_SHA (0xc00a) .S_ECDHE_ECDSA_WITH_AES_128_CBC_SHA (0XC009 ) S_ECDHE_RSA_WITH_AES_256_CBC_SHA (0XC014) S_ECDHE_RSA_WITH_AES_128_CBC_SHA (0XC013) .S_RSA_WXTH_AES_256_GCM_SHA384 (0x009d) TLS_RSA_WITH_AES_128_GCM_SHA256 (0x009c) ■S_RSA_WITH_AES_256_CBC_SHA256 (0x003d) TLS_RSA_WITH_AES_128_CBC_SHA256 (0x003c) .S_RSA_WITH_AES_256_CBC_SHA (0X0035) S_RSA_WITH_AES_128_CBC_SHA (0x002f) S RSA WITH 3DES ЕРЕ CBC SHA (0x008a)_
>upported_groups (len=8) ec_point_formats (len=2) signature_algorithms (len=26) session_ticket (len=208) application_layer_protocol_negot extended_master_secret (len=0)
renegotiation info ilsn=l>_
Extension Extension: [3A3 Fullstring: 771,49196-
[3A3: 74954a0c86284d0d6elc4efefe92b521]
Рис. 1. Формат записи JA3 и расположение информативных
признаков
В отличие от изменяемых косвенных признаков, таких как доменное имя конечной точки или IP-адреса сервера, такие признаки как список поддерживаемых алгоритмов шифрования не могут изменяться, что позволяет детектировать сессии с определенным цифровым отпечатком реализации протокола. Одновременно используется два представления цифровых отпечатков: строкой с перечислением информативных признаков и md5-хеш этой строки.
В начале 2023 компания Google в обновлении браузера Chromium стала рандомизировать порядок следования полей Extension, в результате чего эта версия породила факториал 14 (по количеству возможных перестановок) записей этого отпечатка. Позже, аналогичная рандомизация порядка следования стала применяться в некоторых приложениях ОС Android. В результате появления множества вариаций записей стало невозможным вести базу данных известных JA3 и категорировать TLS-сессии.
Формат цифрового отпечатка JA4
Для устранения недостатков формата JA3, его разработчик 24 сентября 2023 представил новый проект формата цифрового отпечатка JA4 (https://github.com/FoxIO-LLC/ja4). На настоящий момент поддержка JA4 анонсирована в такие проекты как GreyNoise, Hunt, Driftnet, Darksail, Arkime, GoLang, Suricata [1], вероятно, и остальные решения, использующие JA3, осуществят миграцию на новый формат. Новое представление сортирует списки типов полей Extension и Cipher suites с рандомизированной хронологией, приводя их к одинаковому виду независимо от фазы рандомизатора.
JA4 =
t 13 d 15 16 h2
8daaf6152771
b186095e22b6
JA4_a JA4_b
Рис. 2. Формат записи JA4
JA4_c
На рисунке 2 представлен формат записи JA4, где представлены следующие поля:
• Поле JA4_a состоит из следующих полей:
- Протокол, TCP = "t" QUIC = "q";
- Версия TLS, 1.2 = "12", 1.3 = "13"
- SNI, SNI = "d" (в случае наличия SNI), SNI = "i" (поле отсутствует);
- Количество элементов Cipher suites;
- Количество элементов Extensions;
- Первое значение поля ALPN ("00" в случае отсутствия ALPN).
• Поле JA4_b содержит усеченный хеш SHA-256 списка сортированных значений Cipher suites;
• Поле JA4_c содержит усеченный хеш SHA-256 списка сортированных значений Extensions и списка Signature Algoritms;
Открытость проекта на настоящий позволяет проводить
XIVМеждународная научно-практическая конференция исследования точности идентификации клиентских реализаций и сравнивать количество коллизий. На основании исследования используемых информативных признаков можно сделать вывод, что формат записи JA4 имеет следующие недостатки:
1. Невозможно оценить близость произвольных цифровых отпечатков. Даже полное представление цифрового отпечатка в формате JA3 позволяло находить ближайших соседей произвольного цифрового отпечатка. В качестве метрики оценки близости символьных последовательностей цифрового отпечатка, работы [2, c 31][3, c 97] предлагают расстояние Левенштейна. Нахождение известных ближайших соседей для неизвестного цифрового отпечатка позволяет предполагать реализацию протокола к которой принадлежит этот цифровой отпечаток, на основании известной информации о его ближайших соседях.
2. JA4 не поддерживает такие признаки как Elliptic Curves и Elliptic Curves Point Format. Исследование открытых баз данных [4][5] позволяет утверждать, что эти признаки принимают различные значения.
3. Игнорируется присутствие значений GREASE в различных параметрах как информативный признак. Вместе с тем наличие значений GREASE является информативным признаком и в настоящий момент присутствует только в реализациях, разрабатываемых компанией Google, в таких проектах как браузер Chromium и ОС Android.
4. Не определено поведение в случае нахождении в значении ALPN непечатных символов. Также возможны коллизии различных значений ALPN, так как для сравнения берутся только первый и последний символы значения первого элемента ALPN.
5. Использование в качестве хеша только части значения SHA256, отведенные для записи 12 шестнадцатеричных символов
«Научно-техническое развитие России и мира» позволяют уместить только первые 6 байт хеша, что увеличивает вероятность возникновения коллизий.
6. Для хранения признаков формат предусматривает избыточность, например подтип протокола или тип задания адреса отводится целый символ, несмотря на то что оба этих признака могут принимать только два возможных значения. Двух символьные поля количеств элементов в списках Cipher Suites и Extensions лишние т.к. эти значения уже учтены в последовательностях JA4_b и JA4_c до хеширования.
7. Безальтернативное использование записи, использующей хеширование, не позволяет восстановить все первоначальные параметры, достоверность каждой записи из базы данных, доступ к которой разработчики планируют предоставлять, не может быть проверена без информативных признаков до их хеширования.
8. Отсутствует возможность конвертировать все собранные к настоящему времени цифровые отпечатки в формате JA3 в формат JA4.
Преимущества формата записи JA4:
1. Поддерживается запись признаков для всех устаревших и современных реализаций протоколов.
2. Все записи имеют унифицированную длину (36 печатных символа), что делает удобным хранение их в отдельных полях баз данных.
Возможные альтернативные способы записи информативных признаков
Следует отметить, что хронология следования элементов в списках Cipher Suites и Extensions является информативны признаком, информативность которого уменьшается при сортировке элементов. Вместе с тем рандомизация хронологии применяется только для списка Extensions и только в том случае если в последовательности
XIVМеждународная научно-практическая конференция присутствует элемент GREASE. Возможным альтернативным решением могло бы быть сортировка значений только в случае присутствия элемента GREASE. Такое решение позволило бы сохранить совместимость со старыми записями в формате JA3. Более правильно было бы сохранять все информативные признаки, содержащиеся в полях Extensions, а не сокращать их число как это предложено форматом JA4.
Заключение
Предлагаемый формат JA4 хоть и способен описывать цифровые отпечатки клиентских реализаций протокола TLS, не учитывает множество информативных признаков. Нет сомнения, что JA4 получит такое же распространение, как и его предшественник. Тем не менее располагая цифровым отпечатком в формате JA4, можно лишь проверить полное совпадение всех учитываемых этим форматом признаков у имеющейся сессии, но нельзя восстановить из частей хеша исходные информативные признаки. Приходится надеяться на достоверность сопоставлений цифрового отпечатка названию реализации в предоставляемой разработчиками базе данных без возможности проверить корректность другими методами. Для независимых разработчиков было бы правильным решением сохранять в базе данных все возможные информативные признаки известных реализаций с возможностью их представления в любом из распространённых форматов. Такой подход позволит контролировать допустимость сопоставлений произвольного цифрового отпечатка находя его ближайших соседей в базе признаков, в тоже время сохранится возможность использовать данные из сторонних источников.
Библиографический список:
1. Althouse J., JA4+ Network Fingerprinting // FoxIO
«Научно-техническое развитие России и мира» [Электронный ресурс] Режим доступа: https://blog.foxio.io/ja4-network-fingerprinting-9376fe9ca637 (дата обращения 26.10.2023).
2. Ишкуватов С. М., Швед в. Г., Филькова И. А. Метод оценки близости цифровых отпечатков реализаций протоколов // Защита информации. Инсайд. - №. 2. - с. 29-33.
3. Heino J., Hakkala A., Virtanen S. Categorizing TLS traffic based on JA3 pre-hash values //Procedia Computer Science. - 2023. - Т. 220. -С. 94-101.
4. Github [Электронный ресурс] Режим доступа: https://github.com/trisulnsm/ja3prints/blob/master/ja3fingerprint.json (дата обращения 26.10.2023).
5. Github [Электронный ресурс] Режим доступа: https://github.com/cisco/mercury/blob/main/resources/fingerprint_dbjsong z (дата обращения 26.10.2023).
I МЕТОД АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ЦИФРОВЫХ ОТПЕЧАТКОВ ^-ПРОТОКОЛА
Ишкуватов С. М.\ Бегаев А. Н.2, Комаров И. И.3
Р01: 10.21681/2311-3456-2024-1-67-74
Цель исследования: разработка метода классификации цифровых отпечатков TLS-протокола, обеспечивающего их автоматическое соотнесение с одной из известных групп или принятие решения об обнаружении новой реализации протокола.
Методы исследования базируются на положениях теории топологии, теории автоматов, теории множеств; использовании методов автоматической кластеризации, проведения натурного эксперимента и обработки экспериментальных данных.
Результат: мониторинг трафика на границе контролируемой зоны телекоммуникационной сети является основной составляющей обеспечения кибербезопасности. Одним из традиционных подходов для решения этой задачи является использование цифровых отпечатков как устройств, так и программной реализации телекоммуникационных протоколов.
Несмотря на богатую историю развития методов автоматического определения реализации протокола на основе анализа цифровых отпечатков, эта задача в полной мере ещё не решена ввиду изменчивости как самих протоколов, так и телекоммуникационной инфраструктуры, определяющих вариативность конечных формы и значения соответствующего цифрового отпечатка.
В работе предлагается метод автоматической классификации цифровых отпечатков TLS-протокола, базирующийся на формальной оценке близости вариативных форм представления цифровых отпечатков и устойчивый к модификации их значений; приводятся данные по степени влияния значения порога близости на ошибки первого и второго рода в процессе кластеризации.
Полученные результаты в первую очередь ориентированы на применение в системах мониторинга трафика, но могут быть использованы и для решения других задач кибербезопасности.
Научная новизна результатов определяется совокупностью авторских решений, связанных с обоснованием, введением и применением метрики для оценки близости цифровых отпечатков телекоммуникационных протоколов, устойчивой к модификации цифровых отпечатков клиентской реализации TLS-протокола, а также доказательным подтверждением реализуемости и получением значений показателей качества функционирования метода автоматической классификации цифровых отпечатков реализаций протокола TLS, применённого к известным базам данных цифровых отпечатков.
Вклад авторов: Ишкуватов С. М. - разработка метода автоматической классификации цифровых отпечатков протоколов, подготовка исходных данных, проведение эксперимента и визуализация результатов; Бегаев А. Н. - анализ опыта и перспективных сценариев применения периметровых систем мониторинга трафика, определение требований и ограничений исследования; Комаров И. И. - определение научно-методического аппарата и подходов к оценке близости цифровых отпечатков, разработка плана исследования.
Ключевые слова: кибербезопасность, мониторинг трафика, коммуникационный протокол, инцидент информационной безопасности, модель пассивного наблюдателя, вектор информативных признаков, мера близости, кластеризация, показатели качества.
1 Ишкуватов Сергей Маратович, аспирант факультета безопасности информационных технологий, Университет ИТМО, Санкт-Петербург, Россия. E-mail: sysroot0@gmail.com
2 Бегаев Алексей Николаевич, кандидат технических наук, генеральный директор АО «Эшелон - Северо-Запад», Санкт-Петербург, Россия. E-mail: begaev@mail.ru
3 Комаров Игорь Иванович, кандидат физико-математических наук, доцент, доцент факультета безопасности информационных технологий, Университет ИТМО, Санкт-Петербург, Россия. E-mail: i_krov@mail.ru
THE AUTOMATIC METHOD OF TLS PROTOCOL DIGITAL FINGERPRINTS CLASSIFICATION
Ishkuvatov S. M.4, Begaev A. N.5, Komarov 1.1.6
The purpose of the study is to develop a method for classifying digital fingerprints of the TLS protocol, ensuring their automatic correlation with one of the known groups or making a decision on the discovery of a new protocol implementation.
The research methods are based on the principles of topology theory, automata theory, set theory, the use of automatic clustering methods, full-scale experiments, and experimental data processing.
Results: traffic monitoring of the telecommunications network-controlled zone border is a key component of ensuring cyber security. One of the traditional approaches to solving this problem is using of digital fingerprints (DF) of both devices and software implementation of telecommunication protocols. Despite the rich history of development automatically determining the protocol implementation methods based on the analysis of DF, this task has not yet been fully solved due to the variability of both the protocols themselves and the telecommunications infrastructure, which determine the variability of the corresponding DF final shape and value.
The paper proposes an automatic the TLS protocol's DF classification method, based on a formal proximity assessment of the variable forms of DF and resistant to their values modification; data on the influence degree of the proximity threshold value on first and second kind errors in the clustering process are presented.
The results obtained are primarily focused on application in traffic monitoring systems but can also be used to solve other cybersecurity tasks.
Scientific novelty is determined by a set of author's solutions related to the justification, introduction and application the telecommunication protocols DF proximity assessment metrics that are resistant to the TLS protocol's client implementations modifications, as well as evidence-based confirmation of the feasibility and obtaining the quality indicators values of the automatic classification DF TLS protocol's implementations method functioning applied to known DF databases.
Keywords: cybersecurity, informative features vector, digital fingerprint, proximity measure, clustering, digital fingerprint database.
Введение
Мониторинг и глубокий анализ сетевого трафика на границах сетей является важной составляющей обеспечения кибербезопасности, позволяющий выявлять факты использования небезопасных протоколов, сетевые атаки и обнаруживать иные проблемы информационной безопасности (ИБ).
Одним из традиционных механизмов, используемых системами обнаружения вторжений, является фильтрование трафика по шаблонам - заранее подготовленному списку правил. Однако этот подход опирается на ретроспективный анализ и не позволяет выявлять не описанные ранее угрозы.
Сложность задачи аналитического анализа сетевого трафика определяется его имманентной изменчивостью и трудностью формальной интерпретации корректности, связанной как с естественным изменением конфигурации программно-аппаратных
средств в процессе развития информационной системы, так и с целенаправленным противодействиям сетевым угрозам [1, 2].
Более того влиятельные транснациональные игроки телекоммуникационной отрасли7 предпринимают специальные усилия по «запутыванию» протоколов для противодействия национальным цензурам или нежелательным для них способам использования ресурсов.
Промежуточным направлением между «шаблонным» и аналитическим анализом протоколов является подход, основанный на анализе цифровых отпечатков (ЦО), под которыми понимается набор параметров, характеризующий тот или иной протокол, а также позволяющий строить гипотезы относительно реализаций конкретного протокола. Некоторые подходы, связанные с использованием ЦО не только
4 Sergei M. Ishkuvatov, Ph.D. student, Faculty of Information Technology Security, ITMO University, St. Petersburg, Russia. E-mail: hieule250715@gmail.com
5 Alexey N. Begaev, Ph.D., CEO of JSC North-West Echelon, St. Petersburg, Russia. E-mail: begaev@mail.ru
6 Igor I. Komarov, Ph.D., (in Maht.), Associate Professor, Faculty of Information Technology Security, ITMO University, St. Petersburg, Russia. E-mail: i_krov@mail.ru
7 Больше протоколов для шифрования DNS3anpocoB. — URL: https:// vasexperts.ru/blog/tehnologii/bolsheprotokolovdlyashifrovaniyadnszaprosov/ (дата обращения: 10.10.2023).
Рис. 1. Расположение систем поведенческого анализа сетевого трафика
программных реализаций, но устройств в целом, доведены8 до корпоративных стандартов.
В работе предлагается метод, обеспечивающий автоматическую классификацию ЦО программной реализации TLS-протокола с использованием модели пассивного наблюдателя. Постановка задачи и ограничения
Исследование предполагает (рис. 1) наличие корпоративной защищаемой инфраструктуры, которая находится внутри контролируемого периметра, но вынуждена взаимодействовать с внешней неконтролируемой средой. Взаимодействие осуществляется через систему мониторинга трафика, к которой применена модель «пассивного наблюдателя». Задача системы мониторинга - информирование администратора сети об обнаруженных инцидентах таких как появление новых абонентов/видов сетевых активностей или сокрытия фактов использования запрещённых организацией протоколов. Решение этой задачи осложняется:
0 Распространением технологий сокрытия DNS запросов, таких как DNS over HTTPS, DNS over TLS, DNS over QUIC, DNS over CoAP, SecureDNS. 0 Проблемами типа DNS leaks9 - когда запрос локального узла к локальному ресурсу ошибочно перенаправляется глобальному DNS, раскрывая внутреннюю архитектуру сети на всем пути следования пакета [3].
0 Расширением применения шифрованного TLS-рукопожатия Encrypted Client Hello (ECH), делающим невозможным10 определения конечной точку TLS-сессии по значению поля ServerName из запроса клиента и проверки цепочки сертификатов, предоставляемых сервером. В результате система мониторинга трафика сталкивается с рядом сложностей, в том числе, нарушающих функционирование прикладной системы: 0 TLS-сессии станут практически неотличимы друг
от друга традиционными методами: 0 станет невозможным Sinkholing11 - получение информации о заражении перенаправлением вредоносного трафика на сервер исследователя: 0 ограниченное использование баз данных (БД) ЦО,
например на основании дефакто-стандарта JA312: 0 системы контент фильтрации смогут блокировать ресурсы только в случае явного обращения к запрещённому ресурсу по IPv4 адресу: 0 невозможность выборочной блокировки ресурса без блокировки всех ресурсов, использующих эту сеть доставки контента CDN13. Преодоление указанных сложностей системы анализа трафика может реализовываться в следующих направлениях:
0 поиск новых информативных признаков и подходов к описанию информативных признаков
СТО БР БФБО-1.7-2023 Стандарт Банка России «Безопасность финансовых (банковских) операций. Обеспечение безопасности финансовых сервисов с использованием технологии цифровых отпечатков устройств (принят и введён в действие приказом Банка России от 01.03.2023 N ОД-335) Imana Basileal, Korolova Aleksandra, Heidemann John. Enumerating privacy leaks in DNS data collected above the recursive // NDSS: DNS Privacy Workshop. - 2018.
Encrypted Client Hello (ECH): часто задаваемые вопросы. — URL: https://
support.mozNla.org/ru/kb/faq-encrypted-cNent-hello (дата обращения:
20.05. 2023).
Sinkholing — URL: https://encyclopedia.kaspersky.ru/glossary/sinkholing/
(дата обращения: 10.10.2023).
JA3 — A method for profiling SSL/TLS Clients [Электронный ресурс]. URL: https://github.com/salesforce/ja3 (дата обращения: 19.07.2020).13 Peng Gang. CDN: Content distribution network // arXiv preprint cs/0411069. -
2004.
10
8
11
12
9
реализаций протоколов для учёта их вариативности и постоянной мимикрии угроз; 0 совместный анализ информативных признаков разных протоколов и на разных уровнях модели OSI [4];
0 поиск статистических закономерностей вредоносного трафика, которые могут быть выявлены пассивным наблюдателем даже в случае использования сторонами шифрования.
Предпосылки исследования
Исторически сложилось два основных направления получения данных об устройствах и протоколах сети: активный и пассивный [5]. Несмотря на более широкие возможности активных методов, их применение не всегда возможно.
Исследования, посвящённые выделению и описанию информативных признаков, процедуре пассивного получения ЦО14, а также его использования, в том числе в контексте HTTPS трафика15, получали развитие по мере развития телекоммуникационных систем.
Результаты, полученные в работах [6 - 7] определили возможность применения ЦО для выявления угроз ИБ и легли в основу механизмов идентификации реализаций TLS-протокола, развиваемых проектами JA3 и JA3S, а также Cisco Mercury. В настоящее время в открытой БД ЦО проекта JA3 используется две формы: исходная полная запись признаков и mdS-хеш этой полной формы.
Отдельную группу составляют работы, посвящённые проблеме классификации трафика, передаваемого в шифрованной сети [8-13]. Решения демонстрируют хорошие результаты по определению типа трафика на основании анализа нормализованных по времени и размерам распределений длин пакетов, как для отдельных TLS-сессий, так и всего канала VPN.
В работе16 предлагаются обзор перспективных подходов, в том числе не ограниченных признаками TLS-рукопожатия, таких как цепи Маркова, описывающие сетевое взаимодействие сторон.
Анализ рынка систем анализа трафика позволяет выделить несколько ключевых проектов, характеризующих достигнутый практический уровень.
Характерным представителями систем, базирующихся на проекте JA3/JA3S является продукты Wireshark и Suricata17 , использующие, в том числе, модели [14, 15].
14 Shu G., Lee D. Network protocol system fingerprinting a formal approach // Proceedings IEEE INFOCOM 2006. 25TH IEEE International Conference on Computer Communications. - IEEE, 2006. - Pp. 1-12.
15 HTTPS traffic analysis and client identification using passive SSL/TLS fingerprinting/ Martin Husák, Milan Cermák, Tomás Jirsík, Pavel Celeda // EURASIP Journal on Information Security. 2016. Vol. 2016. Pp. 1-14.
16 Gancheva Z., Sattler P., Wüstrich L. TLS Fingerprinting Techniques // Network. - 2020. - URL: https://www.net.in.tum.de/fileadmin/TUM/NET/NET-2020-04-1/ NET-2020-04-1_04.pdf (online; accessed: 20.05.2023).
17 Suricata. Observe. Protect. Adapt. — URL: https://suricata.io/ (online; accessed: 10.10.2023).
Известна отечественная система анализа трафика для выявления атак PT Network Attack Discovery18. В контексте исследования особый интерес представляет библиотека OsDetectLib19 которая по описанию разработчиков занимается определением операционных систем TCP-сессий. В репозитории на Github разработчик публикует открытую часть правил детектирования различных видов атак в формате Suricata20. Формат правил Suricata также имеет функционал автоматического получения ЦО TLS реализаций в формате JA3/JA3S и возможность описания ЦО TCP/IP. Однако правила, содержащие ЦО различных уровней, являются строгими и не предполагают оценок возможной близости, кроме того, в части случаев ЦО задаётся MD5-хешем, что хоть и делает правила более компактными, препятствует любой проверки на соответствие, кроме строгой.
Способ решения задачи и анализ полученных результатов
Для решения задачи автоматической классификации ЦО TLS-протоколов должны быть решены следующие частные задачи:
0 определена номенклатура информативных признаков, доступных пассивному наблюдателю; 0 выбрана единая (псевдоканоническая) форма
записи наблюдаемых признаков; 0 введена метрика близости ЦО, обеспечивающая формальную оценку расстояния ЦО в многомерном пространстве признаков; 0 выполнена подготовка БД ЦО для использования
в автоматическом режиме; 0 предложен алгоритм кластеризации ЦО.
Под термином ЦО реализации TLS-протокола понимаются параметры, характеризующие именно эту конкретную реализацию протокола, именно конкретную версию библиотеки, реализующий этот протокол или группу возможных версий.
Для решения задач формирования ЦО клиентской реализации TLS-протокола наибольшее распространение в настоящее время получил алгоритм JA3 [16], интересны модели использования альтернативных баз представления признаков - проекта Mercury Cisco2122, [17, 18, 19] и LeeBrotherston23 [20].
Критерием выбора информативных признаков TLS-протокола для использования в работе (рис. 2) являются: 1) возможность определения пассивным
18 PT Network Attack Discovery. — URL: https://ptsecurity.com/ru-ru/products/ network-attack-discovery/ (дата обращения: 20.05.2023).
19 Результаты анализа трафика в 41 компании и новые возможности PT NAD. — URL: https://www.ptsecurity.com/upload/corporate/ru-ru/webinars/ ics/PT_NAD_ 18_03.pdf (дата обращения: 20.05.2023).
20 Suricata PT Open Ruleset. — URL: https://github.com/ptresearch/AttackDe-tection (дата обращения: 20.05.2023).
21 Mercury: network fingerprinting and packet metadata capture - URL:https:// github.com/cisco/mercury. (online: accessed: 21.10.2023).
22 Lee brotherston's work - URL: https://github.com/synackpse/tls-fingerprinting (online: accessed: 21.10.2023).
23 Brotherston Lee. Lee brotherston's work. — URL: https://github.com/synackpse/ tls-fingerprinting (online: accessed: 20.05.2023).
Handshake Type; Client Hello (1)
Length: 568_
| Version; TtS 1.2 (B>9393)| Sandoi: lDe3ee9fd5a4Mj2fG35dd8i25e6427ef9eb06286b4531dace32f59ab92a93933 Session ID Length:
Session IB: dbfe3V6dfb5e2?f6tfdctl2?64J?dc?de2ii82df9eclb$eSii2Jib?t»ae9a4c2f7d413c Cipher Suites Length; -» Cipher Suites (16 suites)
Cluhe- Suite: Rese-vea fGREAS-E)_iSxcaea)
Cipher Suite; TLS_AES_128_GCM_SHA2S6 (8x1301)
cipher Suite; TLS_AES_256_GCM_SHA3S4 (0x1302)
Cipher Suite: TLS_CHACHA20_POLY1305_SHA256 (0x1303)
Cipher Suite: TIS_ECDHE_£CDSA_WITH_4ES_128_GCM_SHA256 (0xc82b)
Cipher Suite: TLS_ECOHE_RSA_wrm_AES_12S_SCH_SBA25S (0xc02f)
Cipher Suite: TLS_ecnnE_tC0SA_WItHjies_25f;_GCH_SHAJ84 (0xc62c)
Cipher Suite: TLS_E«WE_fiSA^WITH^AfSJ;5«_SCH SMA?84 (0XCS3B)
Cipher Suite: TLS ECOHEECDSA WITH CttACHA30POLY130SSHA256 (8xcca3)
Cipher Suite: TLS_ECDhE RSA WITH CHACNA20POLY1J0S SHA256 (BxccaS)
Cipher Suite: 7LS_ECDHE_RSA_WITHJVES_12S_CBC_SHA (0XC013)
Cipher Suite: TLS_ECDHE _RSA_WITH_AES_25S_CBC_SHA (0XC014)
Cipher Suiter TLS_RSA_WITH_AES_12S_GCfl_SHA256 (6x609c)
Cipher Suite: TLS_RSA_WITH_AES_256_GCM_5HA384 (0x609d)
Cipher Suite: TLS_RSA_WITh_AES_12a_C6C_SHA (0x062f)
Cipher Suite: Tl_S_RSA_WITh_AES_256_CeC_SHA (0X0635)
Compression Methods Length: 1 Compression Methods (1 method) Extensions Length; 493 Extension: Reserved (GREASE) (len«ti) server_name (Lentil) extended_master_5ecret (Icn^)
r*enegoTiation_infc {len*i} supported e roups (len«10) Type: supported_groups (10) Length:
Supported Groups List Length: 8 Supported Groups (4 groups)
Supported 6roup: x255l9 (0x001d) Supported Group: seep256rl (0X&017) Supported Group: secp384rl (6x&01S)
Extension: Extension: Extension: Extension: Extension: ec_poirt_forirats (lert"2) session_ticket (ien»ö) application_layer_protocol_negotiation (len«14) status_request (len=5) signature_algorittuns (len=18)
Extension: signed certificate timestamp (len=0)
Extension: Extension: Extension: Extension: key_share (len=43) psk_key_exchange_modes (len=2) 5upported_versions (len-11) compress certificate (1егиЗ)
Extension: Reserved (GREASE) (len-1) I Extension:) oaddine ilen-214)
а) Информативные признаки пакета TLS Client Hello, используемые для формирования ЦО
[ЗАЗ Füllst ring: ;n^8W.486e-4M7.48ia5-4a»M-4ai«^MW-SI»3-513M-4»171-Mi;2-KS-lS7-47.;3.>-;3-652ai-lBai-3S-lS-S-13-lB-Sl-45-43-2701.38-M-24.«1
б) Полный и хешированный ЦО в формате JA3, полученные из данных рис. 2.а) Рис.2. - Формирования ЦО пакета TLS Client Hello
наблюдателем и 2) возможность их получения из распространённых БД ЦО.
Перечень информативных признаков включает: 0 номер используемой версии протокола TLS - целое число (выделено красным): 0 список поддерживаемых клиентской реализации алгоритмов шифрования Cipher Suites - последовательность 2-байтных символов (выделено зелёным): 0 список опциональных параметров TLS Extensions последовательность 2-байтных символов (выделено голубым):
0 хронология следования параметров TLS
Extensions (формируется динамически): 0 EC point formats (выделено жёлть ) - в случае, если этот тип поля присутствует только в одном ЦО, принимать расстояние равным 2: 0 список Elliptic Curves - в случае, если этот тип поля присутствует только в одном ЦО, принимать расстояние равным 2.
Несмотря на возможность произвольной авторской модификации возможных форматов хранения ЦО, открывающих новые перспективы автоматиче-
ской обработки, в качестве псевдоканонической формы записи ЦО для выбран полный формат JA3. Выбор определяется его широким использованием в профессиональном сообществе, активным пополнением базы и поддержкой значительным числом программных продуктов, что упрощает вывод в практическое применение полученных результатов.
Введение метрики для оценки близости двух ЦО протокола предполагает определение метрического пространства [21] и способов обработки каждого из компонентов вектора признаков. Независимо от протокола все возможные признаки, описывающие ЦО можно разделить на следующие типы: 0 флаги - булевские атрибуты, характеризующие наличие или отсутствие определённого признака у характеризуемой им реализации протокола; 0 константное числовое значение; 0 диапазон значений - применим для числовых значений, может определяться формулой, списком или границами интервалов значений; 0 последовательность - обычно список мнемонических обозначений параметров с имеющей значение хронологией следования элементов друг за другом - для описания порядка следования и состав опциональных параметров. В работе [21] предложен метод количественной оценки отличий Ai(a,b) каждого из i значений компонента векторов признаков A=<a, a2...an>a и B=<bj, b2...bn>. Она может определяться: 0 если значения всех типов признаков a и b совпадают Ai(a,b) = 0; 0 в противном случае:
0 для числовых констант - как абсолютное значение разности a и b: Ai(a,b) = |(a - b)|; 0 для диапазонов - размер диапазона, образованного пересечением диапазонов Ai(a,b) = M|anbi|, (где M - мощность множества), возможно с модификацией: Ai(a,b)= M|ainbj, обеспечивающей учёт относительной мощности сравниваемых множеств. 0 для последовательностей - количественная оценка совпадения состава и порядка следования мнемоник, полученная как расстояние Левенштейна. Алгоритм определения расстояния Левенштейна lev(a,b) для последовательностей a и b с длинами |a| и |b| определяется (1), где tail некоторой строки x - это строка всех символов x, кроме первого, а x[n] - n-ный символ строки x, начиная 0. Доказана применимость настоящего подхода [21], основанная на том, что для подавляющего числа протоколов добавление или удаление параметра из списка, как правило, не приводит к нарушению общей хронологии следования параметров.
lev(a,b) =
|a| |b|
lev(tail(a),tail(b))
lev(tail(a),b) 1 + min lev(a,tail(b))
lev(tail(a),tail(b))
если |b| = 0 если |a| = 0 если a|0| = b|0|
в остальных случаях
(1)
Общим расстоянием между двумя отпечатками ЬЕУ(Л,Б) следует считать сумму всех минимальных расстояний Левенштейна всех компонентов вектора признаков:
ЬЕУ(Л,Б) = Е Ьшт(1еу,(а,, Ь), (2)
где г - индекс вектора гиперпространства, в котором вычисляется (1) расстояние Левенштейна 1еу,(а,, Ь); к - весовой коэффициент (коэффициент значимости) значения расстояния по вектору г.
Определение пространства информативных признаков и введение формальной метрики оценки близости ЦО предоставляет возможность автоматической классификации (рис. 3) всех известных наборов ЦО.
Рис.3. - Алгоритм автоматической классификации ЦО ^З-протокола
В ходе автоматической классификации ЦО реализаций протокола обнаружено явление смещения центра кластеров родственных реализаций по мере появления новых версий, как за счёт новых реализаций, так и за счёт использования новых библиотек. Этот факт должен учитываться при реализации подсистем ИБ, базирующихся на предлагаемом методе.
Таблица 1
Показатели качества функционирования метода автоматической классификации
Представление ЦО TLS: Источник (Полная запись ЦО) Хеш-значение max расстояние близости Корректно найденные соседи Ошибки I рода (ложные соседи) Ошибки II рода (элементы, ошибочно не включённые в класс)
Android Webkit (771,49195-49196-49199-49200-158-15949161-49162-49171-49172-51-57-50-5649159-49169-156-157-47-53-5-255,0-1110-13,14-13-25-11-12-24-9-10-22-23-8-6-7-20-21-4-5-18-19-1-2-3-15-16-17,0-1-2) f898478e132de326106e9eb8e861c1a2 6 11 0 443
20 16 1 438
30 74 6 380
50 85 325 369
Tor (769,49162-49172-136-135-57-56-4916749157-132-53-49159-49161-49169-4917169-68-51-50-49164-49166-49154-49156150-65-4-5-47-49160-49170-22-19-4916549155-65279-10-255,0-11-10,1-2-3-4-5-67-8-9-10-11-12-13-14-15-16-17-18-19-2021-22-23-24-25,0-1-2) 581a3c7f54555512b8cd16e87dfe165b 6 0 1 10
20 1 1 9
30 3 5 7
Kaspersky (771,4866-4867-4865-49200-4919949192-49191-49196-49195-49188-4918752392-52394-103-107-159-255,0-11-1035-5-16-22-23-49-13-43-45-51-21,23-2429,0-1-2) aa63ca1ce311b0ff100de506d4d9b3ab 6 20 0 19
20 23 0 16
30 24 135 15
Эксперимент и анализ полученных результатов
Эксперименты по автоматической классификация ЦО TLS-протокола проведены в два этапа.
Первый этап предполагает использование классических методов кластеризации для графического представления и визуальной интерпретации результатов. На рис. 4 представлен фрагмент дендрограммы,
Рис.4. - Фрагмент дендрограммы кластеризации БД ЦО Cisco протокола TLS
где одинаковыми цветами обозначены родственные реализации протоколов, серым цветом обозначены все редко встречающиеся реализации. Такое представление позволяет визуально оценить корректность выбора порогового значения по размерам графов и количествам попаданий элементов разного цвета в один граф. Видно, что на представленном фрагменте наибольшее расстояние ЬЕУ(Л,Б), объединяющее все известные реализации, равно 5.
Второй этап эксперимента нацелен на определение влияния порогового значения близости ЦО. Очевидно, что выбор высокого значения ведёт к увеличению ошибок первого рода (ложное принятие схожести ЦО), что в дальнейшем приведёт к слиянию разных групп ЦО и невозможности их разделения.
Снижение значения порога близости, хоть и ведёт к увеличению ошибок второго рода (ложное предположение о непохожести ЦО), однако вред таких ошибок менее значим, так как он ведёт к дроблению групп ЦО на более мелкие группы, которые при необходимости могут быть объединены на последующих этапах.
По результатам вычислительного эксперимента на текущей24 БД ЦО Cisco, приведённой в формат JA3 и дополненной информацией из открытых баз25 [24] получены результаты, представленные в таблице 1.
Полученные зависимости позволяют производить тонкую настройку прикладных систем с учётом степени важности ошибок первого и второго рода, например на основе рисковых моделей, например [22]. Выводы
В работе поставлена и решена задача разработки метода автоматической классификации цифровых отпечатков TLS-протокола. Предлагаемый метод
24 База данных цифровых отпечатков Cisco - URL: https://github.com/cisco/ mercury/blob/main/resources/fingerprint_dbjson.gz (дата обращения: 20.09.2023).
25 Открытый формат представления цифровых отпечатков ja3 URL: https:// github.com/trisulnsm/trisul-scripts/blob/master/lua/frontend_scripts/ reassembly/ja3/prints/ja3fmgerprintjson (дата обращения: 20.09.2023).
базируется на совокупности ранее полученных результатов, связанных с обоснованием и выбором информативных признаков, введением метрики для оценки близости ЦО протоколов, обработкой открытых БД ЦО и использованием методов кластеризации данных.
Теоретические результаты подтверждены экспериментальным исследованием, в том числе, определяющим степень влияния порога близости ЦО на результат отнесения исследуемого ЦО к известным или новым кластерам.
Предлагаемые результаты ориентированы на применение в системах периметрового мониторинга трафика с использованием модели пассивного наблюдателя, однако могут найти применения и для ряда задач, требующих оценки аутентичности трафика, проходящего через канал.
Литература
1. Ворончихин И. С., Иванов И. И., Максимов Р. В., Соколовский С. П. Маскирование структуры распределённых информационных систем в киберпространстве// Вопросы кибербезопасности. 2019. № 6 (34). - С. 92-101. DOI: 10.21681/2311-3456-2019-6-92-101
2. Москвин А. А., Максимов Р. В., Горбачёв А. А. Модель, оптимизация и оценка эффективности применения многоадресных сетевых соединений в условиях сетевой разведки // Вопросы кибербезопасности. 2023. № 3 (55). - С. 13-22.
3. Tatang Dennis, Schneider Carl, Holz Thorsten. Largescale analysis of infrastructureleaking DNS servers // Detection of Intrusions and Malware, and Vulnerability Assessment: 16th International Conference, DIMVA 2019, Gothenburg, Sweden, June 19-20, 2019, Proceedings 16/ Springer. - 2019. -Pp. 353-373
4. Клименко Т. М., Акжигитов Р. Р. Обзор методов обнаружения распределённых атак типа»отказ в обслуживании»на основе машинного обучения и глубокого обучения //International Journal of Open Information Technologies. - 2023. - Т. 11. - №. 6. - С. 46-66.
5. Dangi A., Batra U. TLS Fingerprinting«A Passive Concept of Identification»//Artificial Intelligence and Machine Learning in Healthcare. -Singapore: Springer Nature Singapore, 2023. - С. 95-116.
6. Althouse J., Atkinson J., Atkins J. TLS fingerprinting with JA3 and JA3S//Salesforce. - 2019.
7. Rana S., Garg U., Gupta N. Intelligent Traffic Monitoring System Based on Internet of Things //2021 International Conference on Computational Performance Evaluation (ComPE). - IEEE, 2021. - С. 513-518.
8. Полянская М. С. Анализ подходов к обнаружению атак в зашифрованном трафике// Современные информационные технологии и ИТ-образование. 2021. Т. 17, No 4. С. 922-931. DOI: https://doi.org/10.25559/SITIT0.17.202104.922-931
9. Ali Rasteh, Florian Delpech, Carlos AguilarMelchor et al. Encrypted internet traffic classification using a supervised spiking neural network// Neurocomputing. - 2022. - Vol. 503. - Pp. 272-282.
10. Gupta Neha, Jindal Vinita, Bedi Punam. Encrypted traffic classification using extreme gradient boosting algorithm // International Conference on Innova tive Computing and Communications: Proceedings of ICICC 2021, Volume 3 / Springer. - 2022. - Pp. 225-232.
11. Islam Faiz Ul, Liu Guangjie, Liu Weiwei. Identifying VoIP traffic in VPN tunnel via flow spatiotemporal features // Mathematical Biosciences and Engineering. - 2020. - Vol. 17, no. 5. - Pp. 4747-4772.
12. Islam F. U. et al. VoIP traffic detection in tunneled and anonymous networks using deep learning // IEEE Access. - 2021. - Т. 9. -С. 59783-59799.
13. Li K., Cui B. Malicious Encrypted Traffic Identification Based on Four-Tuple Feature and Deep Learning// Innovative Mobile and Internet Services in Ubiquitous Computing: Proceedings of the 15th International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing (IMIS-2021). - Springer International Publishing, 2022. - С. 199-208.
14. Sismis L., Korenek J. Analysis of TLS Prefiltering for IDS Acceleration //International Conference on Passive and Active Network Measurement. - Cham: Springer Nature Switzerland, 2023. - С. 85-109.
15. Deri L., Fusco F. Using Deep Packet Inspection in CyberTraffic Analysis//2021 IEEE International Conference on Cyber Security and Resilience (CSR). - IEEE, 2021. - С. 89-94.
16. Anderson Blake, McGrew David. Accurate TLS fingerprinting using destination context and knowledge bases // arXiv preprint arXiv:2009.01939. - 2020.
17. Anderson B., McGrew D. Tls beyond the browser: Combining end hostand network data to understand application behavior//Proceedings of the Internet Measurement Conference. - 2019. - С. 379-392.
18. Varmarken J. et al. FingerprinTV: Fingerprinting Smart TV Apps //Proceedings on Privacy Enhancing Technologies (PoPETs). - 2022. -Т. 2022. - №. 3. - С. 606-629.
19. Kim H. et al. Revisiting TLS-Encrypted Traffic Fingerprinting Methods for Malware Family Classification //202213th International Conference on Information and Communication Technology Convergence (ICTC). - IEEE, 2022. - С. 1273-1278.
20. Heino J. et al. On usability of hash fingerprinting for endpoint application identification //2022 IEEE International Conference on Cyber Security and Resilience (CSR). - IEEE, 2022. - С. 38-43.
21. Ишкуватов С. М., Швед В. Г., Филькова И. А. Метод оценки близости цифровых отпечатков реализаций протоколов//Информационно-методический журнал«Защита информации. Инсайд». - 2022. - № 2. - С. 29-33.
22. Беляев Е. А., Емельянова О. А., Лившиц И. И. Анализ методик оценки рисков информационной безопасности кредитно-финансовых организаций// Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 3. С. 437-441. DOI: 10.17586/2226-1494-2021-21-3-437-441
I МЕТОД ОБНАРУЖЕНИЯ ФАКТОВ ОБХОДА БЛОКИРОВОК РЕСУРСОВ СЕТИ ИНТЕРНЕТ
Ишкуватов С. М.1, Бегаев А. Н.2, Комаров И. И.3, Левко И. В.4
DOI: 10.21681/2311-3456-2024-3-76-84
Цель исследования: разработка и экспериментальное исследование метода обнаружения фактов обхода блокировки трафика, осуществляющего доступ к запрещённым Интернет-ресурсам.
Методы исследования: системный анализ, теория метрических пространств, математическая статистика, теория систем искусственного интеллекта, теория обработки экспериментальных данных.
Полученные результаты: систематизированы информативные признаки, используемые актуальными методами и средствами блокировки запрещённых ресурсов сети Интернет, а также способы обхода таких блокировок; определена новая совокупность информативных признаков, обеспечивающая решение задачи исследования; предложен обобщённый метод обнаруженя фактов обхода блокировки запрещённых ресурсов сети Интернет и получено экспериментальное подтверждение его продуктивности.
Научная новизна полученных результатов определяется систематизацией нормативно-правовых и организационно-технических требований к средствам обнаружения и блокирования доступа к запрещённым ресурсам сети Интернет, что обеспечивает формирование прогнозов их развития; использованием авторской совокупности методов мониторинга трафика на основании анализа цифровых отпечатков коммуникационных протоколов и закономерностей следования и объёма передаваемых данных, обеспечивающих возможность выявления и анализа информативных признаков обычно скрытых для пассивного наблюдателя; разработкой обобщённого метода обнаружения факта обхода блокировки трафика на основании анализа устойчивых закономерностей, присущих коммуникационным сессиям.
Вклад авторов: Бегаев А. Н. - определение технико-экономических ограничений и требований к реализации метода обнаружения факта обхода блокировки трафика; Комаров И. И. - постановка задачи и определение плана исследования; Ишкуватов С. М. - анализ информативных признаков, разработка метода обнаружения факта обхода блокировки трафика, проведение эксперимента; Левко И. В. - анализ нормативно-правовых аспектов регулирования доступа к Интернет-ресурсам, анализ и интерпретация результатов эксперимента.
Ключевые слова: Интернет-цензура, фильтрация трафика, туннелирование трафика, маскирование сессии, пассивный наблюдатель, цифровой отпечаток, глубокий анализ пакетов.
A METHOD FOR DETECTING FACTS OF CIRCUMVENTION I
OF INTERNET RESOURCE LOCKS I
Ishkuvatov S. M.5, Begaev A. N.6, Komarov 1.1.7, Levko I. V.8
The purpose of the study: development and experimental study of a method for identifying facts of circumvention of traffic blocking, providing access to prohibited internet resources.
Research methods: system analysis, theory of metric spaces, mathematical statistics, theory of artificial intelligence systems, theory of experimental data processing.
1 Ишкуватов Сергей Маратович, аспирант факультета безопасности информационных технологий, Университет ИТМО, Санкт-Петербург, Россия. E-mail: sysroot0@gmail.com, ORCID ID: 0000-0002-4006-3693
2 Бегаев Алексей Николаевич, кандидат технических наук, генеральный директор АО «Эшелон-СЗ», Санкт-Петербург, Россия. E-mail: begaev@mail.ru, ORCID ID: 0000-0003-1186-7614
3 Комаров Игорь Иванович, кандидат физико-математических наук, доцент, доцент факультета безопасности информационных технологий, Университет ИТМО, Санкт-Петербург, Россия. E-mail: i_krov@mail.ru, ORCID ID: 0000-0002-6542-4950
4 Левко Игорь Владимирович, кандидат технических наук, доцент, Военно-космическая академия имени А.Ф. Можайского, Санкт-Петербург, Россия. E-mail: levko_iv@mail.ru
5 Sergei M. Ishkuvatov, Ph.D. student, Faculty of Information Technology Security, ITMO University, St. Petersburg, Russia. E-mail: sysroot0@gmail.com
6 Alexey N. Begaev, Ph.D., CEO of JSC North-West Echelon, St. Petersburg, Russia. E-mail: begaev@mail.ru
7 Igor I. Komarov, Ph.D., (in Maht.), Associate Professor, Faculty of Information Technology Security, ITMO University, St. Petersburg, Russia. E-mail: i_krov@mail.ru
8 Igor V. Levko, Ph.D., Associate Professor, Mozhaisky Military Aerospace Academy, St. Petersburg, Russia. E-mail: levko_iv@mail.ru
The results obtained: the informative signs used by current methods and means of blocking prohibited Internet resources, as well as ways to circumvent such locks, are systematized; a new set of informative signs providing a solution to the research problem is determined; a generalized method for detecting facts of circumventing the blocking of prohibited Internet resources is proposed and experimental confirmation of its productivity is obtained.
The scientific novelty of the results obtained is determined by the systematization of regulatory and organizational and technical requirements for means of detecting and blocking access to prohibited Internet resources, which ensures the formation of forecasts for their development; using the author's set of traffic monitoring methods based on the analysis of digital fingerprints of communication protocols and patterns of sequence and volume of transmitted data, providing the possibility of identifying and analyzing informative signs usually hidden to a passive observer; the development of a generalized method for detecting the fact of bypassing traffic blocking based on the analysis of stable patterns inherent in communication sessions.
Contribution of the authors: Begaev A. N. - definition of technical and economic limitations and requirements for the implementation of the method of detecting the fact of bypassing traffic blocking; Komarov I. I. -setting the task and defining the research plan; Ishkuvatov S. M. - analysis of informative signs, development of a method for detecting the fact of bypassing traffic blocking, conducting an experiment; Levko I. V. - analysis of regulatory aspects of regulating access to Internet resources, analysis and interpretation of experimental results.
Keywords: Internet censorship, traffic filtering, traffic tunneling, session masking, passive observer, digital fingerprint, deep packet analysis.
Введение
Обеспечение информационной безопасности государства в условиях информационного противоборства сопряжено с разрешением объективного противоречия между соблюдением прав и свобод субъектов и необходимостью регулирования информационного потока в условиях глобальной доступности данных. С точки зрения технологических задач кибербезопасности выделяются ряд взаимосвязанных направлений, связанных с: выявлением и анализом сематического воздействия на пользователя [1, 2]; разработкой методов и средств анализа киберустойчивости сложных технических систем [3, 4]; совершенствованием методов реализации организационных решений в технических системах [5-7].
В контексте общего тренда развития правового обеспечения информационной безопасности России [8, 9], и в частности - согласно поправкам в Законы «О связи9» и «Об информации, информационных технологиях и защите информации10», вступившим в силу с 1 ноября 2019 года, операторы связи обязаны устанавливать специализированное оборудование для обеспечения безопасности и контроля передаваемой информации, в том числе - оборудование анализа и фильтрации трафика для ограничения доступа к запрещённым ресурсам сети Интернет,
9 Федеральный закон «Об информации, информационных технологиях и о
защите информации» от 27.07.2006 N 149-ФЗ (в действующей редакции).
10 Федеральный закон «О связи» от 07.07.2003 N 126-ФЗ (в действующей
редакции).
определённое в Законе как Технические Средства Противодействия Угрозам (ТСПУ). Закон предусматривает административную ответственность за нарушение требований по пропуску трафика через ТСПУ, а также уголовную ответственность за нарушение порядка их установки, эксплуатации и модернизации.
Одной из сложнейших задач практической реализации мер государственной политики в области кибербезопасности является обнаружение и управление трафиком, взаимодействующим с запрещёнными ресурсами. Эта задача осложняется использованием методов сокрытия самого факта обращения, высокой ресурсоёмкостью методов глубокого анализа трафика (DPI - Deep Packet Inspection), а также недостаточным уровнем развития научно-методического аппарата обнаружения такого трафика в общем потоке легитимных обращений, что приводит к низкой селективности используемых технических решений.
Таким образом актуализируется задача совершенствования научно-методического аппарата обнаружения и блокировки нежелательного трафика, особенно в условиях сознательного обхода запретов и ограниченности доступных вычислительных ресурсов.
Методы и средства блокировки нежелательного трафика
ТСПУ имеют целью фильтрацию трафика и блокировку доступа к запрещённым ресурсам сети Интернет. В Российской Федерации используются достаточно широкий спектр отечественных решений
DPI11, которые адаптированы для работы с единым реестром ресурсов Роскомнадзора12:
S СПАК «Equila» от ООО «Напа Лабс», S СПО «CyberFilter» от ИП Кучебо Н.Н., СПО «Барьер» от АО «Энвижн Груп», S СПО «АДМ Filter» от ООО «АДМ Системы», S СПО «ZapretService» от ИП Пономаренко И.Р., S СПО «Ideco Selecta ISP» от ООО «Айдеко», S СПО «Carbon Reductor DPI» от ООО «Карбон Софт», ^ СПО «SkyDNS Zapret ISP» от ООО «СкайДНС», S СПАК «Тиксен-Блокировка» от ООО «Эд-АйТи», S СКАТ DPI от ООО «ВАС Экспертс», S СПАК EcoFilter от ООО «РДП.РУ», S СПО «UBIC» от ООО «Безопасный интернет», S САПК «Периметр-Ф» от ООО «МФИ Софт».
В зависимости от способа установки оборудования [10] возможны следующие типы блокировки.
• Пассивная блокировка - не предполагает работы в разрыв соединения и запрет обмена данными между узлами. При обнаружении признака запрещённого ресурса, в канал инжектируются пакеты завершения соединения. При такой организации оборудование DPI получает для анализа «отзерка-лированный» трафик, а непосредственного запрета обмена не происходит.
• Активная блокировка, предполагающая работу в разрыв соединения и полноценную MITM-инжек-цию в сессиях, имеющих признаки обращения к запрещённым ресурсам. Активная блокировка - ресурсозатратный подход: при превышении допустимой нагрузки могут возникнуть проблемы при передаче разрешённых сессий, поэтому обязательно применение механизма Bypass13, который в случае перегрузки пустит трафик по альтернативному маршруту.
На практике в среде специалистов разрабатываются программные решения, позволяющие определить применяемые типы блокировок, например blockcheck14.
Технически блокировка отдельной Web-страницы возможна лишь в случае использования протокола HTTP, доля которого непрерывно сокращается. Для протоколов, использующих шифрование HTTPS или QUIC, возможна только полная блокировка сессии.
11 Российские производители DPI и их платформы URL: https://vasexperts. ru/blog/dpi/rossijskie-proizvoditeli-dpi-i-ih-platformy/ (дата обращения: 10.02.2024).
12 Единый реестр доменных имён, указателей страниц сайтов в сети «Интернет» и сетевых адресов, позволяющих идентифицировать сайты в сети «Интернет», содержащие информацию, распространение которой в Российской Федерации запрещено -URL: https://eais.rkn.gov.ru/ (дата обращения: 10.02.2024)
13 Устройства Bypass предполагают коммутацию входного пакета на выход, минуя вышедшие из строя определённые функциональные блоки URL: https://moxa.pro/blogs/articles/obzor-bypass-ustroystva-obu-102 (дата обращения: 10.02.2024)
14 https://github.com/ValdikSS/blockcheck
Согласно публичной документации приведённых выше ТСПУ можно сделать выводы о номенклатуре и эффективности применения информативных признаков, используемых для принятия решения о блокировке трафика, а именно:
• блокировка по IP-адресу - характеризуется простотой реализации, высокой производительностью, но крайне низкой селективностью: в случае использования сети доставки контента (CDN - Content Delivery Network) одновременно с запрещённым ресурсом будет заблокировано множество легитимных, поскольку одному IP-адресу соответствует множество сторонних ресурсов;
• блокировки по значениям полей HTTP HOST, HTTP URL являются достаточно универсальными, поскольку могут блокироваться только определённые Web-страницы. Однако протокол HTTP уже практически полностью вытеснен протоколом HTTPS, который не позволяет пассивному наблюдателю определить запрашиваемую страницу;
• блокировка по TLS SNI (Server Name Indication) не всегда применима, так как поле является опциональным, оно сообщает серверу к какому ресурсу обращается клиент во время TLS-рукопожатия;
• сертификат сервера, к которому обращается клиент: проверяется в том случае если не использовалось расширение TLS SNI.
Очевидно, что существующая практика блокировки запрещённых Интернет-ресурсов не в полной мере соответствует организационным решениям и правовым требованиям, что актуализирует задачу разработки методов автоматического обнаружения нежелательного трафика, обладающих повышенной селективностью и приемлемой ресурсоёмкостью, базирующихся на использовании новых информативных признаков.
Методы и средства обхода блокировки трафика
Блокировки Интернет-ресурсов, особенно случайные блокировки легитимных ресурсов, находящихся на одних серверах с запрещёнными, побуждают пользователей применять различные инструменты для обхода таких запретов. Известны следующие типы программных средств, применяемых для обхода ограничений и скрывающих от пассивного наблюдателя информативные признаки, по которым принимается решение о блокировке.
• Программы-фрагментаторы сессий, работа которых основана на том, что протокол TCP допускает нарушение хронологии передачи пакетов, их фрагментацию или потерю. Принимающая сторона, может восстановить исходную хронологию и перезапросить потерянные фрагменты. Известны следующие виды искусственной фрагментации:
о TCP-фрагментация для первого пакета данных; о TCP-фрагментация пакетов, содержащих Keep-Alive;
о синтаксическое смешивание с целью обхода встроенных шаблонов ТСПУ, но с сохранением корректности с точки зрения спецификации протокола HTTP (произвольное изменение регистра букв; изменение пробельных символов; добавление пробелов к заголовку; перенос строк в Unix-стиле); о введение в заблуждение DPI (отправка ложных пакетов с низким TTL, некорректными контрольными суммами, некорректным порядком следования TCP Sequence/Acknowledgment); о фрагментация поля TLS Client Hello таким образом что часть имени сервера будет находиться в одном пакете, а продолжение в другом. Задача детектирования таких сессий осложняется тем, что некоторые протоколы, такие как Jabber, могут начать процедуру TLS-рукопожатия после обмена нешифрованной служебной информацией, что означает, что дефрагментация и анализ пакета не может ограничиваться только первыми несколькими пакетами сессии. Искусственная фрагментация пакетов сессии позволяет разбить передаваемый признак на разные пакеты15, тем самым сделать невозможным его определение без полной фрагментации и сборки сессии. Поскольку все приведённые выше признаки, кроме IP-адреса, не всегда передаются в первом пакете сессии, оборудование ТСПУ должно либо резервировать вычислительные ресурсы и память для дефрагментации каждой проходящей через него сессии, либо выявлять признаки блокировки только в целых пакетах.
• Программы, использующие eSNI или Encrypted Client Hello и позволяющие скрыть доменное имя запрашиваемого ресурса: предполагается одновременное использование протоколов DNS over TLS, DNS over HTTPS, DNS over QUICK или других протоколов, шифрующих запросы DNS.
• Программы, использующие трудно детектируемые протоколы (например, Telegram и некоторые протоколы BitTorrent).
• Использование туннелирования трафика различными VPN-решениями: предполагается наличие сервера за оборудованием ТСПУ, соединение с которым осуществляется с помощью туннеля (например, OpenVPN, IPsec, Wireguard). В таком случае все приведённые информативные признаки передаются в шифрованном виде, исключающем их выявление оборудованием ТСПУ.
15 Автономный способ обхода DPI и эффективный способ обхода блокировок сайтов по IP-адресу. URL: https://habr.com/ru/post/335436 (дата обращения: 10.02.2024)
• Туннелирование трафика инструментами16, не являющимися распространёнными VPN-реше-ниями (например, туннелирование TLS over SSH, TLS over TLS с использованием программ Shadowsocks, OCserv).
• Туннелирование с использованием стеганографии - организуется туннель между абонентом и сервером, находящемся за ТСПУ. Однако скрывается сам факт использования туннеля: трафик маскируется под другой тип (например, инструмент XRay, который маскирует трафик под TLS-сессии популярных приложений, воспроизводя их цифровые отпечатки (ЦО)).
Таким образом современное состояние противоборства технологий блокировки трафика и их обхода
характеризуется следующими тезисами.
С увеличением доступных вычислительных ресурсов методы, связанные с фрагментацией пакетов, теряют актуальность: оборудование ТСПУ дефраг-ментирует сессии или их начальные пакеты до завершения процедуры рукопожатия сторон. Все сессии, использующие расширение eSNI, могут быть заблокированы при обнаружении поддержки такого расширения клиентом в процессе TLS-рукопожатия.
Протоколы, шифрующие DNS-запросы, могут быть заблокированы по конечным точкам; их блокировка по IP-адресу не должна повлиять на доступность других ресурсов.
Очевидно, что блокировки только нешифрованных ответов DNS, содержащих адреса запрещённых ресурсов, недостаточно ввиду массового распространения альтернативных протоколов, использующих шифрование.
Блокировка всех протоколов, которые не удалось идентифицировать ТСПУ, приведёт к блокировкам множества частных нераспространённых протоколов и неработоспособности множества простых сетевых устройств и не распространённых сервисов.
Блокировка всех VPN-соединений, также невозможна, такт как этот протокол легитимно используется множеством организаций для обеспечения связи своих филиалов, удалённого доступа сотрудников во внутреннюю сеть или личные рабочие места через сеть Интернет.
Допустимой является блокировка сессий с конечными точками известных VPN-сервисов анони-майзеров, но такой подход будет иметь ограниченную эффективность виду большого числа подобных сервисов и относительной простоты их миграции.
16 Современные технологии обхода блокировок: V2Ray, XRay, XTLS, Hysteria,
Cloak и все-все-все. URL: https://habr.com/ru/articles/727868/ (дата обращения: 10.02.2024).
S Сохраняется основное противоречие организации блокировки в условиях плохой селективности: при строгой блокировке всегда будут затронуты сторонние ресурсы и сервисы, а мягкая не обеспечивает достижения поставленных целей.
Постанова задачи, гипотеза исследования и эксперимент
Задача исследования состоит в разработке метода обнаружения обходов блокировок трафика, базирующегося на новых информативных признаках и позволяющего отличить штатное использование протоколов от их применения в качестве инструментария обхода блокировок.
Гипотеза исследования: «Средства, используемые для обхода блокировок трафика, обладают устойчивыми информативными признаками, сохраняющимися при применении стандартных методов их использования».
Проверка гипотезы исследования проведена экспериментальным путём с применением авторского теоретического аппарата [11-13], расширяющего возможности принятия решения в задачах кибербез-опасности за счёт анализа ЦО коммуникационных протоколов и выявленных закономерностей между порядком следования и объёмом передаваемых данных в процессе взаимодействия.
Экспериментальный стенд включает компьютер с ОС Windows и облачный Linux-сервер, между которыми организовывались туннели с помощью широко распространённых программ OCserv и XRay.
Для получения записей на сервере использованы средства screen, tcpdump и сервер телефонии Asterisk. На клиентской части - nekoray17 и VoIP-клиент. Записаны сессии инструмента TLS over TLS OCserv и сессии туннелей XRay для трафика Web-бра-узера и тестового VoIP-звонка.
Для оценки качества детектирования сохранены обычные TLS-сессии, не являющиеся сессиями инструментов туннелирования. С помощью авторского инструментария все сессии дефрагментирова-лись и исследовались с целью выявления устойчивых закономерностей.
Информативные признаки сессий туннелей, организованных OCserv
Демаскирующие признаки туннелирования трафика инструментами, не являющимися распространёнными VPN-протоколами, определяются тем, что средство, которое реализует туннель TLS over TLS или SSH over TLS создаёт сессии, выделяющиеся продолжительностью, а также частичным сохранением объёмных закономерностей исходного (маскируемого) трафика. Пассивному наблюдателю доступны признаки внешнего TLS или SSH-рукопожатия,
17 Ресурс разработки nekoray URL: https://github.com/MatsuriDayo/nekoray (дата обращения: 10.02.2024).
а такие рукопожатия, в свою очередь, также имеют свои ЦО JA3(JA4), HASSH.
Экспериментально подтверждено, что все сессии инструмента OCserv, несмотря на возможность маскировки под обычные HTTPS-сессии за счёт задания произвольных конечных точек TLS Server Name, ЦО TLS соответствует реализации OpenConnect, которая не используется иначе, как для организации туннелей, что является явным признаком попытки маскирования туннелированной сессии.
Наблюдаемый ЦО отличается от ЦО популярных браузеров и также может однозначно характеризовать сессию туннеля. В табл. 1 приведены известные значения ЦО, полученные из базы данных Cisco Mercury18, полужирным шрифтом выделена строка с ЦО, соответствующая сессиям туннелей.
Естественно, что признаком для блокировки трафика, генерируемого данным средством, будет обнаружение такого ЦО TLS, кроме того, должен быть заблокирован трафик и его новых реализаций, содержащий ЦО близких соседей, найденных по методу [11].
Дополнительными демаскирующими признаками таких сессий являются:
- распределения длин пакетов, сильно отличающихся от остальных сессий, не являющимися туннелями;
- аномальная частота появления сессий с подобным адресатом.
Информативные признаки стеганографически туннелированного трафика
Типичным примером программы для стенографического сокрытия туннелированного трафика является XRay. Будучи установлен на сервер, он переадресует все HTTPS-запросы не от своей клиентской части на запрашиваемый ресурс. Клиентская часть в точности воспроизводит процесс TLS-рукопожатия с произвольно выбранным ЦО; проблемы поддержки всех возможных опций и алгоритмов шифрования нет, поскольку серверная часть в любом случае проигнорирует их и ответит сообщением TLS-рукопожа-тия сервера с постоянным ЦО JA3S, после чего начнётся обмен шифрованными пакетами.
Пакеты TLS-рукопожатия отправляются сторонами исключительно с целью ввести в заблуждение пассивного наблюдателя и убедить его в том, что сессия является обычной сессией TLS. Выявление возможно по заранее известным последовательностям обмена информацией.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.