Генеративные нейросетевые структуры для оптимизации каналов связи и определения оптимального зондирующего воздействия на физические системы тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Невзоров Алексей Алексеевич

  • Невзоров Алексей Алексеевич
  • кандидат науккандидат наук
  • 2023, ФГАОУ ВО «Национальный исследовательский университет ИТМО»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 206
Невзоров Алексей Алексеевич. Генеративные нейросетевые структуры для оптимизации каналов связи и определения оптимального зондирующего воздействия на физические системы: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Национальный исследовательский университет ИТМО». 2023. 206 с.

Оглавление диссертации кандидат наук Невзоров Алексей Алексеевич

Реферат

Sinopsis

Глава 1. Современные методы анализа и оптимизации зондирующих воздействий на физические системы и среды распространения волн

1. 1 Оптимизация воздействия на спиновую систему в ЯМР и ЯКР спектроскопии

1.2 Оптимизация методов кодирования информации в современных системах связи

1.2.1 Оптимизация беспроводных каналов связи

1.2.2 Адаптивные методы коррекции волнового фронта

1.3 Анализ откликов на зондирующее воздействие

1.3.1 Анализ сигналов ядерного квадрупольного резонанса

1.3.2 Обработка сигналов в системах связи

Глава 2. Алгоритм формирования зондирующего воздействия на основе нейронных сетей

2.1 Прием сигналов и формирование ошибки на основе нейросетевого анализатора

2.2 Оптимизации воздействия на основе ошибки нейросетевого анализатора

Выводы по главе

Глава 3. Исследование нейросетевого алгоритма оптимизации канала связи

3.1 Натурный макет многоантенного акустического беспроводного канала связи

3.2 Моделирование нейросетевой оптимизации многоантенной системы в среде с многолучевым распространением

3.3 Натурные эксперименты по формированию сигналов, устойчивых к искажениям в акустической среде распространения

3.4 Формирование метода кодирования информации в канале связи системой нейронных сетей

Выводы по главе

Глава 4. Исследование быстрой коррекции оптического волнового фронта нейронной сетью

4.1 Нейросетевой алгоритм управления фазовыми транспарантами в атмосферном оптическом канале связи

4.2 Экспериментальные результаты применения нейросетевого метода коррекции волнового фронта

Выводы по главе

Глава 5. Оптимизация методов ЯМР и ЯКР спектроскопии

5.1 Нейросетевой имитатор отклика спиновых систем на радиочастотное воздействие

5.2 Анализ сигналов спада свободной индукции нейронными сетями

5.2.1 Метод моделирования сигналов ЯКР

5.2.2 Структура нейронной сети и обучающего множества для детектирования сигналов ЯКР

5.2.3 Экспериментальные результаты детектирования сигналов ЯКР нейросетевой системой

Выводы по главе

Глава 6. Метод оптимизации нейронных сетей для развертывания систем машинного обучения в программно-аппаратных измерительных комплексах

6.1 Алгоритм редукции физически интерпретируемых параметров нейронной сети

6.2 Результаты оптимизации полносвязных слоев

6.3 Результаты оптимизации свёрточных слоев

Выводы по главе

Заключение

Список литературы

Реферат

Актуальность темы

Анализ и управление сложными нестационарными физическими системами часто сводится к оптимизации воздействия на них сигналами различной природы. Задачи определения оптимального воздействия на физическую систему или среду распространения сигналов чрезвычайно актуальны для многих областей радиофизики от оптимизации каналов связи до дистанционного зондирования и методов ЯМР анализа.

Часто оптимальное воздействие на систему для получения отклика с требуемыми свойствами невозможно определить аналитически. На практике обычно можно собрать большой объем измеренных апостериорных данных при некотором количестве известных заранее априорных сведений о физической системе или среде распространения. Эту информацию можно использовать для анализа системы и последующего формирования ошибки оптимизации воздействия, а также для определения свойств отклика системы или среды на различные возмущения. Для этого необходимо использовать методы статистической обработки и анализа, хорошо работающие с большими объемами данных. Наиболее эффективным современным решением задач такого рода являются методы машинного обучения, основанные на использовании искусственных нейронных сетей. Кроме того, нейронные сети можно использовать и как глобальный оптимизатор формируемого воздействия, что особенно эффективно если ошибка оптимизации тоже формируется методами машинного обучения.

Искусственные нейронные сети, обученные на больших объемах данных измерений, могут исследовать пространства физических параметров огромной размерности, определять многомерные корреляции и решать некорректно поставленные задачи [1 - 3]. Например, нейронные сети только на основании экспериментальных данных могут обнаруживать сигналы со сложным

спектральным составом в очень сильном шуме в условиях помех [4], формировать оптимальные способы кодирования информации в сложных условиях связи [5], предсказывать и компенсировать влияние сильной турбулентности на оптические пучки [6], прогнозировать сейсмическую активность [7] или оценивать динамические переменные, такие как осадки или даже продуктивность растительности [8].

Любая нейронная сеть представляет собой универсальный аппроксиматор, способный, согласно теореме Цыбенко [9], со сколь угодно большой точностью приближать непрерывные функции в Банаховом пространстве произвольной размерности. Кроме того, нейронные сети являются универсальными аппроксиматорами и для произвольных непрерывных, в том числе нелинейных, операторов [10]. Однако широкое распространение искусственные нейронные сети получили только в последние несколько лет, благодаря резкому росту производительности систем параллельных вычислений. Дело в том, что для обучения нейронной сети на большом объеме данных необходимо параллельно вычислять тысячи, а иногда и миллионы производных [2]. После обучения нейронная сеть способна достигать очень высокой скорости обработки данных, поскольку обученная нейронная сеть представляет собой последовательность множества простых математических операций, пусть и содержащую иногда миллионы таких операций. Это открывает большие перспективы для использования нейронных сетей в задачах статистической обработки данных в реальном времени, когда время обработки полученных измерений должно быть сравнимо со временем измерения.

Но, несмотря на большие перспективы и предварительный успех, часто методы анализа, прогнозирования и формирования состояния динамических систем на основе нейронных сетей не способны преобразовывать поток данных в интересующую исследователя информацию [11]. Более того, нейронные сети, не использующие априорные сведения о физических законах и свойствах системы и основанные исключительно на статистической обработке апостериорных данных, могут очень хорошо им соответствовать, но их прогнозы могут быть ошибочны и

даже не соответствовать законам физики. Это происходит из-за неправильной экстраполяции или ошибок наблюдений, которые могут привести к плохой аппроксимации нейронной сетью данных [11]. Поэтому для современной радиофизики важно находить способы интегрировать в нейросетевые методы априорные знания, вытекающие из нашего физического понимания мира.

Исследования в этом направлении ведутся сравнительно недолго и показывают некоторый прогресс, например в создании семейства нейронных сетей, основанных на законах физики (PINN) [12]. Так, задача построения нейросетевой системы для формирования оптимального воздействия на квантовые системы и их симуляции ранее рассматривалась без модификации под физическую природу задачи [13]. Интегрирование в нейросетевые технологии априорных знаний о физике обеспечило значительный прогресс в этом направлении [14]. Однако осталось огромное множество областей физики, где нейросетевые методы применяются для анализа систем, их моделирования или определения оптимального воздействия без модификации под физическую природу задачи. В качестве примеров можно привести задачи определения параметров веществ или магнитных полей с помощью сигналов ядерного магнитного или ядерного квадрупольного резонансов (ЯКР) [4], оптимизации методов кодирования или оценки состояния каналов связи в различных частотных диапазонах [15]. На примере таких задач в диссертации разрабатываются и исследуются новые нейросетевые методы анализа физических систем и определения оптимального воздействия на них для различного соотношения между экспериментальными данными и априорными знаниями о физической природе исследуемых систем. В работе предлагаются и обосновываются методы интегрирования в нейронные сети априорных физических сведений. Кроме того, рассматриваются методы оптимизации архитектуры и алгоритмов обучения нейронных сетей, которые позволяют исследовать динамические системы в реальном времени даже в условиях сильно ограниченных вычислительных ресурсов.

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Генеративные нейросетевые структуры для оптимизации каналов связи и определения оптимального зондирующего воздействия на физические системы»

Цель работы

Создание и исследование алгоритмов формирования оптимального зондирующего воздействия и оптимальных сигналов для переноса информации в нестационарных многомасштабных физических системах со стохастическими помехами.

Для достижения этой цели поставлены и решены следующие задачи:

1) Разработка алгоритма оптимизации воздействия на физические среды и системы и теоретическое обоснование его эффективности для нестационарных условий со стохастическими помехами.

2) Исследование методов анализа физических систем, которые возможно использовать в алгоритме оптимизации воздействия при разном соотношении априорных и апостериорных данных.

3) Исследование нейросетевых методов эмуляции физических сред и систем.

4) Разработка и исследование метода оптимизации нейронных сетей с физически интерпретируемыми параметрами для их использования в современных измерительных комплексах.

Научная новизна диссертационной работы

1) Впервые предложен универсальный алгоритм для оптимизации каналов связи, который также применим для оптимизации воздействий на физические, в том числе квантовые системы.

2) Впервые обоснована и продемонстрирована оптимальность по критерию точность/скорость работы использования нейросетевых методов для детектирования сигналов с априори неизвестными параметрами.

3) Впервые показано, что акустическая и гидроакустическая среда с некоторыми априори неизвестными свойствами может быть эмулирована искусственной физически обоснованной нейронной сетью с точностью,

необходимой для адаптации к нестационарным помехам канала связи с многолучевым распространением.

4) Обнаружен новый синергетический эффект взаимодействия искусственных нейронных сетей, используемых для сжатия данных и подстройки параметров излучателей в оптических беспроводных системах связи, позволяющий уменьшить информационную емкость дополнительного канала.

5) Разработан новый метод редукции параметров нейронных сетей позволяющий реализовывать методы машинного обучения в программно-аппаратных комплексах с небольшими вычислительными ресурсами.

Основные положения, выносимые на защиту

1) Генеративные системы на основе машинного обучения позволяют формировать волновые фронты так, чтобы при распространении в нестационарной среде с многолучевым распространением в несколько раз повысить плотность кодирования.

2) Распределение интенсивности геликоидального оптического пучка прошедшего через сильно турбулентную атмосферу содержит достаточно информации о среде распространения, чтобы уменьшить это искажение в два раза при корректировке нейросетевой системой исходного фазового фронта с сохранением топологического заряда.

3) Отклики спиновых систем на радиочастотное воздействие позволяют производить оптимальный анализ свойств вещества методами машинного обучения.

4) Неравноправность влияния физически интерпретируемых узлов нейросетевых систем обработки данных позволяет определять оптимальные параметры эксперимента и снизить вычислительные требования при его анализе.

Практическая значимость работы

1) Разработанный алгоритм оптимизации каналов связи позволит увеличить пропускную способность различных систем передачи данных без конструктивного изменения инфраструктуры передающих и принимающих станций.

2) Использование нейросетевых методов для детектирования сигналов ЯКР азотосодержащих веществ позволит программными методами увеличить точность и скорость обнаружения взрывчатых веществ в уже существующих системах безопасности, а также повысить эффективность систем диагностики лекарственных препаратов.

3) Уменьшение комбинаторной размерности нейронных сетей и их архитектурная оптимизация за счет интегрирования в них физической информации о свойствах систем позволит эффективно использовать их во встраиваемых и автономных радиофизических системах.

Апробация диссертационной работы

В качестве апробации диссертационной работы, результаты исследования были успешно представлены на следующих всероссийских и международных конференциях:

- V International Conference on Information Technology and Nanotechnology (Самара, 2019)

- 17th International Multidisciplinary Scientific Geoconference SGEM 2017 (Болгария, Альбена, 2017)

- 16th International Multidisciplinary Scientific Geoconference SGEM 2016 (Болгария, Альбена, 2016)

- International Conference on Advanced Laser Technologies (Москва, 2022)

- Научная сессия ВолГУ (Волгоград, 2022)

По материалам диссертации опубликованы 6 работ, в журналах входящих в Scopus, том числе 4 статьи в журналах из 1го и 2го квартиля.

1) Nevzorov A., Orlov A., Stankevich D. Machine learning in NQR TNT express detection system // Journal of Magnetic Resonance. - 2019. - № 308. - С. 106596.

2) Nevzorov A., Stankevich D. A method of wavefront distortions correction for an atmospheric optical link with a small volume of information transmitted through a service channel // Computer Optics. - 2020. - № 44. - С. 848 - 851.

3) Nevzorov A.A., Orlov A.A., Stankevich D.A. Detection of quasi-harmonic signals with a priori unknown parameters in strong additive noise by machine learning methods // Journal of Physics: Conference Series. - 2019. - Т. 1368, № 5. - С. 052014.

4) Nevzorov A.A., Orlov A.A., Stankevich D.A. A Neural Network Simulator of a Nonstationary Medium in an Adaptive Data Transmission System // Technical Physics Letters. - 2019. - Т. 45, № 7. - С. 694 - 696.

5) Nevzorov A.A., Perchenko S. V., Stankevich D.A. Truncation: A New Approach to Neural Network Reduction // Neural Process Lett. - 2021. - № 54. - С. 423 - 435.

6) Nevzorov A.A., Perchenko S.V., Stankevich D.A. An Experimental Study of a Self-Organizing Acoustic Communication Channel // Technical Physics Letters. - 2021. - Т. 47, № 4. - С. 297 - 300.

Результаты работы были использованы при выполнении НИР, поддержанных грантом РФФИ №19-47-343004, а также грантами РНФ №18-79-00080 и № 19-7900098.

Личный вклад автора

Научно-квалификационная работа является результатом трехлетней работы автора по решению различных задач радиофизики с помощью методов машинного обучения. Автором лично были разработаны и верифицированы описанные методы и алгоритмы обработки экспериментальных данных. Автор также занимался постановкой экспериментов, описанных в работе, и участвовал в создании

программно-аппаратных комплексов для этих экспериментов. Помимо этого, автор принимал участие в постановке целей и задач исследования и написании, по его результатам, научных статей.

Структура и объем работы

Диссертационная работа состоит из введения, пяти глав и заключения. Текст диссертации содержит 163 страниц, 58 рисунков, 4 таблиц, 143 позиций в списке литературы.

Во введении обосновывается актуальность исследований, проводимых в рамках диссертационной работы, приводится краткий обзор научной литературы по изучаемой проблеме, формулируется цель и ставятся задачи работы.

В первой главе приведен обзор основных проблем возникающих при решении научных задач, исследуемых в рамках диссертационной работы, среди которых, оптимизация зондирующего воздействия на физические системы и среды распространения волн, а также анализ и эмуляция таких систем как спиновые ансамбли и атмосферные тракты каналов связи. Описаны основные современные методы решения таких задач. Обоснована необходимость исследований и новых разработок при их решении, когда доступны большие объемы апостериорных данных, но априори неизвестны некоторые свойства или параметры исследуемых систем или явлений.

Вторая глава посвящена исследованию нейросетевого алгоритма оптимизации зондирующего воздействия на физическую систему. Для использования при оптимизации воздействия или кодирования нейронной сети необходимо обеспечить дифференцируемость метода анализа, формирующего ошибку оптимизации и получить в явном дифференцируемом виде преобразование воздействия в отклик. Без этого невозможно использовать метод обратного распространения ошибки. Один из путей решения этой проблемы это

использование нейронных сетей для анализа отклика и эмуляции преобразования воздействия в отклик.

В качестве примера, показывающего оптимальность использования нейронных сетей для анализа откликов, в главе рассматривается задача детектирования сигналов с априори неизвестными параметрами нейронной сетью. Рассматривается задача обнаружения дискретизированного сигнала г^) на фоне случайного процесса £(/): у= аг(Х)+^, а - 1 или 0 в зависимости от наличия или отсутствия сигнала г, X -параметры сигнала. Отношение правдоподобия в этом случае примет вид

/ = I (У1Н ) I (у1Н )'

где Н0 и Н1 - это гипотезы о наличии и отсутствии сигнала, /- правдоподобие. Можно показать, что

1 + ехр

( ( РН )\\

( (р(уIНоМНоУГТТ 1пСр(Н1)

р(Н1 I у) =-1-—^ = - 1п(/4^)

1п

у у

v v р(у iн1 )р(н1 )„

Функция под сигмоидом непрерывна и может быть аппроксимирована нейронной сетью по теореме Цыбенко. Кроме того, можно показать, что оптимальное решение для произвольного детектора с параметрами © сводится к минимизации перекрестной энтропии между выходом детектора и истинным значениями а на некотором обучающем множестве {о/,у/}. Если параметры детектируемого сигнала к априори неизвестны и определяются диапазонами неопределенности (Х/^Х/21). X/- - нижняя граница г-й компоненты вектора параметров, X/-21 - верхняя граница. Тогда можно показать, что правдоподобие имеет вид

Л+АЛ

11 (у IН1,

Л-АЛ

Л м

X(1) - X(2) 1 (у 1 Н0, к)

г=1

При использовании нейронной сети для анализа откликов можно построить алгоритм оптимизации воздействия. Такой алгоритм рассматривается на примере канала связи (рисунок 1), в котором оптимизируется метод кодирования.

X Т<* X М У я 1 е я и в Кег У

<и а зв и В Ч

Рисунок 1 - Канал связи

X - информационное сообщение, 0Г - параметры передатчика осуществляющего преобразование информационного сообщения в дискретный сигнал х = (х1, х2, ..., хв):

х=Тй(Х),

М - оператор среды распространения сигнала, который преобразует дискретный сигнал передатчика в дискретный сигнал на приемнике:

у=М(х)+^.

^ = (^ь ^2, ..., 4к) - это аддитивный шум, всегда присутствующий в реальных каналах связи. Приемник с параметрами 0Г преобразует дискретный принятый сигнал у = (у1, у2, ..., ук) в информационное сообщение Y:

Y=Rer(y).

При использовании нейронных сетей для кодирования, при аппроксимации оператора среды распространения и на приемной стороне, можно сформировать трехэтапный метод оптимизации воздействия на тракт (кодирования):

а) Приемник обучается распознавать сигналы, сформированные передатчиком и прошедшие через среду. Для этого необходимо решить задачу

ДД = агвшт(я(х№, YN Д Д))), (1)

д д

зафиксировав параметры 0Г. 0 здесь это параметры соответствующих нейронных сетей, а Н(Хм, YN) - перекрестная энтропия множества переданных сообщений Xм = (Х1, ..., Хм) и соответствующих им декодированных YN = (Y1, ..., YN).

б) Передатчик учится формировать сигналы, хорошо различимые приемником после прохождения через среду. Для этого необходимо решить задачу (1), зафиксировав параметры 0г.

в) Эмулятор среды учится имитировать преобразование сигналов средой распространения по сигналам, формируемым передатчиком и принятым ресивером, решая задачу

= а^шах£ (у]г - у']г(х,,ви))2] .

в,м V 3 = 1 г =1 у

Здесь индекс г - номер отсчета, а 3 - номер выборки из датасета (хг-, у)ь. у' - это результат работы сети эмулятора с параметрами 6м, если её на входной слой подан сигнал х'.

В третье главе исследуется система нейронных сетей, которая на основании предложенного алгоритма формирует акустические волновые фронты, которые могут кодировать информацию в нестационарной среде с многолучевым распространением и стохастическими искажениями. Такой новый подход к формированию канала связи позволяет строить новые методы кодирования и формировать волновые фронты устойчивые к искажениям характерным для конкретной среды распространения волны. В канал связи интегрируются 3 нейронные сети - передатчик, приемник и имитатор среды распространения сигнала.

Для верификации предлагаемой системы формирования канала связи, результаты её работы сравнивались с классическими методами кодирования и декодирования информации в акустических средах. Для многоантенного канала связи с замираниями сравнивались 3 метода кодирования и декодирования сообщений (рисунок 2).

- Кодирование и декодирование нейронными сетями -32 psk + декодирование нейронной сетью - Оптимальный классификатор

ЧД /

Эпоха

Рисунок 2 - сравнение методов в MIMO канале с замираниями

На рисунке зеленым и оранжевым обозначены методы, использующие для кодирования 32 psk, но для декодирования используется когерентный прием и нейронная сеть соответственно. Синим, обозначен метод, использующий нейронные сети и на приемнике, и на передатчике. Причем нейронная сеть передатчик управляла только фазами передающей антенной решетки. Замирания приводят к возникновению мультипликативной шумовой составляющей в принятом сигнале поэтому, строго говоря, используемый когерентный прием будет уже не оптимален. Однако, в описанном случае, добавлены только небольшие переотражения, поэтому такой метод все ещё применим. А вот нейронная сеть трансмиттер выработала более эффективный способ кодирования. Это объясняется тем, что для работы описанного трехэтапного алгоритма не требуется наличие только аддитивного шума. Алгоритм будет работать с любым шумом, какое бы распределение тот не имел, и с любыми помехами и искажениями. Главным требованием для корректной работы всей системы является хорошая аппроксимация реального тракта нейронной сетью имитатором среды.

Аналогичный эксперимент, но для натурной модели многоантенной системы (7 приемников, 7 передатчиков) приведен на рисунке 3.

Рисунок 3 - Сравнение методов кодирования в натурной модели многоантенной системы

Видно, что в реальной многоантенной системе кодирование нейронной сетью оказывается значительно эффективнее стандартного метода фазовой манипуляции.

Для натурного моделирования нестационарного канала связи использовалась управляемая акустическая метаповерхность, которая позволяет контролируемо изменять параметры среды распространения сигнала. В частности, используемая метаповерхность позволяет вносить фазовый сдвиг в распространяемый сигнал управляя высотой выдвижения резонаторов Гельмгольца На рисунке 4 показана зависимость ошибки приема бита (BER) от цикла обучения в канале связи с метаповерхностью. При этом каждые 50 циклов обучения высоты резонаторов метаповерхности изменялись на случайную величину. В самом начале при высоте резонаторов И = 0 шш для достижения скорости передачи в 220 бит/с каналу связи понадобилось примерно 20 циклов обучения. Затем при резком изменении высот резонаторов система затрачивала на переобучение от 3 до 10 циклов.

Рисунок 4 - Зависимость вероятности ошибки передачи бита информации в процессе адаптации

Видно, что для адаптации системы требуется всего несколько циклов обучения, что соответствует всего нескольким секундам работы канала связи.

Во всех описанных экспериментах нейронная сеть передатчик управляла только фазой передаваемых квазигармонических сигналов. Сможет ли сеть полностью формировать сигнал, подстраиваясь ещё и под спектральные характеристики канала связи? Для ответа на этот вопрос проводился натурный эксперимент, где для дополнительного ограничения полосы пропускания среды (роль которой выполняла метаповерхность) использовался полосовой цифровой фильтр на приемнике с частотами среза 1500 Гц и 2500 Гц. В таких условиях нейросетевая система должна выработать достаточно узкополосный сигнал для передачи информации от передатчика к приемнику. Для сравнения с разработанным методом использовался классический метод кодирования сигналов в средах с многолучевым распространением и частотной избирательностью - ofdm. На рисунке 5 приведено сравнение разработанного метода и ofdm при скорости передачи данных 1 кбит/сек для натурной модели канала связи с одним приемником и одним передатчиком (SISO).

- NN ---ofdm

1

О 25 50 75 100 125 150 175 200 Эпоха

Рисунок 5 - вероятность ошибки приема пакета (четырехбитного сообщения) для оШт и нейросетевого метода в зависимости от количества эпох. Энергия сигналов в обоих случаях одинакова

В обоих случаях между сигналами нет межсимвольной паузы, что гарантирует значительную межсимвольную интерференцию в канале. Видно, что нейросетевой системе нужно всего 25 эпох, чтобы превзойти по качеству работы классический метод и подстроиться под априори неизвестные условия в канале связи. В используемой системе, из-за вычислительных ограничений, для этого требовалось несколько минут. Однако в практических приложениях скорость подстройки сети определяется информационной емкостью дополнительного канала связи, который используется только во время обучения для передачи обучающей информации между приемником и передатчиком.

Для систем с множеством приемников и передатчиков (MIMO) метод требует всего лишь тривиального масштабирования выходных слоев всех нейронных сетей. В описанной системе при использовании 8 передатчиков и 4х приемников удалось добиться скорости передачи данных до 4 кбит/сек при ошибке приема не более 0.5 %. Это соответствует спектральной эффективности 4 бит/сек/Гц. При этом для всех современных акустических и гидроакустических модемов эта величина не превышает 2-3 бит/сек/Гц.

Результаты, представленные в третьей главе, получены совместно с Орловым А. А., Станкевичем Д. А. и Перченко С. В.

В четвертой главе разработанный алгоритм управления зондирующим воздействием модифицируется для управления оптическим волновым фронтом геликоидального пучка, который позволяет компенсировать искажения, вызванные сильной турбулентностью. Исследуемый метод схематически описан на рисунок 6. Гауссов оптический пучок G(x, y, w0) падает на фазовый модулятор состоящий из матрицы M*M ячеек (M = 64). Радиус пучка (w0) в экспериментах составлял около 20 мм. Фазовая маска 0m(x, y) модулятора представляет собой сумму двух мод с противоположными значениями топологического заряда /: 0m(x, y) = arg[exp(-//y)+exp(i/y(x, _y))], где y(x, y) - азимутальный угол. После прохождения такого фазового транспаранта распределение интенсивности пучка представляет собой набор чередующихся светлых и темных пятен. Причем количество этих пятен пропорционально топологическому заряду /.

Рисунок 6 - Канал связи с фазовой коррекцией искажений в турбулентной атмосфере

Нейронная сеть НС1 принимает на вход распределение интенсивности прошедшего через турбулентную атмосферу оптического пучка и преобразует, полученную таким образом, информацию об искажениях в набор параметров. Эти параметры передаются к передающей части системы, где вторая нейронная сеть НС2 обрабатывает их и формирует корректирующую маску фазового транспаранта. Передача параметров, кодирующих в неявном виде информацию об атмосферных искажениях, осуществляется по служебному каналу связи.

Для моделирования атмосферной турбулентности использовался стохастический фазовый экран, построенный по спектральной модели Хилла-Эндрюса:

Ф „ (кх,ку ) = 0,033С

(

1 + 1,802

7 Л

к2 + к2 х у -- 0,254

Г К + ку2 Т12

к

V

Г к,2 + к,2 V

ехр

к2

к, + к, +1 Ь

11

х у

'о У

где кх, ку = -л/А, ..., л/А, к1 = 3,3/10; 10 = 1 мм и Ь0 = 50 м - внутренний и внешний масштаб турбулентности, соответственно, СП2 = 10-12 м-2/3 - индекс атмосферной рефракции. Фазовый спектр ф(кх,ку) может быть выражен через спектральную

плотность флуктуации индекса рефракции Ф„(кх,ку) в виде:

Ф(к,,ку )= 2пк0 20Ф я (к,,ку ),

где 20 = 300 м - длина тракта, к0 = 2п/Х - волновое число, X = 1550 нм - длина волны излучения.

2

к

При использовании геликоидальных пучков для передачи информации, одной из главных задач формирования канала связи является сохранение топологического заряда. Можно показать, что, поскольку распределение интенсивности зависит от I, то минимизация среднеквадратичной ошибки Е между распределением интенсивности на приемнике и на передатчике приводит к восстановлению исходного заряда. Поскольку для описанной на рисунке 8 системы Е имеет аналитическую зависимость от результатов работы нейронных сетей, то можно обучать систему методом обратного распространения ошибки. Обучающее множество состоит из 2000 пар изображений У0(х,у) и У(х,у). При этом для каждое изображение представляет собой распределение интенсивности геликоидального пучка с произвольным топологическим зарядом (I = 1, ..., 10).

На рисунке 7 и рисунке 8 представлены распределения интенсивности на приемной стороне в трех случаях: без искажений (а) до (б) и после коррекции (в). На рисунке 7 топологический формируемого на передающей стороне пучка I = 5 (рисунок 7), на рисунке 10 - и I = 3. В обоих случаях число Р передаваемых по служебному каналу параметров, необходимых для коррекции было равно 30.

а) б) в)

Рисунок 7 - Распределения интенсивности на фотоприемнике для I = 5: (а) -без искажений, (б) - до коррекции и (в) - после коррекции

» «I

ч*

Рисунок 8 - Распределения интенсивности на фотоприемнике для I = 3: (а) -без искажений, (б) - до коррекции и (в) - после коррекции

Для реализации такой коррекции, как представлена на рисунках 7 и 8 необходим служебный канал емкостью примерно 1 Мбит/с, в то же время для аналогичных условий в современных системах коррекции требуется служебный канал емкостью более 100 Мбит/с. Такое существенное уменьшение требований к служебному каналу обусловлено использованием архитектуры типа автоэнкодер для построения корректирующего транспаранта, а также применением специального метода редукции параметров нейронных сетей, который описывается в главе 6.

Результаты, представленные в четвертой главе, получены совместно со Станкевичем Д. А.

В главе 5 описывается применение предложенного алгоритма оптимизации зондирующего воздействия к задачам ЯМР и ЯКР анализа веществ. Для этого исследуется нейросетевой имитатор реакции спиновой системы на РЧ воздействие. Использование специальной рекуррентной архитектуры позволяет хорошо имитировать реакцию системы связанных спинов на произвольное воздействие, что хорошо видно на рисунке 9.

О 20 40 60 80 100 о 20 40 60 80 100

Рисунок 9 - Результат работы нейросетевого имитатора спиновой системы

Кроме эмулятора среды распространения для работы алгоритма оптимизации необходимо сформировать анализатор сигналов, который сможет строить ошибку оптимизации.

В качестве анализатора отклика исследовался нейросетевой метод детектирования сигналов. Метод исследовался на примере сигналов ядерного квадрупольного резонанса (ЯКР) тринитротолуола (TNT). Для экспериментов по детектированию сигналов ЯКР использовались модели сигналов максимально приближенные к сигналам ЯКР ортоклинного TNT в диапазоне частот 800 - 900 кГц, получаемым в реальных экспериментах. Такие сигналы можно представить в виде:

K-1

АП\ = Х0 Е Sln(X2kn + ^3k ) exp(- + ф] .

k=0

Здесь n = 0, 1, 2, ..., M - 1, M - количество отсчетов сигнала, K - мультиплетность сигнала, X2k - частота k-й гармоники, X4k> 0 - коэффициент затухания, X3k -начальная фаза, X1k - амплитуда гармоники, ^[n] - нормальный белый шум.

Значения параметров и диапазонов неопределенностей выбирались максимально похожими на реальные экспериментальные данные в диапазоне температур 253 - 323 К. В этом диапазоне температур зависимость частот гармоник сигнала ЯКР TNT от температуры - линейна и хорошо изучена.

Форма и спектр моделируемых сигналов ЯКР с шумом и без шума для КСШ -20 dB и температуре образца 293 К приведена на рисунке 10.

Частота . kHz Номер точки

Рисунок 10 - Синим - сигнал и спектр ЯКР TNT при КСШ -20 dB, оранжевым сигнал и спектр ЯКР без шума

Для детектирования сигналов строилась сверточная нейронная сеть. Размеры рецептивных полей нейронов в разных слоях, а также количество и размеры сверточных фильтров определялись исходя из известных свойств сигнала ЯКР TNT, таких как скорость затухания, расположение спектральных компонент, квазипериод и наиболее вероятная модуляция. Сеть обучалась на заранее созданном множестве из нескольких тысяч сигналов. Это обучающее множество состоит из 1000 модельных сигналов. Для каждого сигнала множества задается параметр H = 0 - если сигнал состоит только из шума, 1 - если на фоне шума есть сигнал ЯКР TNT.

Метод детектирования нейронной сетью (NN) сравнивался с некоторыми классическими методами детектирования, при разных уровнях шума, для разных диапазонов неопределенностей температур образца TNT. Результат этого сравнения приведен на рисунке 11.

0.5 К 7 К

-30 -20 -10 0 10

$N1*. сШ

Рисунок 11 - Сравнение различных методов для трех разных ДТ: 35 К, 7 К и 0,5 К. ММ - метод с использованием множества согласованных фильтров. ED -энергетический детектор

При этом время принятия решения нейронной сетью после обучения в 100 раз меньше, чем время принятия решения методом, использующим множество согласованных фильтров.

В конце третьей главы делается вывод, что универсальным методом обнаружения сигнала ЯКР в любых системах анализа должен быть метод, использующий как нейронную сеть, так и согласованную фильтрацию в зависимости от диапазона неопределенности температуры образца и максимального размера обучающего множества, которое возможно построить. Очевидно, что аналогичные выводы будут справедливы для задачи детектирования сигнала ЯКР любого вещества при условии, что архитектура и параметры нейронной сети детектора будут выбираться исходя из свойств ЯКР этого вещества. Нейросетевой метод обнаружения сигналов с неопределенными

параметрами в сильных шумах можно обобщить для сложных сигналов любой природы, например в радиолокации или системах связи. Однако, предлагаемый метод можно использовать как наиболее универсальный и быстрый обнаружитель только при условии, что возможно создать обучающее множество и правильно интегрировать в нейронную сеть априорную информацию об исследуемой системе.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Невзоров Алексей Алексеевич, 2023 год

Литература

1. Wang, J. Terabit free-space data transmission employing orbital angular momentum multiplexing / J. Wang, J. Yang, I.M. Fazal, N. Ahmed, Y. Yan, H. Huang, Y. Ren, Y. Yue, S. Dolinar, M. Tur, A.E. Willner // Nature Photonics. - 2012. -Vol. 6. - P. 355-359. - DOI: 10.1038/NPH0T0N.2012.138.

2. Gibson, G. Free-space information transfer using light beams carrying orbital angular momentum / G. Gibson, J. Courtial, M.J. Padgett, M. Vasnetsov, V. Pas'ko, S.M. Barnett, S. Franke-Arnold // Optics Express. - 2004. -Vol. 12. - P. 5448-5456. - DOI: 10.1364/OPEX.12.005448.

3. Celechovsky, R. Optical implementation of the vortex information channel / R. Celechovsky, Z. Bouchal // New Journal of Physics. - 2007. - Vol. 9, Issue 9. - 328. - DOI: 10.1088/1367-2630/9/9/328.

4. Mehul, M. Influence of atmospheric turbulence on optical communications using orbital angular momentum for encoding / M. Mehul, M. O'Sullivan, B. Rodenburg, M. Mirhosseini, J. Leach, M.P.J. Lavery, M.J. Padgett, R.W. Boyd // Optics Express. - 2012. - Vol. 20, Issue 12. -P. 13195-13200. - DOI: 10.1364/OE.20.013195.

5. Soifer, V.A. Vortex beams in turbulent media: review / V.A. Soifer, O. Korotkova, S.N. Khonina, E.A. Shchepakina // Computer Optics. - 2016. - Vol. 40(5). - P. 605-624. -DOI: 10.18287/2412-6179-2016-40-5-605-624.

6. Ren, Y. Adaptive-optics-based simultaneous pre- and postturbulence compensation of multiple orbital-angular-momentum beams in a bidirectional free-space optical link / Y. Ren, G. Xie, H. Huang, N. Ahmed, Y. Yan, L. Li, C. Bao, M Lavery, M. Tur, M. Neifeld, R.W. Boyd, J.H. Shapiro, A.E. Willner // Optica. - 2014. - Vol. 1, Issue 6. - P. 376-382. - DOI:10.1364/OPTICA. 1.000376.

7. Лукин, В.П. Формирование оптических пучков и изображений на основе применения систем адаптивной оптики / В.П. Лукин // Успехи физических наук. - 2014. - Т. 184, № 6. - С. 599-640. - DOI: 10.3367/UFNr.0184.201406b.0599.

8. Huanga, Z. Identification of hybrid orbital angular momentum modes with deep feedforward neural network / Z. Huanga, P. Wanga, J. Liub, W. Xionga, Y. Hea // Results in Physics. -2019. - Vol. 15. - 102790. - DOI: 10.1016/j.rinp.2019.102790.

9. Wang, Z. Efficient recognition of the propagated orbital angular momentum modes in turbulences with the convolu-tional neural network / Z. Wang, M.I. Dedo, K. Guo, K. Zhou, F. Shen, Y. Sun, S. Liu, Z. Guo // IEEE Photonics Journal. - 2019. - Vol. 11, Issue 3. - 2916207. - DOI: 10.1109/JPH0T.2019.2916207.

10. Lohani, S. Turbulence correction with artificial neural networks / S. Lohani, R.T. Glasser // Optics Letters. - 2018. -Vol. 43. - P. 2611-2614. - DOI: 10.1364/0L.43.00261.

11. Liu, J. Deep learning based atmospheric turbulence compensation for orbital angular momentum beam distortion and communication / J. Liu, P. Wang, X. Zhang, Y. He, X. Zhou, H. Ye, Y. Li, S. Xu, S. Chen, D. Fan // Optics Express. - 2019. - Vol. 27, Issue 12. - P. 16671-16688. -DOI: 10.1364/OE.27.016671.

12. Andrews, L.C. Analytic expressions for the wave structure function based on a bump spectral model for refractive index fluctuations / L.C. Andrews, S. Vester, C.E. Richardson// Journal of Modern Optics. - 1993. - Vol. 40, Issue 5. - P. 931-938.

- DOI: 10.1080/09500349314550931.

13. Khonina, S.N. A technique for simultaneous detection of individual vortex states of Laguerre-Gaussian beams transmitted through an aqueous suspension of microparticles / S.N. Khonina, S.V. Karpeev, V.D. Paranin // Optics and Lasers in Engineering. - 2018. - Vol. 105. - P. 68-74. - DOI: 10.1016/j.optlaseng.2018.01.006.

14. Khonina, S.N. Comparative study of impact of random environment on individual and combined Laguerre-Gauss modes / S.N. Khonina, A.A. Artyukova, M.S. Kirilenko // Journal of Physics: Conference Series. - 2018. - Vol. 1038.

- 012070. - DOI: 10.1088/1742-6596/1038/1/012070.

15. Hou, T. Deep-learning-assisted, two-stage phase control method for high-power mode-programmable orbital angular momentum beam generation / T. Hou, Y. An, Q. Chang, P. Ma, J. Li, L. Huang, D. Zhi, J. Wu, R. Su, Y. Ma, P. Zhou // Photonics Research. - 2020. - Vol. 8, Issue 5. -P. 715-722. - DOI: 10.1364/PRJ.388551.

16. Lachinova, S.L. Giant irradiance spikes in laser beam propagation in volume turbulence: analysis and impact / S.L. Lachinova, M.A. Vorontsov // Journal of Optics. -2016. - Vol. 18, Issue 2. - 025608. - DOI: 10.1088/20408978/18/2/025608.

17. Невзоров, А.А. Нейросетевой имитатор нестационарной среды в адаптивной системе передачи данных / А.А. Невзоров, А.А. Орлов, Д.А. Станкевич // Письма в журнал технической физики. - 2019. - Т. 45, № 14. - C. 7-9.

Сведения об авторах

Невзоров Алексей Алексеевич, 1990 года рождения, в 2012 году окончил Волгоградский государственный университет с присуждением степени магистра радиофизики, работает младшим научным сотрудником на кафедре радиофизики Волгоградского государственного университета. Область научных интересов: машинное обучение, цифровая обработка сигналов и изображений, программирование. E-mail: terrapevt@mail.ru .

Станкевич Дмитрий Александрович, 1987 года рождения, в 2010 году окончил Волгоградский государственный университет с присуждением степени магистра радиофизики, работает доцентом по кафедре радиофизики Волгоградского государственного университета. Область научных интересов: предельные измерения, цифровая обработка сигналов и изображений. E-mail: stankevich@volsu. ru .

ГРНТИ: 29.31.29

Поступила в редакцию 14 апреля 2020 г. Окончательный вариант - 5 июня 2020 г.

Компьютерная оптика, 2020, том 44, №5 DOI: 10.18287/2412-6179-CO-733 851

A method of wavefront distortions correction for an atmospheric optical link with a small volume of information transmitted through a service channel

A.A. Nevzorov1, D.A. Stankevich1 'VolgogradState University 400062, Volgograd, Russia, prospekt Universitetskiy, 100

Abstract

The paper describes a method of wavefront distortion correction in a turbulent atmosphere, which allows reducing the volume of information transmitted through a service channel. The correction is carried out with a transparency whose phase mask is calculated by a simple three-layer neural network by intensity distribution obtained at the photoreceiver. The architecture of the network is constructed so that the amount of data transferred over the service channel is reduced to 30 parameters, using which a corrective mask is then constructed.

Keywords: atmospheric optical communications, neural network, turbulence.

Citation: Nevzorov AA, Stankevich DA. A method of wavefront distortions correction for an atmospheric optical link with a small volume of information transmitted through a service channel. Computer Optics 2020; 44(5): 848-851. DOI: 10.18287/2412-6179-CO-733.

Acknowledgements: This work was financially supported by the Russian Science Foundation, project no. 18-79-00080.

References

[1] Wang J, Yang J, Fazal IM, Ahmed N, Yan Y, Huang H, Ren Y, Yue Y, Dolinar S, Tur M, Willner AE. Terabit freespace data transmission employing orbital angular momentum multiplexing. Nature Photon 2012; 6: 355-359. DOI: 10.1038/NPHOTON.2012.138.

[2] Gibson G, Courtial J, Padgett MJ, Vasnetsov M, Pas'ko V, Barnett SM, Franke-Arnold S. Free-space information transfer using light beams carrying orbital anguar momentum. Opt Express 2004; 12: 5448-5456. DOI: 10.1364/0PEX.12.005448.

[3] Celechovsky R, Bouchal Z. Optical implementation of the vortex information channel. New J Phys 2007; 9(9): 328. DOI: 10.1088/1367-2630/9/9/328.

[4] Mehul M, O'Sullivan M, Rodenburg B, Mirhosseini M, Leach J, Lavery MPJ, Padgett MJ, Boyd RW. Influence of atmospheric turbulence on optical communications using orbital angular momentum for encoding. Opt Express 2012; 20(12): 13195-13200. DOI: 10.1364/OE.20.013195.

[5] Soifer VA, Korotkova O, Khonina SN, Shchepakina EA. Vortex beams in turbulent media: review. Computer Optics 2016; 40(5): 605-624. DOI: 10.18287/2412-6179-2016-405-605-624.

[6] Ren Y, Xie G, Huang H, Ahmed N, Yan Y, Li L, Bao C, Lavery M, Tur M, Neifeld M, Boyd RW, Shapiro JH, Willner AE. Adaptive-optics-based simultaneous pre- and post-turbulence compensation of multiple orbital-angular-momentum beams in a bidirectional free-space optical link. Optica 2014; 1(6): 376-382 DOI: 10.1364/OPTICA. 1.000376.

[7] Lukin VP. Adaptive optics in the formation of optical beams and images. Physics-Uspekhi 2014; 57: 556-592. DOI: 10.3367/UFNe.0184.201406b.0599.

[8] Huanga Z, Wanga P, Liub J, Xionga W, Hea Y. Identification of hybrid orbital angular momentum modes with deep feedforward neural network. Results Phys 2019; 15: 102790. DOI: 10.1016/j.rinp.2019.102790.

[9] Wang Z, Dedo MI, Guo K, Zhou K, Shen F, Sun Y, Liu S, Guo Z. Efficient recognition of the propagated orbital angular momentum modes in turbulences with the convolu-tional neural network. IEEE Photon J 2019; 11(3): 2916207. DOI: 10.1109/JPHOT.2019.2916207.

[10] Lohani S, Glasser RT. Turbulence correction with artificial neural networks. Opt Lett 2018; 43: 2611-2614. DOI: 10.1364/OL.43.00261.

[11] Liu J, Wang P, Zhang X, He Y, Zhou X, Ye H, Li Y, Xu S, Chen S, Fan D. Deep learning based atmospheric turbulence compensation for orbital angular momentum beam distortion and communication. Opt Express 2019; 27(12): 16671-16688. DOI: 10.1364/OE.27.016671.

[12] Andrews LC, Vester S, Richardson CE. Analytic expressions for the wave structure function based on a bump spectral model for refractive index fluctuations. J Mod Opt 1993; 40(5): 931-938. DOI: 10.1080/09500349314550931.

[13] Khonina SN, Karpeev SV, Paranin VD. A technique for simultaneous detection of individual vortex states of La-guerre-Gaussian beams transmitted through an aqueous suspension of microparticles. Opt Lasers Eng 2018; 105: 68-74. DOI: 10.1016/j.optlaseng.2018.01.006.

[14] Khonina SN, Artyukova AA, Kirilenko MS. Comparative study of impact of random environment on individual and combined Laguerre-Gauss modes. J Phys: Conf Ser 2018; 1038: 012070. DOI: 10.1088/1742-6596/1038/1/012070.

[15] Hou T, An Y, Chang Q, Ma P, Li J, Huang L, Zhi D, Wu J, Su R, Ma Y, Zhou P. Deep-learning-assisted, two-stage phase control method for high-power mode-programmable orbital angular momentum beam generation. Photon Res 2020; 8(5): 715-722. DOI: 10.1364/PRJ.388551.

[16] Lachinova SL, Vorontsov MA. Giant irradiance spikes in laser beam propagation in volume turbulence: analysis and impact. J Opt 2016; 18(2): 025608. DOI: 10.1088/20408978/18/2/025608.

[17] Nevzorov AA, Orlov AA, Stankevich DA. A neural network simulator of a nonstationary medium in an adaptive data transmission system. Tech Phys Lett 2019; 45(7): 694-696. DOI: 10.1134/S1063785019070241.

Authors' information

Alexey Alexeevich Nevzorov, (b. 1990), graduated from Volgograd State University in 2012 with the awarding of Master's degree in Radiophysics, works as a junior researcher at Radiophysics department of Volgograd State University. Research interests: machine learning, digital signal and image processing, programming. E-mail: terrapevt@mail.ru .

Dmitry Alexandrovich Stankevich, (b. 1987), graduated from Volgograd State University in 2010 with the awarding of master's degree in Radiophysics, works as associate professor at Radiophysics department of Volgograd State University. Research interests: limit measurements, digital signal and image processing. E-mail: stankevich@yolsu.ru .

Received April 14, -0-0. The final version - June 5, -0-0.

Contents lists available at ScienceDirect

Journal of Magnetic Resonance

journal homepage: www.elsevier.com/locate/jmr

Machine learning in NQR TNT express detection system q

Check for

Alexey Nevzorov *, Andrey Orlov, Dmitry Stankevich

Volgograd State University, Volgograd, Russia

ARTICLE INFO

Article history: Received 29 April 2019 Revised 9 September 2019 Accepted 10 September 2019 Available online 13 September 2019

Keywords:

NQR signal of TNT

NQR signal detection

Machine learning in signal processing

ABSTRACT

Nuclear quadruple resonance (NQR) has excellent potential for the remote detection of nitrogen-containing substances, such as trinitrotoluene (TNT). However, using NQR techniques in security systems have some problems. For example, unknown temperature of the detecting explosives and low signal-to-noise ratio (SNR) leads to a priori uncertainty of the parameters of the NQR signal. In the article, we use machine learning methods for detecting the NQR signal. It allows us to increase speed and accuracy of TNT NQR signal detection. We have shown that proposed method of NQR signal detecting is more accurate and 100 times faster than alternative methods if temperature uncertainty is above 10 degrees. We achieve probability of NQR signal detection about 95% for SNR -15 dB.

© 2019 Elsevier Inc. All rights reserved.

1. Introduction

One of the promising methods for detection of nitrogen-containing explosives (such as TNT) is based on NQR spectroscopy [1]. It allows to remotely detect the explosive into closed bags, boxes etc. However, the methods based on the NQR have some problems. The main problem is extremely low NQR signal energy. It significantly decreases detection probability of signal due to the external interference in NQR band [2]. Frequently used method of signal detection in this case is method of a matching filtering. It allows detecting of the NQR signal in laboratory conditions, when all the parameters of a sample are known and controlled [3]. In real cases, such as detecting landmines or explosives in public areas, temperature and volume of samples are unknown. Works [4,5] show that value and history of temperature visibly change NQR spectrum. For example, the sample temperature is unknown in tens degrees range. In addition, the signal amplitude is proportional to the sample volume. It limits using of matching filtering.

There are some known methods for detection of signals with unknown parameters: energy detection method (ED) [6], a set of matched filters (SMF) [7], adaptive narrow-band filtering [8] and various methods of quasi-likelihood estimates [9]. Energy detection method is to estimation of signal energy in the signal frequency band. The method has low computational cost, but its true detection probability is low when the signal energy is unknown. External interference in the signal frequency band significantly decrease detection probability also. Main problem of SMF is to decreasing the detection probability with increasing

* Corresponding author. E-mail address: terrapevt@mail.ru (A. Nevzorov).

https://doi.org/10.1016/jjmr.2019.106596 1090-7807/© 2019 Elsevier Inc. All rights reserved.

ranges of parameter uncertainty. The maximum likelihood estimation methods are based on the solving of multidimensional optimization problem. Calculating of likelihood function for several thousand samples of the signal is difficult computation problem. Hence, it is significantly increase signal detection time. These methods of signal detection are not applicable in practice. It explains by rich spectral composition of NQR signal.

Besides these methods neural networks are used for detection [10,11] and classification [12,13] of weak and multifrequency signals. We propose to use machine learning methods for detecting signals used in NQR-based devices for detecting TNT. The neural network is trained on dataset, which consists of many cases of signals and noise parameters [14]. Using of machine learning allows keeping true detection probability of NQR signal with unknown parameters. Training requires large computational cost only one time, subsequently using of trained network is faster than quasi-likelihood methods.

2. Signal model

NQR detectors and spectrometers often use free induction decay signal method [15]. Model of this signal is exponentially damped sinusoids and additive noise:

y[n] = x[n] + n[n]

K-1

= Y1 Aksin(2nfknAt + Uk)exp(-yknAt) + £[n], (1)

k=0

Here n = 0, 1, 2..... N - 1, N is a number of signal samples

(N = 103), K is the signal multiplicity, fk is the frequency of the k-th sinusoid, ck >0 is the decay coefficient, uk is the initial phase,

Table 1

Temperature dependences of spectral component frequencies of orthoclinic TNT NQR signal.

Sinusoid number, k 1 2 3 4 5 6

fk(T), kHz 0.12 T +834 0.27 T +784 0.2 T +792 0.21 T +783 0.14 T +804 0.14 T +798

Table 2

Parameters of the simulated TNT NQR signal and their uncertainty ranges.

Signal Range of uncertainty

Parameter

Temperature, K 253-323

Sinusoid amplitudes, Ak 0.16-1

Initial phase, uk 0-2p

SNR, dB -30 to 0

Ck, s-1 (0-5) • 104

Ak is the harmonic amplitude, n[n] - normal white noise, At - sampling time (At = 0.1 is). Usually in spectrometers real and imaginary part of the signal NQR is available. We analyze only real part of NQR signals, which is described by model (1).

We use model of the NQR signal of orthoclinic TNT in the 800900 kHz frequency range with K =6 obtained in real experiments. We take the values of parameters and uncertainty ranges as close as possible to real experimental data in the temperature range 253-323 K [4,5]. The temperature dependence of fk is linear and well studied (see Table 1 [5]).

The parameter y has nonlinear temperature dependence [4,16]. It was experimentally demonstrated that Ak substantially depends not only on the sample volume, but also on its temperature history [17]. Therefore, the coefficients Ak in model (1) are dimensionless and we chose it randomly and independently. Table 2 shows the values of the parameters and their uncertainty ranges for the TNT NQR signals modeled in accordance with model (1). SNR is determined by formula:

SNR = 10 lg(Es/En),

where Es is the total signal energy and En is the noise energy. Typical form of simulated NQR signals is shown on Fig. 1. Here the amplitude is normalized to the maximum of the NQR signal.

3. Standard fast methods for detecting a TNT NQR signals

In the study, we compared three fast methods for detecting a TNT NQR signal: an energy detection method (ED), a method of matched filters set (SMF), and the proposed method that uses a neural network (NN).

The main ED method idea is comparing the signal energy Es with the detection threshold. The signal y[n] in filtered by the band-pass filter with cut-off frequencies of 830 and 900 kHz. The signal energy Es is calculated from filtered signal samples y [n] by the formula:

N-1

Es = £ y'2 ["]•

n=0

If Es > 5, then the signal is detected, otherwise not. The detection threshold 5 is defined as:

N-1 / 1 \ d = £ U2M+ 1 X2min[n]) ;

n=0 V 2 /

where xmin is a signal with arbitrary frequencies, temperature and initial phases from Table 2 and minimal energy parameters (Ak = 0.16 and y = 5104).

SMF method was tested with NSMF =100 filters. The impulse responses of these filters hj are the TNT x[n] (1) NQR signals with

Fig. 1. TNT NQR signal with different SNR: -15 dB (blue) and without noise (orange). Signals are normalized to TNT NQR signal without noise. (For interpretation of the references to colour in this figure legend, the reader is referred to the web version of this article.)

Fig. 2. Architecture of the neural network.

arbitrary parameters from Table 2. The analyzed signal y[n] is processed by each of the created filters. The signal is detected with criterion of an ideal observer [18] if any inequalities are true:

1

J2hj[N - n - 1]y[n] > 2 £hj[N - n - 1]hj[n].

(2)

4. The structure of the neural network and dataset

Two neural network's layers types are most often used for problems of detection and classification: fully connected and convolution layers [13]. We have found that the mixed architecture allows to achieve minimal true probability error with highest calculation speed. Proposed neural net consist of two one-dimensional convolution layers (Conv1D) and one fully connected layer. Our model of deep convolutional neural network is shown on Fig. 2. The net detail architecture is presented in Table 3. Main feature of convolutional network is large number of edges in computational graphs (about 1.2 • 105) but low count of neuron weights (3200).

Consider the signal transformation within the network layers. At first layer the signal y[n] concatenates with L zeros before neural net processing. This procedure allows us to make all signals of a training set of same size (N = 1000). Adding zeros to the right or left does not matter. This is a standard procedure, described, for example, in [14]. The obtained signal Y(0)[n] transforms by the first convolution layer in following way:

z(i)

n] = ReLU i w« [] Y(0) [I + n]

Table 3

Neural Network Architecture.

Layer

1 2 3

Type Conv1D Conv1D Fully connected

Neurons 10 20 1

Kernel, size x channels, stride 100 x 1, 1 10 x 10, 1 -

Max pooling, size, stride 10, 10 10, 10 -

Activation ReLU ReLU Sigmoid

where L is the length of the convolution filters, n = 0, 1,...N - 1,

zr1)[n] is the signal from the output of the first layer, r = 0, 1.....

R - 1, (R = 10 is the number of convolution filters), W((1)[l] is impulse responses of convolution filters, bj1 are the biases. The superscript in parentheses denotes the network layer number. The ReLU(x) function is defined as maximum between 0 and argument value x.

The second layer input signals Y^m] (m = 0,1.....N/S, S = 10 is size

of maximum pooling) are created from z'rV)[n] by pooling operation [13] and L zeros padding.

z<2) [m] = ReLU K] ^ w^ [] Y<1) [I + m] + bf

where w^m] are impulse responses of convolution filters in the second layer, bj2) are biases of the second layer filters. After the second convolution layer, pooling is performed again, to create 1-D

flatten array Y(2)[q] (q = 0, 1..... Q - 1, Q = RN/S2 is the length of

the flatten array Y(2) [q], from zj2) [m] for the third layer input. The last fully connected layer can be described by the formula:

Q-1

p = 1 + exp -b(3)-J] w<3)Y(2) [q]

q=0

here p is estimated quasi-probability of the NQR signal detection, wq3), b(3) are weights and biases of fully connected layer, respectively.

The weights, impulse responses and biases (w and b) of all layers are adjusted during the learning process. This process consists of minimizing the loss function, which in the case of a binary classification is average cross entropy for all dataset signals:

1 M

L(h) = -M £ (Pilogpi(h) + (1 + pi)log(1 - pi(0))) M i-1

Here M is the number of signals in the dataset, 0 is the parameters array (weights w and biases b) of the neural network, p, is marker equal to ''1" if signal consist TNT and ''0" otherwise, pi is the neural network's estimate of the probability of x[n] being present on the y signal.

N-1

N-1

1=0 r'=0

L-1

Fig. 3. Comparison of methods for two different ranges of temperature uncertainty AT: NN -colour in this figure legend, the reader is referred to the web version of this article.)

black, SMF - yellow, ED - green lines. (For interpretation of the references to

Fig. 4. ROC-curves for AT = 7 K and different SNR: NN - black, SMF - yellow, ED - green lines. (For interpretation of the references to colour in this figure legend, the reader is referred to the web version of this article.)

Dataset consists of 2000 signals without NQR and 2000 TNT NQR model (1) signals (total count is M = 4000). Other model parameters are evenly distributed in the ranges defined by Table 2. Also the dataset is randomly divided into two equal size parts: training and test sets. The test set is used to calculate accuracy of trained neural network detector. A variation of the gradient descent method, the Adam method [19], is used to train the neural network. We use batches with 100 signals to accelerate training speed and to prevent overfitting of neural network model.

5. Experimental results

We compared the proposed method at different noise levels, for different ranges of temperature uncertainty of the TNT sample in three ranges 288 ± 0.5 K, 288 ± 7 K, 288 ± 35 K. In this case, the neural network in all experiments is trained in 253-323 K temperature range.

We study detection methods in SNR ranges from -30 dB to -5 dB. Low bound is defined as value then probability of correct detection is equal 0.5 for SMF. High bound is chosen as noise level when signal can be detected by spectrum maxima method. Dependencies of detection probability versus SNR for each method in two different ranges of temperature uncertainty are shown in Fig. 3. ED has low accuracy in any studied temperature range. Now we can see on Fig. 3 that NN is more accurately than ED if SNR > -20 dB

but methods are same otherwise. SMF is more efficient than NN if SNR >-15 dB. NN is the best detection method if SNR< -10 dB and in lower temperature uncertainty case AT = 7 K.

ROC-curves are used to estimate efficiency of detection methods [20]. ROC-curve is dependence probability of detection versus probability of false alarm. More effective detection method has larger area under curve. The ROC-curves for the studied methods for AT = 7 K is shown on Fig. 4.

NN probability of detection is 85% with 1% probability of false alarm for SNR = -15 dB. SMF probability of detection is 35% for the same conditions, but areas under the ROC-curves are approximately equal. It means that efficiency of NN and SMF methods is equal if false alarm is not critical. All of these methods are not efficient for SNR < -20 dB. The methods are implemented on Python 3.5 and tested on i5 8600 CPU. Calculation times for each method are SMF - 0.35 s, ED - 0.01 s and NN - 0.015 s.

The python scripts that we used to calculate and implement the neural network detector are published in the github repository [21].

6. Conclusions

The method based on machine learning is more effective than alternative methods for detecting the TNT NQR signal with a large uncertainty of parameters. We achieved probability of NQR signal

detection about 95% for SNR -15 dB. Our investigation has shown that for our dataset, detection using neural networks is more effective for weaker signal, when the temperature of the substance is unknown. Neural network also minimizes interference error in task of NQR signal detection. We note that the described method does not require structural changes in the NQR detector equipment. Obviously, similar conclusions will be valid for the task of detecting the NQR signal of any substance. The neural network method of signals processing with uncertain parameters in strong noise can be used for signals of any kind, for example, spin echo signals. However, it should be noted that even in the described experiments, overfitting cannot be ruled out. Described approach can be improved in future research by optimization of training parameters and using robust dropouts or mixed pooling for overfit-ting cancellation.

Acknowledgements

The reported study was funded by RFBR and the government of Volgograd region according to the research project № 19-47343004.

References

[1] Z. Bielecki, J. Janucki, A. Kawalec, J. Mikolajczyk, Sensors and systems for the detection of explosive devices - an overview, Metrol. Meas. Syst. 19 (2012) 328.

[2] H. Itozaki, G. Ota, Nuclear quadrupole resonance for explosive detection, Int. J. Smart Sens. Intell. Syst. 1 (2007) 705-715.

[3] A. Gregorovic, T. Apih, TNT detection with 14N NQR: multipulse sequences and matched filter, J. Magn. Reson. 198 (2009) 215-221.

[4] S. Somasundaram, A. Jakobsson, J. Smith, K. Althoefer, Exploiting spin echo decay in the detection of nuclear quadrupole resonance signals, Geosci. Remote Sens. IEEE Trans. 45 (2007) 925-933.

[5] J. Smith, J. Rayner, M. Rowe, J. Barras, Magnetic field-cycling NMR and 14N, 17O quadrupole resonance in the explosive pentaerythritol tetranitrate (PETN), J. Magn. Reson. 204 (2010) 139-144.

[6] 802.15.4a-2007, IEEE Standard for Information Technology -Telecommunications and Information Exchange Between systems — Local and metropolitan area networks — specific requirement. Parunt 15.4: Wireless Medium Access Control (MAC) and Physical Layer (PHY) Specifications for Low-Rate Wireless Personal Area Networks (WPANs), IEEE, N.Y., 2007. https:// ieeexplore.ieee.org/servlet/opac?punumber=4299494.

[7] E. Beaucé, W. Frank, A. Romanenko, Fast Matched Filter (FMF): an efficient seismic matched-filter search for both CPU and GPU architectures, Seismol. Res. Lett. 89 (2017) 165-172.

[8] O. Hotra, A. Samila, L. Politansky, Synthesis of the configuration structure of digital receiver of NQR radiospectrometer, Przeglad Elektrotechniczny 1 (2018) 60-63.

[9] A.P. Trifonov, A.V. Kharin, Quasilikelihood estimate of the number of radio signals with unknown amplitudes and phases, Radiophys. Quant. Electron. 60 (2017) 159-170.

10] S. Weihang et al., Detection of extremely weak NQR signals using stochastic resonance and neural network theories, Sign. Process. 142 (2018) 96-103.

11] H. Gabbard, M. Williams, F. Hayes, C. Messenger, Matching matched filtering with deep networks for gravitational-wave astronomy, Phys. Rev. Lett. 120 (2017) 1-6.

12] F. Amato, A. López, Artificial neural networks in medical diagnosis, J. Appl. Biomed. 11 (2013) 47-58.

13] N.K. Ibrahim, R.S.A. Raja Abdullah, M.I. Saripan, Artificial neural network approach in radar target classification, J. Comput. Sci. 5 (2009) 23-32.

14] S. Haykin, Neural Networks and Learning Machines, third ed., Pearson Education, 2009, p. 906.

15] X. Zhang, N. Schemm, S. Balkir, M.W. Hoffman, A low-power compact NQR based explosive detection system, IEEE Sens. J. 14 (2014) 497-507.

16] J. Smith, J. Rayner, M. Rowe, J. Barras, 14N NQR, relaxation and molecular dynamics of the explosive TNT, Solid State Nucl. Magn. Reson. 71 (2015) 6166.

17] R. Deas, K. Long, N. Peirson, An NQR study of the crystalline structure of TNT, Proc. SPIE - Int. Soc. Opt. Eng. 5415 (2004) 510-520.

18] V.I. Tikhonov, Optimal Signals Reception, Radio and Connection Publ., Moscow, 1983, p. 320.

19] D. Kingma, J. Ba, Adam: A Method for Stochastic Optimization, 2014, pp. 1-15. https://arxiv.org/pdf/1412.6980.pdf.

20] T. Fawcett, An introduction to ROC analysis, Patt. Recogn. Lett. 27 (2006) 861874.

21] https://github.com/mrradist/nqr_detector repository.

Neural Processing Letters

Truncation: a new approach to neural network reduction

--Manuscript Draft--

Manuscript Number: NEPL-D-20-00648R1

Full Title: Truncation: a new approach to neural network reduction

Article Type: Original Research

Keywords: Neurons reduction, Regularization, Classification, Autoencoder

Corresponding Author: Sergey Vladimirovich Perchenko Volgograd State University: Volgogradskij gosudarstvennyj universitet Volgograd, RUSSIAN FEDERATION

Corresponding Author Secondary Information:

Corresponding Author's Institution: Volgograd State University: Volgogradskij gosudarstvennyj universitet

Corresponding Author's Secondary Institution:

First Author: Alexey Alexeevich Nevzorov

First Author Secondary Information:

Order of Authors: Alexey Alexeevich Nevzorov

Sergey Vladimirovich Perchenko

Dmitry Aleksandrovich Stankevich

Order of Authors Secondary Information:

Funding Information: Russian Science Foundation Mr. Sergey Vladimirovich Perchenko (19-79-00098) a y

Abstract: In this manuscript, the method for optimizing the number of neurons in the hidden layer of multilayer neural network is proposed. The described method is similar to dropout: we exclude some neurons during training, but the probability of neuron exclusion depends on its position in the layer. In the result of training the neurons at beginning of layer have a stronger connections with the next layer and they make the main contribution to the result. Neurons at the end of layer have weak connections to the next layer and can be excluded for further application of the network. On the examples of fully-connected and convolutional neural networks with one and multiple hidden layers we show, that proposed method allow us to obtain dependence of network accuracy on the number of neurons in layer after one cycle of training and also performs some regularization. For example, we applied the method to a four-layer convolutional network and reduced the layer sizes from (50, 50, 100, 100) to (36, 36, 74, 56) without losing accuracy.

Response to Reviewers: Reviewer #1. This paper proposes an approach named truncation to neural network reduction. The work of this paper is practical and logical. 1. It is good to conduct the experiments over real datasets. 2. The motivation of this paper is clear. 3. The model has the comparability with the existing correlation models. However, there are some problems to be further improved as well: 1. In the manuscript, truncation is compared with dropout only in the MNIST dataset. More results of the comparative experiments should be shown in the manuscript. We have included additional results from experiments with deep convolutional neural network reduction in image classification from the Fashion MNIST and CIFAR-10 datasets. On page 8, we added Figure 6, which compares the effectiveness of bruteforce and truncation methods in the convolutional layer reduction problem on the Fashion MNIST dataset. From the dependencies presented, it follows that truncation

does its task well. Additional comparisons between the developed method and dropout are unnecessary in our opinion, since dropout and truncation are designed for different purposes. The regularization that the truncation can provide is only a side effect of the method, while dropout is used only for this purpose. For this reason, we think a comparison of dropout and truncation on the MNIST handwritten digit dataset is sufficient.

2. Truncation is only applied on fully-connected layer. However, neural network models proposed recently rarely use fully-connected structure. Can truncation be applied on other neural network layers such as convolutional layer? How does this affect the performance of the model?

We performed an experiment on the reduction of convolutional layers of the neural networks of different depths. To optimize the set of layers it is necessary to use Algorithm 1 which is shown on page 3. The same page contains the reasoning behind the algorithm and briefly describes how to apply it to deep neural network reductions. To evaluate the performance of the algorithm, we have added Figures 5-8, and the corresponding description. It follows from the figures presented that truncation works efficiently in multilayer fully-connected (Figure 5), single-layer convolutional (Figure 6), and multilayer convolutional (Figures 7, 8) networks.

Reviewer #2.

The idea of Truncation looks interesting which could be able to regularize the fully connected neural networks (FCNN). For each epoch, each layer of the FCNN, the last N-k neurons are excluded and the first k neurons will be used for training. Consequently, each neuron was not equally chosen for training in probability which is different to the Dropout. This idea looks interesting, but theoretically I am not sure the difference between Truncation and Dropout.

1. It would be more interesting to show the theoretical differences between the two methods.

Dropout is designed to prevent neural network layers from overfitting. For Truncation, however, regularization is only a side effect. The main purpose of Truncation is to determine the minimum layer size for the required network quality. In contrast to Truncation, Dropout method does not allow to plot the dependence of neural network performance on the number of neurons in the layer immediately after training. We conducted two experiments using a fully-connected network with one hidden layer to classify handwritten digits from MNIST dataset in order to demonstrate the difference between the methods for reducing the number of neurons in a layer. A training set of 50000 digits and a test set of 1000 were used. The ADAM method was used for training. In the first case, we used Dropout method (with 50 % probability of neuron exclusion) in the hidden layer, and Truncation in the second case. After training, the neurons from the end of the layer were discarded one by one and we estimated the classification accuracy of the resulting reduced network. From obtained dependencies follows that dropuout is not suitable for neuron reduction. Therefore, although Dropout provides better regularization than Truncation, it does not allow us to quickly determine the optimal layer size. We have partially responded to this comment in section 3.1, page 4. We have not included obtained dependencies in the main text, because the authors of the dropout method do not indicate anywhere that this method is for the reduction of neural networks. Unfortunately, the Editorial Management system does not allow us to attach the obtained dependencies to this response. Upon request, we can send it by the e-mail.

It is good to see the experimental difference between the two methods presented in the paper.

2. But the experiments are very limited: only one hidden FCNN was used in all the experiments. How about the performance when there are multiple FCNNs?

We performed an experiment on the reduction of convolutional layers of the neural networks of different depths. To optimize the set of layers it is necessary to use Algorithm 1 which is shown on page 3. The same page contains the reasoning behind the algorithm and briefly describes how to apply it to deep neural network reductions.

To evaluate the performance of the algorithm, we have added Figures 5-8, and the corresponding description. It follows from the figures presented that truncation works efficiently in multilayer fully-connected (Figure 5), single-layer convolutional (Figure 6), and multilayer convolutional (Figures 7, 8) networks.

It is interesting to see that the test errors were similar for Truncation and Dropout.

3. But as they were similar, why should we choose to use Truncation rather than Dropout? What are the benefits for using Truncation? We responded to this comment above, in responding to comment 1.

Manuscript

Click here to view linked References

Click here to access/download;Manuscript;truncation_rev1.tex

Neural Processing Letters manuscript No.

(will be inserted by the editor)

Truncation: a new approach to neural network reduction

Alexey A. Nevzorov • Sergey V. Perchenko • Dmitry A. Stankevich

Received: date / Accepted: date

Abstract In this manuscript, the method for optimizing the number of neurons in the hidden layer of multilayer neural network is proposed. The described method is similar to dropout: we exclude some neurons during training, but the probability of neuron exclusion depends on its position in the layer. In the result of training the neurons at beginning of layer have a stronger connections with the next layer and they make the main contribution to the result. Neurons at the end of layer have weak connections to the next layer and can be excluded for further application of the network. On the examples of fully-connected and convolutional neural networks with one and multiple hidden layers we show, that proposed method allow us to obtain dependence of network accuracy on the number of neurons in layer after one cycle of training and also performs some regularization. For example, we applied the method to a four-layer convolutional network and reduced the layer sizes from (50, 50, 100, 100) to (36, 36, 74, 56) without losing accuracy.

Keywords Neurons reduction • Regularization • Classification • Autoencoder

1 Introduction

Modern artificial neural networks are widely used for solving various problem of classification and pattern recognition. Improvement of image recognition quality is achieved mainly due to the large number of hidden layers and neurons in these layers. However, on the one hand, increasing the number of neurons does not always lead to the desirable increase in recognition accuracy. On the other hand, the use of large and deep network architectures,

This work was supported by the Russian Science Foundation (RSF), project no. 19-79-00098. Alexey .A. Nevzorov

Department of Radiophysics, Volgograd State University, Volgograd, Russian Federation E-mail: terrapevt@mail.ru

Sergey V. Perchenko

Department of Radiophysics, Volgograd State University, Volgograd, Russian Federation E-mail: perchenko@volsu.ru

Dmitry A. Stankevich

Department of Radiophysics, Volgograd State University, Volgograd, Russian Federation E-mail: stankevich@volsu.ru

proven in image recognition, is not always justified for some simpler tasks. Thus, in recent work [1] it was shown that in some cases, such as signal recognition, deep networks using is excessive and better accuracy can be achieved by using fewer neurons. Also note that the task of optimizing the number of neurons itself is important for applications in mobile systems, where computational efficiency is significantly limited.

Unfortunately, at the moment there is no theoretical framework by which the required network size may be determined in the general case. This is why the network size is most often determined by empirical rules or by selection. One rule of thumb for choosing the size of a classifier network says that the combinatorial dimension of the network must not exceed the same dimension of input data [2]. Otherwise, a large number of network parameters (or weights) leads to "memorizing" rather than fitting of the entire training set. This results in a known effect of overfitting [3]. On the basis of this empirical rule alone, it is impossible to obtain any numerical evaluations except the upper limit which increases very rapidly. The search for the optimum size with a bruteforce method is not productive and is unlikely be applicable to networks with a large number of parameters. Slightly less resource consuming are methods that use a generalization of the Hebb rule [3]. A task of these methods is to select "strong" (make great contribution to the resulting function) and "weak" neurons. In the process of learning the connections with "strong" neurons are strengthened, and after learning the "weak" neurons can be eliminated. A similar principle is followed in optimal brain damage method [4]. This method involves analyzing the second derivative of the error function and pruning of "weak" connections. It is possible to go another way and impose a penalty for increasing the connections between neurons. This principle is applied in methods that use LASSO-regularization [5,6]. It should be noted that in the result we obtain a very sparse network which does not provide significant performance gains on modern computing systems.

We propose not to select "weak" and "strong" neurons, but to specify them before the training stage and to train some neurons (for example, those at the beginning of the layer) more often than all the others. This will result in neurons learning more often will contribute more to the result.

2 Truncation method

The proposed method can be applied to both fully-connected and convolutional layers. In the second case we mean a convolution filter as a neuron. Let us consider a hidden layer with N neurons of multilayer neural network. Assign indices to neurons (filters) in the layer from 0 to N-1. For each training cycle the number k from [Nmin, N) is chosen with equal probability and all neurons with an index greater than k are excluded. Then the neurons with indices less than Nmin will never be excluded, and neurons with index N — 1 - almost always will be excluded. In most cases, as will be shown below, it is necessary to put Nmin = 1 to determine the minimum possible layer size. Then, the probability of n-th neuron exclusion may be determined as p = N. The method is similar to dropout [7], but the probability of neighboring neurons excluding is not independent. The difference between dropout and truncation is illustrated in fig.1. Red circles on fig.1 are neurons which excluded during training.

The use of dropout leads to the averaging of many models of neural networks, because at each epoch we actually train different architectures [7]. If the number of neurons in the regularized layer N = 200, then with an exclusion probability of 10% the number of different architectures is about C200 ~ 1027. This means that the probability of architecture appearing

M--

o M-1

eg c

G

'3

H

Dense layer with dropout

ooooooooo ooooooooo

Dense layer with truncation

fOOOOOOOOO

ooooooooo

ooooooooo ooooooooo ooooooooo ooooooooo

ooooooooo ooooooooo ooooooooo ooooooooo

Fig. 1 Dropout and truncation. Neurons that are excluded from the learning process are highlighted in red.

in training is negligibly small. In this case, all neurons are trained approximately equally, which leads to the fact that the weighting coefficients between regularized and next layer are approximately the same.

With truncation, only N — 1 = 199 architectures are actually trained. And as noted above, the probability of each neuron training is not the same. Then neurons at beginning of layer have a stronger connections with the next layer and they make the main contribution to the activation of its neurons. Neurons at end of layer have weak connections to the next layer and after training can be excluded. Thus, the regularization with truncation allow to build the dependence of network accuracy on the number of neurons in the regularized layer immediately after learning.

In a multilayer neural network, the developed reduction method can be simultaneously applied to the all layers. The resulting error function will be multidimensional, which makes it complicated to analyze. Moreover, in complex networks with parallel reduction the method works worse. Therefore, to optimize the set of layers it is necessary to use Algorithm 1. Reduction of the neural network begins from the last hidden layer. After completing the training, the dependence of accuracy on the number of neurons used in the last layer is calculated. Then the optimal number of neurons Nopt [/] corresponding to the desired accuracy is determined. The layer is resized to the value of Nopt [/], and then the next layer is reduced. The process is repeated until all layers have been optimally sized.

Algorithm 1 Truncation in multilayer networks

1: Input: L - the number of network layers whose optimal size is to be determined; Nmin [l] - minimal

number of neurons in l-th layer; N[l] - maximum number of neurons in l-th layer;

2: for l = L to 1 do

3: Apply Truncation to the l-th layer during training (layer size is chosen randomly in the range from

Nmin [l] to N[l] for each batches)

4: for k = N[l] toNmin[l] do

5: Neurons with numbers k... N[l] are excluded and the accuracy A[k] is calculated on test data set

6: end for

7: Choosing of the optimal size of l-th layer Nopt [l] from A[k]

8: The size of the l-th layer changes to Nopt [l]: N[l] = Nopt [l]

9: All weights are initialized and the network is returned to the initial (untrained) state

10: end for

11: return N[l]

3 Results and discussion

We examined the proposed method for some classifier architectures for MNIST handwritten digits, Fashion MNIST and CIFAR-10 datasets. The method has been also used to select the optimal size of autoencoder bottleneck. Numerical modeling has shown that the accuracy obtained by using a truncation is close to the accuracy obtained by simple bruteforce.

3.1 Fully-connected neural networks

We applied the truncation method to hidden layer of fully-connected classifier for the MNIST handwritten digits dataset. The parameters of the neural network shown in the Table 1

Layer № Type Number of neurons Activation function

1 Hidden, fully-connected 200 ReLU

2 Output, fully-connected 10 Softmax

Table 1 Parameters of the simple fully-connected neural network for image classification from MNIST handwritten digits dataset

Training has been carried out on M = 50 epochs where softmax cross entropy by ADAM adaptive algorithm is minimized [8]. The training set contains 50000 marked images, and the test set - 10000 images. On each epoch of learning the training set is separated on batches with size of 100 samples.

To evaluate the effectiveness of the truncation method for reducing the number of neurons in a layer, we compared it with the bruteforce method. We also compared truncation and dropout learning curves, because both methods use neuron disconnection with a certain probability in the learning process. Dependencies of classification error for training and test sets on an epoch number obtained for neural networks without regularization, using dropout, and using truncation are shown on fig.2. It is obviously that the learning rate for a truncation is similar to a dropout. We can also see that in the 20-th epoch of learning the classification error on the training set for a neural network without regularization has decreased to zero, which indicates that the overfitting is occurred. In the case of truncation, we can see that overfitting is also occurred, but later, at the 37-th epoch. At the same time, we should also note that for several subsequent epochs the classification error is different from zero. It follows that the truncation performs some regularization, but does not completely prevent of overfitting. It should be noted that, the regularization that truncation provides is only a side effect of the method, while dropout is used only for this purpose.

The dependence of classification error E (n) on the number of neurons n in the layer obtained after training is shown on fig. 3. Here for a comparison also shown the dependence obtained by a simple bruteforce. How we can see from the graph in fig. 3 the truncation allows us to determine the appropriate layer size for the predefined error value with the same accuracy as in the case of bruteforce method. However, for bruteforce method network training is performed N times, and for truncation only one time.

Let us consider how the maximum layer size N influences accuracy of layer size determination. We carried out the following experiment. We have trained with truncation four neural networks with different size N = 31,101,201,1001 of the hidden layer 1. Then we calculated classification errors for described networks, but the only a specified number n

Eiror on train set Eiror on test set

Fig. 2 Dependence of classification error E on the epoch number m on train set (left) and test set (right) for neural networks without regularization (red), using dropout (black), using truncation (blue). Here the MNIST dataset is used. We can see that learning curves for dropout and truncation are quite similar.

n

Fig. 3 Dependencies of classification error E on numbers of neurons for MNIST dataset obtained with simple bruteforce (red) and truncation (blue). We can see that dependencies are quite similar, but truncation provides a significant performance gain

of first (i.e. the strongest) neurons were used in the hidden layer, and the rest N — n neurons were discarded. Classification error dependencies on different values of n are shown on fig.4. From this figure we can conclude that the curves are almost the same and the initial size of layer N does not affect on the resulting classification accuracy. Thus, we can use any of curves to determine the size of the hidden layer for the predefined error value. Moreover, there is no need to retrain the neural network for its further application. It is enough to exclude all weak N — n neurons. If the required accuracy is not achieved, the initial layer size N should be increased.

Truncation can be used in neural networks of any depth. Let us illustrate the application of the Algorithm 1 to fully-connected neural network with L = 3 hidden layers for the Fashion MNIST dataset. The parameters of neural network shown in Table 2. Applying truncation sequentially to each layer, we obtained the dependencies of classification accuracy on the number of neurons in each layer (fig. 5). Parameter Nmin[l] = 1 for layers l = 1... 3. Then, according to Algorithm 1, the initial dimensions of layers are N[1] = 100, N[2] = 100, N[3] = 100 and the truncation method was applied at first to layer 3. As a result, the dependence of classification accuracy on the number of neurons in layer 3 shown with green line on the fig. 5 was obtained. We can see that the number of neurons in layer 3 can be reduced to Nopt [3] = 10 without a significant change in accuracy. Thus, we selected the initial dimensions of layers N[1] = 100, N[2] = 100, N[3] = 16 and further, we applied the

Layer Type Initial number of Number of neu- Activation

№ neurons (N) rons after reduction (Nopt) function

1 Hidden, fully-connected 100 20 ReLU

2 Hidden, fully-connected 100 16 ReLU

3 Hidden, fully-connected 100 10 ReLU

4 Output, fully-connected 10 10 Softmax

Error on test set 0.14 0.13

Table 2 Parameters of the multilayer fully-connected neural network for image classification from Fashion MNIST dataset

truncation method to layer 2. Obtained classification accuracy on the number of neurons in layer 2 shown with orange line on the fig. 5. We selected N[1] = 100, N[2] = 16, N[3] = 10 and then we applied truncation to layer 1. Obtained classification accuracy shown with blue line on the fig. 5. We can see that Nopt [1] = 20 neurons can be chosen for layer 1. It can be argued that the algorithm allowed us to reduce the number of neurons 6.5 times without loss of classification accuracy.

3.2 Truncation in convolutional neural networks

The classification of images from the MNIST handwritten digits dataset is quite successful with fully-connected single- and multilayer networks. Therefore, we will demonstrate the capabilities of the truncation method for the reduction of convolutional networks using the Fashion MNIST dataset. Let us first consider a neural network with one convolutional layer, the parameters of which are given in the Table 3. The training set consisted of 50000 images, and the test set contains 200 images. The training set was divided into batches of 64 images each. The fig. 6 shows the dependencies of the classification error on the number of filters used in the convolutional layer obtained with truncation (blue line) and simple bruteforce (red line) methods. The networks with 12 different layer sizes of convolutional

- Layer 1 - Layer 2

- Layer

№ —^ -

0 20 40 60 80 100

N

Fig. 5 Dependencies of the network classification accuracy on the number of neurons in each fully-connected layer. Truncation method is applied sequentially to the layers 3 (blue), 2 (orange), 1 (green). The dots indicate the selected layer sizes

Layer № Type Size Activation function

1 Hidden, convolutional Kernel size = 3 x 3 Number of filters N = 61 ReLU

2 Hidden, fully-connected 50 ReLU

3 Output, fully-connected 10 Softmax

Table 3 Parameters of the neural network with one convolutional layer for image classification from Fashion MNIST dataset

layer were trained sequentially to construct the curve using the bruteforce method. More detailed dependence can be obtained using the truncation method, and the network needs to be trained only once. We can see that there is almost no difference between the curves. The slight advantage in the accuracy while using truncation is due to the fact that the side effect of truncation is regularization. This means that the described method may well find application to the optimization of convolutional networks.

The best actual results are obtained on deep networks, so it is reasonable to test the effectiveness of truncation for networks with several convolutional layers. For this we use three datasets and two networks of different depths. We take the VGG-like network as the basis of the architecture, but increase the number of convolutional filters, because the task will be to determine the optimal size of the layers. The network parameters for each dataset are shown in the Table 4. The training set consisted of 50000 images, and the test set contains 500 images for each dataset. The training was performed by ADAM method. The errors obtained on the test sets after training neural networks with maximum layer sizes are also shown in the Table 4. Let us apply Algorithm 1 sequentially to all convolutional layers of the CIFAR-10 neural network classifier. For each layer, the dependences of the classification error of images from the test set on the number of convolutional filters used are obtained. These dependencies are shown on fig. 7. The curve for layer 4 is plotted after the first

n

Fig. 6 Dependencies of the network classification error on the number of neurons in convolutional layer obtained with truncation (blue) and simple bruteforce (red) methods

CIFAR-10 MNIST Fashion MNIST

Layer 1 Kernel size = 3 x 3, Num- Kernel size = 3 x 3, Num- Kernel size = 3 x 3, Num-

ber of filters N = 50 with ber of filters N = 50 with ber of filters N = 50 with

ReLU ReLU ReLU

Layer 2 Kernel size = 3 x 3, Num- Kernel size = 3 x 3, Num- Kernel size = 3 x 3, Num-

ber of filters N = 50 with ber of filters N = 50 with ber of filters N = 50 with

ReLU ReLU ReLU

Pooling layer Maxpool 2 x 2 Maxpool 2 x 2 Maxpool 2 x 2

Layer 3 Kernel size = 3 x 3, Num- Fully-connected, 50 neu- Fully-connected, 50 neu-

ber of filters N = 100 with rons with ReLU rons with ReLU

ReLU

Layer 4 Kernel size = 3 x 3, Num- Fully-connected, 10 neu- Fully-connected, 10 neu-

ber of filters N = 100 with rons with softmax rons with softmax

ReLU

Pooling layer Maxpool 2 x 2

Layer 5 Fully-connected, 50 neurons with ReLU

Layer 6 Fully-connected, 10 neurons with softmax

Error (test set) 0.76 0.99 0.9

Error (test set) in 0.75 0.99 0.9

reduced network

Table 4 Parameters of the multilayer neural networks for different datasets

training. Then the number of filters in layer 4 can be chosen 56, because, as can be seen from the fig. 7, the error with this number almost does not increase. The network is trained again, but Truncation is used in layer 3. Repeat this until we reach Layer 1. As a result of a full learning sequence, we chose sizes 36, 36, 74, and 56 for layers 1, 2, 3, and 4, respectively. The resulting error in training such an already reduced network was 0.75. Thus, the use

of Truncation allowed us to quickly (in only 4 training) determine the optimal number of convolutional filters for each layer with minimal loss of classification quality.

— Layer 1 — Layer 2 — Layer 3 — Layer 4

К

Л ox uA

ЗЧА

0 20 40 60 80 100

N

Fig. 7 Dependencies of the network classification error on the number of neurons in convolutional layers obtained with truncation for CIFAR-10 dataset. The dots indicate the selected layer sizes

We performed a similar experiment with MNIST and Fashion MNIST datasets. The training parameters were the same as in the previous experiment, and the parameters of the networks used are given in the Table 4. The dependencies of the classification error on the number of neurons in the layer, obtained by successive application of Truncation to each convolutional layer are shown on the fig. 8. According to the dependencies obtained, it is possible to reduce the size of layers almost in half (layer 1 - 23, layer 2 - 20 for the MNIST handwritten digits dataset; layer 1 - 27, layer 2-34 for Fashion MNIST) without loss of quality of the network.

n N

Fig. 8 Dependencies of the network classification error on the number of neurons in convolutional layers obtained with truncation for MNIST (left) and Fashion MNIST (right) datasets. The dots indicate the selected layer sizes

3.3 Results for autoencoders

Let us consider autoencoders consisting of three layers (input, bottleneck and output) to illustrate the effectiveness of truncation on the example of MNIST handwritten digits and CIFAR-10 datasets. The parameters of used neural networks shown in Table. 5.

Layer Type Layer size MNIST handwritten digits Layer size CIFAR-10 Activation function

1 Bottleneck, fully-connected 200 200 ReLU

2 Output, fully-connected 784 1024 Linear

Table 5 Parameters of the autoencoder neural network with one hidden fully-connected layer

We applied the truncation method to the bottleneck layer of the network in the training process. The size of the training set is 2000 MNIST digits and a test set size is M = 1000. Such a small dataset is sufficient to illustrate the method. The ADAM method was used for training. The cumulative response of bottleneck layer neurons on the test set is determined by the formula:

M K

Sn = £ ReLU( £ wknxkm + bn),

m=1 k=1

where xkm - output value from kth neuron of input layer on mth test sample, wkn, bn -weights and biases of bottleneck layer, respectively. The average dependence of Sn by 20 different train and test datasets is shown on fig. 9. The deviation of Sn from the average value is shown in light blue. It can be concluded that neurons make different contributions to the result of the network. As expected, the neurons with lesser indices are activated more stronger than the greater one.

n

Fig. 9 Activation of neurons in bottleneck of a trained network. We can see that neurons in the beginning of layer are activated more strongly

Dependence of reproduction error on number of neurons in the bottleneck of the autoencoder of MNIST dataset is shown on fig. 10 left. The blue and red lines on fig. 10 represents the results obtained with truncation and simple bruteforce, respectively. On the right on fig. 10 shown dependence for autoencoder of the CIFAR-10 dataset. The standard deviation between input and output images is assumed as reproduction error.

Fig. 10 Dependence of reproduction error on number of neurons in the bottleneck for truncation (blue) and simple bruteforce (red) methods. On the left shown results for MNIST dataset, on the right - for CIFAR-10 dataset

From fig. 10 we can see that the dependencies for truncation and simple bruteforce methods are very similar. We should also note that for a given value of n the truncation method has higher error values than simple bruteforce. It can be concluded that truncation allows us to determine optimal size of the layer and pretrain it. After that, the error can be minimized by using training without regularization or with dropout.

4 Conclusion

We have developed a method that allows us to determine the optimal size of the hidden layer of a multilayer neural network after a single training. By optimal layer size we mean the number of neurons increasing on which does not lead to significantly changing of error. On the example of the MNIST handwritten digits, Fashion MNIST and CIFAR-10 datasets for a fully-connected and convolutional classifiers it is shown that for a given error value the same result is achieved as in the successive training of many networks with different sizes of the hidden layer. It is shown that the method during training performs some regularization, but not completely solves the problem of overfitting. The application of the method slightly increases the time of training by compared to training without regularization, and it requires similar time when using dropout. It is shown that method efficiency does not depend on the specified maximum hidden layer size. It should be noted that as a result of the method we get a fully- or pre-trained neural network, the accuracy of which can be increased by additional training.

On the application of the developed method in the training of the fully-connected autoencoders on an example of datasets CIFAR-10 and MNIST approximately identical results are obtained. The optimal size of the hidden layer is comparable to the obtained one by simple bruteforce. However, after the method is applied to auto-encoder network an additional training would be required.

Conflict of interest

The authors declare that they have no conflict of interest.

References

1. Mignan A, Broccardo M (2019) One neuron versus deep learning in aftershock prediction. Nature 574(7776). https://doi.org/10.1038/s41586-019-1582-8

2. D'souza R, Huang P, Yeh F (2020) Structural Analysis and Optimization of Convolutional Neural Networks with a Small Sample Size. Sci Rep 10, 834 https://doi.org/10.1038/s41598-020-57866-2

3. Haykin S (2009) Neural networks and learning machines. Pearson Education, New Jersey

4. Le Cun Y, Denker JS, Solla SA (1990) Optimal brain damage. Neural Information Processing Systems

5. Louizos C, Welling M, Kingma DP (2018) Learning Sparse Neural Networks Through L0 Regulariza-tion. 6th International Conference on Learning Representations

6. He Y, Zhang X, SunJ (2017) Channel Pruning for Accelerating Very Deep Neural Networks. Proceedings of the IEEE International Conference on Computer Vision

7. Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R (2014) Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research 15: 1929-1958

8. Kingma D, Ba J (2014) Adam: A Method for Stochastic Optimization. 3rd International Conference on Learning Representations

ISSN 1063-7850, Technical Physics Letters, 2019, Vol. 45, No. 7, pp. 694-696. © Pleiades Publishing, Ltd., 2019. Russian Text © The Author(s), 2019, published in Pis'ma v Zhurnal Tekhnicheskoi Fiziki, 2019, Vol. 45, No. 14, pp. 7-9.

A Neural Network Simulator of a Nonstationary Medium in an Adaptive Data Transmission System

A. A. Nevzorova*, A. A. Orlova, and D. A. Stankevicha

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.